ChatGPT Vision初体验

vision

pytorch/vision: 一个基于 PyTorch 的计算机视觉库，提供了各种计算机视觉算法和工具，适合用于实现计算机视觉应用程序。

项目地址：https://gitcode.com/gh_mirrors/vi/vision

免费下载资源

Omer_

1153人浏览 · 2023-10-07 19:32:25

Omer_ · 2023-10-07 19:32:25 发布

本周，OpenAI为其广受欢迎的 ChatGPT 平台发布了一项突破性的补充。除了处理文本之外，ChatGPT 现在还可以处理图像并聊天。

很难夸大这件事的重要性。目前多达70% 的内容是视觉内容而不是书面内容。人们每年会生成数千张照片，而当今许多最大的平台（YouTube、TikTok、Instagram）很大程度上都是视觉化的。

人们越来越多地选择以视觉方式与机器交互。通过最新升级，ChatGPT 现在可以参与该过程。

Visual ChatGPT 将在接下来的几周内向部分 ChatGPT Plus 用户推出。我是第一批获得访问权限的用户之一。以下是这个非凡的新型生成人工智能功能的初步介绍，以及它可以做的一些事情。

与 ChatGPT 进行视觉交互

与 ChatGPT 的视觉交互非常简单。获得访问权限的用户现在可以在 ChatGPT 界面中的“发送消息”字段旁边看到一个小图像图标。

除了输入文本提示之外，您现在还可以随文本一起上传图像。这允许您提出有关图像的问题，或者让 ChatGPT 分析图像的视觉内容并与您讨论它。

编写替代文本

我使用 ChatGPT Vision 测试的第一个任务（新功能没有正式名称，所以我这么称呼它）是为图像编写替代文本。

对于使用屏幕阅读器浏览互联网的视障人士来说，替代文本至关重要。替代文本附加到博客或网站上的图像。文字描述了图像的视觉内容，以便看不到图像的人仍然可以理解其含义。

编写好的替代文本既困难又昂贵。很多网站站长懒得去做，或者做得不好。这使得视障用户更难访问互联网。它还会对网站的搜索引擎优化产生负面影响。

我决定看看 ChatGPT Vision 如何为图像编写替代文本。我上传了这张图片并要求它“为此图片编写高质量的替代文本”

这就是它给我的：

标有“SIGNET”的壁挂式分配系统具有三个装有清洁溶液的半透明容器。从左到右，容器上贴有红色标签：“硬表面消毒剂”，蓝色“玻璃和多表面清洁剂”，以及绿色“重型无氯洗手间消毒剂”。分配器上方有说明贴纸，上面有指示正确使用方法的图表。每个容器的侧面都有一个测量刻度，并连接到用于分配的管道系统。

这太妙了！替代文本不仅仅描述了图像的基本信息（“墙上的管道和清洁溶液”）。

相反，它提供了足够详细的图像视觉细节（每种清洁溶液的颜色、它们从左到右的相对位置以及每个图像上的文本），以便视障人士可以轻松理解图像显示的内容。

ChatGPT Vision 在大约 10 秒内生成了替代文本，速度也非常快。我可以看到新系统对于网络可访问性来说是一个巨大的福音。出版商可以使用 ChatGPT 视觉为自己的图像编写更好的替代文本，视障用户可以使用它为缺乏实时替代文本的图像编写替代文本。

分析我的香料架

对于我的下一个实验，我上传了一张香料架的照片。我要求 ChatGPT Vision 列出我拥有的香料。我还问它哪些香料快用完了。

令人惊讶的是，ChatGPT Vision 不仅列出了香料，还认可了它们的品牌名称：

芝麻（数量看起来不错）

莫顿海盐（无法从图像中确定数量）

365 姜末（数量看起来不错）

365 肉桂（数量看起来不错）

味好美辣椒粉（数量看起来不错）

麦考密克粗黑胡椒粉（无法从图像中确定数量）

365 辣椒粉（数量看起来不错）

味考密克完美捏意大利（无法从图像中确定数量）

姜黄粉（无法从图像中确定数量）

365 白胡椒粉（数量看起来不错）

孜然粉（无法从图像中确定数量）

它无法确定我拥有的数量。但作为后续，它能够推荐一些我可以用这些烹饪的食谱！

这是 ChatGPT 视觉能力强大功能的一个很好的例子。因为它仍然是一个聊天机器人，所以它不仅仅是查看图像、提供输出并继续前进。您可以就图像进行对话，提出具体的后续问题以进行更深入的挖掘并超越系统的初始响应。

分析图表

ChatGPT Vision 不仅限于处理照片。它还可以处理图表、信息图表等。

例如，我向它提供了我的一个网站的流量 Google Seach 控制台图表。

从图像中，它正确地提取了我的关键统计数据，并分析了我网站的流量趋势。

它甚至根据所看到的内容提供了如何改进 SEO 的建议。

分析图形和其他视觉效果的能力对于想要更好地理解数据、验证科学研究结果、甚至只是更好地理解图形或聊天内容的用户非常有帮助。

确定拍摄照片所用的胶片

我是一名摄影师，在工作中经常使用模拟胶片。我也经常处理历史照片，但照片所用的胶片是未知的。

我上传了一张我自己的照片，并询问 ChatGPT Vision 这是用什么类型的电影拍摄的。

这是结果。

我喜欢其分析的深度。也是对的！这是在 Kodak Tri-X 上以 400 速度拍摄的，这是它在列表中提到的第一部影片。

确定狗的品种

我有一只比熊犬，名叫兰斯，但我打断了他。大多数人误认为他是一个不同的品种。

我上传了兰斯的照片，并询问 ChatGPT Vision 他是什么品种。

它的回应是：

“根据提供的图像，你的狗似乎具有卷毛品种的身体特征，可能是比雄犬、贵宾犬或这些品种的混合体。”

系统仍然模棱两可地使用“P”这个词（这是比熊人的一大禁忌），但它的第一个猜测确实是比熊犬。

这凸显了 ChatGPT Vision 超越了单纯的物体识别。该系统在详细说明其反应时表示，“卷曲的白色皮毛和面部特征让人想起这类狗。”

令人印象深刻的是，ChatGPT Vision 正在观察诸如面部特征之类的东西，而不仅仅是看到一只白色、毛茸茸的狗并自动说“贵宾犬”。

ChatGPT Vision 的局限性

ChatGPT 愿景是一个强大的平台。我刚刚开始测试它，我已经可以看到其工具的大量实际用例。

也就是说，系统设计时没有做一些事情。其一，它不会处理或讨论人物图像。这很聪明。视觉人工智能系统存在偏见。最好完全避免分析以人为中心的图像，而不是冒着对人的视觉分析产生偏见的风险。

该系统也不会提供医疗建议。我试图向它询问与图像相关的医学话题，它断然拒绝回答。再说一遍，目前来说这是一件好事。该系统是新的，其输出可能不准确。

不过，我可以看到 ChatGPT Vision 的专业版本被训练来执行诸如解释 X 射线结果或分析其他医学测试之类的事情。但就目前而言，我们需要围绕这种应对措施采取防护措施。

多模态人工智能就在这里

ChatGPT 标志着生成人工智能领域迈出了一大步。这是第一次将真正的多模式人工智能交到日常用户手中。

Google Bard 确实有一些视觉功能。但这些似乎更严重地依赖谷歌现有的谷歌镜头系统。另一方面，ChatGPT Vision 似乎真正理解图像的视觉内容和意义。

这使得它能够深入研究图像视觉内容的更深层意义，而不仅仅是执行一些很酷但有限的技巧，例如翻译图像中的文本或识别产品或地点

GitHub 加速计划 / vi / vision

15.85 K

6.89 K

下载

pytorch/vision: 一个基于 PyTorch 的计算机视觉库，提供了各种计算机视觉算法和工具，适合用于实现计算机视觉应用程序。

最近提交(Master分支：3 个月前 )

518ee93d 5 天前

7d077f13 7 天前

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m