失业预警：当AI有了眼睛、耳朵和嘴巴，恐加速取代更多工作岗位

阳春丽 原创 2023-10-10 17:49:44

笔记本_趣闻杂谈

近期ChatGPT迎来重大更新，加入了语音和图像识别功能，用户可以直接与ChatGPT进行语音对话，上传图片让AI帮助分析我们所看到的内容，这相当于为AI增添了眼睛、耳朵和嘴巴，也就是ChatGPT的多模态。单从OpenAI发出的演示视频，就感受到了满满的失业预警。

在视频中，用户拍摄了一张照片发给ChatGPT，同时提出了“请你帮我把自行车的座椅放低一些”的需求。然后ChatGPT给出了回答，它说第一步需要找到座位下面的快速释放杆或者螺栓，如果有快速释放杆打开它就可以，如果是螺栓，你需要一个内六角扳手。接下来将坐位向下滑动到你需要的高度，再拧紧螺栓或快速释放杆，确保坐位已经固定，并确定坐位的朝向是正确的，不会晃动。最后ChatGPT提示，如果你有工具，可以展示给它，它会继续告诉你下一步。

接下来，用户在照片局部圈出来座椅下方的螺栓位置，发给ChatGPT，问他这个是不是快速释放杆。ChatGPT回复这不是一个释放杆，他是一个螺栓，你需要一个内六角扳手拧松它，然后就可以调整座位的高度，确保座位朝向是正确的平直的，把螺栓拧紧就完成了调整。

然后用户又上传了说明书照片和工具箱照片，问ChatGPT工具箱里有没有正确的工具。ChatGPT回复你有正确的工具，在你工具箱的左侧，有一个标着“DEWALT”的工具套装，你要找的4mm的内六角扳手，然后用它松开座位下面的螺栓，调整座椅高度，最后把它拧紧。

毫无疑问，拥有了“视觉”以后的AI展现出来的能力是相当炸裂的。半年前，AI还只是威胁到程序员、律师、数据分析师、文案编辑等重复性工作较多，工作流程比较确定的工作的话。仅现在有了视觉的AI，直接威胁到每一个工作岗位。

一方面AI强大的功能，可以帮助普通人解决很多专业问题，我们可以通过对话与AI更高效的交流，同时还能将我们所看见的内容，直接与AI共享，这使得用户与AI的交互更加自然流畅，更像是一个真正的助手，这大大降低了我们对于一些咨询、服务的需求。

另一方面，ChatGPT超强的视觉分析能力，也让AI在更多的领域取代更多的人力。

来自微软的一份166页的测评报告，更加系统地讨论和分析了OpenAI最新多模态语言模型GPT-4V（视觉版GPT-4）。该报告分为11个章节，从多个维度全面考察GPT-4V的能力和局限，以帮助人们深入理解大规模多模态模型的工作机制。

报告首先概述了GPT-4V的结构，它不仅可以处理文本，还可以理解图像信息。然后，报告详细列举了各类测试样本，检验GPT-4V在不同任务上的表现质量和泛化能力。测试发现，GPT-4V拥有前所未有的处理杂乱多模态输入的能力，且其功能高度通用，可泛化到多种任务，成为一个强大的多模态通用系统。

报告特别讨论了GPT-4V对图像的独特理解力，这可能催生新的人机交互方式，例如使用视觉内容进行提示。最后，报告探讨了基于GPT-4V的潜在应用场景，以及未来研发更先进多模态模型的方向。总体而言，该研究对GPT-4V进行了比较全面的测试和分析，深化了对大规模语言模型工作机制的理解，也将促进未来多模态人工智能技术的发展。

接下来我们节选了几个GPT-4V在新兴应用场景中的案例，来跟大家分享一下。

图像识别

人物识别：GPT-4V不仅能够识别出图片中的人物是谁，并且还分析出照片中人物正在做什么。比如左下方的图片，它不仅识别出人物是现任美国总统，并且还分析出他在讲台上，可能在发表演讲。而发表演讲的场合，为2023年在日本广岛举行的七国集团峰会！右侧照片中的人是NVIDIA的首席执行官兼联合创始人黄仁勋。他正在拿着并展示NVIDIA的产品，很可能是图形处理单元（GPU）。

地标识别：GPT-4V精确地识别了测试图像中的地标。它还能生成生动且详细的叙述，捕捉地标的精髓。

食物识别：GPT-4V可以识别各种菜肴。它还可以识别菜肴图像中存在的特定食材、装饰品或烹饪技术。

医疗图像理解结果：GPT-4V能够识别提供的X光片中的牙齿和颌骨，并解释颌骨左下方和右下方的智齿部分露出可能需要拔除。

医学图像理解结果：GPT-4V可以识别像Jones骨折这样的常见病症，还可以基于CT扫描的肺部指出潜在的问题。

多语言图像描述结果：GPT-4V能够生成不同语言的图像描述。GPT-4V是一种语言模型，它可以理解和生成多种语言，包括图像描述。这意味着它可以在不同语言之间生成图像的描述，这对于跨语言交流和信息共享非常有用。

通过这几个案例，可以看到GPT-4V应用潜力非常巨大，比如应用在医学影像方面的辅助诊断，可以提高诊断准确性，也能提升诊断效率。应用在旅游或者博物馆中，可以提供更好的自助导览体验，尤其是它能够生成不同语言的图像描述，对导游造成很大的挑战。

篇幅有限，我们只是截取了其中几个案例，原始报告https://arxiv.org/pdf/2309.17421.pdf。

相比之前仅提供对话功能的AI，有了视觉的GPT-4真的是相当强悍!它就像是一个人,先有了一套思维逻辑,再灌入海量的知识,现在又给了它眼睛、耳朵和嘴巴,它就可以像人类一样直接处理图像、视频等视觉信息,理解场景和对象,而不仅仅依赖语言描述。结合视觉和语言GPT-4能够进行多模态的交互和学习，它的智能会更加贴近人类。

如果将来GPT-4还拥有了类似人类手臂的机械控制“肢体”,它就可以直接操作物理环境,进行更复杂的探索和实践。这将大大提升它汲取现实世界知识的能力。配备传感器的“肢体”还可以帮助GPT-4形成对环境的感知,拥有更丰富的交互方式。

当然,我们还需要解决让GPT-4真正理解知识而不仅仅是模式匹配的问题。还需确保它按照正确认知能力的强大,而不是被误用或造成伤害。如果以负责任的方式持续发展GPT-4,它将朝着成为一个真正的人工通用智能又迈进了一步。

点击展开全文