笔记本

失业预警:当AI有了眼睛、耳朵和嘴巴,恐加速取代更多工作岗位

阳春丽 原创 2023-10-10 17:49:44
笔记本_趣闻杂谈

近期ChatGPT迎来重大更新,加入了语音和图像识别功能,用户可以直接与ChatGPT进行语音对话,上传图片让AI帮助分析我们所看到的内容,这相当于为AI增添了眼睛、耳朵和嘴巴,也就是ChatGPT的多模态。单从OpenAI发出的演示视频,就感受到了满满的失业预警。

在视频中,用户拍摄了一张照片发给ChatGPT,同时提出了“请你帮我把自行车的座椅放低一些”的需求。然后ChatGPT给出了回答,它说第一步需要找到座位下面的快速释放杆或者螺栓,如果有快速释放杆打开它就可以,如果是螺栓,你需要一个内六角扳手。接下来将坐位向下滑动到你需要的高度,再拧紧螺栓或快速释放杆,确保坐位已经固定,并确定坐位的朝向是正确的,不会晃动。最后ChatGPT提示,如果你有工具,可以展示给它,它会继续告诉你下一步。

接下来,用户在照片局部圈出来座椅下方的螺栓位置,发给ChatGPT,问他这个是不是快速释放杆。ChatGPT回复这不是一个释放杆,他是一个螺栓,你需要一个内六角扳手拧松它,然后就可以调整座位的高度,确保座位朝向是正确的平直的,把螺栓拧紧就完成了调整。

然后用户又上传了说明书照片和工具箱照片,问ChatGPT工具箱里有没有正确的工具。ChatGPT回复你有正确的工具,在你工具箱的左侧,有一个标着“DEWALT”的工具套装,你要找的4mm的内六角扳手,然后用它松开座位下面的螺栓,调整座椅高度,最后把它拧紧。

毫无疑问,拥有了“视觉”以后的AI展现出来的能力是相当炸裂的。半年前,AI还只是威胁到程序员、律师、数据分析师、文案编辑等重复性工作较多,工作流程比较确定的工作的话。仅现在有了视觉的AI,直接威胁到每一个工作岗位。

一方面AI强大的功能,可以帮助普通人解决很多专业问题,我们可以通过对话与AI更高效的交流,同时还能将我们所看见的内容,直接与AI共享,这使得用户与AI的交互更加自然流畅,更像是一个真正的助手,这大大降低了我们对于一些咨询、服务的需求。

另一方面,ChatGPT超强的视觉分析能力,也让AI在更多的领域取代更多的人力。

来自微软的一份166页的测评报告,更加系统地讨论和分析了OpenAI最新多模态语言模型GPT-4V(视觉版GPT-4)。该报告分为11个章节,从多个维度全面考察GPT-4V的能力和局限,以帮助人们深入理解大规模多模态模型的工作机制。

报告首先概述了GPT-4V的结构,它不仅可以处理文本,还可以理解图像信息。然后,报告详细列举了各类测试样本,检验GPT-4V在不同任务上的表现质量和泛化能力。测试发现,GPT-4V拥有前所未有的处理杂乱多模态输入的能力,且其功能高度通用,可泛化到多种任务,成为一个强大的多模态通用系统。

报告特别讨论了GPT-4V对图像的独特理解力,这可能催生新的人机交互方式,例如使用视觉内容进行提示。最后,报告探讨了基于GPT-4V的潜在应用场景,以及未来研发更先进多模态模型的方向。总体而言,该研究对GPT-4V进行了比较全面的测试和分析,深化了对大规模语言模型工作机制的理解,也将促进未来多模态人工智能技术的发展。

接下来我们节选了几个GPT-4V在新兴应用场景中的案例,来跟大家分享一下。

图像识别

人物识别:GPT-4V不仅能够识别出图片中的人物是谁,并且还分析出照片中人物正在做什么。比如左下方的图片,它不仅识别出人物是现任美国总统,并且还分析出他在讲台上,可能在发表演讲。而发表演讲的场合,为2023年在日本广岛举行的七国集团峰会!右侧照片中的人是NVIDIA的首席执行官兼联合创始人黄仁勋。他正在拿着并展示NVIDIA的产品,很可能是图形处理单元(GPU)。

地标识别:GPT-4V精确地识别了测试图像中的地标。它还能生成生动且详细的叙述,捕捉地标的精髓。

食物识别:GPT-4V可以识别各种菜肴。它还可以识别菜肴图像中存在的特定食材、装饰品或烹饪技术。

医疗图像理解结果:GPT-4V能够识别提供的X光片中的牙齿和颌骨,并解释颌骨左下方和右下方的智齿部分露出可能需要拔除。

医学图像理解结果:GPT-4V可以识别像Jones骨折这样的常见病症,还可以基于CT扫描的肺部指出潜在的问题。

多语言图像描述结果:GPT-4V能够生成不同语言的图像描述。GPT-4V是一种语言模型,它可以理解和生成多种语言,包括图像描述。这意味着它可以在不同语言之间生成图像的描述,这对于跨语言交流和信息共享非常有用。

通过这几个案例,可以看到GPT-4V应用潜力非常巨大,比如应用在医学影像方面的辅助诊断,可以提高诊断准确性,也能提升诊断效率。应用在旅游或者博物馆中,可以提供更好的自助导览体验,尤其是它能够生成不同语言的图像描述,对导游造成很大的挑战。

篇幅有限,我们只是截取了其中几个案例,原始报告https://arxiv.org/pdf/2309.17421.pdf。

相比之前仅提供对话功能的AI,有了视觉的GPT-4真的是相当强悍!它就像是一个人,先有了一套思维逻辑,再灌入海量的知识,现在又给了它眼睛、耳朵和嘴巴,它就可以像人类一样直接处理图像、视频等视觉信息,理解场景和对象,而不仅仅依赖语言描述。结合视觉和语言GPT-4能够进行多模态的交互和学习,它的智能会更加贴近人类。

如果将来GPT-4还拥有了类似人类手臂的机械控制“肢体”,它就可以直接操作物理环境,进行更复杂的探索和实践。这将大大提升它汲取现实世界知识的能力。配备传感器的“肢体”还可以帮助GPT-4形成对环境的感知,拥有更丰富的交互方式。

当然,我们还需要解决让GPT-4真正理解知识而不仅仅是模式匹配的问题。还需确保它按照正确认知能力的强大,而不是被误用或造成伤害。如果以负责任的方式持续发展GPT-4,它将朝着成为一个真正的人工通用智能又迈进了一步。

点击展开全文
打开太平洋科技,阅读体验更佳

网友评论

聚超值推荐

更多优惠

相关推荐

NVIDIA推出RTX4090D,将旗舰游戏显卡带回中国,完全符合美国要求 原创 笔记本文化栏目 文化
NVIDIA推出RTX4090D,将旗舰游戏显卡带回中国,完全符合美国要求
IDC中国智能终端市场十大洞察,场景化与专业化并进, AI与云推动变革 原创 笔记本文化栏目 文化
IDC中国智能终端市场十大洞察,场景化与专业化并进, AI与云推动变革
学生党年底换机攻略 看准这几项就不会踩坑 原创 笔记本文化栏目 文化
学生党年底换机攻略 看准这几项就不会踩坑
第二届全球数字贸易博览会闭幕 dynabook智能解决方案推动企业转型 原创 笔记本文化栏目 文化
第二届全球数字贸易博览会闭幕 dynabook智能解决方案推动企业转型
2023年度盘点:除了遥遥领先的NVIDIA,竟还有这么多AI芯片发布! 原创 笔记本文化栏目 文化
2023年度盘点:除了遥遥领先的NVIDIA,竟还有这么多AI芯片发布!
体验华为擎云 G740:数字化浪潮下,商用终端如何重构企业智慧办公新体验 原创 笔记本文化栏目 文化
体验华为擎云 G740:数字化浪潮下,商用终端如何重构企业智慧办公新体验
戴尔公布2024财年Q3财报 AI驱动服务器和网络业务营收实现环比增长 原创 笔记本文化栏目 文化
戴尔公布2024财年Q3财报 AI驱动服务器和网络业务营收实现环比增长
PlayStation 6可能搭载GDDR7显存,发布时间遥遥无期 原创 笔记本文化栏目 文化
PlayStation 6可能搭载GDDR7显存,发布时间遥遥无期
花样繁多的可穿戴设备最后都变成了AI接口 原创 笔记本文化栏目 文化
花样繁多的可穿戴设备最后都变成了AI接口
迎接AI PC时代,华硕首台酷睿Ultra处理器轻薄本灵耀14 2024曝光 原创 笔记本文化栏目 文化
迎接AI PC时代,华硕首台酷睿Ultra处理器轻薄本灵耀14 2024曝光
相关产品
取消