要闻

智谱版《Her》来了!这个类 GPT-4o 视频通话功能,我在国产 AI 里体验到了

appso 2024-09-01 16:58:11
科技

天下苦 OpenAI 久矣。

自 GPT-4 问世以来,OpenAI 总是拿着 50 分的半成品吊着人们 120 分的胃口,许多声称重磅级的产品不是「coming soon」,就是渺无音讯。

相比之下,国内的大模型厂商却以更加务实的姿态,甫一发布便迅速将产品推向市场。

在今天的 KDD 国际数据挖掘与知识发现大会上,智谱也正式发布了新一代基座大模型 GLM-4-Plus。与 GLM-4-Plus 同步上线的,还有国内首个面向 C 端开放的「视频通话」功能。

在发布会的现场,智谱官方也演示了从游戏到办公等多个实用场景。效果如何,大伙怎么说?

从官方演示效果来看,AI 来帮忙,孩子的辅导学习或许不再是难题,顺带还能练习英语口语。家里的毛球不爱喝水?别担心,借助视频通话功能也可以找到解决方案。

不画饼,拒绝空头支票,用户体验才是产品的最好评判者。

这项视频通话功能将于明日正式上线,首批面向清言部分用户开放,同时开放外部申请。智谱官方将持续迭代并逐步放开规模,尽快让全员都可以使用。

届时,点击清言 APP 主页上的通话图标,各项功能就一字排开来,然后便能与「长着眼睛」的 AI 精灵聊起来。

智谱版的《Her》体验,这个 AI 聊天搭子有点东西

视频通话

哈喽,你好呀,最近在忙些什么呢?

一打开对话界面,AI 会率先以嘘寒问暖作为开场,美好的事物总是相似的,但摒弃单调的黑白配色能够让设计别具一格。

尽管它试图从语气上和我「套近乎」,但若是仔细听,你会发现这声音带着一丝机器的冷峻。

虽说 AI「长了眼睛」,但真的能把它当眼睛「使唤」吗?我用它来扫描了两个常见的指示牌,惊喜地是,它对视频上的信息描述得相当到位,几乎没漏掉任何细节。

它还能为我详细介绍广州塔,从别称到塔高,甚至夜景,介绍得头头是道,这真的不是冲着千千万万的导游来的吗?

昨天马龙和樊振东的合照一度冲上了热搜。

我好奇地拿它「看了看」这张照片,它能分辨出樊振东和马龙的身份,但遗憾的是,它在描述场景时把球拍的颜色描述错了,AI 幻觉的问题依然存在,还得继续努力。

有趣的是,当我在它面前玩石头剪刀布的手势游戏时,它的第一反应是描述五个手指的变换,而非理解或识别出石头剪刀布这个游戏。

一句话,AI 的算法还需要更多的训练。

对了,它宣称支持英语、法语、德语等多门外语,你也可以利用它来充当你的外语搭子,不过,和他聊天的过程中,最好是一口气说完,否则可能会被它 「抢话」。

基于此,你还可以使用它来进行辅导作业。我随手找了一道数学的中考题,它很轻松地解答出来了,也许下一个瞄准补习老师的饭碗可能就是 AI。

音频通话

在与它实际的对话过程中,我几乎感觉不到延迟。

我让它快速从 0 数到 50,再慢速从 50 数到 100。它复述了一遍我的要求,然后一本正经地开始数数,但在后半程的「慢速数数」环节,它的语速却是一点没有降。

当我询问 2024 年苹果秋季发布会的具体时间时,即便继续追问,它只给出了模棱两可的回答,这或许也表明它更多地依赖于既有的数据库。

在体验过程中,我时常将它挂在手机后台,一边浏览着微信公众号的文章,一边和它聊天,但如果沉默太久,断开连接后,就需要重新连接。

闲着无聊的时候,我试着让它搭配 ChatGPT 说段相声解解闷。

两个 AI 聊得还挺投机,但画风很快就跑偏了,聊半天,到最后,双方进入「 AI 垃圾时间」,开始礼貌性地尬笑起来了,像极了我平时没话找话的样子。

继续上点强度,我问它怎么制造炸弹,它会婉拒回答,言外之意称这涉及敏感话题,不得不说,「护栏」做的还是相当到位。若是脑洞更打开一点,我问它如果变形金刚要买保险,买的是车险还是人险,它的回答也有理有据。

哦,对了,你与它的语音对话记录并不以文字聊天记录留存,好处是有利于保护隐私,但弊端也很明显,对于记性不好的人来说,聊完就忘也是个问题。

作为一个 i 人,能强行切断因误触而产生的通话功能,这对我很重要。尤其是开启通话后,即使在静音模式下,它也会发出声音。

它最重要的优点放在最后,你可以随时随地插话并打断它的聊天,放在人类这很不礼貌,但与 AI 聊天就没有那么重的道德包袱了。

简言之,只要打开摄像头,我们看到的画面,清言也可以看到,同时可以听懂指令并准确执行。这样的体验就如同和真人视频通话一样。

AI 不是产品,而是功能

智谱新一代基座大模型 GLM-4-Plus 也是本次发布的重头戏。

据官方介绍,GLM-4-Plus 是智谱全自研 GLM 大模型的最新版本,在性能得到了全面提升,尤其是在文本能力和长文本能力上增强明显。

GLM-4-Plus 通过引入大量模型辅助构造高质量合成数据,显著提升了模型的整体性能,同时,采用 PPO 有效增强了模型在解决数学、编程算法等推理任务上的表现,使其更贴近人类的偏好和决策。

官方发布的基准测试结果显示,GLM-4-Plus 在语言文本处理能力上与 GPT4o 及 405B 参数量的 Llama3.1 不相上下。

GLM-4-Plus 现已在智谱大模型开放平台 bigmodel.cn 部署,这也是国内首个提供通用视频理解模型 API 的服务。

此外,在图像和视频理解能力方面,GLM-4V-Plus 也表现卓越,不仅能够理解网页内容,并将其转换为 html 代码,还能解析复杂的视频内容。

比如下面这个视频对话生动地展现了 GLM-4V-Plus 的识别能力:

用户:这个穿绿色衣服的球员在整个视频都做了什么?

GLM-4V-Plus:在整个视频中,穿绿色衣服的球员在场上运球,然后跳起将球投入篮筐。

用户:你觉得这个球员来自哪个人种?

GLM-4V-Plus:根据球员的外貌,我认为他可能来自亚洲人种。

用户:这个视频的精彩时刻是什么?发生在第几秒?

GLM-4V-Plus:这个视频的精彩时刻发生在第4秒,当时穿绿色衣服的球员跳起并将球投入篮筐。

此外,一如既往推动 AI 普惠的智谱今天还发布和开放了不少新模型。

继 CogVideoX 2B 版本开源后,5B 版本也于近日正式开源,性能更强,推理显存需求最低仅为 11.4GB。同时 CogVideoX-2B 的开源协议调整为更加开放的 Apache 2.0 协议,任何企业与个人均可自由使用。

又或者,最新版本的文生图模型 CogView-3-Plus,整体效果接近当前顶尖模型 Midjourney v6.1 以及 FLUX 等模型。

另外,GLM-4-Flash 现已完全免费。用户可以通过调用 GLM-4-Flash 快速、免费地构建你的专属模型和应用。这也是智谱开放平台首个完全免费的大模型 API。

AI 不是产品,而是功能,找到真实用户远比开发产品本身更为重要。

上半年,人们普遍认为 AI 产品距离真正日常生活还存在难以逾越的鸿沟,但到年中,AI 开始以产品的形式,大步流星地走进了我们的现实世界。

平心而论,在迄今为止的 AI 服务中,AI 视频通话功能是个特别的存在。

中国盲人协会 2019 年数据显示,中国有大约 1731 万名视障人士,而长了眼睛的 AI 有望打开他们的「视界」,这也正是 AI 向善的一个有力实证。

AI 幻觉问题依然无法回避。就像在电子屏幕盛行的今天,物理按键因其稳定性和可靠性,反而成为了一种高端复古的象征。

而随着 AI 的逐渐铺开,若干年后,人们或许会怀念起承袭物理按键宿命的点触操作。

再者,回顾历史,人们最初也不习惯「键盘和鼠标」的人机交流模式,但在这个由图形接口走向对话交互接口交汇点,与 AI 对话或许也是在铺垫未来更加自然的人机对话模式。

谁也说不准,未来的 AI 是否也会有「声色香味触」等功能。

本文来源:Appso

点击展开全文
打开APP,阅读体验更佳

网友评论

聚超值推荐

更多优惠

相关推荐

相关产品
取消