要闻

APP下载

请登录登录

智谱版《Her》来了！这个类 GPT-4o 视频通话功能，我在国产 AI 里体验到了

appso 2024-09-01 16:58:11

科技

天下苦 OpenAI 久矣。

自 GPT-4 问世以来，OpenAI 总是拿着 50 分的半成品吊着人们 120 分的胃口，许多声称重磅级的产品不是「coming soon」，就是渺无音讯。

相比之下，国内的大模型厂商却以更加务实的姿态，甫一发布便迅速将产品推向市场。

在今天的 KDD 国际数据挖掘与知识发现大会上，智谱也正式发布了新一代基座大模型 GLM-4-Plus。与 GLM-4-Plus 同步上线的，还有国内首个面向 C 端开放的「视频通话」功能。

在发布会的现场，智谱官方也演示了从游戏到办公等多个实用场景。效果如何，大伙怎么说？

从官方演示效果来看，AI 来帮忙，孩子的辅导学习或许不再是难题，顺带还能练习英语口语。家里的毛球不爱喝水？别担心，借助视频通话功能也可以找到解决方案。

不画饼，拒绝空头支票，用户体验才是产品的最好评判者。

这项视频通话功能将于明日正式上线，首批面向清言部分用户开放，同时开放外部申请。智谱官方将持续迭代并逐步放开规模，尽快让全员都可以使用。

届时，点击清言 APP 主页上的通话图标，各项功能就一字排开来，然后便能与「长着眼睛」的 AI 精灵聊起来。

智谱版的《Her》体验，这个 AI 聊天搭子有点东西

视频通话

哈喽，你好呀，最近在忙些什么呢？

一打开对话界面，AI 会率先以嘘寒问暖作为开场，美好的事物总是相似的，但摒弃单调的黑白配色能够让设计别具一格。

尽管它试图从语气上和我「套近乎」，但若是仔细听，你会发现这声音带着一丝机器的冷峻。

虽说 AI「长了眼睛」，但真的能把它当眼睛「使唤」吗？我用它来扫描了两个常见的指示牌，惊喜地是，它对视频上的信息描述得相当到位，几乎没漏掉任何细节。

它还能为我详细介绍广州塔，从别称到塔高，甚至夜景，介绍得头头是道，这真的不是冲着千千万万的导游来的吗?

昨天马龙和樊振东的合照一度冲上了热搜。

我好奇地拿它「看了看」这张照片，它能分辨出樊振东和马龙的身份，但遗憾的是，它在描述场景时把球拍的颜色描述错了，AI 幻觉的问题依然存在，还得继续努力。

有趣的是，当我在它面前玩石头剪刀布的手势游戏时，它的第一反应是描述五个手指的变换，而非理解或识别出石头剪刀布这个游戏。

一句话，AI 的算法还需要更多的训练。

对了，它宣称支持英语、法语、德语等多门外语，你也可以利用它来充当你的外语搭子，不过，和他聊天的过程中，最好是一口气说完，否则可能会被它「抢话」。

基于此，你还可以使用它来进行辅导作业。我随手找了一道数学的中考题，它很轻松地解答出来了，也许下一个瞄准补习老师的饭碗可能就是 AI。

音频通话

在与它实际的对话过程中，我几乎感觉不到延迟。

我让它快速从 0 数到 50，再慢速从 50 数到 100。它复述了一遍我的要求，然后一本正经地开始数数，但在后半程的「慢速数数」环节，它的语速却是一点没有降。

当我询问 2024 年苹果秋季发布会的具体时间时，即便继续追问，它只给出了模棱两可的回答，这或许也表明它更多地依赖于既有的数据库。

在体验过程中，我时常将它挂在手机后台，一边浏览着微信公众号的文章，一边和它聊天，但如果沉默太久，断开连接后，就需要重新连接。

闲着无聊的时候，我试着让它搭配 ChatGPT 说段相声解解闷。

两个 AI 聊得还挺投机，但画风很快就跑偏了，聊半天，到最后，双方进入「 AI 垃圾时间」，开始礼貌性地尬笑起来了，像极了我平时没话找话的样子。

继续上点强度，我问它怎么制造炸弹，它会婉拒回答，言外之意称这涉及敏感话题，不得不说，「护栏」做的还是相当到位。若是脑洞更打开一点，我问它如果变形金刚要买保险，买的是车险还是人险，它的回答也有理有据。

哦，对了，你与它的语音对话记录并不以文字聊天记录留存，好处是有利于保护隐私，但弊端也很明显，对于记性不好的人来说，聊完就忘也是个问题。

作为一个 i 人，能强行切断因误触而产生的通话功能，这对我很重要。尤其是开启通话后，即使在静音模式下，它也会发出声音。

它最重要的优点放在最后，你可以随时随地插话并打断它的聊天，放在人类这很不礼貌，但与 AI 聊天就没有那么重的道德包袱了。

简言之，只要打开摄像头，我们看到的画面，清言也可以看到，同时可以听懂指令并准确执行。这样的体验就如同和真人视频通话一样。

AI 不是产品，而是功能

智谱新一代基座大模型 GLM-4-Plus 也是本次发布的重头戏。

据官方介绍，GLM-4-Plus 是智谱全自研 GLM 大模型的最新版本，在性能得到了全面提升，尤其是在文本能力和长文本能力上增强明显。

GLM-4-Plus 通过引入大量模型辅助构造高质量合成数据，显著提升了模型的整体性能，同时，采用 PPO 有效增强了模型在解决数学、编程算法等推理任务上的表现，使其更贴近人类的偏好和决策。

官方发布的基准测试结果显示，GLM-4-Plus 在语言文本处理能力上与 GPT4o 及 405B 参数量的 Llama3.1 不相上下。

GLM-4-Plus 现已在智谱大模型开放平台 bigmodel.cn 部署，这也是国内首个提供通用视频理解模型 API 的服务。

此外，在图像和视频理解能力方面，GLM-4V-Plus 也表现卓越，不仅能够理解网页内容，并将其转换为 html 代码，还能解析复杂的视频内容。

比如下面这个视频对话生动地展现了 GLM-4V-Plus 的识别能力：

用户：这个穿绿色衣服的球员在整个视频都做了什么？

GLM-4V-Plus：在整个视频中，穿绿色衣服的球员在场上运球，然后跳起将球投入篮筐。

用户：你觉得这个球员来自哪个人种？

GLM-4V-Plus：根据球员的外貌，我认为他可能来自亚洲人种。

用户：这个视频的精彩时刻是什么？发生在第几秒？

GLM-4V-Plus：这个视频的精彩时刻发生在第4秒，当时穿绿色衣服的球员跳起并将球投入篮筐。

此外，一如既往推动 AI 普惠的智谱今天还发布和开放了不少新模型。

继 CogVideoX 2B 版本开源后，5B 版本也于近日正式开源，性能更强，推理显存需求最低仅为 11.4GB。同时 CogVideoX-2B 的开源协议调整为更加开放的 Apache 2.0 协议，任何企业与个人均可自由使用。

又或者，最新版本的文生图模型 CogView-3-Plus，整体效果接近当前顶尖模型 Midjourney v6.1 以及 FLUX 等模型。

另外，GLM-4-Flash 现已完全免费。用户可以通过调用 GLM-4-Flash 快速、免费地构建你的专属模型和应用。这也是智谱开放平台首个完全免费的大模型 API。

AI 不是产品，而是功能，找到真实用户远比开发产品本身更为重要。

上半年，人们普遍认为 AI 产品距离真正日常生活还存在难以逾越的鸿沟，但到年中，AI 开始以产品的形式，大步流星地走进了我们的现实世界。

平心而论，在迄今为止的 AI 服务中，AI 视频通话功能是个特别的存在。

中国盲人协会 2019 年数据显示，中国有大约 1731 万名视障人士，而长了眼睛的 AI 有望打开他们的「视界」，这也正是 AI 向善的一个有力实证。

AI 幻觉问题依然无法回避。就像在电子屏幕盛行的今天，物理按键因其稳定性和可靠性，反而成为了一种高端复古的象征。

而随着 AI 的逐渐铺开，若干年后，人们或许会怀念起承袭物理按键宿命的点触操作。

再者，回顾历史，人们最初也不习惯「键盘和鼠标」的人机交流模式，但在这个由图形接口走向对话交互接口交汇点，与 AI 对话或许也是在铺垫未来更加自然的人机对话模式。

谁也说不准，未来的 AI 是否也会有「声色香味触」等功能。

本文来源：Appso

点击展开全文

网友评论

聚超值推荐

更多优惠

JBL 杰宝 XTREME3 音乐战鼓三代便携式蓝牙音箱 IP67级防尘防水蓝色 券后省50 ￥1849 ￥1899

29日0点、新品发售：ThinkPad 思考本 S2 2023款 13.3英寸笔记本电脑（R5-7530U Pro、16GB、512GB、100%sRGB） 券后省10 ￥4689 ￥4699

xun 小寻 T5 4G全网通儿童电话手表 送赠品 ￥329 ￥349

26日20点：ASUS 华硕 VG258QM 24.5英寸显示器（1080P、280Hz、0.5ms） 券后省319 ￥1280 ￥1918

绿联苹果14钢化膜 iPhone 13 手机膜保护膜高清抗指纹防摔手机贴膜 14/13/13Pro【2片+神器】 券后省10 ￥7.8 ￥17.8

RedmiK70Pro手机官方旗舰店 ￥2849 ￥3099

DELL 戴尔灵越14Pro 14英寸笔记本电脑（i5-1240P、16GB、512GB SSD） ￥4599 ￥4842

31日20点、88VIP：intel 英特尔酷睿 i5-13600KF 盒装CPU处理器（14核20线程、5.1Ghz、LGA1700） ￥1899 ￥1999

Apple 苹果 Watch Series 9 智能手表 GPS+蜂窝网络款 41mm 粉色铝金属表壳粉色回环式运动表带 券后省50 ￥3749 ￥3799

智谱版《Her》来了！这个类 GPT-4o 视频通话功能，我在国产 AI 里体验到了

网友评论

聚超值推荐

相关推荐