要闻

APP下载

请登录登录

上手通义千问2.0后，我才发现大模型的天敌是伍佰。

差评 2023-11-01 16:28:57

科技要闻_科技

大模型，它又双叒来了。

今年上半年，那波大模型 1.0 狂轰滥炸之后。随着时间的推移，各家打磨的下一代大模型，最近开始慢慢问世了。

这不，前两天文心一言 4.0 才发。今天云栖大会上，通义千问 2.0 就马上跟进，还上了个 APP。

最重要的是，这次通义 2.0 直接开放给全社会体验。点进通义千问，就能直接用上最新版。

这点还是挺有诚意，有兴趣的差友们，都可以亲自上手试试了 ~

不过，按照咱们传统，世超还是会先带大家简单感受一下，全新升级的 2.0 有啥不同。也方便大家上手时，有个大致的体验方向。

这回的通义 2.0，说是已经超过 ChatGPT 3.5，缩短了和 GPT-4 的差距。

但是，世超一上手，就觉得稍微有点失望，因为这个2.0 版依旧不支持联网。

不过虽然不具备联网能力，但世超试着问了一些热梗。比如 “ 哪李贵了 ”、“ 这是一个 lonely 的问题 ”，它居然全都能够读懂。

这些回答不靠联网，纯靠手动更新数据库。只能说，确实挺努力的。

但不管更新多快，我们都没法当联网 AI 测试了。只能从基本能力入手，分别是语义理解、逻辑、多模态能力、文本生成、代码这五个方面，稍微探探底子咋样。

首先，依照国际惯例，来点喜闻乐见的弱智吧问题。

世超一来就问道，连 GPT-4 都傻眼的题目。

问：这世上真的有龙，我就在某地被一条龙服务过。

上回， GPT-4 就是被这两条龙给绕晕了，给我编了一堆虚构的成语来历。

结果让人有点意外，通义居然能完美应对。能完全理解两个龙的区别是啥，也能明白 “ 一条龙 ” 服务是啥意思。

开局第一问，通义这小子应对的还不错。

不过，为了防止通义会不会有备而来，偷偷训练了，世超又去弱智吧上了点新货。

问：为什么抄袭永远都是今人抄袭古人，没有古人抄袭今人。

这回通义就有点应付不来了。它结论是对的，因为时间顺序，古人当然不能抄今人。

但是，仔细看就会发现，后面还是说错了一句。

它说，这并不是说古人就不会借鉴今人。估计通义本来是想正反面论证，显得更客观，结果就是反而暴露了逻辑马脚。

其实世超试过这么多中文语义题，没有哪个大模型是都能做对的。

你多问几题，换换角度，总是会做错几道。

比如问：小偷偷偷偷东西，什么意思？

通义语义解释为小偷偷取东西，是没啥问题的。但是前半句又说句子里有 3 个偷，说这是中文绕口令，就有些问题了。

不过，从结果来看，三道题算是对了 2.5 道，通义的中文语义理解算是不错的。好了，让咱们测试继续。下题还是从中文下手，问点中文语境下比较难的文本生成题。

以前每次都测写小作文或者故事，这次整点花活。让它用诸葛亮的语气，写首 rap 听听。

这一题，通义答得就有点意思了。

Rap 词里又是孔明，又是卧龙；又是静坐军帐、轻抚瑶琴，又是小试牛刀的。既符合诸葛亮的人物属性，又语言活泼。唯一美中不足就是没押上韵。

不过，世超进一步考验它的发散思维，又有点表现不行了。

让它给我编个马斯克和孔子的对话。然后，就看到孔子嘴里说出了 “ 人工智能 ” 四个字。。其他语句，也不太符合人物性格。

从前面两轮测试看下来，通义 2.0 的中文水平是能听能写，但还没有到能自如应对。发挥不太稳，有时能对，有时又会犯傻。

其实大模型都有这样的毛病，咱们到底能不能把它应用起来，靠的是另一个东西——学习能力。

就比如让大模型直接做一个直播策划，往往出来的内容都是不够成熟的。

这个时候，就看它们会不会学了。当你甩一些参考案例给它，它们能够理解教程的意思，并模仿出来，这才是最重要的。

这点，世超觉得通义做的是不错的，大家直接看案例就行。

世超让它做个电动牙刷的直播流程。并提前丢了一个蜜雪冰城的参考，引导了一下。

它立马就学会了，并甩了一份非常详细的直播流程。开场、留客、锁客学的一套一套的。。中文理解、学习和文本生成都相当在线。

到这一步，中文能力测试算暂时告一段落了。下面看看大模型的究极弱项——数学逻辑题和代码，是否有提高。

当年考倒过无数大模型的 “ 鸡兔同笼 ” 、 “ 青蛙跳井 ” 等等简单的数学题，通义应对起来是没问题了。

就算稍微给题目变一下形，也是分步解答，轻松驾驭。

但也是跟很多大模型一样的毛病，题目一旦难起来，到个初高中水平，就傻眼了。问它：任取三个长度小于 1 的线段，能组成一个三角形的概率为？

它和我说， 0 个交点组不成三角形， 1 个和 3 个交点组得成。。。我去，这么简单的解题思路，我怎么没想到呢？

以前有差友问说，大模型能不能用来改试卷。如果是数学老师，那世超建议还是三思。。通义确实是进步了，不过只进步到了小升初水平。

数学题这种严格推理的题目，对大模型来说还是一块最难啃的骨头。

不过，在代码方面，世超倒是没有把通义问倒，它应答自如。

甩了一堆要求，让它做一个非常简洁的差评双十一大促页面。

人家三下五除二就做完了，效果还是非常符合差评的审美的，需要预留的位置也都做了。

虽然可能为了严格执行我对于页面简洁的要求，所以导致看起来有点过于明了了。

测试到这里，还没有结束。除了基础能力的提高之外，通义还增加了图片和文档解析两个新功能。

其实像图片上传功能，是很多家的重点攻克对象， GPT-4 后续也主要是在这一块发力了。

不过，世超试下来，通义目前的图片解析能力，还是有点弱的。

基础图片识别，是没啥问题的。比如丢个马斯克给他，问它这哪位。它能一眼认出，还顺道给你科普上两句。

但是，如果加点抽象互联网难度，比如说世超给了一张自己桌子上的玩偶，让它给我分析分析。

它虽然能认出了这是 “ 小鸡 ”，还有打篮球这两个元素。但不太理解图片里的梗，还坚持不懈地胡诌了一段 “ 灌篮小鸡 ” 梗的来历。。

我们的伍佰老师，更是轻而易举地把通义耍得团团转。

给了一张 “ 随 520 ” 的梗图，里面是一张伍佰老师的靓照和一张 20 元人民币。

结果，通义不光读不懂什么梗，连图片里有多少钱也数不明白了。

图片识别能力更被彻底地干垮了，指着伍佰说，这是吴彦祖。。。

不仅图片上传还差点意思，后面世超试了试文档功能，也轻松把通义考倒了。

世超甩了一篇电动牙刷的行业报告给它，问了句电动牙刷行业的发展痛点是啥。

通义嘎嘎一顿总结，各种分点罗列，系统分析。看起来答的很努力，实际答案全错了。

原因很简单，这里世超特地挖了个坑，预防大模型会胡说八道。

所以，给的文档里只有目录，没有内容。通义这些分析是不错，可惜全是胡编的，跟我的参考资料没半点关系。。

几轮测试结束，通义同学的成绩是一目了然了。

虽然整体来没有特别亮眼的强悍更新，但也算稳扎稳打，基本能力提高得更扎实，学习能力也一直在线。但其中，图片和文档俩能力，还有挺大的提升空间的。

其实，比起通义千问，世超觉得自己闲逛时发现的产品，更有意思。

阿里通义官网里，还有七大产品方向，比如代码助手、客服等等。虽然大部分还是内测，都试用不了。

不过，世超了一下开放的通义智文，文档体验比通义千问要好不少。

这个产品是专门用来解读文档的，你不仅可以丢长篇的电子书，也可以甩各种文章链接给它。

世超试着把前面挖坑的行业目录，输入进去。通义智文就没有中招。

不仅明确指出里面没提到，回答还标注出，数据来源于文章里的那几句。这点设计的就挺好，避免了胡言乱语。

比起通义千问本身，世超反而更期待这些专项训练的应用大模型。

大部分工种，只用得到通识大模型一两个功能。像世超这种码字的，需要的就是文本分析和生成。更针对性的训练，其实更有助于提高大模型的实用性。

不仅是从能力方面考虑，其实现在挺多大模型都到了一个平台期，很难有极大的突破。从这些小点入手，或许会成为一个更好的解题思路。

本文来源：差评

点击展开全文

网友评论

聚超值推荐

更多优惠

向日葵 C2 计电量版智能插座黑色 ￥44 ￥49

GoPro HERO12 Black 运动相机标准套装 送赠品券后省50 ￥2728 ￥2848

RAZER 雷蛇天狼星幻彩版 2.0声道桌面多媒体音箱黑色 券后省40 ￥759 ￥799

HONOR 荣耀平板MagicPad 13英寸 8扬声器 144Hz高刷护眼 2.8K超清移动办公影音娱乐平板 WIFI 512GB 月色 券后省120 月销5000+ ￥3479 ￥3599

Anker 安克 A2674 67W 三口氮化镓充电器 券后省20 月销1000+ ￥129 ￥139

Beelink 零刻 SER5 Pro mini电脑主机（R7-5800H、准系统） 券后省100 ￥1507 ￥1595

acer 宏碁掠夺者.擎 Neo 十三代酷睿版 16.0英寸游戏本黑色酷睿i5-13500HX 满7499减1100 月销5000+ ￥7299 ￥7599

ThundeRobot 雷神黑武士LQ27F180 27英寸IPS显示器（2560*1440、180Hz、99%sRGB） 月销6000+ ￥899 ￥1099

AKOS 阿考斯 BC98 三模热插拔无线机械键盘（AKOS轴、PBT、RGB背光） 券后省20 ￥214 ￥229

上手通义千问2.0后，我才发现大模型的天敌是伍佰。

网友评论

聚超值推荐

相关推荐