要闻

GPT-4o版「Her」终于来了!讲笑话、学猫叫,AI女友能有多撩人?

新智元 2024-08-01 15:56:41
科技

奥特曼的承诺,终于兑现了。

赶在7月结束前,GPT-4o语音模式终于开启了灰度测试,一小部分ChatGPT Plus用户已经拿到了尝鲜入场券。

如果打开ChatGPT App之后看到了下面这个界面,恭喜你成为了首批幸运儿。

OpenAI称,高级语音模式提供了更加自然、实时对话,可以随意打断,甚至它还可以感知、回应你的情绪。

预计在今年秋季,所有ChatGPT Plus用户,都能用上这个功能。

另外,视频和屏幕共享更强大的也在稍后推出。也就是,开启摄像头,就能和ChatGPT「面对面」聊天了。

一些被灰度到的网友们纷纷开启测试,发现了GPT-4o语音模式的诸多用例。

这不,有人就让它充当「二外教练」,教自己练习口语。

与此同时,GPT-4o的输出token暴涨了16倍,从最初4000个token增加到64000个token。

这是OpenAI最近在官方网页中,悄然推出的测试版新模型gpt-4o-64k-output-alpha。

更长的输出token,就意味着,一次性可以得到大约4个完整的长篇电影剧本。

Her已来

之所以现在才放出GPT-4o语音功能,是因为过去几个月里,OpenAI一直对其进行安全性、质量测试。

他们与100+红队人员,就45种语言对GPT-4o语音能力进行了测试。

为保护人们的隐私,团队训练模型只使用4种「预设声音」说话。

他们还创建了一个系统,去阻止在这4种声音之外,其他声音的输出。

此外,内容过滤也是必不可少,团队还采取措施阻止暴力、有关版权内容的生成。

OpenAI预告,计划在8月初,会发布一份关于GPT-4o能力、局限性、安全评估的详细报告。

全网实测

下面是网友分享的GPT-4o语音模式的一些案例。

ChatGPT可以表演节奏口技。

ChatGPT还可以以害羞、生气、更愤怒的语气讲出了关于啤酒的笑话。

还有网友专为ChatGPT讲了一个笑话「为什么科学家不相信Adam-Atom,因为它们构成了一切」。

ChatGPT不失尴尬地笑了起来。

更搞笑的是,ChatGPT学起猫叫还是有一套的。

有人经过一番测试下来,发现ChatGPT高级语音模式非常快,回答几乎没有延迟。

当被要求模仿一些声音时,它总是可以真实复刻出声音。而且不同口音,也可以模仿出来。

OpenAI虽然声称,视频和屏幕共享功能稍后推出,不过已经有网友先用上了。

网友有一只猫咪新宠,为它搭建了小窝,准备了吃食,但不知道怎么样,于是就问问ChatGPT。

在视频的对话中,网友向它展示了猫咪的屋子,ChatGPT看过后评价道,「一定非常舒适」,并关心猫咪如何。

网友表示,它目前为止还没有吃东西,看起来有点担心。ChatGPT安慰道,「这很正常,对于猫咪来说需要适应的时间」。

可以看出,整个问答过程非常流畅,给人一种与真人交流的感受。

网友还翻出了日语版界面游戏机,但是自己又不会日语。

这时,他一边向ChatGPT展示游戏界面,一边让其帮自己做翻译,最后胡一起通关游戏。

不得不说,有了视觉+语音模式的加持,ChatGPT强了很多。

GPT-4o Long Output悄悄上线,输出高达64K

另外,支持更大token输出的GPT-4o随之而来。

就在昨天,OpenAI正式宣布向提供测试者GPT-4o Alpha版本,每次请求支持最多输出64K token,相当于200页小说。

测试者可以从「gpt-4o-64k-output-alpha」,访问GPT-4o的长输出功能。

不过,新模型的价格再次刷新天花板。每百万输入token 6美元,每百万输出token 18美元。

虽说输出token是GPT-4o的16倍,但价格也涨了3美元。

这么一比,果然还是gpt-4o-mini价格香!

研究员Simon Willison表示,长输出主要用于数据转换用例。

比如,将文档从一种语言翻译成另一种语言,或从文档中提取结构化数据,几乎每个输入token都需要在输出的JSON中使用。

在此之前,他所知道的最长输出模型是GPT-4o mini,为16K token。

为什么推出更长输出的模型?

显然,更长的输出,可以让GPT-4o提供更全面、细致的响应,对于一些场景非常有帮助。

比如,编写代码、以及对写作的改进。

这也是基于用户的反馈——需要更长输出内容才能满足用例,OpenAI才做出的调整。

上下文和输出之间的区别

GPT-4o自推出以来,便提供了最大128K的上下文窗口。而对于GPT-4o Long Output,最大上下文窗口仍然是128K。

那么,OpenAI如何在保持整体上下文窗口为128K的情况下,将输出token数量从4,000增加到64,000呢?

这是因为,OpenAI在最初就限制了输出token数量,最大为4000个token。

这意味着,用户可以在一次交互中最多以124,000个token作为输入,也最多只能得到4000个输出token。

当然,你也可以输入更多token,那就意味着输出token更少了。

毕竟长下文长度(128K)就固定在那里,不管输入怎么变,输出token也不会过4000。

而现在,OpenAI将输出token长度限制在64,000 token,也就是说,你可以比以往多输出16倍的token。

毕竟,输出计算量更大,价格涨幅也更大。

同样,对于最新的GPT-4o mini,上下文也是128K,但最大输出已提升至16,000个token。

那么,用户可以提供最多112,000个token作为输入,最终得到最多16,000个token的输出。

总的来说,OpenAI在这里提供了一个方案,限制输入token,以获取LLM更长的响应,而不是直接扩大上下文长度。

而市面上其他模型,长的都已经超过百万了(Gemini),稍微短一些的也有200K(Claude);甚至有的模型输出都已经达到了200K,而OpenAI还在这儿抠抠搜搜。

这也就把难题扔给了开发者:想要输入多,那就得接受输出少;想要输出多,那就得输入少一些。

具体怎么衡量,看你们自己愿意牺牲哪一个了...…

本文来源:新智元

点击展开全文
打开APP,阅读体验更佳

网友评论

聚超值推荐

更多优惠

相关推荐

当游戏依旧是唯一主角,ChinaJoy还能看什么? 科技要闻 新技术
当游戏依旧是唯一主角,ChinaJoy还能看什么?
董宇辉单飞的路不好走 科技要闻 新技术
董宇辉单飞的路不好走
无房无贷的年轻人,开始挑战用利息生活 科技要闻 新技术
无房无贷的年轻人,开始挑战用利息生活
手机操作系统“新三国杀”,华为、苹果、小米谁会是赢家? 科技要闻 新技术
手机操作系统“新三国杀”,华为、苹果、小米谁会是赢家?
马斯克改口了!他承认之前对自动驾驶过于乐观 科技要闻 新技术
马斯克改口了!他承认之前对自动驾驶过于乐观
马斯克唠硬嗑,市值没了4000亿 科技要闻 新技术
马斯克唠硬嗑,市值没了4000亿
宗馥莉再「回宫」,这次稳了吗? 科技要闻 新技术
宗馥莉再「回宫」,这次稳了吗?
iPhone要出折叠屏了!值不值得让我们再等两年? 科技要闻 新技术
iPhone要出折叠屏了!值不值得让我们再等两年?
一夜掉粉百万,被流量反噬的网红们踩了哪些雷区? 科技要闻 新技术
一夜掉粉百万,被流量反噬的网红们踩了哪些雷区?
“精致女生坐高铁”,带货网红大团建 科技要闻 新技术
“精致女生坐高铁”,带货网红大团建
相关产品
取消