要闻

OpenAI 突然发布 GPT-4o mini !更快更便宜,人人免费可用,GPT-3.5 成为历史

appso 2024-07-19 07:59:43
科技

今天起,ChatGPT 正式进入「4」时代。就在刚刚,OpenAI 官宣推出 GPT-3.5 Turbo 的替代品——GPT-4o mini,顾名思义,这是 GPT-4o 更小参数量的简化版本。即日起,ChatGPT 的免费用户、Plus 用户和 Team 用户都能够使用 GPT-4o mini。下周,企业版客户也将获得使用 GPT-4o mini 的权限。OpenAI 官方表示,「这一变化符合我们让所有用户都能享受到 AI 技术好处的目标。」

主打低成本和快速响应能力的 GPT-4o mini 适用于多种应用场景。例如,它可以支持需要连续或同时调用多个模型的应用程序(如同时调用多个 API),能够处理大量上下文信息(如完整的代码库或对话记录),以及通过快速实时的文本回复与客户进行互动(如客户服务聊天机器人)。具体来说,GPT-4o mini 目前在 API 中提供了文本和图像处理功能,后续还将逐步增加对视频和音频的支持。该模型能够处理多达 128K token 的长上下文,知识库截止日期为 2023 年 10 月份,并且对非英文内容的支持更友好。

ChatGPT 截图从 OpenAI 分享的基准测试结果来看,GPT-4o mini 在推理基准结果 MMLU 上得分为 82%,而 Gemini Flash 为 77.9%,此前主打极高性价比的 Claude Haiku 为 73.8%。GPT-4o mini 在数学推理和编程任务方面也同样表现出色,远超市场上的其他小型模型。在 MGSM 数学推理能力基准测试中,GPT-4o mini 得分达到了 87.0%,而 Gemini Flash 的得分为 75.5%,Claude Haiku 的得分为 71.7%。GPT-4o mini 在 HumanEval 基准测试中同样再次展现优势,得分达到 87.2%,而 Gemini Flash 的得分为 71.5%,Claude Haiku 的得分为 75.9%。

而在多模态推理 MMMU 中,GPT-4o mini 也表现出色,得分为 59.4%,而 Gemini Flash 得分为 56.1%,Claude Haiku 得分为 50.2%。尤为显眼的是,GPT-3.5 Turbo 在这些基准测试中的得分均不如 GPT-4o mini,甚至可以说被全面碾压。此外,GPT-4o mini 在大模型盲测竞技场 LMSYS 中的表现也要优于 GPT-4T 01-25。除了性能上的增强,GPT-4o mini 也化身价格屠夫,要给 API 市场带来小小的震撼。@ArtificialAnlys 在 X 上发布了一些模型的价格对比,足以看出其价位水准:

OpenAI 表示,GPT-4o mini 现在可在 Assistant API、Chat Completions API 和 Batch API 中作为文本和视觉模型使用。GPT-4o mini 每100 万输入 token 价格为 15 美分,每 100 万输出 token 价格为 60 美分,比 GPT-3.5 Turbo 便宜超过 60%。也就是说,GPT-4o mini 生成一本 2500 页的书,价格只需要 60 美分。对于 GPT-4o mini 的到来,OpenAI CEO Sam Altman 在 X 平台发文感慨:回顾 2022 年,当时世界上最先进的模型是 text-davinci-003。与现在的新模型相比,它的性能要差得多。而且,它的使用成本比现在的新模型高出 100 倍。

另外,考虑到模型的安全性问题,OpenAI 还邀请了 70 多位来自社会心理学和错误信息研究等领域的专家对 GPT-4o 的潜在风险进行了测试并根据反馈结果进行改进。同时基于这些经验,OpenAI 还采用一些新的技术来增强对 GPT-4o mini 越狱攻击等防御能力,使其在大规模应用中更加安全,也更加稳定可靠。今年以来,国内外掀起了新一轮大模型价格战,但没想到的是,OpenAI 也用响应速度更快、成本更低的 GPT-4o mini 模型加入了本就乱成一锅粥的战局。

Altman 更是将其形容为「towards intelligence too cheap to meter」。作为 GPT-3.5 Turbo 的免费替代品,GPT-4o mini 在性能方面也没落下,甚至也比同量级的 Claude 3 Haiku 和 Gemini 1.5 Flash 还要好。不少网友在体验过后也都给出了一致好评。值得一提的是,关于我们心心念念的 GPT-4o 语音模式,Altman 也透露将在本月晚些时候到来。

文章来源:APPSO

点击展开全文
打开APP,阅读体验更佳

网友评论

聚超值推荐

更多优惠

相关推荐

华为Pura70销量“罗生门”,究竟是大涨还是不及预期? 科技要闻 新技术
华为Pura70销量“罗生门”,究竟是大涨还是不及预期?
俞敏洪,再次走在崩溃边缘 科技要闻 新技术
俞敏洪,再次走在崩溃边缘
“拔萝卜”救不了网约车司机 科技要闻 新技术
“拔萝卜”救不了网约车司机
国内最大车企,迎来60岁新掌门人 科技要闻 新技术
国内最大车企,迎来60岁新掌门人
任天堂的背刺,造就了它最强大的对手 科技要闻 新技术
任天堂的背刺,造就了它最强大的对手
会员不能跳过广告,爱奇艺你凭什么? 科技要闻 新技术
会员不能跳过广告,爱奇艺你凭什么?
前一加联合创始人,出了一个「好玩又好看」的千元机 科技要闻 新技术
前一加联合创始人,出了一个「好玩又好看」的千元机
周鸿祎不认识杨幂,但可以给俞敏洪上一课了 科技要闻 新技术
周鸿祎不认识杨幂,但可以给俞敏洪上一课了
百度的萝卜快跑 ,会让 1000 万司机失业吗? 科技要闻 新技术
百度的萝卜快跑 ,会让 1000 万司机失业吗?
黄牛价暴跌70%,用户退货,苹果Vision Pro没有奇迹 科技要闻 新技术
黄牛价暴跌70%,用户退货,苹果Vision Pro没有奇迹
相关产品
取消