要闻

58行代码把Llama 3扩展到100万上下文,任何微调版都适用

量子位 2024-05-09 17:28:28
科技

堂堂开源之王Llama 3,原版上下文窗口居然只有……8k让到嘴边的一句“真香”又咽回去了。

在32k起步,100k寻常的今天,这是故意要给开源社区留做贡献的空间吗?

开源社区当然不会放过这个机会:

现在只需58行代码,任何Llama 3 70b的微调版本都能自动扩展到1048k(一百万)上下文。

背后是一个LoRA,从扩展好上下文的Llama 3 70B Instruct微调版本中提取出来,文件只有800mb

接下来使用Mergekit,就可以与其他同架构模型一起运行或直接合并到模型中。

所使用的1048k上下文微调版本,刚刚在流行的大海捞针测试中达到全绿(100%准确率)的成绩。

不得不说,开源的进步速度是指数级的。

1048k上下文LoRA怎么炼成的

首先1048k上下文版Llama 3微调模型来自Gradient AI,一个企业AI解决方案初创公司。

而对应的LoRA来自开发者Eric Hartford,通过比较微调模型与原版的差异,提取出参数的变化。

他先制作了524k上下文版,随后又更新了1048k版本。

首先,Gradient团队先在原版Llama 3 70B Instruct的基础上继续训练,得到Llama-3-70B-Instruct-Gradient-1048k。

具体方法如下:

-调整位置编码:用NTK-aware插值初始化RoPE theta的最佳调度,进行优化,防止扩展长度后丢失高频信息

-渐进式训练:使用UC伯克利Pieter Abbeel团队提出的Blockwise RingAttention方法扩展模型的上下文长度

值得注意的是,团队通过自定义网络拓扑在Ring Attention之上分层并行化,更好地利用大型GPU集群来应对设备之间传递许多KV blocks带来的网络瓶颈。

最终使模型的训练速度提高了33倍。

长文本检索性能评估中,只在最难的版本中,当“针”藏在文本中间部分时容易出错。

有了扩展好上下文的微调模型之后,使用开源工具Mergekit比较微调模型和基础模型,提取参数的差异成为LoRA。

同样使用Mergekit,就可以把提取好的LoRA合并到其他同架构模型中了。

合并代码也由Eric Hartford开源在GitHub上,只有58行。

目前尚不清楚这种LoRA合并是否适用于在中文上微调的Llama 3。

不过可以看到,中文开发者社区已经关注到了这一进展。

524k版本LoRA:https://huggingface.co/cognitivecomputations/Llama-3-70B-Gradient-524k-adapter

1048k版本LoRA:https://huggingface.co/cognitivecomputations/Llama-3-70B-Gradient-1048k-adapter

合并代码:https://gist.github.com/ehartford/731e3f7079db234fa1b79a01e09859ac

参考链接:

[1]https://twitter.com/erhartford/status/1786887884211138784

文章来源:量子位

点击展开全文
打开APP,阅读体验更佳

网友评论

聚超值推荐

更多优惠

相关推荐

传音CFO被留置,“非洲手机之王”腹背受敌 科技要闻 新技术
传音CFO被留置,“非洲手机之王”腹背受敌
苹果发布会上没说的这个细节,会让国行iPhone 16和新手表体验受影响 科技要闻 新技术
苹果发布会上没说的这个细节,会让国行iPhone 16和新手表体验受影响
离地700多公里的“太空漫步”!美国亿万富翁实现人类首次商业太空行走 科技要闻 新技术
离地700多公里的“太空漫步”!美国亿万富翁实现人类首次商业太空行走
微信抖音搜索框新增电商入口, 再造新引擎? 科技要闻 新技术
微信抖音搜索框新增电商入口, 再造新引擎?
库克跳不出乔布斯画的圈 科技要闻 新技术
库克跳不出乔布斯画的圈
共享充电宝「老大垂危」:直营业务只剩运维,代理模式滋生严重乱收费 科技要闻 新技术
共享充电宝「老大垂危」:直营业务只剩运维,代理模式滋生严重乱收费
OpenAI发布最强模型o1:博士物理92.8分,IOI金牌水平 科技要闻 新技术
OpenAI发布最强模型o1:博士物理92.8分,IOI金牌水平
陶哲轩力荐,哈佛反向学习法火了:教会AI就是教会自己 科技要闻 新技术
陶哲轩力荐,哈佛反向学习法火了:教会AI就是教会自己
OpenAI 发布最强模型 o1 !打破 AI 瓶颈开启新时代,GPT-5 可能永远不会来了 科技要闻 新技术
OpenAI 发布最强模型 o1 !打破 AI 瓶颈开启新时代,GPT-5 可能永远不会来了
索尼发布PS5 Pro,价格比性能飞更高 科技要闻 新技术
索尼发布PS5 Pro,价格比性能飞更高
相关产品
取消