行业

请登录登录

“源神”DeepSeek！突破H800性能上限，FlashMLA重磅开源，算力成本还能降

量子位 2025-02-26 16:28:40

科技

由华为云驱动

DeepSeek开源FlashMLA，突破H800性能上限。FlashMLA是为Hopper GPU开发的高效MLA解码内核，优化可变长度序列处理。支持BF16、分页KV缓存64块大小。计算性能达580TFLOPS，内存速度3000GB/s。GitHub页面更新一小时内获1.2k星数。

DeepSeek开源周第一天，降本大法公开——

FlashMLA，直接突破H800计算上限。

网友：这怎么可能？？

它是为Hopper GPU开发的高效MLA解码内核，专门针对可变长度序列进行了优化，目前已经投入生产。

MLA，正是DeepSeek提出的创新注意力架构。从V2开始，MLA使得DeepSeek在系列模型中实现成本大幅降低，但是计算、推理性能仍能与顶尖模型持平。

按照官方介绍来说，FlashMLA使用之后，H800可以达到3000GB/s内存，实现580TFLOPS计算性能。

网友们纷纷点赞：向工程团队致以崇高的敬意，从Hopper的张量核中挤出了每一个FLOP。这就是我们将 LLM 服务推向新前沿的方式！

已经有网友用上了。

开源第一天：FlashMLA

目前GitHub页面已经更新。短短一小时，Star星数已经超过1.2k。

此次已经发布：

支持BF16；

分页KV缓存，块大小为 64

快速启动：

环境要求：

Hopper GPU

CUDA 12.3 及以上版本

PyTorch 2.0 及以上版本

在项目的最后，它还表示，这是受到了FlashAttention 2&3和英伟达CUTLASS项目的启发。

FlashAttention是能实现快速且内存高效的精确注意力，主流大模型都有在用。最新的第三代，可以让H100利用率飙升至75%。训练速度提升1.5-2倍，FP16下计算吞吐量高达740TFLOPs/s，达理论最大吞吐量75%，更充分利用计算资源，此前只能做到35%。

核心作者是Tri Dao，普林斯顿大牛，Together AI的首席科学家。

而英伟达CUTLASS是CUDA C++ 模板抽象的集合，用于在 CUDA 内实现高性能矩阵-矩阵乘法 (GEMM) 和所有级别和规模的相关计算。

MLA，DeepSeek基本架构

最后再来说说，MLA，多头潜在注意力机制，DeepSeek系列模型的基本架构，旨在优化Transformer模型的推理效率与内存使用，同时保持模型性能。

它通过低秩联合压缩技术，将多头注意力中的键（Key）和值（Value）矩阵投影到低维潜在空间，从而显著减少键值缓存（KV Cache）的存储需求。这种方法在长序列处理中尤为重要，因为传统方法需要存储完整的KV矩阵，而MLA通过压缩仅保留关键信息。

V2版本中，这一创新性架构把显存占用降到了过去最常用的MHA架构的5%-13%，实现了成本大幅降低。它的推理成本仅为Llama 370B的1/7、GPT-4 Turbo的1/70。

而在V3，这一降本提速就更为明显，直接让DeepSeek吸引全球目光。

也就在今天，DeepSeek-R1 在HuggingFace上获得了超过10000个赞，成为该平台近150万个模型之中最受欢迎的大模型。

HuggingFace CEO发文公布了这一喜讯。

The whale is making waves！鲸鱼正在掀起波浪！

好了期待一下，接下来的四天会发些什么呢？

GitHub链接：
https://github.com/deepseek-ai/FlashMLA
参考链接：
https://x.com/deepseek_ai/status/1893836827574030466

本文来源：量子位

点击展开全文

网友评论

太评甄选

EMEET 壹秘超清4K直播电脑摄像头60FPS高帧率线上视频通话会议专用摄像头内置降噪麦 C60E 4K ￥159 ￥159

Apple/苹果 iPhone 17 256GB 薰衣草紫色支持移动联通电信5G 双卡双待手机 券后省200 ￥5799 ￥5999

三年二班熊猫小风扇随身便携手持小风扇桌面风扇usb静音电风扇办公室宿舍工位小型电风扇挂脖风扇迷你风扇熊猫墩墩台式风扇【三档风力】 券后省19 ￥29.8 ￥48.8

券后省30 ￥89 ￥119

Apple/苹果 iPhone 17 Pro Max 512GB 银色支持移动联通电信5G 双卡双待手机 券后省1000 ￥10999 ￥11999

影驰GeForce RTX 5060 圣刃V2 OC ￥2887 ￥2887

南卡【新品上市】（NANK）Clip Super2耳夹式蓝牙耳机AI翻译耳机开放式运动骑行无线不入耳通话降噪暮霭黑 券后省40 ￥403 ￥443

惠普HP【国家补贴】星Book Pro Air 14轻薄笔记本电脑(酷睿Ultra5 225H 16G 512G 2.8K 120Hz AI)银 ￥6998 ￥6998

荣耀MagicBook 14 2026 AI全能轻薄笔记本 14吋Ultra5-336H 32G 1T 2.8K高清护眼屏星辰灰养虾本 月销1000+ ￥6999 ￥6999

相关推荐

人类史上最大单品工业品，正在中国量产！ 科技要闻新技术

人类史上最大单品工业品，正在中国量产！

安卓彻底变了！Gemini接管所有屏幕，苹果连影子都没追上 科技要闻新技术

安卓彻底变了！Gemini接管所有屏幕，苹果连影子都没追上

GPT-5.5全球首破！0源码盲写程序，编程AI进入新纪元 科技要闻新技术

GPT-5.5全球首破！0源码盲写程序，编程AI进入新纪元

大疆 Pocket 4P 上手体验：欲穷千里目，更多摄像头 科技要闻新技术

大疆 Pocket 4P 上手体验：欲穷千里目，更多摄像头

五角大楼解密160份UFO文件，熬夜看完后给我气笑了。 科技要闻新技术

五角大楼解密160份UFO文件，熬夜看完后给我气笑了。

谷歌首度证实：黑客已开始用AI发动真实网络攻击！ 科技要闻新技术

谷歌首度证实：黑客已开始用AI发动真实网络攻击！

AI突现首例自我复制！横跨4国160小时无限繁殖 科技要闻新技术

AI突现首例自我复制！横跨4国160小时无限繁殖

连时间都没法看的手环，每年敢收 1000 块，居然比苹果还火？ 科技要闻新技术

连时间都没法看的手环，每年敢收 1000 块，居然比苹果还火？

为避免刻板印象，AI 开始拒绝生图 科技要闻新技术

为避免刻板印象，AI 开始拒绝生图

“8家车企锁电”被辟谣，但锁电这事你很难躲得掉。。。 科技要闻新技术

“8家车企锁电”被辟谣，但锁电这事你很难躲得掉。。。

相关产品