AI

DeepSeek新OCR系统震撼来袭!压缩率90%信息保真97%

PConline 2025-12-12 10:08:59
AI快讯
由华为云驱动

近日,DeepSeek推出全新OCR系统DeepSeek - OCR。该系统把文字当图像压缩,90%压缩率下信息保真97%,能识别复杂结构。核心由两部分构成,训练规模大,跨领域泛化能力强。测试表现出色,绕开传统token计数逻辑。一经发布引发关注,是对机器处理数据方式的革命。

近日,DeepSeek推出全新OCR系统,让AI在不超出内存限制的情况下处理更长文档。其开源地址为https://github.com/deepseek-ai/DeepSeek-OCR?tab=readme-ov-file 。该系统关键在于把文字当作图像压缩,处理图片比处理纯文本更节省算力。在保留97%信息量的前提下,可将文档压缩至原来的十分之一。比如一本上百页的PDF,经处理后只需原来十分之一的token数量,AI就能完整阅读。

DeepSeek OCR核心由两部分构成。

  • 一是图像处理模块DeepEncoder,拥有3.8亿参数,负责将文档图片分析为压缩后的视觉token
  • 二是基于Deepseek - 3B - MoE的文本生成器,在此基础上恢复文字与结构

技术上,它融合了Meta的SAM(Segment Anything Model)与OpenAI的CLIP模型。SAM进行局部视觉分析,CLIP提供全局语义关联,两者间嵌入16倍压缩器,大幅减少图像token数量。一张1024×1024像素的图片,起初有4096个token,压缩后只剩256个,显著降低了CLIP的计算负担。低分辨率下,每张图仅需64个视觉token;高分辨率时也不超400个,而传统OCR系统往往需数千token才能完成同样任务。

DeepSeek OCR不仅能识别文字,还能识别图表、化学式、几何图形等复杂结构。研究团队称,可直接从财报图表中提取结构化数据并自动生成Markdown表格。在“深度解析模式”下,能将金融图表、几何图形重新绘制成矢量图并保留说明文字。

测试结果显示,在OmniDocBench基准上,DeepSeek OCR表现出色。仅用100个视觉token时,就超过了GOT - OCR 2.0使用256 token的结果;在800 token以下,击败了MinerU 2.0,后者每页需超6000 token。DeepSeek OCR的Gundam - M模式在中英文混合识别上取得最佳编辑距离分数。系统会根据文档复杂度自动选模式,简单演示文档用64 token,普通报告约100,复杂报纸启用“Gundam模式”,上限800 token。此外,还提供Resize、Padding、Multi - page、Sliding四种策略,平衡多页文档的压缩率与准确性。

DeepSeek OCR的训练规模罕见。研究团队用了三千万页PDF语料,覆盖约一百种语言,包括2500万页中英文文档、一千万张合成图表、五百万化学公式、一百万几何图形。这些数据让模型具备跨领域、跨语言的泛化能力,不仅能保持原始排版,输出还附带文字描述和图像内容说明。

在多模态大模型中,文本上下文限制一直是瓶颈。DeepSeek绕开传统token计数逻辑,用视觉token替代文本token,让语言模型能“看图”的同时“读文”。对研究者来说,这近似“外接硬盘”解决方案,通过视觉压缩,AI的上下文长度几乎无上限,也预示着未来模型架构可能不再区分“文本理解”和“图像理解”。

此模型一经发布,引起国内外技术圈广泛关注,相关话题迅速攀升至各个科技热榜。有用户体验后评价:“太棒了!我刚刚用这个优秀的新开源模型将400页PDF转换为markdown格式,不到4分钟就完成了!”还有AI用户感慨:“震撼!中国的DeepSeek又一次突破了极限!一整本百科全书竟能压缩成一张高分辨率的图像!”DeepSeek OCR不仅是OCR升级,更是对机器感知和处理数据方式的根本性革命。

点击展开全文
打开APP,阅读体验更佳

网友评论

聚超值推荐

更多优惠

相关推荐

相关产品
取消