AI

实测!DeepSeek最新开源OCR模型,多数场景竟不如百度Paddle

PConline 2025-11-10 10:12:44
AI快讯
由华为云驱动

近日,科技媒体实测了DeepSeek最新开源OCR模型。DeepSeek - OCR有视觉压缩等创新,长文本处理出色。但测试中,在手写公式、复杂表格识别等方面,它表现有瑕疵,对比之下不敌百度PaddleOCR - VL。不过,其PDF转Markdown速度快。此测试揭示了不同OCR模型的优劣,值得关注。

近日,OCR领域似乎迎来了黄金时代,众多模型纷纷涌现,像百度的PaddleOCR - VL、阿里Qwen3 - VL、小红书的dots - ocr、Nanonets - OCR2等。其中,DeepSeek发布了《DeepSeek - OCR:基于视觉压缩的大模型长上下文增强方案》论文,并同步开源了模型文件。

DeepSeek - OCR有两个核心。一个是纯粹的OCR,这也是本次测试的重点;另一个是上下文光学压缩(Contexts Optical Compression),它解决了大模型在长上下文处理上的算力瓶颈。这一技术让AI的“记忆”更像人类,或许是通往下一代智能的钥匙。DeepSeek - OCR通过视觉压缩实现“以小博大”,在长文本处理上突破了算力与精度的平衡,还得到了Andrej Jarpathy的极高评价。

在OCR方面,DeepSeek - OCR表现不俗。当压缩比 ≤10倍时,准确率 >95%,几乎无损。在ICDAR 2023数据集里,10倍压缩下准确率达97.3%,速度为8.2页/秒,显存仅4.5GB。与MinerU2.0(6000 + tokens/页,1.5页/秒,12.8GB显存)相比,优势明显。在财报处理上,286页年报表格还原率95.7%,耗时4分钟;论文公式识别率92.1%,LaTeX可直接使用;合同批注关联率89.5%,比Tesseract高27%。

下面来看看具体的测试情况。由于没有进行本地部署,直接使用了HF上一个用Gradio开发的Space(https://huggingface.co/spaces/khang119966/DeepSeek - OCR - DEMO)进行测试。测试样例取自之前对几个大模型(Kimi、Qwen - 3 - 235B - A22B、Claude - 3.7 - sonnet、GPT - 4.1、Gemini 2.5 Pro)在latex公式识别中的表现测试。当时DeepSeek不是多模态,未参与对比,此次刚好补上。

  • 例1是中高难度的模糊手写公式,数字是欧洲写法,如7中间加一横,有一个8写得极像6。之前测试只有Gemini 2.5 Pro能完成任务,DeepSeek - OCR和其他模型一样,把一个模糊的8识别成了6,而且工具中还有一段奇怪的字符串,删掉后才正常。百度Paddle也没完成,同样把8识别成了6。
  • 例2是简单的印刷版公式,这个任务比较简单,DeepSeek - OCR和其他模型都能完成。
  • 例3是多个复杂公式一次识别,DeepSeek - OCR完成得还行,但有瑕疵,中间有奇怪符号且没有换行,而百度完成得很好。
  • 例4是带矩阵运算的复杂公式,DeepSeek - OCR完成得不错。
  • 例5是最高难度的模糊手写公式,公式混在文本中,横线与笔记本自带的线混在一起,只有Gemini 2.5 Pro成功识别,DeepSeek - OCR完成得很一般。

在复杂表格识别方面,DeepSeek - OCR没有把表头识别好,而百度Paddle表现出色。不过,测试时使用的HF的Space很不稳定,很多时候没办法同时展示百度的表现。

总体来看,DeepSeek - OCR确实很优秀,但并非SOTA级别。需要补充说明的是,不是DeepSeek - OCR不好,它有伟大的创新,但在OCR这一块,就这几个实例而言,它确实不如百度PaddleOCR - VL这个0.9B的小模型。此外,调用DeepSeek - OCR把PDF转Markdown的速度极快,22页不到一分钟,但返回的是json格式,正文部分大量,预览起来很费劲,而且它没有去理解配图,其他方面还行。

点击展开全文
打开APP,阅读体验更佳

网友评论

聚超值推荐

更多优惠

相关推荐

相关产品
取消