请登录登录

实测！DeepSeek最新开源OCR模型，多数场景竟不如百度Paddle

PConline 2025-11-10 10:12:44

AI快讯

由华为云驱动

近日，科技媒体实测了DeepSeek最新开源OCR模型。DeepSeek - OCR有视觉压缩等创新，长文本处理出色。但测试中，在手写公式、复杂表格识别等方面，它表现有瑕疵，对比之下不敌百度PaddleOCR - VL。不过，其PDF转Markdown速度快。此测试揭示了不同OCR模型的优劣，值得关注。

近日，OCR领域似乎迎来了黄金时代，众多模型纷纷涌现，像百度的PaddleOCR - VL、阿里Qwen3 - VL、小红书的dots - ocr、Nanonets - OCR2等。其中，DeepSeek发布了《DeepSeek - OCR：基于视觉压缩的大模型长上下文增强方案》论文，并同步开源了模型文件。

DeepSeek - OCR有两个核心。一个是纯粹的OCR，这也是本次测试的重点；另一个是上下文光学压缩（Contexts Optical Compression），它解决了大模型在长上下文处理上的算力瓶颈。这一技术让AI的“记忆”更像人类，或许是通往下一代智能的钥匙。DeepSeek - OCR通过视觉压缩实现“以小博大”，在长文本处理上突破了算力与精度的平衡，还得到了Andrej Jarpathy的极高评价。

在OCR方面，DeepSeek - OCR表现不俗。当压缩比 ≤10倍时，准确率 >95%，几乎无损。在ICDAR 2023数据集里，10倍压缩下准确率达97.3%，速度为8.2页/秒，显存仅4.5GB。与MinerU2.0（6000 + tokens/页，1.5页/秒，12.8GB显存）相比，优势明显。在财报处理上，286页年报表格还原率95.7%，耗时4分钟；论文公式识别率92.1%，LaTeX可直接使用；合同批注关联率89.5%，比Tesseract高27%。

下面来看看具体的测试情况。由于没有进行本地部署，直接使用了HF上一个用Gradio开发的Space（https://huggingface.co/spaces/khang119966/DeepSeek - OCR - DEMO）进行测试。测试样例取自之前对几个大模型（Kimi、Qwen - 3 - 235B - A22B、Claude - 3.7 - sonnet、GPT - 4.1、Gemini 2.5 Pro）在latex公式识别中的表现测试。当时DeepSeek不是多模态，未参与对比，此次刚好补上。

例1是中高难度的模糊手写公式，数字是欧洲写法，如7中间加一横，有一个8写得极像6。之前测试只有Gemini 2.5 Pro能完成任务，DeepSeek - OCR和其他模型一样，把一个模糊的8识别成了6，而且工具中还有一段奇怪的字符串，删掉后才正常。百度Paddle也没完成，同样把8识别成了6。
例2是简单的印刷版公式，这个任务比较简单，DeepSeek - OCR和其他模型都能完成。
例3是多个复杂公式一次识别，DeepSeek - OCR完成得还行，但有瑕疵，中间有奇怪符号且没有换行，而百度完成得很好。
例4是带矩阵运算的复杂公式，DeepSeek - OCR完成得不错。
例5是最高难度的模糊手写公式，公式混在文本中，横线与笔记本自带的线混在一起，只有Gemini 2.5 Pro成功识别，DeepSeek - OCR完成得很一般。

在复杂表格识别方面，DeepSeek - OCR没有把表头识别好，而百度Paddle表现出色。不过，测试时使用的HF的Space很不稳定，很多时候没办法同时展示百度的表现。

总体来看，DeepSeek - OCR确实很优秀，但并非SOTA级别。需要补充说明的是，不是DeepSeek - OCR不好，它有伟大的创新，但在OCR这一块，就这几个实例而言，它确实不如百度PaddleOCR - VL这个0.9B的小模型。此外，调用DeepSeek - OCR把PDF转Markdown的速度极快，22页不到一分钟，但返回的是json格式，正文部分大量，预览起来很费劲，而且它没有去理解配图，其他方面还行。

点击展开全文