**GitHubDaily** @[email protected] · 2025-06-11T10:05:20Z

GitHubDaily @[email protected]

发现 OCR 这个赛道真卷，隔三差五就有新工具出来超越现有的 OCR 工具，这次轮到 MonkeyOCR 登场，对复杂文档解析又快又准。

仅仅 3B 参数，性能超越 Gemini 2.5 Pro 等闭源模型，不仅能精确识别文字、公式和表格，还能保持原有的文档结构和布局关系。

模型下载：huggingface.co/echo840/MonkeyOCR

主要特性：

- 支持中英文多种文档类型解析，包括学术论文、教科书、财务报告等

- 公式识别准确率比传统工具提升 15.0%，表格处理提升 8.6%

- 处理速度达到 0.84 页/秒，比同类工具快 30% 以上

- 3B 参数模型性能超越 Gemini 2.5 Pro 等大型闭源模型

- 支持 PDF 和图片格式输入，输出 Markdown 格式文档

目前模型及代码均已开源，并且提供了在线体验 Demo，感兴趣的同学可以测试下效果。