Follow

发现 OCR 这个赛道真卷,隔三差五就有新工具出来超越现有的 OCR 工具,这次轮到 MonkeyOCR 登场,对复杂文档解析又快又准。

仅仅 3B 参数,性能超越 Gemini 2.5 Pro 等闭源模型,不仅能精确识别文字、公式和表格,还能保持原有的文档结构和布局关系。

GitHub: github.com/Yuliang-Liu/MonkeyO

模型下载:huggingface.co/echo840/MonkeyOCR

主要特性:

- 支持中英文多种文档类型解析,包括学术论文、教科书、财务报告等

- 公式识别准确率比传统工具提升 15.0%,表格处理提升 8.6%

- 处理速度达到 0.84 页/秒,比同类工具快 30% 以上

- 3B 参数模型性能超越 Gemini 2.5 Pro 等大型闭源模型

- 支持 PDF 和图片格式输入,输出 Markdown 格式文档

目前模型及代码均已开源,并且提供了在线体验 Demo,感兴趣的同学可以测试下效果。

:icon_weibo: weibo.com/5722964389/Pw3Nqgcwc

Sign in to participate in the conversation
小森林

每个人都有属于自己的一片森林,也许我们从来不曾走过,但它一直在那里,总会在那里。迷失的人迷失了,相逢的人会再相逢。愿这里,成为属于你的小森林。