推荐 GitHub 上一款专为机器学习优化的强大 OCR 工具:Versatile-OCR-Program,能精准提取复杂结构化数据。
支持多语言文本、数学公式、表格、图表和示意图的识别,并为提取的元素添加语义标注和上下文解释,适合制作高质量的 ML 训练数据集。
GitHub: https://github.com/ses4255/Versatile-OCR-Program
主要特性:
- 多语言支持,包括日语、韩语和英语,可扩展支持其他语言
- 支持 JSON 和 Markdown 格式输出,包含数学表达式、表格摘要和图像说明
- 准确处理包含密集科学内容和丰富视觉元素的考试风格 PDF
- 自动为视觉内容生成自然语言描述,增强下游模型训练效果
经过测试,在 EJU 生物学和东京大学数学等真实学术数据集上,达到 90-95% 的高准确率。