**GitHubDaily** @[email protected] · 2025-04-07T13:00:13Z

GitHubDaily @[email protected]

推荐 GitHub 上一款专为机器学习优化的强大 OCR 工具：Versatile-OCR-Program，能精准提取复杂结构化数据。

支持多语言文本、数学公式、表格、图表和示意图的识别，并为提取的元素添加语义标注和上下文解释，适合制作高质量的 ML 训练数据集。

主要特性：

- 多语言支持，包括日语、韩语和英语，可扩展支持其他语言

- 支持 JSON 和 Markdown 格式输出，包含数学表达式、表格摘要和图像说明

- 准确处理包含密集科学内容和丰富视觉元素的考试风格 PDF

- 自动为视觉内容生成自然语言描述，增强下游模型训练效果

经过测试，在 EJU 生物学和东京大学数学等真实学术数据集上，达到 90-95% 的高准确率。