Marker:一个能够快速且准确地将 PDF、EPUB 和 MOBI 文档转换成 Markdown 格式的工具。
该工具有如下特点:
- 能够处理各种类型的 PDF 文件,特别是针对书籍和学术论文进行了优化;
- 自动去除文档中的非主要元素,如页眉和页脚;
- 能够将大部分的数学方程公式转换成 LaTeX 格式;
- 对代码块和表格进行格式化处理;
- 支持多种语言,尽管大部分测试语言为英语;
- 可以在不同的计算环境下运行,包括 GPU、CPU 或 MPS。
GitHub: https://github.com/VikParuchuri/marker
作者声称:转换速度比 Nougat 快 10 倍,且在非专业领域文档上的准确性更高。
Nougat 是 Meta AI 推出的一个 OCR 神器,可以轻松将 PDF 文档转换为 MultiMarkdown,尤其擅长复杂数学公式。
更多 Nougat 介绍可看:facebookresearch.github.io/nougat/
@GitHubDaily 昨天在丐版m1 mb air 上试着跑了一下,能跑动