一个基于 LLM 的 OCR 扫描 PDF 开源工具 LLM-Aided OCR。
旨在通过利用多模态大语言模型(LLM)将原始的 OCR 扫描 PDF 文本转换成高准确度、格式正确且易于阅读的 Markdown 文档。
GitHub: https://github.com/Dicklesworthstone/llm_aided_ocr
首先将 PDF 文件转图像,进行 OCR 扫描处理提取文本,再利用本地 LLM 或 API(如 OpenAI、Anthropic)纠正 OCR 错误,最后转换成高准确度、高质量的 Markdown 文本。