发现 OCR 这个赛道真卷,隔三差五就有新工具出来超越现有的 OCR 工具,这次轮到 MonkeyOCR 登场,对复杂文档解析又快又准。

仅仅 3B 参数,性能超越 Gemini 2.5 Pro 等闭源模型,不仅能精确识别文字、公式和表格,还能保持原有的文档结构和布局关系。

GitHub: github.com/Yuliang-Liu/MonkeyO

模型下载:huggingface.co/echo840/MonkeyOCR

主要特性:

- 支持中英文多种文档类型解析,包括学术论文、教科书、财务报告等

- 公式识别准确率比传统工具提升 15.0%,表格处理提升 8.6%

- 处理速度达到 0.84 页/秒,比同类工具快 30% 以上

- 3B 参数模型性能超越 Gemini 2.5 Pro 等大型闭源模型

- 支持 PDF 和图片格式输入,输出 Markdown 格式文档

目前模型及代码均已开源,并且提供了在线体验 Demo,感兴趣的同学可以测试下效果。

:icon_weibo: weibo.com/5722964389/Pw3Nqgcwc

苹果开源了一个可在 macOS 系统上高效运行 Linux 容器的工具:container。

基于 Swift 原生开发并针对苹果芯片深度优化,完全兼容 OCI 标准容器镜像,可以直接拉取任何标准容器仓库的镜像并运行。

GitHub: github.com/apple/container

主要特性:

- 创建和管理轻量级 Linux 容器虚拟机

- 支持从任何标准容器仓库拉取镜像运行

- 构建和推送 OCI 兼容的容器镜像

- 针对 Apple Silicon 芯片性能优化

- Swift 原生实现,系统集成度更高

- 完整的容器生命周期管理功能

提供开箱即用的安装包,可在项目的发布页面下载,双击安装即可使用。

:icon_weibo: weibo.com/5722964389/Pw1rj3sOv

GitHub 上一份精心整理的大语言模型微调学习资源:Awesome LLMs Fine-Tuning,为我们提供了完整的微调学习资源库。

从开源实用工具到学术论文的各类资源,并且按照教程、工具、书籍、框架、最佳实践等分类整理。

GitHub: github.com/Curated-Awesome-Lis

主要内容:

- 开源工具:AutoTrain、LLaMA-Factory、H2O LLM Studio 等实用工具

- 文章教程:从入门指南到高级技巧的完整学习路径

- 在线课程:Coursera、Udemy 等平台的专业课程推荐

- 学术论文:QLoRA、LoRA 等前沿研究成果汇总

- 实用工具:PEFT、Ludwig AI 等微调框架和软件

- 视频资源:包含 Andrej Karpathy 等专家的讲解视频

对于想要系统学习 LLM 微调技术的开发者来说,这个项目是个不错资源。

:icon_weibo: weibo.com/5722964389/PvTo2yRIJ

GitHub 上一个按公司分类整理好的 Leetcode 题目资源库:Leetcode Company wise Problems Lists,专为准备技术面试的开发者收集。

通过收集 LeetCode Premium 上按公司标签分类的题目,涵盖 Meta、Amazon、Google 等 100+ 知名科技公司。

GitHub: github.com/liquidslr/leetcode-

并且按照 30 天、60 天、90 天和全部时间进行分类整理成 CSV 文件,方便我们直接查看和使用。

项目一直在持续更新,最新收集的题目为 6 月 1 号,正准备面试的开发者可以 Star 收藏查看。

:icon_weibo: weibo.com/5722964389/PvS3q9lql

Show older
小森林

每个人都有属于自己的一片森林,也许我们从来不曾走过,但它一直在那里,总会在那里。迷失的人迷失了,相逢的人会再相逢。愿这里,成为属于你的小森林。