发现 OCR 这个赛道真卷,隔三差五就有新工具出来超越现有的 OCR 工具,这次轮到 MonkeyOCR 登场,对复杂文档解析又快又准。

仅仅 3B 参数,性能超越 Gemini 2.5 Pro 等闭源模型,不仅能精确识别文字、公式和表格,还能保持原有的文档结构和布局关系。

GitHub: github.com/Yuliang-Liu/MonkeyO

模型下载:huggingface.co/echo840/MonkeyOCR

主要特性:

- 支持中英文多种文档类型解析,包括学术论文、教科书、财务报告等

- 公式识别准确率比传统工具提升 15.0%,表格处理提升 8.6%

- 处理速度达到 0.84 页/秒,比同类工具快 30% 以上

- 3B 参数模型性能超越 Gemini 2.5 Pro 等大型闭源模型

- 支持 PDF 和图片格式输入,输出 Markdown 格式文档

目前模型及代码均已开源,并且提供了在线体验 Demo,感兴趣的同学可以测试下效果。

:icon_weibo: weibo.com/5722964389/Pw3Nqgcwc

苹果开源了一个可在 macOS 系统上高效运行 Linux 容器的工具:container。

基于 Swift 原生开发并针对苹果芯片深度优化,完全兼容 OCI 标准容器镜像,可以直接拉取任何标准容器仓库的镜像并运行。

GitHub: github.com/apple/container

主要特性:

- 创建和管理轻量级 Linux 容器虚拟机

- 支持从任何标准容器仓库拉取镜像运行

- 构建和推送 OCI 兼容的容器镜像

- 针对 Apple Silicon 芯片性能优化

- Swift 原生实现,系统集成度更高

- 完整的容器生命周期管理功能

提供开箱即用的安装包,可在项目的发布页面下载,双击安装即可使用。

:icon_weibo: weibo.com/5722964389/Pw1rj3sOv

GitHub 上一份精心整理的大语言模型微调学习资源:Awesome LLMs Fine-Tuning,为我们提供了完整的微调学习资源库。

从开源实用工具到学术论文的各类资源,并且按照教程、工具、书籍、框架、最佳实践等分类整理。

GitHub: github.com/Curated-Awesome-Lis

主要内容:

- 开源工具:AutoTrain、LLaMA-Factory、H2O LLM Studio 等实用工具

- 文章教程:从入门指南到高级技巧的完整学习路径

- 在线课程:Coursera、Udemy 等平台的专业课程推荐

- 学术论文:QLoRA、LoRA 等前沿研究成果汇总

- 实用工具:PEFT、Ludwig AI 等微调框架和软件

- 视频资源:包含 Andrej Karpathy 等专家的讲解视频

对于想要系统学习 LLM 微调技术的开发者来说,这个项目是个不错资源。

:icon_weibo: weibo.com/5722964389/PvTo2yRIJ

GitHub 上一个按公司分类整理好的 Leetcode 题目资源库:Leetcode Company wise Problems Lists,专为准备技术面试的开发者收集。

通过收集 LeetCode Premium 上按公司标签分类的题目,涵盖 Meta、Amazon、Google 等 100+ 知名科技公司。

GitHub: github.com/liquidslr/leetcode-

并且按照 30 天、60 天、90 天和全部时间进行分类整理成 CSV 文件,方便我们直接查看和使用。

项目一直在持续更新,最新收集的题目为 6 月 1 号,正准备面试的开发者可以 Star 收藏查看。

:icon_weibo: weibo.com/5722964389/PvS3q9lql

平时使用 ToDesk、向日葵这类远程软件时,免费版总有各种限制颇为头疼,比如时长限制、画质限制,想远程个手机还得额外花钱。

无独有偶,在 GitHub 上发现了它们的开源平替 BilldDesk 工具,完全免费且无任何限制。

不仅支持电脑控制电脑,还能实现网页控制手机、屏幕墙等高级功能,完全不输商业软件。

GitHub: github.com/galaxy-s10/billd-de

主要功能:

- 跨平台远程控制,支持 Web、Windows、macOS、Linux、Android

- 无连接时长限制,无画质限制,完全免费使用

- 支持同时控制多台设备和多人同时远程一台设备

- 屏幕墙功能,可同时监控多个桌面画面

- 文件传输、多屏操作、按键组合等实用功能

- 支持私有化部署,企业可自建服务器

提供完整生态的客户端下载,包括桌面版、移动端和 Web 版本,可在发布页面下载使用。

:icon_weibo: weibo.com/5722964389/PvLxnu1FM

给毕业季的同学推荐一个开源免费的在线简历制作工具:ResumeToJob。

通过该工具可快速创建专业美观的简历,支持实时编辑和一键导出 PDF,数据完全本地存储,更好的保护自己隐私。

GitHub: github.com/ltlylfun/ResumeToJo

主要特性:

- 内置多种精美简历模板可选择

- 响应式设计,支持手机和电脑使用

- 数据本地存储,注重隐私保护

- 一键导出 PDF 格式简历

- 支持中英文界面切换

- Markdown 格式支持,编辑更简单

- 实时预览效果,所见即所得的编辑体验

工具提供一个自托管在线网站,可直接访问使用,也可以自己本地部署。

:icon_weibo: weibo.com/5722964389/PvKy4z8jR

跟大家分享一个开源、跨平台、轻量级的图片压缩工具:PicSharp。

提供 TingyPNG 在线压缩和本地压缩两种策略,还支持文件夹监视模式,可以自动压缩新添加的图片文件。

GitHub: github.com/AkiraBit/PicSharp

主要功能:

- 强大批处理能力,基于 Rust 实现,轻松处理 10 万+ 图片

- 双重压缩策略,TinyPNG 和本地压缩自动切换使用

- 自动监视模式,监控文件夹并自动压缩新增图片

- 支持多种格式,PNG、JPEG、WebP、AVIF、GIF 等

- 丰富配置选项,压缩级别、保存方式、压缩率限制等

提供 Mac、Windows 和 Linux 安装包,可在发布页面下载,Mac 系统还可通过 Finder 右键菜单快速压缩。

:icon_weibo: weibo.com/5722964389/PvJXy1Re0

当我们开源了一个项目,通常想要更多国外开发者也能了解到我们的项目,但每次需要将 README 文件翻译成多种语言,颇为麻烦。

不妨试下 OpenAiTx 这款开源免费的工具,刚好能解决这个需求。

它能将任何 GitHub 项目一键生成 20 种语言的 README 翻译版,采用的是 GPT-4.1 模型,翻译质量不错。

GitHub: github.com/OpenAiTx/OpenAiTx

并且提供了多种展示样式,可以选择徽章或链接格式,放到项目的 README 文件中。

目前可免费使用,无需注册或配置,只需要将项目链接中的 github 替换为 openaitx 即可触发翻译。

:icon_weibo: weibo.com/5722964389/PvIAGBtlw

GitHub 上 AI Screenshot Translator 这款简单实用的截图翻译工具,解决了对于图像扫描的外文 PDF 文件,无法直接复制文本翻译问题。

通过自定义快捷键一键截图,AI 自动识别并翻译图片中的文字,能完美解决 PDF 数学公式复制难题。

GitHub: github.com/Diraw/AI-Screenshot

此外,可自定义 API 接口,支持多种主流模型,还支持多窗口贴片管理,随意拖放缩放对比翻译结果。

提供了开箱即用的安装包,可在项目的 GitHub 发布页面下载安装使用。

:icon_weibo: weibo.com/5722964389/PvCGZBOAN

又发现一款开源免费的视频搬运工神器:Y2A-Auto,一键将 YouTube 上的优质视频搬运到 AcFun。

提供了全套完整的自动化解决方案,从视频下载,到翻译字幕,最后自动上传到平台,甚至还支持内容审核。

GitHub: github.com/fqscfqj/Y2A-Auto

除此之外,可自动监控 YouTube 趋势视频和指定频道,提供 Web 界面管理和浏览器插件支持。

支持 Docker 一键部署,启动后可在 Web 界面上配置完 LLM API Key 即可使用。

:icon_weibo: weibo.com/5722964389/PvC6t08Kd

GitHub 上一个开源工具 Torchvista,仅用一行代码即可让 PyTorch 模型变得直观可视化,剖析完整的复杂模型结构。

在 Jupyter、Colab 等笔记本中提供交互式图形界面,不仅能拖拽缩放查看模型结构,还支持点击节点查看参数详情。

GitHub: github.com/sachinhosmani/torch

适合深度学习的开发者,用来学习或调试 PyTorch 模型,或者理解其复杂的网络结构。

:icon_weibo: weibo.com/5722964389/PvBvW01Lz

如果我们是使用 Java 语言开发的应用,想要集成 AI 功能,那么 LangChain4j 这个强大的框架值得一看。

该框架专门为 Java 开发者设计,提供了统一 API 快速对接 15+ 个主流 LLM 提供商和向量数据库,如 OpenAI、Google、Anthropic、Pinecone、Milvus 等。

GitHub: github.com/langchain4j/langcha

并且还包含了从提示模板到 RAG 应用的完整开发工具箱,支持与 Spring Boot、Quarkus 等框架快速集成。

通过 Maven 添加依赖即可开始使用,并提供了详细文档和入门指南可帮助我们快速上手。

:icon_weibo: weibo.com/5722964389/PvB7A7DEx

在开发应用有集成语音识别功能,往往选择调用各种云端 API,不仅需要担心网络问题,还需要为每次调用付费。

为了解决这个问题,在 GitHub 上发现一个强大的离线开源语音识别工具包:Vosk,已斩获了 10.1k+ Star。

它支持 20 多种语言识别,模型仅 50MB 却能提供连续大词汇量转录,还支持流式 API 和说话人识别等高级功能。

GitHub: github.com/alphacep/vosk-api

主要特性:

- 支持英语、中文、俄语、德语、法语等 20+ 种语言

- 完全离线运行,无需网络连接和 API 费用

- 零延迟响应,提供流式 API 接口

- 模型小巧(50MB)支持连续大词汇量转录

- 支持说话人识别和可重新配置词汇表

- 提供 Python、Java、C++、Node.js 等多语言绑定

- 适用于聊天机器人、智能家居、字幕生成等场景

提供了详细安装说明和使用示例,可通过官网下载对应语言模型。

:icon_weibo: weibo.com/5722964389/PvAzADkeX

跟大家分享一个开源免费、简单实用的 Chrome 插件:EasyCopy。

通过简单的不同点击操作,快速复制当前网页的标题、URL 和 核心内容。

GitHub: github.com/joeseesun/EasyCopy

安装地址: https:// 网页链接

有以下三种不同点击操作:

- 单击:复制当前网页的标题和 URL(各一行)

- 双击:复制当前网页内容为 Markdown

- 三击或右键:一次性复制所有 Tab 标题和 URL 等

对于经常需要获取当前网页内容,用来写作、研究或信息收集非常方便。

:icon_weibo: weibo.com/5722964389/PvtguEabs

分享 GitHub 上一份深入浅出的 PyTorch 基础免费教程:PyTorch Fundamentals。

从张量初始化到矩阵运算,再到索引和重塑操作,涵盖了 PyTorch 最核心的概念。

GitHub: github.com/analyticalrohit/pyt

主要内容:

- 张量基础概念和初始化方法详解

- 张量数学运算和比较操作实践

- 矩阵乘法和批处理操作技巧

- 张量索引和重塑操作指南

- NumPy 数组与张量的转换方法

- 广播机制和其他实用操作技巧

此外,还配有完整的 Jupyter notebook 和详细博客解析,适合深度学习初学者。

:icon_weibo: weibo.com/5722964389/PvsYeuGoM

Deep Research 的开源平替真的是层出不穷!

逛 GitHub 时,又发现了一款名为 “Open Deep Research MCP Server” 的深度研究助手开源工具。

通过迭代式深度搜索和智能来源评估,它能自动生成目标查询、评估信息可靠性并输出详细的 Markdown 研究报告。

GitHub: github.com/Ozamatash/deep-rese

同时还支持 MCP 协议,可集成到 Claude、Cursor 等 AI 工具中。

:icon_weibo: weibo.com/5722964389/PvsEzAmfO

跟大家分享一款有助于我们培养好习惯的开源追踪应用:Flux。

提供简洁直观的界面,支持三种不同的习惯追踪模式:成就型计数、避免型追踪、简单打卡模式。

GitHub: github.com/wisamidris77/flux

并包含详细数据分析,包括成功率、连续天数和整体进度仪表板等,还可以自定义图标和颜色。

让我们能清楚看到每个习惯的改变轨迹,帮助我们建立积极习惯和改掉坏习惯。

:icon_weibo: weibo.com/5722964389/PvjQ0bzCb

在 GitHub 上发现一款功能强大的项目管理看板工具:Kan,可作为 Trello 的开源平替。

提供了完整的看板功能,如团队协作、数据导入、项目管理、标签和过滤器、评论等等。

GitHub: github.com/kanbn/kan

并且还能直接从 Trello 导入现有项目,迁移过程非常顺滑。可通过 Docker 快速部署使用。

:icon_weibo: weibo.com/5722964389/PviEWdxvX

AirPosture 这款开源 macOS 应用,很有意思!能让 AirPods 摇身一变成为你的坐姿监督教练。

GitHub: github.com/allenv0/AirPosture

利用 AirPods 的传感器实时捕捉到我们的不良姿势,并且提供可视化界面。

实时展示我们的不良姿势时间以及头部方向等信息,以助于我们及时调整姿势。

:icon_weibo: weibo.com/5722964389/PvigApydG

又发现一款专为从复杂文档中高效提取结构化数据的开源 Python 库:Agentic Document Extraction。

该库能够智能识别处理文档中的各种复杂元素,如表格、图片和图表等,并且返回带有精确元素位置的层次化 JSON 数据。

GitHub: github.com/landing-ai/agentic-

此外,还支持 1000+ 页长文档的自动分页处理,以及并行批量操作,支持输出结构化 JSON 和可读的 Markdown 格式文件。

仅需本地执行一条命令即可安装使用。对于需要处理大量复杂文档的开发者该库值得一看。

:icon_weibo: weibo.com/5722964389/PvhG3ok55

Show older
小森林

每个人都有属于自己的一片森林,也许我们从来不曾走过,但它一直在那里,总会在那里。迷失的人迷失了,相逢的人会再相逢。愿这里,成为属于你的小森林。