GitHub 上一个开源工具 Torchvista,仅用一行代码即可让 PyTorch 模型变得直观可视化,剖析完整的复杂模型结构。
在 Jupyter、Colab 等笔记本中提供交互式图形界面,不仅能拖拽缩放查看模型结构,还支持点击节点查看参数详情。
GitHub: https://github.com/sachinhosmani/torchvista
适合深度学习的开发者,用来学习或调试 PyTorch 模型,或者理解其复杂的网络结构。
如果我们是使用 Java 语言开发的应用,想要集成 AI 功能,那么 LangChain4j 这个强大的框架值得一看。
该框架专门为 Java 开发者设计,提供了统一 API 快速对接 15+ 个主流 LLM 提供商和向量数据库,如 OpenAI、Google、Anthropic、Pinecone、Milvus 等。
GitHub: https://github.com/langchain4j/langchain4j
并且还包含了从提示模板到 RAG 应用的完整开发工具箱,支持与 Spring Boot、Quarkus 等框架快速集成。
通过 Maven 添加依赖即可开始使用,并提供了详细文档和入门指南可帮助我们快速上手。
在开发应用有集成语音识别功能,往往选择调用各种云端 API,不仅需要担心网络问题,还需要为每次调用付费。
为了解决这个问题,在 GitHub 上发现一个强大的离线开源语音识别工具包:Vosk,已斩获了 10.1k+ Star。
它支持 20 多种语言识别,模型仅 50MB 却能提供连续大词汇量转录,还支持流式 API 和说话人识别等高级功能。
GitHub: https://github.com/alphacep/vosk-api
主要特性:
- 支持英语、中文、俄语、德语、法语等 20+ 种语言
- 完全离线运行,无需网络连接和 API 费用
- 零延迟响应,提供流式 API 接口
- 模型小巧(50MB)支持连续大词汇量转录
- 支持说话人识别和可重新配置词汇表
- 提供 Python、Java、C++、Node.js 等多语言绑定
- 适用于聊天机器人、智能家居、字幕生成等场景
提供了详细安装说明和使用示例,可通过官网下载对应语言模型。
跟大家分享一个开源免费、简单实用的 Chrome 插件:EasyCopy。
通过简单的不同点击操作,快速复制当前网页的标题、URL 和 核心内容。
GitHub: https://github.com/joeseesun/EasyCopy
安装地址: https:// 网页链接
有以下三种不同点击操作:
- 单击:复制当前网页的标题和 URL(各一行)
- 双击:复制当前网页内容为 Markdown
- 三击或右键:一次性复制所有 Tab 标题和 URL 等
对于经常需要获取当前网页内容,用来写作、研究或信息收集非常方便。
分享 GitHub 上一份深入浅出的 PyTorch 基础免费教程:PyTorch Fundamentals。
从张量初始化到矩阵运算,再到索引和重塑操作,涵盖了 PyTorch 最核心的概念。
GitHub: https://github.com/analyticalrohit/pytorch_fundamentals
主要内容:
- 张量基础概念和初始化方法详解
- 张量数学运算和比较操作实践
- 矩阵乘法和批处理操作技巧
- 张量索引和重塑操作指南
- NumPy 数组与张量的转换方法
- 广播机制和其他实用操作技巧
此外,还配有完整的 Jupyter notebook 和详细博客解析,适合深度学习初学者。
Deep Research 的开源平替真的是层出不穷!
逛 GitHub 时,又发现了一款名为 “Open Deep Research MCP Server” 的深度研究助手开源工具。
通过迭代式深度搜索和智能来源评估,它能自动生成目标查询、评估信息可靠性并输出详细的 Markdown 研究报告。
GitHub: https://github.com/Ozamatash/deep-research-mcp
同时还支持 MCP 协议,可集成到 Claude、Cursor 等 AI 工具中。
跟大家分享一款有助于我们培养好习惯的开源追踪应用:Flux。
提供简洁直观的界面,支持三种不同的习惯追踪模式:成就型计数、避免型追踪、简单打卡模式。
GitHub: https://github.com/wisamidris77/flux
并包含详细数据分析,包括成功率、连续天数和整体进度仪表板等,还可以自定义图标和颜色。
让我们能清楚看到每个习惯的改变轨迹,帮助我们建立积极习惯和改掉坏习惯。
在 GitHub 上发现一款功能强大的项目管理看板工具:Kan,可作为 Trello 的开源平替。
提供了完整的看板功能,如团队协作、数据导入、项目管理、标签和过滤器、评论等等。
GitHub: https://github.com/kanbn/kan
并且还能直接从 Trello 导入现有项目,迁移过程非常顺滑。可通过 Docker 快速部署使用。
AirPosture 这款开源 macOS 应用,很有意思!能让 AirPods 摇身一变成为你的坐姿监督教练。
GitHub: https://github.com/allenv0/AirPosture
利用 AirPods 的传感器实时捕捉到我们的不良姿势,并且提供可视化界面。
实时展示我们的不良姿势时间以及头部方向等信息,以助于我们及时调整姿势。
又发现一款专为从复杂文档中高效提取结构化数据的开源 Python 库:Agentic Document Extraction。
该库能够智能识别处理文档中的各种复杂元素,如表格、图片和图表等,并且返回带有精确元素位置的层次化 JSON 数据。
GitHub: https://github.com/landing-ai/agentic-doc
此外,还支持 1000+ 页长文档的自动分页处理,以及并行批量操作,支持输出结构化 JSON 和可读的 Markdown 格式文件。
仅需本地执行一条命令即可安装使用。对于需要处理大量复杂文档的开发者该库值得一看。
GitHub 上一款开源免费的一体化白板工具:Drawnix
基于插件架构开发,集成思维导图、流程图、自由绘画等功能,还支持 Markdown 转思维导图,一个工具搞定所有绘图需求。
GitHub: https://github.com/plait-board/drawnix
主要功能:
- 支持思维导图、流程图、自由绘画等多种绘图模式
- Markdown 文本一键转换为思维导图结构
- Mermaid 语法直接转换为可视化流程图
- 无限画布支持缩放滚动,创作空间不受限制
- 自动保存功能,支持移动设备使用
- 导出 PNG 图片和专用格式,便于分享使用
直接通过访问其演示网站即可使用,也可以部署到自己服务器运行使用。
GitHub 上一个每日自动追踪 arXiv 最新论文的开源工具:daily-arXiv-ai-enhanced。
每天自动爬取 arXiv 最新论文,然后使用 DeepSeek 等大模型生成中文摘要,让我们轻松掌握 AI 领域最新研究动态。
GitHub: https://github.com/dw-dengwei/daily-arXiv-ai-enhanced
主要特性:
- 每日自动爬取计算机视觉、图形学、自然语言处理三大领域论文
- 使用 LLM 自动生成中文摘要,降低阅读门槛
- 支持自定义论文类别、摘要语言和 AI 模型
- 基于 GitHub Actions 全自动运行,无需服务器
- 按日期整理历史记录,方便查阅过往论文
- 可配置个人邮箱和用户信息进行定制化
只需 Fork 项目并配置 API 密钥即可使用,适合每天想了解最新论文的 AI 技术爱好者。
平时在处理文档时,会经常遇到各种各样的格式,如 Word、PDF、扫描件等等,想要整理为统一格式颇为麻烦。
这时候,可以看下 Dedoc 这个开源项目,它能将任意格式文档自动转换为统一结构化格式。
基于机器学习和 OCR 技术,不仅能处理 Office 文档,还能从 PDF 和扫描图片中智能提取表格、文本格式和层级结构。
GitHub: https://github.com/ispras/dedoc
主要功能:
- 支持 DOC/DOCX、PDF、Excel、图像等多种文档格式
- 自动提取文档逻辑结构,包括标题层级和列表关系
- 智能识别和提取表格数据,支持复杂多页表格
- OCR 扫描文档处理,自动纠正文档方向
- 提取文本格式信息,如字体、缩进、样式等
- 支持嵌套文档和压缩包批量处理
项目提供通过 Docker 一键部署方式,也可以在本地 pip 安装使用,适合需要批量处理文档的开发者。
随着 AI 音频生成技术普及,我们创作的音频内容面临被盗用风险,却缺乏有效的版权保护手段,传统水印要么影响音质要么容易被破解。
Perth 这个开源项目恰好解决了这个技术难题,它能为音频添加完全不可感知的水印,真正做到了版权保护和音质兼顾。
基于神经网络技术实现,即使音频经过压缩、重采样等各种处理,水印依然能被准确检测出来,技术相当强大。
GitHub: https://github.com/resemble-ai/Perth
主要功能:
- 基于神经网络的隐式水印技术,抗干扰能力超强
- 支持多种水印算法,适应不同应用需求
- Python API 接口,方便集成到现有项目中
- 音频质量评估工具,确保水印不影响听感
- 支持批量处理,提高工作效率
提供完整的命令行工具,通过 pip 安装,简单几行命令就能完成对音频的水印添加。
阅读复杂的研究论文、技术文档时,想要理清其中的概念关系和知识结构往往特别头疼,手动梳理又费时费力还容易遗漏重要联系。
AI Knowledge Graph Generator 这个开源项目正好解决了这个难题,它能帮我们将文档自动转换为可视化知识图谱。
基于 LLM 技术实现智能文本分析,能自动识别文档中的实体关系,生成主-谓-宾三元组,呈现为交互式图谱。
GitHub: https://github.com/robert-mcdermott/ai-knowledge-graph
主要功能:
- 自动文本分块处理,支持大型文档智能切分
- AI 驱动知识抽取,识别实体间复杂关系
- 实体标准化功能,确保概念命名一致性
- 关系推理增强,发现文档中隐含联系
- 交互式图谱可视化,支持缩放和过滤
- 兼容多种 LLM API,包括 Ollama、OpenAI 等
项目 README 文件详细介绍了该工具是如何工作的,并且提供了轻松上手使用的教程。
Google 开源了一套快速可构建生产级的 DeepResearch 框架:Google Gemini Fullstack LangGraph。
通过 Gemini 的强大推理能力和 LangGraph 的状态管理框架,让我们轻松构建一个能够执行复杂、多步骤、迭代研究流程的 AI 助手。
从动态查询生成 → 网络研究 → 反思分析 → 迭代优化 → 答案综合,整个 Agent 工作流都封装,同时还提供接口可以随意更换其中 API。
GitHub: https://github.com/google-gemini/gemini-fullstack-langgraph-quickstart
如果你在找 DeepResearch 开源平替又或者想做 Research Agent,这个项目都颇为不错。
同时也可以站在巨头的肩膀上学习,适合需要有一定 LangGraph 基础的 AI 开发者。
GitHub 上一款简单易用、快速且免费的文件翻译工具:DeeplxFile。
基于 Deeplx/playwright 实现,不限制文件大小,支持超长文本翻译,支持 DeepL 和主流大模型作为翻译源。
尤其擅长翻译超长且复杂的文档,如超大的 Excel 文件,甚至还能正确显示复杂的引用公式。
GitHub: https://github.com/infrost/DeeplxFile
除此之外,还可以将翻译好的 PDF 文件一键转换为可编辑的 .docx 文档。
并且提供开箱即用的一键安装包,支持Windows 和 macOS 系统。
跟大家分享一款开源免费且实用的浏览器插件: code-box。
用于主流的技术社区网站,如 CSDN、知乎、掘金等,实现无需登录一键复制代码、阅读全文、去除登录弹窗等功能。
GitHub: https://github.com/027xiguapi/code-box
除此之外,还可以一键下载文章成html或markdown文件。
如果你是一名技术开发者,该插件值得安装一试。
来自麻省理工出品的一本《决策算法》书籍,可免费下载阅读!
涵盖了概率推理、序列决策问题、模型/状态不确定性以及多 Agent 系统等内容。
并且提供大量示例和练习帮助大家理解不同算法的直觉和应用场景。
在线阅读: 网页链接
希望通过学习,这本书详解的数学原理和概率算法,帮助到你在工作和生活等复杂场景下做出科学的决策。
GitHub 上一款开箱即用的 Android 设备管理工具:AYA。
基于图形化界面包装了 ADB 的各种功能,包括屏幕镜像、文件管理、应用管理等功能,告别复杂的命令行操作。
GitHub: https://github.com/liriliri/aya
主要功能:
- 屏幕镜像显示,可实时查看设备画面
- 文件浏览器,方便管理设备内文件
- 应用管理器,轻松安装卸载应用
- 进程监控,实时查看系统运行状态
- 布局检查器,帮助调试界面布局
- CPU、内存和 FPS 性能监控
- 日志查看器和交互式终端
支持 Windows、macOS 和 Linux 系统,直接下载安装包即可使用。
微信公众号「GitHubDaily」
微博自动同步bot,原则上不搬运广告内容呢,如果自动搬运了广告内容麻烦帮忙点一下举报