英伟达开源了一个超强的语音识别模型:Parakeet TDT 0.6B V2,登顶 OpenASR 榜单。
它能够在 1 秒内实现高质量转录 60 分钟的音频,而且参数仅仅 0.6B,轻松击败了所有主流闭源模型。
模型下载:huggingface.co/nvidia/parakeet-tdt-0.6b-v2
排行榜单:huggingface.co/spaces/hf-audio/open_asr_leaderboard
不过目前仅支持识别英文,采用的是 CC-BY-4.0 开源许可,允许商业使用。
Excel MCP Server 这款 MCP 服务器颇为实用,通过 AI 助手直接操作 Excel 文件,或许不用再装微软 Excel 办公软件了。
目前已经实现创建、读取和修改 Excel 表格数据,甚至还能应用格式、创建图表和透视表,相当于拥有一个专业的 Excel 助手。
GitHub: https://github.com/haris-musa/excel-mcp-server
可通过 Cursor、Claude 等 MCP 客户端使用,感兴趣的同学可以试试。
每天面对一堆任务和目标,却总是注意力分散,加上拖延症作祟,眼看着待办清单越来越长,却始终无法高效执行。
面对这些痛点,给大家推荐一款高效的生产力工具:karman ,它用极简界面和三大核心功能,帮我们重拾专注力和执行力!
基于 Flutter 开发,干净简洁的任务管理系统、习惯养成追踪和番茄工作法计时器,而且开源免费且不收集任何用户数据,让我们更专注于重要的事。
GitHub: https://github.com/surtecha/karman
主要功能:
- 简洁直观的任务管理,轻松组织和优先处理待办事项;
- 习惯养成追踪功能,建立长期可持续的日常良好习惯;
- 内置番茄工作法计时器,提升专注力和深度工作能力;
- 极简设计理念,消除一切可能分散注意力的元素;
- 注重隐私保护,不收集或追踪用户数据。
可通过 GitHub 发布页面或 Google Play 商店,下载安装包安装即可使用。
又发现了一款强大的 Deep Research 开源平替工具,主打一个快速!
仅需 2 分钟即可生成一份全面的深度研究报告,结合了 “深度思考” 和 “联网”,支持多种主流大模型,通过各种搜索引擎获取最新信息。
GitHub: https://github.com/u14app/deep-research
除此之外,还支持内容编辑,可调整阅读难度、文章长度和全文翻译等,所有数据本地处理和存储,保障隐私安全。
允许一键部署到 Vercel 和 Cloudflare,也支持 Docker 本地快速部署,有需要的可以试试。
在阅读 PDF 英文论文时,常常会被各种专业术语或复杂表达卡住,于是来回进行查看翻译,特别影响阅读效率。
如果你刚好在使用 Zotero 这款开源的文献管理工具,建议搭配这款 PDF2zh 翻译插件。
它能帮助我们一键将整篇论文翻译成中文,还能保留原文进行对照学习,支持多种翻译服务,同时还能处理数学公式,甚至能将双栏论文转为单栏方便在手机上阅读。
GitHub: https://github.com/guaguastandup/zotero-pdf2zh
主要功能:
- 一键翻译英文 PDF 论文,支持仅中文或中英双语对照格式;
- 翻译时自动保留数学公式和图表,不影响论文排版;
- 支持多种翻译引擎,包括 Bing、DeepSeek、智谱等;
- 智能将双栏论文转为单栏,极大提升手机阅读体验;
- 可自定义中文字体,推荐使用霞鹜文楷提升可读性。
使用教程,先通过本地代码或 Docker 部署安装 PDF2zh 和 配置翻译服务,然后再到 Zotero 工具配置插件参数,在 README 文件上提供了详细教程,有需求的可以看下。
通常我们在面试前,会对即将面试的公司进行了解,在国内可使用天眼查,但想查看完整信息需要支付高额费用,而自己去查又费时费力。
给大家推荐使用 Agentic Company Researcher 这个开源项目,一键自动生成全面公司研究报告。
它集成多个 AI 智能体分别从公司网站、新闻、财报等多种来源收集信息,并结合 Gemini 和 ChatGPT 大模型进行内容筛选与合成,生成一份高质量报告。
GitHub: https://github.com/pogjester/company-research-agent
主要功能:
- 多源数据自动收集,整合公司网站、新闻和财报信息;
- 基于 Tavily 的 AI 内容筛选,确保信息相关性;
- 实时进度流式传输,随时查看研究进展;
- 双模型架构,Gemini 处理大量数据,GPT-4.1 负责精确排版;
- 现代化 React 前端界面,支持实时更新和下载;
- 模块化智能体架构,支持灵活扩展和定制。
可通过克隆代码到本地,并简单配置下 API Key,即可使用。
每次看到有新出的大模型都想部署使用,但往往需考虑自己电脑配置是否够用,别辛辛苦苦部署完推理速度确慢得像蜗牛一样,甚至不能用浪费精力与时间。
在此给大家推荐一款能直观预估大模型部署所需的硬件资源的工具:LLM Inference VRAM Calculator。
通过简单设置模型类型、量化精度、批处理大小等参数,就能实时计算出所需显存、生成速度和吞吐量,甚至能看到详细的内存分配情况和多 GPU 扩展性能。
在线使用:apxml.com/tools/vram-calculator
而且上面可选择的模型紧跟主流,包含最新的 Qwen3 系列模型。想要部署大模型又担心硬件不足的开发者可以先到这里预估参考看下。
分享 GitHub 上一份精心整理的机器人模拟器资源列表:best-of-robot-simulators。
涵盖了 9 大类共 110 个优秀工具,包含通用机器人模拟器、2D 模拟器、物理引擎、无人机模拟器等类别。
GitHub: github.com/knmcguire/best-of-robot-simulators
列表中的项目按照 Star、Fork 、Issue 数量以及 Commit 提交活跃数进行质量评分排序,同时保持每周更新,方便大家快速找到优质项目。
如果你是一名机器人模拟器开发者,相信这份资料合集对你有一定帮助,节省了大量筛选时间。
平时在处理论文、报告、产品文档这类资料时,为了找到特定信息往往需要逐页查找,或者依赖传统搜索工具,特别是处理大量文档时更是耗时又费力。
面对这一困境,Kotaemon 这个开源项目让我们能直接与文档进行对话,通过聊天方式即可提取所需的各种信息,彻底改变了我们与文档交互的方式!
它采用混合检索技术结合大语言模型,在提供答案的同时还会附上详细引用和文档预览,支持表格和图片识别,甚至能够处理复杂推理需求,让检索体验更精准高效。
GitHub: https://github.com/Cinnamon/kotaemon
主要功能:
- 支持多用户登录,可将文件整理成私人/公共集合并分享
- 兼容流行的 API 服务商和本地 LLM 模型,保护隐私数据
- 多模态文档解析,支持提取图表和表格中的信息
- 高级引用系统,在浏览器中直接预览原文并高亮相关内容
- 复杂推理支持,能够处理多步骤问题和复杂查询
- 可定制设置界面,允许调整检索和生成过程的关键参数
只需通过 Docker 或 Python 环境安装即可使用,支持本地部署保护敏感数据。
一份精心收集整理的系统设计面试资源列表:system-design,已狂揽 15.4k Star!
旨在帮助大家通过系统设计面试,并提供很多知名科技公司的实战案例,如实时游戏排行榜、缓存一致性、实时协作、数据库迁移策略等。
GitHub: https://github.com/systemdesign42/system-design
另外,还收集了很多有关系统设计的基础知识,以助大家学习。
在 GitHub 上发现一份从零开始学习机器学习算法教程:Machine-Learning。
包含了神经网络和 Transformer 模型的详细解释,以及关键的 Python 实现代码,如 Neuron、Layer 和 NeuralNetwork 类。
GitHub: https://github.com/DorsaRoh/Machine-Learning
此外,还提供了关于机器学习的视频格式内容和相关的 Jupyter Notebook 文件。
分享 GitHub 上一份收集整理了一站式的大模型微调笔记合集: Unsloth Notebooks。
提供 40+ 份笔记,涵盖了从 Llama 3 到 Phi 4、Mistral、Qwen 2.5 等几乎所有主流开源模型,每个笔记本都有详细的注释和指南,便于我们直接上手微调训练模型。
GitHub: https://github.com/unslothai/notebooks
主要内容:
- 按模型类型分类的微调笔记本(Llama、Phi、Mistral、Qwen、Gemma 等)
- 多种训练方法(GRPO、DPO、Alpaca、会话微调等)全覆盖
- 视觉模型专用笔记本(Llama 3.2、Qwen 2.5 VL 等)
- 语音合成模型训练资源(如 Orpheus TTS)
- 所有笔记本都为 Colab 和 Kaggle 环境优化
只需点击相应的链接即可开始测试,想快速入门与实践大模型微调的开发者值得一看。
此前分享过的一本开源书籍《动手学大模型》,从基础到高级通俗易懂地讲解了如何理解和应用大模型。
今天发现其 GitHub 仓库上更新补充了一些关于 LLM 视觉教程,帮助我们理解复杂 AI 概念的问题。
这系列教程保持以往书中的可视化风格,通过精美图解讲解 Transformer、Mamba 等高级概念,让抽象理论变得超直观。
GitHub: https://github.com/HandsOnLLM/Hands-On-Large-Language-Models/tree/main/bonus
包括如下主要内容:
- 通过视觉化图解深入讲解 Transformer LLM 工作原理;
- 直观解释模型量化技术,理解如何高效部署大模型;
- 图解 Mamba 和状态空间模型的创新设计与优势;
- 讲解专家混合系统(MoE)如何实现更大规模模型;
- 可视化解析 Stable Diffusion 图像生成技术原理;
- 深入剖析 DeepSeek-R1 和 LLM 推理能力与 Agent 系统。
在开始这份教程学习之前,建议大家先看完《动手学模型》这本书籍后再来看这里的补充。
接收新项目或许阅读开源代码库时,往往理解代码结构和功能需要花费大量时间,特别面对缺乏文档介绍的复杂项目更让人头疼。
现在有了 DeepWiki Open 开源项目,这个痛点将彻底被解决,让我们高效理解任何代码库。
它利用 AI 智能分析代码结构,自动生成全面的文档和可视化图表,并将所有内容组织成一个易于导航的 Wiki,让复杂代码库变得一目了然。
GitHub: https://github.com/AsyncFuncAI/deepwiki-open
主要功能:
- 一键将任何 GitHub 或 GitLab 仓库转换为交互式 wiki 文档
- 支持私有仓库访问,确保项目安全性
- AI 驱动的智能代码分析和关系理解
- 自动生成 Mermaid 图表显示架构和数据流
- 简洁直观的界面方便探索整个项目结构
使用 Docker 只需几行命令即可部署运行,如果你是一名开发者这个工具不妨了解下。
在选择云储存备份一些大文件时,占用大量存储空间会导致我们成本飙升。
最近发现的一款名为 “Kopia” 开源项目,提供了端到端加密和智能存储功能,能有效帮我们降低存储成本。
它通过高效的压缩和去重技术大幅减少存储空间,同时支持几乎所有主流云存储平台,包括 S3、Azure、Google Cloud 等,还能备份到本地或网络存储。
GitHub: https://github.com/kopia/kopia
主要功能:
- 端到端”零知识”加密,确保数据绝对安全
- 智能压缩和去重技术,大幅节省存储空间和成本
- 支持多种云存储、网络和本地存储选项,超级灵活
- 同时提供命令行和图形界面,适合各类用户使用
- 错误校正功能,确保备份数据完整可靠
- 增量备份机制,只备份变更部分,速度超快
提供了 Windows、macOS 和 Linux 安装包,可通过 GitHub 发布页直接下载安装使用。
每次新装完 Windows 系统后,要一个个手动安装软件、清理臃肿组件、优化各种设置,这个过程既耗时又繁琐。
最近发现一款开源免费的 Windows 系统管理工具:WinUtil,能帮助我们完成大量繁琐操作,节省不少维护时间。
通过简单的 PowerShell 命令一键启动,提供了软件批量安装、系统优化、故障排除和更新修复四大功能模块,整个界面简洁直观,操作起来特别轻松。
GitHub: https://github.com/ChrisTitusTech/winutil
主要功能:
- 一键批量安装常用软件,省去到处找安装包的麻烦
- 系统去臃肿工具,移除无用组件提升性能
- 系统配置优化,自动调整最佳设置
- Windows 更新修复工具,解决更新相关问题
- 简洁直观的图形界面,不需要记忆复杂命令
- 开源且持续更新,跟进最新 Windows 变化
只需在管理员模式下运行 PowerShell 并输入简单命令即可使用,适合刚装完系统或想提升系统性能的 Windows 用户。
在 GitHub 上发现一款简直是技术面试者的辅助开源神器:CodeInterviewAssist。
它能够创建一个对 Zoom 等视频软件不可见的窗口,再利用 AI,自动分析截图中的题目,并给出代码解法,甚至还能提供实时调试帮助。
GitHub: https://github.com/greeneu/interview-coder-withoupaywall-opensource
主要功能:
- 99% 隐形窗口,能绕过大多数屏幕捕获方式;
- AI 驱动的截图分析,自动提取并理解编程问题;
- 生成详细解答,包含时间/空间复杂度分析;
- 实时代码调试,提供结构化反馈和优化建议;
- 灵活的窗口管理,可自由移动、调整透明度;
- 多种编程语言支持,一键切换语言偏好。
通过本地部署安装,简单配置下,即可使用,需要 OpenAI API Key。
看到昨天 DeepSeek 开源的 DeepSeek-Prover-V2 模型官方介绍了。
该模型改变了我们处理形式化数学证明的方式,将复杂定理自动分解为简单子目标,并生成严谨的 Lean 4 证明代码。
同时结合了 DeepSeek-V3 模型的推理能力与强化学习,大幅提升了解题效率。
主要信息概括:
- 提供 7B 和 671B 两种参数规模的模型选择;
- 长上下文窗口支持(7B 模型支持 32K 令牌);
- 在 miniF2F 测试集上达到 88.9% 的通过率,斩获第一;
- 能解决 49 个 PutnamBench 难题(共 658 个);
- 包含 325 个形式化数学问题的 ProverBench 测试集。
GitHub: https:// 网页链接
模型下载: 网页链接
数据集: 网页链接
详细介绍可到 GitHub 上查看论文,目前模型以及数据集均已开源。
厉害了!这个应该会是老板们喜欢的开源免费工具:ScreenPipe。
它能够对我们的电脑进行 24 小时监控,不仅能录制屏幕、语音、键盘、鼠标和摄像头等数据,还能将这些数据保存到本地数据库。
GitHub: https://github.com/mediar-ai/screenpipe
最后,通过 AI 助手直接对话、总结、回顾我们在电脑上所做过的事情。
提供了 Windows 和 macOS 系统开箱即用的安装包,有需要的不妨安装试试。
给喜欢跑步的大家推荐一款开源免费的跑步数据整合工具:Running Page。
它能自动同步 Nike、Keep、佳明等平台的数据,并生成一个简单又美观的个人专属跑步主页。
GitHub: https://github.com/yihong0618/running_page
除了能将轨迹优美地呈现在地图上,还能生成年度、月度的统计图表,让我们的跑步数据可视化。
并且最近还更新了一个实用功能,利用 AI 一键自动生成跑步分享图,超好看。
感兴趣的可通过 Vercel 或 GitHub Pages 一键部署,简单配置平台账号信息即可使用。
微信公众号「GitHubDaily」
微博自动同步bot,原则上不搬运广告内容呢,如果自动搬运了广告内容麻烦帮忙点一下举报