如果想深入学习大模型预训练相关知识,可以看下这份资料合集:Awesome LLM Pre-training。
精心整理了预训练相关的技术报告、训练策略、开源数据集以及数据方法等内容,提供了一站式的学习入口。
GitHub: https://github.com/RUCAIBox/awesome-llm-pretraining
无论是熟悉深度学习的开发者,还是刚接触大模型开发的新手,这份资料对我们学习大模型预训练非常实用。
月之暗面开源了一个音频基础模型:Kimi Audio,能同时处理音频理解、生成和对话。
基于 Kwen 2.5 7B 模型构建,实现既能输出高质量文本又能生成自然语音,解决了我们处理音频时来回切换不同工具的痛点。
GitHub: https://github.com/MoonshotAI/Kimi-Audio
模型下载:huggingface.co/moonshotai/Kimi-Audio-7B-Instruct
主要特性:
- 语音识别(ASR)性能超越多个基准,在 AISHELL-1 上 WER 仅为 0.60%;
- 支持音频理解任务,包括声音分类、音频问答和情感识别;
- 端到端语音对话能力,支持语速、口音和情感控制;
- 高效的流式处理机制,实现低延迟音频生成;
- 开源评估工具包,可轻松复现和对比不同模型性能;
- 预训练于超过 1300 万小时的多样化音频和文本数据。
模型 Kimi-Audio-7B-Instruct 已发布,可通过 HuggingFace 下载使用。
在尝试使用 MCP 服务器时,很多人都遇到过安装配置繁琐、环境依赖复杂的问题,特别需要同时管理多个 MCP 服务器,更加头疼。
开源项目 MCP Containers 试图改变这一现状,它将数百个常用 MCP 服务器打包成即用即取的 Docker 镜像,直接一键部署各种 AI 能力扩展的 MCP 工具。
GitHub: https://github.com/metorial/mcp-containers
主要功能:
- 一键部署体验,通过简单的 Docker 命令即可使用任何 MCP 服务器
- 自动更新机制,服务器镜像每日更新,始终与源仓库同步
- 安全隔离环境,各服务器在独立容器中运行互不干扰
- 支持数百种 MCP 服务器,从网络搜索、浏览器控制到各类 API 集成
- 丰富的文档和使用指南,帮助快速上手
只需拉取需要的 Docker 镜像即可,同时每一个 MCP 服务器都有详细的使用教程。
在阅读学术论文时,总是被一堆专业术语和复杂公式绕晕,特别是外语论文,遇到不懂的单词,还需要与翻译工具来回切换,效率极低。
最近一个中文名叫 “暴躁的教授读论文” 的开源项目拯救了我们,它让一位带有点脾气的 AI 教授来辅助我们高效阅读论文。
该工具不仅能自动提取论文内容并支持中英双语对照阅读,还能用暴躁有趣的语气回答我们对论文的各种问题,甚至支持语音对话,让阅读专业文献不再枯燥无味。
GitHub: https://github.com/LYiHub/mad-professor-public
主要功能:
- 论文自动处理:导入 PDF 后自动提取、翻译和结构化内容
- 中英文对照阅读:随时切换语言,减少查词翻译困扰
- AI 智能问答:针对论文内容提供专业解释和分析
- 个性化”暴躁教授”:以幽默暴躁风格解答,增加趣味性
- 语音交互:支持语音提问和 AI 语音回答
- 分屏高效界面:左侧论文内容,右侧 AI 问答
提供了详细的安装步骤,需 6GB 以上显存运行,适合需要高效阅读论文的学术党使用。
平时在做市场调研或数据收集时,经常需要在十几个网站之间不停切换,复制粘贴信息,然后手动整理成报告,真的特别耗时又容易出错。
今日 GitHub Trending 榜首开源项目 Suna,解决了这个痛点,通过简单对话就能完成任务。
它将浏览器自动化、文件管理、网络爬虫和 API 集成等强大功能无缝结合,帮助我们分析竞争对手、规划行程、处理数据,甚至自动执行复杂工作流程,全程只需通过自然对话即可完成。
GitHub: https://github.com/kortix-ai/suna
主要功能:
- 智能浏览器自动化,能模拟人类操作网页并提取数据
- 强大的文件管理功能,可创建和编辑各类文档
- 网络爬虫和扩展搜索能力,轻松获取多源信息
- 命令行执行能力,可直接执行系统任务
- 支持与各种 API 和服务的集成,扩展使用场景
- 所有操作都在隔离的 Docker 环境中执行,保证安全
适合用来高效处理信息收集和分析,有需求的可通过自托管方式安装使用,提供了详细的教程。
想要让玩具、公仔变得会说话、有情感,现有的方案要么太贵太复杂,要么就是需要一直连着手机,用起来特别不方便。
为了解决这些问题,GitHub 上开源项目 ElatoAI 给出了解决方案,基于 ESP32 微控制器和 OpenAI Realtime API 开发。
它能让你的玩具变成真正的 AI 伙伴,支持超过 10 分钟的连续自然对话,语音识别和回应都非常流畅。
GitHub: https://github.com/akdeb/ElatoAI
主要功能:
- 实时语音转语音:基于 OpenAI 实时 API,对话极其自然流畅
- 自定义 AI 角色:可以设置不同的性格和声音
- 简单硬件设计:只需一块 ESP32-S3 开发板即可实现
- 安全通信:使用加密 WebSocket 传输数据
- 全球低延迟:依靠 Deno Edge Functions 实现全球范围内低于 1 秒的延迟
该项目的前端、服务器和固件代码已开源,对 AI 玩具或 AI 伴侣等产品感兴趣的开发者可以看下。
作为开发者,用 AI 写代码时最痛苦的不是让它生成代码,而是让它理解整个项目架构和任务依赖关系。之前总是要手动解释每个任务,反复上下文…颇为折磨。
Task Master这个项目彻底解决了这个问题!它让 Claude 像一位经验丰富的项目经理一样思考,自动拆解 PRD(需求文档),生成任务列表,并追踪进度。
GitHub: https://github.com/eyaltoledano/claude-task-master
主要特性:
- 自动解析 PRD 并生成结构化任务体系,包含 epic 和子任务
- 管理任务间的依赖关系,确保开发顺序合理
- 直接在编辑器中通过自然语言沟通整个开发流程
- 让 AI 按照人类工程师的思维模式进行任务分析和执行
- 无缝整合进现有开发工作流,降低 AI 使用门槛
可通过编辑 MCP 配置,轻松接入到 Cursor 或 Windsurf 等开发编辑器,让它成为我们高效的开发伙伴。
以前分享过不少不同文件转 Markdown 的工具,后来发现 Markdown 转其他文件格式同样也是有需求。
在此跟大家分享一款 Markdown 转换为 Docx 文档的开源工具:markdown-docx。
支持图片、表格、列表、代码块等 Markdown 元素,以及超链接与脚注,并可自定义样式。
GitHub: https://github.com/vace/markdown-docx
允许在浏览器和 Node.js 环境运行,并提供命令行工具,有需求的可以试试。
推荐 GitHub 上一款强大的社交媒体内容分析 AI 工具:Secretary。
利用该工具自动抓取监控指定账号的最新发表内容,通过 AI 进行分析,并将结构推送到企业/个人微信。
GitHub: https://github.com/zkd8907/secretary
主要功能:
- 支持多平台监控(Twitter 和 Truth Social)
- 可配置多个监控账号和分析提示词
- 支持多维度分析(财经、科技等)
- 使用 AI 进行内容翻译和智能分析
- 支持推送到企业微信机器人和个人微信
提供了详细的使用指南,按要求配置好环境变量后,即可运行。
又一款开源免费的会议笔记 AI 工具:Hyprnote。
使用开源模型 Whisper 和 Llama,可完全离线运行,自动录音、转录会议内容,并结合我们随手记下的要点一键生成高质量的会议总结。
GitHub: https://github.com/fastrepl/hyprnote
所有数据存储在本地安全隐私,并提供类似 VSCode 的扩展框架,可根据自己需求进行高度定制。
目前已提供 macOS 版本,可通过 Homebrew 一键安装,未来还会推出 Windows 和 Linux 版本。
往后阅读长篇小说时,我们可以快速了解到各个角色之间的关系了,对故事线将会有更加整体理解。
我们可以利用 GitHub 上这款由 AI 驱动的书籍角色关系可视化工具:Austen。
它能自动分析任何书籍的人物关系并生成美观易懂的交互式关系图标,帮助我们更直观地把握故事脉络。
GitHub: https://github.com/herol3oy/austen
主要特性:
- 搜索并分析 Open Library 上的任何书籍
- AI 智能分析书中人物关系并生成图谱
- 生成直观易懂的 Mermaid 关系图表
- 支持保存、下载(SVG、PNG)和管理生成的图表
- 可选择公开分享图表或保持私密
- 发现并浏览其他用户生成的公开图表
提供详细的本地部署方式,按照 README 中的步骤即可完成安装。
又在 GitHub 上发现一份从零开始构建 LLM 的开源教程:tiny-llm。
基于 MLX 实现,教授了如何在 Mac 电脑上一步步构建出一个大模型,整个教程不使用复杂的高级接口,而是从最基础的教学运算开始讲解。
GitHub: https://github.com/skyzh/tiny-llm
主要内容:
- 三周学习计划:从简单的 Python 代码到复杂的性能优化;
- 手把手实现大语言模型的核心组件:注意力机制、位置编码等;
- 详细解释每个组件背后的原理,附有大量参考资料;
- 以主流的 Qwen2 模型为例,帮助我们理解大模型是如何工作的;
- 适合想了解 AI 底层技术的技术爱好者和工程师。
教程适合在 Mac电脑上学习,面向想了解 AI 底层技术的系统工程师和开发者。
有时候在编码时,我们会利用白板工具进行构思绘制工作流程,但在与代码编辑器之间来回切换,不仅会打断思路还降低开发效率。
为了解决这个问题,GitHub 上一款开源工具:pad.ws,它将白板与 IDE 开发工具完美融合,直接在同一界面完成从构思到代码实现的全过程。
GitHub: https://github.com/pad-ws/pad.ws
主要特性:
- 基于 Excalidraw 的交互式白板,用于绘图和可视化创意
- 内置完整 IDE 环境,直接在白板中访问终端和 VS Code
- 浏览器友好,支持从任何设备访问开发环境
- 在视觉构思和编码之间无缝切换,保持创作流畅
- 支持通过开发工具,如 VS Code 和 Cursor 连接使用
允许通过 Docker 进行自托管部署使用,同时也提供了在线体验版,有需求的同学不妨试下。
在工作学习中,有时候需要用到 Linux 环境,传统虚拟机安装,往往会面临配置复杂、占用大量资源等问题。
跟大家分享一款完全运行在浏览器中的 Linux 虚拟机:WebVM,无需安装任何软件。
打开网页即可使用完整的 Debian 系统,包括原生开发工具链和 Alpine/Xorg/i3 图形环境,非常适合用来学习 Linux。
GitHub: https://github.com/leaningtech/webvm
主要特性:
- 基于 HTML5/WebAssembly 的服务器端无关虚拟环境
- Linux ABI 兼容,运行未修改的 Debian 发行版
- 通过 Tailscale 集成提供完整网络支持
- 可自定义 Dockerfile 并部署个人版本
- 支持 Claude AI 集成,提供智能问答助手功能
- 完全在客户端运行,保证安全的沙盒环境
可以通过 Fork 项目并启用 GitHub Pages 快速部署,也支持本地运行自定义 Debian 迷你磁盘镜像。
在网上找到的视频资源时,往往是 Torrent 还需要下载到本地,有时候网络慢等上半天才能看上电影。
给大家推荐一款强大的 Torrent 视频流媒体 Web 应用:BitPlay。
它能让我们直接在浏览器中播放种子视频,无需等待完整下载,同时支持 SOCKS,还集成了 Prowlarr 和 Jackett 搜索功能,一站式解决资源查找问题。
GitHub: https://github.com/aculix/bitplay
主要功能:
- 直接串流:从磁力链接或种子文件直接播放视频,无需完整下载
- 简洁的 Web 界面:通过浏览器访问和控制,操作简单直观
- SOCKS5 代理支持:为所有种子相关流量配置代理,保护隐私
- 搜索集成:连接 Prowlarr 或 Jackett 实例,在应用内直接搜索多个索引器
- 实时字幕转换:自动将 SRT 字幕转换为浏览器兼容的 VTT 格式
提供 Docker 一键部署方式,也支持直接用 Go 运行,适合各种使用场景。
GitHub 上一份全面系统的计算机科学自学指南:CS 自学指南,最近更新到 1.1.0 版本,已斩获 62.3k Star!。
涵盖了从编程语言到算法、操作系统、人工智能、机器学习等几十个计算机领域的知识。
GitHub: https://github.com/PKUFlyingPig/cs-self-learning
旨在帮助我们少走弯路,高效系统地学习 CS 专业知识,值得每个人收藏阅读。
在构建 AI 智能体时,我们经常需要于外部工具和数据源进行交互,但往往非常复杂需要编写大量代码。
现在有一款实用的 AI 智能体开发工具:LangGraph Agents + MCP,解决了这个痛点。
提供 Streamlit 界面,在可视化界面动态添加、删除和配置 MCP 工具,轻松访问各种数据源和 LangGraph ReAct 智能体交互。
GitHub: https://github.com/teddynote-lab/langgraph-mcp-agents
此外,还支持实时流式显示智能体响应和工具调用过程,并支持跟踪和管理完整的历史对话。
提供了 Docker 一键部署方式,无需复杂配置,支持 Claude 和 GPT 等多种模型。
并且还附带了详细的 Jupyter 教程,帮助我们理解 MCP 和 LangGraph 的集成原理。
在网上找图片素材时,经常会遇到各种水印干扰,手动去除耗时耗力,使用工具大部分又要付费。
跟大家推荐一款强大的 AI 水印移除工具:WatermarkRemover-AI,完全开源免费。
它结合了微软的 Florence-2 精确水印检测和 LaMA 模型无缝修复技术,能智能识别并完美去除各类水印。
GitHub: https://github.com/D-Ogi/WatermarkRemover-AI
主要功能:
- 同时支持单张图片处理和整个文件夹批量处理
- 采用先进的开放词汇检测技术,精确识别各种水印
- 使用 LaMA 模型进行上下文感知修复,填充效果自然
- 可自定义水印检测的最大尺寸和透明度
- 支持多种输出格式(PNG、WEBP、JPG)设置
提供便捷的一键安装脚本,支持 GUI 图形界面和命令行两种使用方式,无需 GPU 也能流畅运行。
工作中每天需花大量时间处理邮件,却依然清理不完,重要邮件容易被淹没,忘记回复的情况经常发生。
如果你有以上情况,可以看下这款开源的 AI 邮件助手:Inbox Zero。
它能帮助我们快速达成 “零收件箱” 目标,通过 AI 智能分类、自动处理邮件,大幅减少在邮件上的时间投入。
GitHub: https://github.com/elie222/inbox-zero
主要功能:
- AI 个人助手:自定义提示词管理邮件,可执行回复、标记、归档等操作
- 回复追踪:监控需要回复的邮件和等待他人回复的邮件
- 智能分类:对所有发件人进行分类整理
- 一键批量退订:快速退订从不阅读的邮件
- 冷邮件拦截器:自动拦截推销邮件
- 邮件分析:追踪每日、每周和每月的邮件活动统计
支持 Vercel 一键部署,并提供了详细的自托管指南和 Docker 配置。
现在每个人都想基于自己的需求进行开发 MCP 服务器,但复杂的协议细节和服务器管理,大大降低了我们开发效率。
给大家分享一个高效构建 MCP 服务器和客户端的开源 Python 框架:FastMCP。
GitHub: https://github.com/jlowin/fastmcp
主要特性:
- 使用简洁的装饰器语法定义工具、资源和提示,减少样板代码
- 支持智能体和组合 MCP 服务器,构建复杂应用
- 内置 OpenAPI 和 FastAPI 集成,轻松将现有 API 转换为 MCP 服务
- 内置图像处理能力,轻松处理图像输入和输出
- 提供全面的客户端功能,包括 LLM 采样和资源访问
推荐通过 uv 安装使用, 支持 Claude Desktop 一键支持,方便开发和使用。
微信公众号「GitHubDaily」
微博自动同步bot,原则上不搬运广告内容呢,如果自动搬运了广告内容麻烦帮忙点一下举报