开会或听重要讲座时,记下的零星笔记,事后常常会忘记关键信息,颇为烦恼,然而用第三方的转录工具又担心隐私安全问题。
最近发现 GitHub 上一款开源免费的 AI 会议助手:Speakr,能解决了这个问题。
它能够完全离线运行,把我们会议录音转成文字、生成摘要,还能让我们通过聊天方式进行内容问答,所有数据都保持到本地安全隐私。
GitHub: https://github.com/murtaza-nasir/speakr
主要功能:
- 支持拖放上传各种格式音频文件(MP3、WAV、M4A)进行转录;
- 自动生成简洁标题和会议内容摘要,帮助快速理解重点;
- 通过聊天界面提问,与会议内容进行交互式对话;
- 内置搜索、收件箱和高亮功能,方便查找和处理关键信息;
- 支持深色模式和完整的用户管理系统;
- 提供强大的管理员面板,可查看系统统计和管理用户。
通过 Docker 一键部署,只需要几分钟即可使用,比较适合那些对数据隐私比较注重的同学使用。
搭建和管理网站时,配置 Nginx 或 OpenResty 往往需要编写复杂的配置文件,还要手动设置 SSL 证书,颇为繁琐。
最近发现一个 OpenResty Manager 开源项目,强大且美观易用的 OpenResty 管理面板。
它提供了可视化界面来设置反向代理、免费 SSL 证书、访问控制和 HTTP 防洪等功能,不需要了解 OpenResty 的内部工作原理,告别繁琐命令就能轻松管理多个网站。
GitHub: https://github.com/Safe3/openresty-manager
主要功能:
- 一键申请免费 SSL 证书,支持 HTTP-01 和 DNS-01 验证方式;
- 简单几步配置反向代理,轻松管理多个网站;
- 内置访问控制和 HTTP 防洪等安全功能保护网站;
- 美观易用的 Web 管理界面,无需懂技术也能操作;
- 支持高级配置选项,满足专业用户需求。
只需要一行命令即可完成安装,同时支持主机和 Docker 两种部署方式,有需要的试试。
平时管理服务器,总是被绑在电脑前面,一旦出门就无法及时查看状态或处理问题,尤其是遇到紧急情况时焦虑与无助感,相信每位运维工程师都遇到过。
偶然间,发现了 Flutter Server Box 这款全平台工具箱,能让我们管理服务器变得随时随地都能进行。
它使用精美的状态图表展示服务器关键信息,并集成了 SSH 终端、SFTP 文件管理、Docker 容器和进程管理等核心功能,一个 App 就能搞定所有操作。
GitHub: https://github.com/lollipopkit/flutter_server_box
主要功能:
- 实时监控 CPU、传感器、GPU 等关键指标,直观掌握服务器健康状态;
- 内置 SSH 终端,随时执行命令不受设备限制;
- SFTP 文件管理,轻松上传下载和编辑服务器文件;
- Docker 容器、进程和 Systemd 服务一键管理;
- 支持生物认证、推送通知和桌面小部件,体验更安心便捷;
- 多平台支持,包括 iOS、Android、Linux 和 Windows 全覆盖。
通过 AppStore 或 GitHub 下载安装即可使用,如果你是一名运维工程师值得看下这款工具。
跟大家分享一款无需 OCR 就能从各类文档中提取结构化信息的本地化开源工具:docext。
利用视觉语言模型(VLM)来识别和提取文档中的字段数据和表格信息,既准确又能保证数据安全隐私。
GitHub: https://github.com/NanoNets/docext
主要功能:
- 灵活提取自定义字段,支持使用预建模板;
- 智能提取文档中的表格数据,保持原始结构;
- 为所有提取的信息提供置信度评分;
- 完全本地部署,支持 Linux 和 MacOS 系统;
- 处理多页文档,无需分页处理;
- 提供 REST API,方便与现有应用集成。
另外,还内置了常见文档类型的模板,适合需要大量处理发票、护照等这些敏感信息的应用场景。
GitHub 上 Awesome-Large-Multimodal-Reasoning-Models 这个开源项目,为我们提供了一个完整的多模态推理模型发展全景图。
来自哈尔滨工业大学(深圳)研究人员,通过综述分析了 550 多篇论文后,构建了从基础模块到高级推理的四阶段发展路线图,清晰展示了多模态推理模型从感知驱动到语言中心再到原生推理的完整演进历程。
GitHub: https://github.com/HITsz-TMG/Awesome-Large-Multimodal-Reasoning-Models
主要内容:
- 系统梳理多模态推理模型的四阶段发展历程(感知驱动、语言中心短推理、语言中心长推理、原生多模态推理);
- 全面收集相关数据集和基准测试,覆盖多模态理解、生成、推理和规划四大类;
- 分析 OpenAI-o3 和 o4-mini 等前沿模型的实验性能和能力边界;
- 探讨原生多模态推理模型(N-LMRMs)的未来发展和技术前景;
- 提供详尽的模型表格比较,包括不同阶段的代表性工作及其特点;
- 配有直观的图表说明,帮助我们更好理解各类模型的演进关系。
这份资料总结了相当全面,能很好帮助我们理解整个 AI 大模型发展路线,值得一看。
分享一份采用 DACA 设计模式从零开始学习 Agentic AI 的教程:Learn Agentic AI,
以 OpenAI Agents SDK 为基础框架,并结合 Dapr 分布式技术栈,从三个层次的课程教授从基础到高级的全栈智能体型 AI 开发,包括容器化部署和 Kubernetes 扩展。
GitHub: https://github.com/panaversity/learn-agentic-ai
主要内容:
- 完整的 DACA(Dapr Agentic Cloud Ascent)设计模式解析与实践;
- 从零开始学习 OpenAI Agents SDK 开发智能体 AI 应用;
- 基于 Dapr 的分布式智能体系统架构与实现细节;
- 三个阶段式课程,从基础理论到行星级规模部署;
- Kubernetes 容器编排与云原生智能体 AI 开发流程;
- 包含模型上下文协议(MCP)和智能体间通信协议(A2A)实现。
项目提供了完整的视频教程和实践指南,同时课程中涉及到的代码示例均已开源,提供 .ipynb 文件可直接运行。
在开发游戏或大型应用时,经常会遇到难以查找的性能瓶颈问题,一旦程序变慢,定位具体原因简直就像大海捞针,特别让人头疼。
给大家推荐一款截止目前已斩获 11.5k Star 的实用开源工具:Tracy Profiler,能以纳秒级精度实时分析应用性能,轻松帮助我们找出性能瓶颈所在。
支持同时分析 CPU、GPU、内存分配、锁和上下文切换等多个维度,还能自动将截图与捕获的帧关联起来,为我们提供全方位的性能监控视图。
GitHub: https://github.com/wolfpld/tracy
主要功能:
- 纳秒级精度的实时性能分析,捕获最细微的性能问题;
- 支持所有主流图形 API(OpenGL、Vulkan、DirectX、Metal 等);
- 多语言支持,包括 C、C++、Lua、Python 和 Fortran 等;
- 内存分配、锁使用和上下文切换的详细追踪;
- 直观的可视化界面,让性能数据一目了然;
- 自动将截图与捕获帧关联,方便分析特定场景。
通过简单的 API 集成即可使用,如果你是一名游戏开发者或追求极致性能的软件工程师,这款工具不妨看下。
在 GitHub 上发现一个能满足 8090 后怀旧感的开源项目:FieldStation42。
它能完美模拟传统有线和广播电视的观看体验,根据当前时间自动播放对应的节目,在频道之间切换时,节目会像真实电视台一样继续播放。
甚至还会自动插入广告和频道标识,仿真度极高,让我们重温那个按时守候电视节目的年代!
GitHub: https://github.com/shane-mason/FieldStation42
主要功能:
- 支持多个同时播放的频道,能无缝切换;
- 自动生成每周节目表,内容新鲜不重复;
- 智能插入广告和频道标识,还原真实;
- 支持电影长度内容和季节性节目设置;
- 支持循环播放的社区公告频道;
- 可配置预览/指南频道,显示当前播放内容。
安装需要一定的 Linux 基础和视频文件处理经验,在 README 文件上提供了详细教程,并且简述了其工作原理,感兴趣的可以看下。
一款能媲美 Suno 的开源音乐模型:ACE-Step,能在极短时间内生成高质量音乐,比传统 AI 模型快 15 倍!
通过结合扩散生成模型和轻量级 Transformer,同时在训练中利用 REPA 技术实现语义对齐,实现生成的音乐既保持高度连贯性,又能精确对齐歌词。
GitHub: https://github.com/ace-step/ACE-Step
主要功能:
- 一键生成完整音乐作品,支持 19 种语言和各种音乐风格;
- 声音克隆、歌词编辑、混音等高级控制机制,灵活调整音乐细节;
- 专用 LoRA 模型可从歌词直接生成人声样本,加速作曲流程;
- 局部重绘功能可选择性修改特定部分,无需重新生成整首歌曲;
- 提供歌词到人声、文本到采样、即将推出的说唱机器和声轨生成等功能;
- 高效性能设计,在 A100 GPU上仅需 20 秒即可合成 4 分钟的音乐;
模型下载:huggingface.co/ACE-Step/ACE-Step-v1-3.5B
在线体验:huggingface.co/spaces/ACE-Step/ACE-Step
目前项目代码和模型均已开源,并且提供了 ComfyUI 节点,方便大家快速使用。
分享 GitHub 上一款精美的代码截图分享开源工具:chalk.ist。
通过简单粘贴代码,选择主题和样式,即可一键生成带有语法高亮的精美代码图片,支持多种编程语言。
GitHub: https://github.com/Idered/chalk.ist
除此之外,还可以添加自定义背景、行号和各种装饰效果,最后可一键导出 PNG 格式图片进行分享。
对于经常需要在社交媒体或编写技术文章中展示代码的同学,该工具值得一试。
如果你使用苹果电脑,不妨看下这款增强预览能力的开源工具:QuickLook Video。
添加了对 .flv、.mkv、.webm 等众多 “非原生” 视频格式的支持,让我们能直接预览几乎所有类型的视频文件。
GitHub: https://github.com/Marginal/QLVideo
主要功能:
- 在 Finder 中显示各种格式视频的缩略图和预览;
- 支持查看视频封面艺术和元数据信息;
- 兼容大量非原生媒体文件类型;
- 无需打开专门的播放器即可预览视频内容;
- 与 macOS 系统完美集成,操作体验一致。
可通过 GitHub 发布页面下载安装包,安装后立即生效,无需额外配置。
平时下载了各种有声书和音频课程,但在手机上听一半换到平板或电脑继续听时,总要手动记住上次听到哪里,特别麻烦。
最近发现的 Folder2Podcast 开源项目解决了这个困扰,它能把我们本地的音频文件夹秒变成私人播客 RSS 源,让跨设备听书变得超简单!
实现零侵入读取本地音频文件,并自动生成标准播客 RSS 订阅源,而且完美兼容 Apple Podcasts、Pocket Casts 等各种主流播客客户端。
GitHub: https://github.com/yaotutu/folder2podcast
主要功能:
- 零侵入设计,不修改原始文件夹结构和内容;
- 自动分析文件名构建剧集顺序,智能生成发布时间;
- 完美支持所有主流播客客户端,享受专业听书体验;
- 跨设备同步收听进度,随时随地接着上次位置听;
- 提供友好的 Web 界面,一键复制订阅地址;
- 支持播客元数据自定义,个性化配置封面和信息。
可通过 Docker 一键部署,简单配置下即可使用,并且提供了详细教程,特别适合喜欢有声书和播客的同学使用。
逛 GitHub 时发现 Cursor 的开源平替 Void 工具,已经狂揽了 15.2k+ Star!
拥有与 Cursor 几乎一样强大的编程功能,最大的不同 Void 是可直接连接任何 AI 模型或使用本地部署模型,无需再经过第三方服务器。
GitHub: https://github.com/voideditor/void
主要功能:
- 按 Tab 键智能补全代码,支持内联编辑(Ctrl+K),操作体验超流畅;
- 强大的 Agent 模式可搜索、创建、编辑文件,甚至有终端访问权限;
- 独特的 Gather 模式提供只读搜索功能,更安全地分析代码库;
- Checkpoints 功能可视化 AI 代码修改,轻松追踪和比较所有变更;
- 即使不支持工具调用的开源模型,也能在 Agent 模式下使用;
- 智能代码错误检测,AI 能主动发现并修复代码问题;
- 超快速应用功能,即使对 1000 行大文件也能即时生效。
基于 VS Code 开发,可一键导入原有主题、快捷键和设置,对于已习惯 VS Code 编辑器的开发者来说颇为友好。
项目完全开源,同时还提供了开箱即用安装包,支持 Windows 和 macOS 系统。
又发现一款高颜值、无广告的 YouTube 开源平替客户端:LibreTube。
采用 Material Design 3 设计风格,提供 Piped API 和本地两种模式稳定流畅获取 YouTube 内容,可自动跳过广告内容。
GitHub: https://github.com/libre-tube/LibreTube
除此之外,支持订阅频道、创建订阅组和自定义播放列表,还可以下载高清视频和后台播放。
值得一提,不需要 Google 服务也能使用,可通过 F-Droid、IzzyOnDroid 应用商店或 GitHub 直接下载安装。
分享 GitHub 上一套开源的精美桌面 UI 组件:GPUI Component。
这是一个基于 GPUI 跨平台组件库,提供 40+ 原生风格组件,并融合了 macOS 和 Windows 两者的设计。
GitHub: https://github.com/longbridge/gpui-component
主要特性:
- 丰富组件库,提供 40+ 跨平台桌面 UI 组件
- 原生风格,融合 macOS、Windows 与 shadcn/ui 设计
- 灵活布局,支持 Dock 面板排列和自由形式布局
- 多主题支持,内置 Theme 与 ThemeColor 系统
- 高性能渲染,虚拟化 Table 和 List 组件处理大数据
- 原生支持 Markdown 和简单 HTML 内容渲染
适合用于 Rust 和 GPUI 框架构建的桌面应用,相关的开发者可以看下。
字节团队开源了一套基于节点编辑的可视化工作流构建引擎:FlowGram,扣子和飞书工作流用的就是这套。
提供了固定布局和自由连线布局两种模式,同时配套完整交互最佳实践,尤其关注如何为工作流赋能 AI 能力。
GitHub: https://github.com/bytedance/flowgram.ai
主要特性:
- 支持固定布局模式,可拖拽节点到指定位置,支持分支、循环等复合节点;
- 提供自由连线布局模式,节点可放置在任意位置并通过自由线条连接;
- 完整的包管理体系,支持多种编辑场景需求;
- 丰富的交互范式,专注于提供流畅的用户体验;
- 内置 AI 相关功能扩展,助力开发智能化工作流。
对于想开发可视化工作流应用的团队来说,这个开源项目不容错过,同时也是个人学习实践工作流的指南。
平时想临时快速和朋友分享文档,通常会选择自己熟悉的在线协作文档,如飞书之类的,但又要登录注册,颇为不方便。
为了寻找开源的、轻量级、快速且可以协作的文档工具,发现了 Leaflet 这个开源项目。
基于区块编辑器构建,无需注册账号就能使用,打开网站即可编辑,还支持多页面、实时协作和主题定制,可以瞬间创建和分享精美的网页文档。
GitHub: https://github.com/hyperlink-academy/leaflet
主要功能:
- 无需账号即可创建文档,一键分享链接给他人;
- 支持实时多人协作编辑,适合团队项目和集体创作;
- 丰富的区块编辑功能,可插入各类媒体内容;
- 多页面支持,可创建简单网站或知识库;
- 自定义主题,让文档展示更具个性;
- 完全在浏览器中运行,不需要安装任何软件。
目前项目已开源,可通过本地代码部署,或在线演示网站使用,完全在浏览器中运行,不需安装任何软件。
在众多公司里,运营方向往往需要数据支撑,而面对复杂且大量数据自己或数据团队都疲于分析,既耗时又耗精力。
现如今有了 AI 之后,可以考虑量身打造一位 AI 数据分析师,而开源项目 Buster 正在做了这事,试图改变我们与数据交互的方式。
让任何人都能用自然语言提问并获得即时图表和分析,同时通过代码化方式管理所有模型和仪表板,支持与 dbt 工具无缝集成。
GitHub: https://github.com/buster-so/buster
主要功能:
- 自然语言查询数据,无需写复杂 SQL 语句;
- 一键生成数据可视化图表和动态仪表板;
- 代码化存储所有模型,支持 CI/CD 和版本控制;
- 与 dbt 工具无缝集成,增强现有数据工作流;
- AI 智能建议数据模型改进,提高数据质量。
项目完全开源,可快速部署在企业环境中,提供了详细教程,有需求的可以看下。
在 GitHub 发现一款能让 Linux 系统切换到可用源的超实用工具:LinuxMirrors。
只需一行命令,无需安装任何依赖,即可自动更换到可用的最快的软件源,解决我们拉取镜像源困难的问题。
GitHub: https://github.com/SuperManito/LinuxMirrors
内置了多个国内镜像站,并且能自动测试各自的链接速度和 IPv6 兼容性,提供稳定快速的源。
并且支持主流的 Linux 系统,如 CentOS、Debian、Ubuntu 等等,有需要的可以试试。
跟大家分享 GitHub 上一款强大的文件转换开源工具:VERT。
无论是图像、音频还是文档,所有常见的格式,均可在浏览器中直接进行互相转换,而且没有文件大小限制。
GitHub: https://github.com/VERT-sh/vert
除此之外,还可以批量处理,界面简洁直接拖放即可一键点击转换,转换速度很快。
项目完全开源免费,可自托管部署使用,也可以直接在线体验已部署好的演示。
微信公众号「GitHubDaily」
微博自动同步bot,原则上不搬运广告内容呢,如果自动搬运了广告内容麻烦帮忙点一下举报