推荐 GitHub 上开源的一款全自动视频翻译的 AI 工具:VideoLingo。
能够一键全自动对视频进行字幕切割、翻译、精准对齐和个性化配音,最终生成 Netifx 级别的字幕和配音。
GitHub: https://github.com/Huanshere/VideoLingo
具有如下特点:
- 使用 NLP 和 LLM 进行字幕分割;
- 智能术语知识库,实现上下文感知翻译;
- 三步翻译过程:直接翻译 - 反思 - 改进;
- 精确的单词级字幕对齐;
- 使用 GPT-SoVits 克隆音色并生成高质量的配音。
最近很火的 Cursor 代码编辑神器,不少朋友放弃 GitHub Copilot ,转投 Cursor。
在这里,给大家分享一份收集了各种开发语言最佳的 Cursor 配置提示词 cursor.directory。
涵盖 Python、Next.js、TypeScript、Swift、Node.js 等多种主流语言,旨在通过这些配置使 Cursor 提供更好的代码补全、错误修复等功能。
GitHub: https://github.com/pontusab/cursor.directory
在线访问: 网页链接
另外,项目还收集了 Cursor 从入门到实践的使用教程,助大家快速学习并使用它。
推荐 GitHub 上一款一站式自动化影视解说的 AI 视频剪辑工具:NarratoAI。
基于 LLM 实现文案撰写、自动化视频剪辑、配音和字幕生成的一站式流程,影视解说剪辑神器,高效内容创作。
GitHub: https://github.com/linyqh/NarratoAI
支持 Windows 10 或 MacOS 11.0 以上系统,显卡非必须。
GitHub 上开源的一款界面简洁且功能强大的跨平台 IPTV 播放器:IPTVnator。
允许通过文件系统或远程 URL 导入 IPTV 播放列表,具备自动更新播放列表、频道搜索、电视存档、分组频道列表、多种主题等功能。
支持外部播放器,如 mvp 和 VLC,并提供 HTML 视频播放器选项;支持包括中文在内的八种多语言。
GitHub: https://github.com/4gray/iptvnator
提供了 macOS、Windows 和 Linux 安装包,感兴趣的可以下载安装试试。
分享一个开源免费且实用的浏览器插件: code-box。
可以用于目前主流的技术社区网站(如下图),实现无需登录一键复制代码、阅读全文、去除登录弹窗等功能。
GitHub: https://github.com/027xiguapi/code-box
作为一名技术开发者,该插件值得安装一试。
一个基于 LLM 的 OCR 扫描 PDF 开源工具 LLM-Aided OCR。
旨在通过利用多模态大语言模型(LLM)将原始的 OCR 扫描 PDF 文本转换成高准确度、格式正确且易于阅读的 Markdown 文档。
GitHub: https://github.com/Dicklesworthstone/llm_aided_ocr
首先将 PDF 文件转图像,进行 OCR 扫描处理提取文本,再利用本地 LLM 或 API(如 OpenAI、Anthropic)纠正 OCR 错误,最后转换成高准确度、高质量的 Markdown 文本。
分享一份精选机器学习系统的入门资料集合:awesomeMLSys。
收集了一系列有关注意力机制、性能优化、量化、长上下文长度和稀疏性等方面的论文、视频和代码库。
推荐 GitHub 上一款开源免费的 PPT 制作工具: moffee。
能够将 Markdown 文档一键转换为干净、专业的幻灯片,提供 web 界面可实时预览效果。
GitHub: https://github.com/BMPixel/moffee
可让 ChatGPT/Claude 生成定义好的 Markdown 格式,然后再一键转 PPT。
麻省理工出品的一本《决策算法》书籍,可免费下载阅读!
内容涵盖了概率推理、序列决策问题、模型/状态不确定性以及多 Agent 系统,并使用大量示例和练习帮助大家理解不同算法的直觉和应用场景。
在线阅读: 网页链接
通过学习这本书讲解的数学原理和概率算法,希望能帮助到你在学习、工作以及生活等复杂场景下做出科学的决策。
GitHub 上一份颇为全面的检索增强生成(RAG)技术的学习集合:RAG_Techniques。
涵盖了从基础到高级的 22 种 RAG 技术,并且为每项技术提供了详细的文档、实现指南和示例代码,帮助大家更好理解和应用它们。
GitHub: https://github.com/NirDiamant/RAG_Techniques
包括上下文丰富技术、多方面过滤、融合检索、语义分块、知识图谱整合、多模态检索等等。
前几天,百度正式开源了深度学习框架飞桨 3.0 版本,主要面向大模型,适配异构多芯,一体化支撑大模型的训练、推理。
新框架具有动静统一自动并行、编译器自动优化、大模型训推一体、大模型多硬件适配四大能力,全面地提升了服务产业的能力。
为了帮助大家更好的掌握该技术,开发团队将在 7-10 月对外开放《飞桨框架 3.0 全面解析》教程,包括技术解析加代码实战。
带大家掌握核心框架、分布式计算、产业级大模型套件及低代码工具、前沿科学计算技术案例等多个方面的框架技术及大模型训推优化经验,实打实地帮助大家用飞桨 3.0 在实际开发工作中提效创新。
目前该教程已正式开放报名,感兴趣的同学,可以参与一下。
地址: https:// 网页链接
详细教程内容,可见附图1。
推荐一款开源且强大的视频多语言 AI 配音/翻译工具:Linly-Dubbing。
能够一键自动下载全平台视频,对视频字幕进行翻译,还能对原视频进行人声分离,克隆音色并重新配音,再对视频进行合成,全过程自动化。
GitHub: https://github.com/Kedreamix/Linly-Dubbing
具有如下特点:
- 多语言支持:支持中文及多种其他语言的配音和字幕翻译,满足国际化需求。
- AI 智能语音识别:使用 WhisperX/FunASR 进行语音识别,提供精确的语音到文本转换和说话者识别。
- 大型语言模型翻译:使用大语言模型(如GPT),快速且准确地进行翻译,确保专业性和自然性。
- AI 声音克隆:使用 GPT-SoVITS,对原视频配音进行克隆生成高度相似的语音,保持情感和语调的连贯性。
- 数字人对口型技术:通过对口型技术 Linly-Talker,使配音与视频画面高度契合,提升真实性和互动性。
- 自动下载视频:利用 yt-dlp 强大的开源命令行工具,一键自动下载几乎全平台视频。
分享 GitHub 上一份较全面的 ComfyUI 工作流合集 ComfyUI-Yolain-Workflows。
从基础到进阶再到落地应用,涵盖了图生图、细节修复、背景去除、重绘/扩图、人脸迁移、重绘光影、电商产品主图等工作流。
GitHub: https:// 网页链接
一份精心收集机器人领域相关的 3D 视觉论文合集 Awesome-Robotics-3D。
包括政策学习、预训练、VLM 和 LLM、数据集和基准等相关论文、代码和相关网站。
GitHub: https://github.com/zubair-irshad/Awesome-Robotics-3D
如果你是相关研究人员和实践者,该库值得一看希望对你有用。
GitHub 上一个基于 Whisper 的自动语音识别与说话人分离的框架:whisper-diarization。
该框架处理的步骤具体如下:
提取音频中的语音,以提高说话人嵌入的准确性。
使用 Whisper 生成转录。
利用 WhisperX 校正和对齐时间戳,以减少由于时间偏移引起的分离错误。
使用 MarbleNet 进行 VAD(语音活动检测)和分段,以排除静音部分。
使用 TitaNet 提取说话人嵌入,以识别每个分段的说话人。
将提取的说话人信息与 WhisperX 生成的时间戳关联起来,通过标点模型进行重新对齐,以弥补小的时间偏移。
GitHub: https://github.com/MahmoudAshraf97/whisper-diarization
如果你正打算开发如会议记录、视频字幕翻译、音频分析之类的工具,不妨看看该框架。
GitHub 上一款能把 ComfyUI 工作流转换成小程序的开源插件:ComfyUI_Bxb。
通过安装该插件,能够在你现有工作流的基础上,实现一键转换成目前主流平台小程序,并且能支持支付变现。
GitHub: https://github.com/zhulu111/ComfyUI_Bxb
如果你已有能变现的 ComfyUI 工作流,不妨试下该插件,将工作流转换成小程序方便进一步推广。
又一款视频剪辑开源 AI 神器 Clapper。
与传统视频剪辑工具不同,它集成了 StabilityAI、ElevenLabs、Real-ESRGAN、ChatGPT 等等各种类型的 AI。
一键生成图像、视频、语音、音乐等各种视频剪辑需要的素材,然后再进行二次剪辑。
GitHub: https://github.com/jbilcke-hf/clapper
让你能够通过互动、迭代且直观的方式用 AI 制作视频,无需其他外部工具和视频剪辑技能。
推荐 GitHub 上一款开源免费的剪贴板管理工具 EcoPaste。
具有轻量小巧、快捷唤醒、本地存储、智能分组、收藏功能、内置搜索、图片 OCR 等等特性,功能非常全面且操作便捷。
GitHub: https://github.com/ayangweb/EcoPaste/
支持 Windows、macOS 系统安装使用,有需求的不妨试下。
一本开源且免费可在线阅读的英语语法学习书籍:《语法俱乐部》。
该书的编排采用了循序渐进的方式,从初级的简单句,经过中级的复句、合句,再来到高级的简化从句,共分为三大篇幅,细分为二十二章节。
GitHub: https://github.com/llwslc/grammar-club
在线阅读:llwslc.github.io/grammar-club/content/Introduction.html
简单概括下篇幅的内容:
第一篇:介绍简单句的基本句型及其各个部分,包括名词、动词、形容词、副词等,并探讨不定词词组、动名词与分词。
第二篇:探讨复句与合句,强调在掌握简单句的基础上,通过连接词将多个简单句组合起来,形成复杂句子。
第三篇:介绍简化从句,基于复句与合句,将复杂的句子简化为短小精练的高级句型,使表达更加准确和简洁。
通过阅读该书籍希望能够培养出大家的英语能力,建立大家对英语的信心,并增强大家阅读英语的兴趣。
分享 GitHub 上一份带你深入了解 Spring 源码系列学习资料 Spring-Reading。
涵盖了资源加载与访问、Spring 表达式语言、Bean 定义、Aware 接口、核心注解和 Spring AOP 等 Spring 框架的核心概念和关键功能介绍。
GitHub: https://github.com/xuchengsheng/spring-reading
希望这份资料能够帮助到大家更透彻地理解 Spring 内部的工作机制,以便更好地应用到实际工作中。
微信公众号「GitHubDaily」
微博自动同步bot,原则上不搬运广告内容呢,如果自动搬运了广告内容麻烦帮忙点一下举报