麻省理工出品的一本《决策算法》书籍,可免费下载阅读!
内容涵盖了概率推理、序列决策问题、模型/状态不确定性以及多 Agent 系统,并使用大量示例和练习帮助大家理解不同算法的直觉和应用场景。
在线阅读: 网页链接
通过学习这本书讲解的数学原理和概率算法,希望能帮助到你在学习、工作以及生活等复杂场景下做出科学的决策。
GitHub 上一份颇为全面的检索增强生成(RAG)技术的学习集合:RAG_Techniques。
涵盖了从基础到高级的 22 种 RAG 技术,并且为每项技术提供了详细的文档、实现指南和示例代码,帮助大家更好理解和应用它们。
GitHub: https://github.com/NirDiamant/RAG_Techniques
包括上下文丰富技术、多方面过滤、融合检索、语义分块、知识图谱整合、多模态检索等等。
前几天,百度正式开源了深度学习框架飞桨 3.0 版本,主要面向大模型,适配异构多芯,一体化支撑大模型的训练、推理。
新框架具有动静统一自动并行、编译器自动优化、大模型训推一体、大模型多硬件适配四大能力,全面地提升了服务产业的能力。
为了帮助大家更好的掌握该技术,开发团队将在 7-10 月对外开放《飞桨框架 3.0 全面解析》教程,包括技术解析加代码实战。
带大家掌握核心框架、分布式计算、产业级大模型套件及低代码工具、前沿科学计算技术案例等多个方面的框架技术及大模型训推优化经验,实打实地帮助大家用飞桨 3.0 在实际开发工作中提效创新。
目前该教程已正式开放报名,感兴趣的同学,可以参与一下。
地址: https:// 网页链接
详细教程内容,可见附图1。
推荐一款开源且强大的视频多语言 AI 配音/翻译工具:Linly-Dubbing。
能够一键自动下载全平台视频,对视频字幕进行翻译,还能对原视频进行人声分离,克隆音色并重新配音,再对视频进行合成,全过程自动化。
GitHub: https://github.com/Kedreamix/Linly-Dubbing
具有如下特点:
- 多语言支持:支持中文及多种其他语言的配音和字幕翻译,满足国际化需求。
- AI 智能语音识别:使用 WhisperX/FunASR 进行语音识别,提供精确的语音到文本转换和说话者识别。
- 大型语言模型翻译:使用大语言模型(如GPT),快速且准确地进行翻译,确保专业性和自然性。
- AI 声音克隆:使用 GPT-SoVITS,对原视频配音进行克隆生成高度相似的语音,保持情感和语调的连贯性。
- 数字人对口型技术:通过对口型技术 Linly-Talker,使配音与视频画面高度契合,提升真实性和互动性。
- 自动下载视频:利用 yt-dlp 强大的开源命令行工具,一键自动下载几乎全平台视频。
分享 GitHub 上一份较全面的 ComfyUI 工作流合集 ComfyUI-Yolain-Workflows。
从基础到进阶再到落地应用,涵盖了图生图、细节修复、背景去除、重绘/扩图、人脸迁移、重绘光影、电商产品主图等工作流。
GitHub: https:// 网页链接
一份精心收集机器人领域相关的 3D 视觉论文合集 Awesome-Robotics-3D。
包括政策学习、预训练、VLM 和 LLM、数据集和基准等相关论文、代码和相关网站。
GitHub: https://github.com/zubair-irshad/Awesome-Robotics-3D
如果你是相关研究人员和实践者,该库值得一看希望对你有用。
GitHub 上一个基于 Whisper 的自动语音识别与说话人分离的框架:whisper-diarization。
该框架处理的步骤具体如下:
提取音频中的语音,以提高说话人嵌入的准确性。
使用 Whisper 生成转录。
利用 WhisperX 校正和对齐时间戳,以减少由于时间偏移引起的分离错误。
使用 MarbleNet 进行 VAD(语音活动检测)和分段,以排除静音部分。
使用 TitaNet 提取说话人嵌入,以识别每个分段的说话人。
将提取的说话人信息与 WhisperX 生成的时间戳关联起来,通过标点模型进行重新对齐,以弥补小的时间偏移。
GitHub: https://github.com/MahmoudAshraf97/whisper-diarization
如果你正打算开发如会议记录、视频字幕翻译、音频分析之类的工具,不妨看看该框架。
GitHub 上一款能把 ComfyUI 工作流转换成小程序的开源插件:ComfyUI_Bxb。
通过安装该插件,能够在你现有工作流的基础上,实现一键转换成目前主流平台小程序,并且能支持支付变现。
GitHub: https://github.com/zhulu111/ComfyUI_Bxb
如果你已有能变现的 ComfyUI 工作流,不妨试下该插件,将工作流转换成小程序方便进一步推广。
又一款视频剪辑开源 AI 神器 Clapper。
与传统视频剪辑工具不同,它集成了 StabilityAI、ElevenLabs、Real-ESRGAN、ChatGPT 等等各种类型的 AI。
一键生成图像、视频、语音、音乐等各种视频剪辑需要的素材,然后再进行二次剪辑。
GitHub: https://github.com/jbilcke-hf/clapper
让你能够通过互动、迭代且直观的方式用 AI 制作视频,无需其他外部工具和视频剪辑技能。
推荐 GitHub 上一款开源免费的剪贴板管理工具 EcoPaste。
具有轻量小巧、快捷唤醒、本地存储、智能分组、收藏功能、内置搜索、图片 OCR 等等特性,功能非常全面且操作便捷。
GitHub: https://github.com/ayangweb/EcoPaste/
支持 Windows、macOS 系统安装使用,有需求的不妨试下。
一本开源且免费可在线阅读的英语语法学习书籍:《语法俱乐部》。
该书的编排采用了循序渐进的方式,从初级的简单句,经过中级的复句、合句,再来到高级的简化从句,共分为三大篇幅,细分为二十二章节。
GitHub: https://github.com/llwslc/grammar-club
在线阅读:llwslc.github.io/grammar-club/content/Introduction.html
简单概括下篇幅的内容:
第一篇:介绍简单句的基本句型及其各个部分,包括名词、动词、形容词、副词等,并探讨不定词词组、动名词与分词。
第二篇:探讨复句与合句,强调在掌握简单句的基础上,通过连接词将多个简单句组合起来,形成复杂句子。
第三篇:介绍简化从句,基于复句与合句,将复杂的句子简化为短小精练的高级句型,使表达更加准确和简洁。
通过阅读该书籍希望能够培养出大家的英语能力,建立大家对英语的信心,并增强大家阅读英语的兴趣。
分享 GitHub 上一份带你深入了解 Spring 源码系列学习资料 Spring-Reading。
涵盖了资源加载与访问、Spring 表达式语言、Bean 定义、Aware 接口、核心注解和 Spring AOP 等 Spring 框架的核心概念和关键功能介绍。
GitHub: https://github.com/xuchengsheng/spring-reading
希望这份资料能够帮助到大家更透彻地理解 Spring 内部的工作机制,以便更好地应用到实际工作中。
分享一份开源公务员考试的最佳实践指南: developer2gwy。
由一群从程序员上岸成为公务员的朋友共同编写,分享记录了他们的上岸经历,体制内生活以及心路历程。
GitHub: https://github.com/miss-mumu/developer2gwy
涵盖了公考的基本知识、备考最佳实践、常见的问题、面试手册以及大家比较关心的一些问答等内容。
分享 GitHub 上一个能够将 PPT 转换为 Markdown 文件的开源免费工具 PPTX2MD。
支持保留标题、列表、粗体、斜体、颜色、超链接、图片、表格以及合并单元格等 PPT 内容格式
GitHub: https://github.com/ssine/pptx2md
如果大家想学习如何针对 Llama 3 进行中文微调,可以看下这份资料 llama3-Chinese-chat。
收集了目前各个网友及厂商微调、魔改版本有趣权重 & 训练、推理、评测以及部署 Llama3、Llama3.1 的教程视频和工具文档等。
GitHub: https://github.com/CrazyBoyM/llama3-Chinese-chat
希望通过这份聚合资料,能帮助大家更好地了解和使用 Llama 3 & Llama 3.1。
由吴恩达老师主讲的《机器学习》专业课程开放免费学习了!
主要包括《机器学习:回归与分类》、《高级学习算法》和《无监督学习、推荐器、强化学习》三门课程。
涵盖了监督学习、无监督学习、神经网络、决策树、推荐系统等多个领域。
学习地址: https:// 网页链接
通过该课程能掌握机器学习的基础知识和实用技能,适合初学者和希望在人工智能领域发展的专业人士。
GitHub 上一款开源免费的 AI 个人导师工具 Llama Tutor。
基于 Next.js 和 Tailwind CSS 构建,集成 Llama 3.1 和 Serper 为工具提供强大的推理以及搜索能力,以达到高质量辅助教学。
GitHub: https://github.com/Nutlope/llamatutor
输入任何想要了解的知识,以及选择能接受的教育水平,覆盖了小学到大学,即可为你生成个性化导师,解答一切疑难杂题。
GitHub 上一款使用 Android 原生开发的电视直播软件:我的电视。
可以自定义直播源,支持 m3u、tvbox 格式,并且可以设置多直播源,支持自定义节目单,多线路自动切换等功能。
GitHub: https://github.com/yaoxieyoulei/mytv-android
系统要求在 Android 5 及以上,有需求的可以下载安装试试。
分享 GitHub 上一个基于 LaTeX 的简历框架 RenderCV。
内置多种主题,可用于创建高质量的简历,支持从 YAML 输入文件生成 PDF、LaTeX、Markdown、HTML 和 PNG 格式的文档。
GitHub: https://github.com/sinaatalay/rendercv
另外,还提供一系列工具,用于自动化简历的更新过程,如重建 LaTeX 文件、渲染新的 PDF 文件、自动将每一页转换为 PNG 图像等。
分享 GitHub 上一份对《给每个人的线性代数》书籍的图解笔记 The-Art-of-Linear-Algebra。
通过对书籍中介绍的矩阵的重要概念进行可视化图释,以帮助大家从矩阵分解的角度对向量、矩阵计算和算法的理解,提供中英日三种语言笔记。
GitHub: https://github.com/kenjihiranabe/The-Art-of-Linear-Algebra
书籍《给每个人的线性代数》是来自麻省理工的一位数学教授 Gilbert Strang 编写,书籍英文名为 “Linear Algebra for Everyone”。
教授采用循序渐进的教学方式,从简单的概念到线性代数的核心概念,包括向量和矩阵的基本运算、线性方程组及其解法、向量空间和子空间等,并以通俗易懂的语言进行讲解。
对线性代数感兴趣的同学可以看看。
书籍:math.mit.edu/~gs/everyone/everyone_prefaceTOC01.pdf
微信公众号「GitHubDaily」
微博自动同步bot,原则上不搬运广告内容呢,如果自动搬运了广告内容麻烦帮忙点一下举报