GitHub 上一个基于 Whisper 的自动语音识别与说话人分离的框架:whisper-diarization。
该框架处理的步骤具体如下:
提取音频中的语音,以提高说话人嵌入的准确性。
使用 Whisper 生成转录。
利用 WhisperX 校正和对齐时间戳,以减少由于时间偏移引起的分离错误。
使用 MarbleNet 进行 VAD(语音活动检测)和分段,以排除静音部分。
使用 TitaNet 提取说话人嵌入,以识别每个分段的说话人。
将提取的说话人信息与 WhisperX 生成的时间戳关联起来,通过标点模型进行重新对齐,以弥补小的时间偏移。
GitHub: https://github.com/MahmoudAshraf97/whisper-diarization
如果你正打算开发如会议记录、视频字幕翻译、音频分析之类的工具,不妨看看该框架。
GitHub 上一款能把 ComfyUI 工作流转换成小程序的开源插件:ComfyUI_Bxb。
通过安装该插件,能够在你现有工作流的基础上,实现一键转换成目前主流平台小程序,并且能支持支付变现。
GitHub: https://github.com/zhulu111/ComfyUI_Bxb
如果你已有能变现的 ComfyUI 工作流,不妨试下该插件,将工作流转换成小程序方便进一步推广。
又一款视频剪辑开源 AI 神器 Clapper。
与传统视频剪辑工具不同,它集成了 StabilityAI、ElevenLabs、Real-ESRGAN、ChatGPT 等等各种类型的 AI。
一键生成图像、视频、语音、音乐等各种视频剪辑需要的素材,然后再进行二次剪辑。
GitHub: https://github.com/jbilcke-hf/clapper
让你能够通过互动、迭代且直观的方式用 AI 制作视频,无需其他外部工具和视频剪辑技能。
推荐 GitHub 上一款开源免费的剪贴板管理工具 EcoPaste。
具有轻量小巧、快捷唤醒、本地存储、智能分组、收藏功能、内置搜索、图片 OCR 等等特性,功能非常全面且操作便捷。
GitHub: https://github.com/ayangweb/EcoPaste/
支持 Windows、macOS 系统安装使用,有需求的不妨试下。
一本开源且免费可在线阅读的英语语法学习书籍:《语法俱乐部》。
该书的编排采用了循序渐进的方式,从初级的简单句,经过中级的复句、合句,再来到高级的简化从句,共分为三大篇幅,细分为二十二章节。
GitHub: https://github.com/llwslc/grammar-club
在线阅读:llwslc.github.io/grammar-club/content/Introduction.html
简单概括下篇幅的内容:
第一篇:介绍简单句的基本句型及其各个部分,包括名词、动词、形容词、副词等,并探讨不定词词组、动名词与分词。
第二篇:探讨复句与合句,强调在掌握简单句的基础上,通过连接词将多个简单句组合起来,形成复杂句子。
第三篇:介绍简化从句,基于复句与合句,将复杂的句子简化为短小精练的高级句型,使表达更加准确和简洁。
通过阅读该书籍希望能够培养出大家的英语能力,建立大家对英语的信心,并增强大家阅读英语的兴趣。
分享 GitHub 上一份带你深入了解 Spring 源码系列学习资料 Spring-Reading。
涵盖了资源加载与访问、Spring 表达式语言、Bean 定义、Aware 接口、核心注解和 Spring AOP 等 Spring 框架的核心概念和关键功能介绍。
GitHub: https://github.com/xuchengsheng/spring-reading
希望这份资料能够帮助到大家更透彻地理解 Spring 内部的工作机制,以便更好地应用到实际工作中。
分享一份开源公务员考试的最佳实践指南: developer2gwy。
由一群从程序员上岸成为公务员的朋友共同编写,分享记录了他们的上岸经历,体制内生活以及心路历程。
GitHub: https://github.com/miss-mumu/developer2gwy
涵盖了公考的基本知识、备考最佳实践、常见的问题、面试手册以及大家比较关心的一些问答等内容。
分享 GitHub 上一个能够将 PPT 转换为 Markdown 文件的开源免费工具 PPTX2MD。
支持保留标题、列表、粗体、斜体、颜色、超链接、图片、表格以及合并单元格等 PPT 内容格式
GitHub: https://github.com/ssine/pptx2md
如果大家想学习如何针对 Llama 3 进行中文微调,可以看下这份资料 llama3-Chinese-chat。
收集了目前各个网友及厂商微调、魔改版本有趣权重 & 训练、推理、评测以及部署 Llama3、Llama3.1 的教程视频和工具文档等。
GitHub: https://github.com/CrazyBoyM/llama3-Chinese-chat
希望通过这份聚合资料,能帮助大家更好地了解和使用 Llama 3 & Llama 3.1。
由吴恩达老师主讲的《机器学习》专业课程开放免费学习了!
主要包括《机器学习:回归与分类》、《高级学习算法》和《无监督学习、推荐器、强化学习》三门课程。
涵盖了监督学习、无监督学习、神经网络、决策树、推荐系统等多个领域。
学习地址: https:// 网页链接
通过该课程能掌握机器学习的基础知识和实用技能,适合初学者和希望在人工智能领域发展的专业人士。
GitHub 上一款开源免费的 AI 个人导师工具 Llama Tutor。
基于 Next.js 和 Tailwind CSS 构建,集成 Llama 3.1 和 Serper 为工具提供强大的推理以及搜索能力,以达到高质量辅助教学。
GitHub: https://github.com/Nutlope/llamatutor
输入任何想要了解的知识,以及选择能接受的教育水平,覆盖了小学到大学,即可为你生成个性化导师,解答一切疑难杂题。
GitHub 上一款使用 Android 原生开发的电视直播软件:我的电视。
可以自定义直播源,支持 m3u、tvbox 格式,并且可以设置多直播源,支持自定义节目单,多线路自动切换等功能。
GitHub: https://github.com/yaoxieyoulei/mytv-android
系统要求在 Android 5 及以上,有需求的可以下载安装试试。
分享 GitHub 上一个基于 LaTeX 的简历框架 RenderCV。
内置多种主题,可用于创建高质量的简历,支持从 YAML 输入文件生成 PDF、LaTeX、Markdown、HTML 和 PNG 格式的文档。
GitHub: https://github.com/sinaatalay/rendercv
另外,还提供一系列工具,用于自动化简历的更新过程,如重建 LaTeX 文件、渲染新的 PDF 文件、自动将每一页转换为 PNG 图像等。
分享 GitHub 上一份对《给每个人的线性代数》书籍的图解笔记 The-Art-of-Linear-Algebra。
通过对书籍中介绍的矩阵的重要概念进行可视化图释,以帮助大家从矩阵分解的角度对向量、矩阵计算和算法的理解,提供中英日三种语言笔记。
GitHub: https://github.com/kenjihiranabe/The-Art-of-Linear-Algebra
书籍《给每个人的线性代数》是来自麻省理工的一位数学教授 Gilbert Strang 编写,书籍英文名为 “Linear Algebra for Everyone”。
教授采用循序渐进的教学方式,从简单的概念到线性代数的核心概念,包括向量和矩阵的基本运算、线性方程组及其解法、向量空间和子空间等,并以通俗易懂的语言进行讲解。
对线性代数感兴趣的同学可以看看。
书籍:math.mit.edu/~gs/everyone/everyone_prefaceTOC01.pdf
分享 GitHub 上一套基于 Cloudflare 的全栈 SaaS 开发模板 cloudflare-saas-stack。
利用该模板,可以快速在 Cloudflare 上构建并部署全栈应用,包括数据库、认证、样式、存储等功能。
GitHub: https://github.com/Dhravya/cloudflare-saas-stack
作者基于这套工具搭建了 SuperMemory 应用,该开源工具在此前有做过详细的介绍,感兴趣的可以看下。
详细介绍: 网页链接
推荐 GitHub 上一款开源免费的作图工具 draw.io。
可以利用它绘制一系列的图表、图示或图形,包括流程图、UML 类图、组织结构图、泳道图等等,适用于各种复杂专业的图表。
GitHub: https://github.com/jgraph/drawio
相比 ProcessOn,draw.io 作图元素更加丰富,而且文件可以选择保存到自己云盘或者本地,数据隐私更加安全。
另外,国外有一位开发者将它集成到 VSCode,并打包成插件供开发者下载使用。
GitHub: https://github.com/hediet/vscode-drawio
让你能够分分钟在 VSCode 上画出完美的流程图、思维导图或 UML 类图。
推荐 GitHub 上一款开源免费且简洁好用的 Mac 软件卸载工具 Pearcleaner。
工具仅 4MB 大小,提供高颜值、简洁好用的操作界面,可多选一键卸载不需要的软件,同时还能清理卸载后软件的余留文件,清理的非常干净。
GitHub: https:// 网页链接
可作为 AppCleaner 的开源平替版本,大家不妨试试看。
推荐 GitHub 上一款开源免费且易于使用的直播录制工具 Fideo。
该工具能够帮助大家简单快捷的对直播进行录制,并保存为 MP4 格式的视频。
GitHub: https://github.com/chenfan0/fideo-live-record
支持 YouTube、TikTok、抖音、快手、B 站、微博、淘宝等熟悉的平台。
提供开箱即用的安装包,支持 Windows 和 macOS 系统。
又发现一个可商用免费的中文 web 字体库「中文网字计划」。
收录了众多中文字体并通过 Web Font 的形式在线加载及查看字体信息,并提供便捷实用的全字符集中文渲染方案。
GitHub: https://github.com/KonghaYao/chinese-free-web-font-storage
另外,该作者还开源了一款字体分包工具以及超简单的字体替换工具。感兴趣的可以看看。
推荐 GitHub 上一个开源的图书 AI 翻译工具 bilingual_book_maker。
利用大语言模型(如 ChatGPT、Claude 等)对文件和图书进行多语言翻译的制作,支持的格式有 epub、txt 以及 srt 等。
GitHub: https://github.com/yihong0618/bilingual_book_maker
最近,作者将之前吴恩达老师开源的翻译工作流整合到项目中,使得翻译的效果更加好。
不过项目代码还没有更新,感兴趣的可以关注下。
微信公众号「GitHubDaily」
微博自动同步bot,原则上不搬运广告内容呢,如果自动搬运了广告内容麻烦帮忙点一下举报