教你从零开始构建类似 ChatGPT 的大语言模型。
在 GitHub 上发现一本《Build a Large Language Model (From Scratch)》书籍。
作者将带你从头开始构建一个类似 GPT 语言模型,这过程让你了解如何创建、训练和微调大型语言模型 (LLMs)!
在线阅读:livebook.manning.com/book/build-a-large-language-model-from-scratch/welcome/v-3/
涉及源码:github.com/rasbt/LLMs-from-scratch
书籍主要分为 8 大章节,如下:
第 1 章:了解大语言模型(LLM)解析
第 2 章:介绍文本数据处理技巧
第 3 章:通过编程实现注意力机制(Attention Mechanisms)
第 4 章:从零开始实现类似 GPT 模型
第 5 章:对未标注数据进行预训练
第 6 章:针对文本分类的模型微调
第 7 章:结合人类反馈进行模型微调
第 8 章:在实践中使用大语言模型
书籍前两章内容已出,剩下的会逐步放出。
分享 GitHub 上一份优质的 IPTV 直播源。
自动整合 好趣网直播源 + TVBox 直播源 + 其他网上直播源,择取分辨率、速度最佳视频流。
GitHub: https://github.com/joevess/IPTV
列表会定期更新,再也不怕没有 IPTV 源了。
GitHub 上一份精心收集的实用、良心开源的安卓软件清单。
涵盖了应用商店、浏览器、视频播放器、相机、学习办公和日常工具等等类别。
另外,清单中的每款软件都经过作者的严格筛选,选择条件如下:
- 主观体验:列表不追求大而全,只将自己使用(过)的好软件列出来。
- 干净简约:界面漂亮,赏心悦目。
- 专一轻量:功能适中(足够),不臃肿。
- 受众广泛:目标用户多,适合一般人。
- 积极维护:源代码持续更新。这一定程度上代表更少的bug和更好的兼容性,也说明开发者的用心和负责。
GitHub 上的有个叫 ChatGPT Source Watch 项目很有意思!
通过监控 ChatGPT 前端代码变化来推测即将发布的新功能,比如在 27 号更新的 “GPT mentions” 功能,作者在 25 号就发现了相关代码。
GitHub: https://github.com/0xdevalias/chatgpt-source-watch
作者这想法恐怕 OpenAI 竞争对手都没想到~
今日霸榜 GitHub Trending 的一份 Google 索引脚本。
使用此脚本可让你的网站在 48 小时内在 Google 上建立索引。无需任何复杂技巧或黑客手段,只需简单的脚本和 Google API 即可。
GitHub: https://github.com/goenning/google-indexing-script
注意:
脚本并不会帮助你的网站在 Google 上的排名,只会让 Google 知道你的网站存在。
脚本使用到 Google Indexing API。虽然不能绝对保证每个页面都被索引到,但最近在 2023 年 12 月测试显示有非常高的成功率。
如果你有自己的网站,对此感兴趣的可以试下。
GitHub 上一份开源免费大语言模型课程。
本课程旨在介绍大语言模型,含有详细的学习路线和 Colab 实践笔记。
课程分为三个部分:
1)LLM 基础教程,涵盖数学、Python 和 审计网络的基础知识;
2)LLM 深入探索,使用最新技术构建尽可能最好的 LLM;
3)LLM 应用与部署,开发基于 LLM 的应用,并完成部署。
哈佛大学免费开放的一门计算机科学和编程入门课程 CS50。
不仅仅教会你如何使用某种编程语言,更重要的是教你掌握编程的基本原理,以及如何自学新的编程语言。核心在于教会你如何解决问题。
课程内容涵盖了计算思维(computational thinking)、抽象(abstraction)、算法(algorithms)、数据结构(data structures)等计算机科学的基础知识。
课程安排如下:
1)先从 C 语言开始,学会函数、变量、条件语句、循环等基础概念;
2)随后,转向更高级的 Python 语言(大家听到最多的编程语言);
3)再学习 SQL 语言,学会如何在数据库中存储数据;
4)再学习 HTML、CSS 和 JavaScript 语言,将学会创建网页和移动应用程序。
5)最后以一个终极项目作为收官。
学习地址: https://cs50.harvard.edu/x/2024/
注意:学习地址需要魔法才能访问。分享给有需要的人学习,课程适合所有人,无论你是否有编程基础。
分享 GitHub 上的一份英语学习指南,助你系统化学习并提升英语水平。
作者将其高效学习英语的小技巧整理成这份指南,希望能让你学习英语就像我们自然而然地学会汉语那样。
主要分为七大章节:认知篇、单词篇、听力篇、阅读篇、口语篇、写作篇和扯淡篇。
同时带你多维度、结构化、阶段化、针对化的高效学习英语。
GitHub 上一个极简风格的三栏式个人主页网站 onur.dev。
使用了 Next.js、Tailwind CSS、shadcn/ui、Contentful、Raindrop、Supabase 构建并部署在 Vercel 上。
GitHub: https://github.com/suyalcinkaya/onur.dev
如果你喜欢可以自己部署一个,另外,它还兼容移动端的。
推荐 GitHub 上一款独一无二的免费开源简历生成器:Reactive Resume。
可通过各种配置,让创建、更新、共享简历的过程变得更加简单便捷。支持中文,可同时创建多份简历,并快速打印成 PDF。
GitHub: https://github.com/AmruthPillai/Reactive-Resume
简历的主题、外观、颜色、布局也可随意个性化更改,并可实时更新到简历中。
此外,还集成了 GPT 可辅助你编写和修改简历。
在 GitHub 上发现一款有趣的命令行工具 cmd-wrapped。
它可以让你了解过去一年中你在终端上使用的命令行情况,如每日最活跃时段,以及常用命令统计。
并生成类 GitHub 的年度命令分布图。感兴趣的可以去试试。
分享过很多开源 AI 项目,常见会提供一个 Docker 部署方法。
如果你对 Docker 不了解,推荐你看下这份《Docker 从入门到实践》学习指南。
该指南涵盖了 Docker 的各个方面知识,如基本安装、镜像使用、容器操作、数据管理、网络配置等等,旨在教会新手小白有效使用 Docker。
GitHub: https://github.com/yeasy/docker_practice
看了下内容,虽然教程很早就出了,但基础知识依然还是值得学习,新手入门完全没问题。
网易有道开源了一款名为 QAnything 的知识库问答引擎,可实现一键部署!
不仅可调用云端大模型服务,还可实现纯本地部署。但官方建议在配备 NVIDIA 3090 16GB 显存以上的电脑上进行本地部署。
支持导入 PDF、Word(doc/docx)、PPT、Markdown 等多种格式的文档,即可像与 GPT 对话那样,提供准确、快速、可靠的问答体验。
GitHub: https://github.com/netease-youdao/QAnything
主要有如下特点:
- 数据安全:支持全程断网安装与使用。
- 跨语种问答:无缝切换中英文问答,不限文件语种。
- 海量数据处理:采用两阶段向量排序,有效解决大规模数据检索问题,数据越多效果越好。
- 高性能生产级系统:适用于企业应用的直接部署。
- 易用性:无需繁琐的配置,一键安装部署,拿来就用。
- 多知识库问答:支持选择多个知识库进行问答。
GitHub 上一个能够让 PDF 看起来像是扫描过的小众实用工具 Look Scanned。
一个能够让 PDF 看起来就像是扫描件一样的纯前端网站!不需要打印机和扫描仪,只需要点几下即可完成转换。
GitHub: https://github.com/rwv/lookscanned.io
具有如下特点:
- 隐私:所有数据均在自己本地浏览器进行处理。
- 速度:无需繁琐过程,只需点击几下按钮,几秒间得到所需要的扫描件。
- 个性化:提供调整参数让生成的扫描件看起来更真实。同时可实时预览效果,所见即所得。
- 跨平台:不仅能在所有浏览器上使用,在手机上也能用!
- 开源免费且可离线使用。
在 GitHub 上有这么一份精心整理的数据库学习合集 Awesome Database Learning。
里面内容非常丰富,涵盖了课程、书籍、讲座、论文等数据库相关的学习资料。
GitHub: https://github.com/pingcap/awesome-database-learning
通过这份合集你将了解数据库内部工作原理。
在 GitHub 上有一个称之为 “AI Gateway(AI 网关)” 的工具。
通过统一简单的 API,让你轻松快速接入 100 多种大语言模型,如 OpenAI、Anthropic、Mistral、LLama2、Google Gemini 等。
GitHub: https://github.com/Portkey-AI/gateway
具有如下特点:
- 占用空间极小,仅仅约 45kb,但其处理速度极快,达到快 9.9 倍。
- 可以同时连接多个模型,并能处理多个模型、服务提供商和密钥之间的负载平衡。
- 设置故障转移机制,当一个模型出现无法使用情况,可自动切换到可用模型,确保你的应用持续稳定运行。
- 默认配置自动重试,并采用指数回退策略,进一步提高请求的稳定性。
- 可根据需求添加中间件,满足你个性化需求。
- 已经在超过 100B Tokens 上进行了实战测试。
GitHub 上一个简单快速的分词、命名实体识别工具:cutword。
这是一个中文分词库,字典文件根据最新数据统计得到,词频更加合理。
GitHub: https:// 网页链接
其分词速度是知名“结巴”中文分词的两倍。
GitHub 上一个开源的多语言文档 OCR 工具包:Surya。
这是一个专注于文档的 OCR,能够准确的逐行文本检测和识别,并且支持任何语言。
GitHub: https:// 网页链接
未来还会支持具体文本识别以及表格和图像的检测。
GitHub 上一款可实现照片级真实感的图像着色工具:DDColor。
它不仅可以为历史黑白老旧照片提供生动自然的着色,还可以对动漫游戏中的风景进行着色或重新着色,变为逼真的现实生活风格!
GitHub: https://github.com/piddnad/DDColor
又是一款 AI 老旧照片智能上色的工具,可开源免费使用。
炸裂!阿里发布了一个可替换万物工具 ReplaceAnything。
它能够准确保留你指定的任何物体,如人脸、人物、服装、物品等等,并通过输入提示词,实现超高质量内容替换。
可用于多种场景,如人物替换、服装替换、背景替换等,商用场景有 AI 模特、商品宣传图、艺术写真照等。
GitHub: https://github.com/AIGCDesignGroup/ReplaceAnything
其使用步骤很简单:
1、上传图像
2、鼠标轻松点击选择图像保留部分
3、输入提示词,点击生成
4、支持上传参考风格背景图像(可选)
微信公众号「GitHubDaily」
微博自动同步bot,原则上不搬运广告内容呢,如果自动搬运了广告内容麻烦帮忙点一下举报