在早期 ChatGPT 刚发布之初,开发者一般会使用微调或嵌入的方式,来将它训练为个人专属知识库或智能助理。
随着 ChatGPT 各项功能的不断迭代与升级,现在一个普通用户,也可以利用它的「知识库」功能,上传私有数据,快速实现 AI 定制。
为了让大家能更好的使用这项功能,GitHub 上一个名为「GPT Crawler」的项目应运而生。
GitHub: https://github.com/BuilderIO/gpt-crawler
该项目能够利用爬虫,自动抓取与整合指定 URL 地址中的各种信息,并生成一个output.json
的数据文件。
将该文件喂给 ChatGPT,便可快速定制你的专属 GPT,打造个人知识库或者智能助理。
推荐 GitHub 上一个比较不错的中文大模型解决方案,代码完全开源,无商用限制。
近日,Colossal-AI 团队充分利用了 LLaMA-2 的基础能力,采用高效的训练方法,仅使用约 8.5B token 数据、15 小时、数千元的训练成本,成功构建了性能卓越的中文 LLaMA-2,在多个评测榜单性能优越。
相较于原始 LLaMA-2,在成功提升中文能力的基础上,进一步提升其英文能力,性能可与开源社区同规模预训练 SOTA 模型媲美。
开源代码与权重:github.com/hpcaitech/ColossalAI
该项目在 GitHub 完全开源了全套训练流程、代码及权重,无商用限制,并提供了一个完整的评估体系框架 ColossalEval,以实现低成本的可复现性。
不仅如此,相关方案还可迁移应用到任意垂类领域,以及从头预训练大模型的低成本构建。感兴趣的同学可以试下。
GitHub 上一个开源的敏感词检测 API:wordscheck。
支持违禁词过滤,敏感词过滤,敏感词库,一键启动,本地运行,私有化部署,1 分钟接入完成,支持 Docker,在线 API。
GitHub 上一个开源的、可扩展的高性能聊天机器人框架:LobeChat。
可一键免费部署私人 ChatGPT/LLM 网页应用程序,拥有精致的 UI 设计、功能丰富的对话功能,已针对移动端进行优化适配。
支持完整的 Markdown 渲染,包括代码高亮、LaTex 公式、Mermaid 流程图等,可自定义 AI 助手角色与服务器域名。
推荐一个内容颇为丰富的「推荐系统」中文教程,带你快速了解与入门推荐算法技术。
课时总长为 58 节课,时长 28.5h,从基础到两场比赛实战。认识推荐算法工程师(基础)——推荐算法基础(进阶)——推荐系统入门赛(2 场比赛实践)。
主要介绍推荐系统概论、常用推荐算法的原理与应用、赛题解析实践等内容。感兴趣的同学,可以学习一下。
地址: https:// 《推荐系统基础入门》中文教程
除了上述教程内容之外,里面还整理了 WSDM、AAAL、ICLR2023 上,共计 108 篇高质量推荐系统论文。
GitHub 上一款简单易用、广受好评的 Web 防火墙工具:雷池 WAF,可保护你的网站不受黑客攻击。
底层基于 Nginx 的 Web 网关,采用业界领先的语义引擎检测技术,作为反向代理接入网络,清洗来自黑客的恶意流量。
GitHub: https://github.com/chaitin/safeline
项目安装简单便捷,采用容器化部署,一条命令即可完成安装,0 成本上手。
借助智能语义分析算法,实现精准检测、低误报、难绕过,面对未知特征的 0day 攻击不再手足无措。
无规则引擎,线性安全检测算法,平均请求检测延迟在 1 毫秒级别。并发能力强,单核轻松检测 2000+ TPS,只要硬件足够强,可支撑的流量规模无上限。
微软在 GitHub 开源的一套 AI 工具:Prompt flow,可用于简化大模型应用的开发周期。
打通了从项目构思、原型设计、测试、评估到生产部署和监控的全流程,让开发者可以快速构建出高质量的大语言模型应用。
GitHub: https://github.com/microsoft/promptflow
项目配套了「提示流入门教程」、「跟 PDF 对话聊天」等详细的技术文档与指南,帮助你快速上手技术。
国内有开发者做了个 Windows 12 网页体验版,让你可提前在网页上提前感受 Windows 12 的一些产品特性。
项目受到 Windows 12 概念版启发,提供了精美的 UI 设计、丰富流畅的动画、各种功能小组件、动态壁纸、文件系统等功能。
在线体验:tjy-gitnub.github.io/win12/desktop.html
推荐 GitHub 上一款开源的数据分析引擎:esProc SPL。
该工具拥有低代码、高性能、轻量级和全功能的特点,相较于传统 SQL 技术,使用 esProc SPL 可以显著降低整体应用成本。
GitHub: https://github.com/SPLWare/esProc
由于 SPL 面向结构化和半结构化数据,因此还可用作分析型数据库和数据计算中间件,应用于线下跑批和在线查询场景。
其独创的 SPL 语法使编码更简单且运行效率更高。技术特性包括:算法引擎、存储引擎、多源混算、并行框架、敏捷语法、嵌入集成、数据固化和实时数据。
SPL 支持多数据源混合计算,可无缝集成到应用中,具备良好的集成性和轻量级特性。在性能、开发效率、灵活性和资源节约等方面具有显著优势。
ChatGPT 引发的大模型热潮愈演愈烈,全球科技巨头和明星初创争相入局,打造以 AI 大模型为核心的竞争力和多样化商业使用需求。
其中 LLaMA 系列模型,因良好的基础能力和开放生态,已积累了海量的用户和实际应用案例,成为无数开源模型后来者的模仿和竞争的标杆对象。
但是,如何降低类 LLaMA2 大模型预训练成本,如何基于 LLaMA2 通过继续预训练和微调,低成本构建 AI 大模型实际应用,仍是 AIGC 相关企业面临的关键瓶颈。
今天,作为全球规模最大、最活跃的大模型开发工具与开源社区,Colossal-AI 再次迭代,提供开箱即用的 8 到 512 卡 LLaMA2 训练、微调、推理方案,对 700 亿参数训练加速 195%,并提供一站式云平台解决方案,极大降低大模型开发和落地应用成本。
开源地址: https://github.com/hpcaitech/ColossalAI
此外,为了进一步提升开发和部署效率,技术团队还将上述系统优势与算力结合,提供 Colossal-AI 云平台,提供廉价算力和开箱即用的 AI 主流应用,包括对话大模型,多模态模型,生物医药等。
用户只需要上传相关数据,即可无代码训练个性化私有模型,并将训练好的模型一键部署,非常方便,大家可以试玩一下。
Colossal-AI 云平台:platform.luchentech.com
一个在 GitHub 开源的 AI 应用:AIdea,集成了主流大语言模型以及绘图模型。
项目主要功能如下:
- 支持 GPT-3.5/4 问答聊天
- 支持国产模型:通义千问,文心一言
- 文生图、图生图、超分辨率、黑白图片上色
- 集成 Stable Diffusion,支持 SDXL 1.0
GitHub: https://github.com/mylxsw/aidea
#浙江免费开放百项AI专利 AI 行业还是一如既往的内卷,今天偶然看到阿里达摩院免费开放 100 件 AI 专利许可,里面包含了语音、图像、多模态大模型等不同领域,涵盖医学、智慧城市、工业生产等多个行业方向,目前这些专利已在浙江知识产权交易中心上架。
本次不乏 “交通信号灯感知”、“疑似侵权图片检测”、“时序数据预测”、“点云数据处理”、“智能字幕生成” 等富有广阔应用的专利使用场景,让中小微企业以较低成本甚至零成本获得 AI 技术红利,加速 AI 时代的到来。
此次的专利开放,可以算得上大手笔了。过去几年,阿里借助其云计算平台,沉淀下了不少技术与资源。
根据这些先发优势,阿里从 2019 年开始迭代研发大模型,并于去年正式推出了通义系列大模型,期间还陆陆续续开源了 300 多个经过验证的 AI 模型,降低了不少开发者的开发门槛,其社区生态也慢慢趋于完善。
可以这么说,云计算这张牌,让阿里在本次 AI 竞赛中站稳了脚跟,不至于被甩下牌桌。
为了让自己能够在牌桌上更有话语权,阿里也在开始逐步构建自己在 AI 行业的影响力,本次开放 AI 专利,相信也能够给阿里的品牌带来实质性的提升。
比如阿里旗下的达摩院智能计算实验室,此前研发的超大规模多模态预训练模型 M6,表现颇为亮眼,短时间内参数已从万亿升级至 10 万亿。与 GPT-3 相比,在同等规模参数下,能耗仅为其 1%。
在实际应用中,通过阿里达摩院的技术,与多家高校院合作,现已完成首批 20 万页古籍的数字化,并沉淀为覆盖 3 万多字的古籍字典,其识别准确率达到 97.5%。
从市场角度上看,开放专利有助树立负责任的科技企业形象,也能获得社会各界的认可和好评。同时,开放专利有助于更好的打造开发者社区,顺便为企业积累更多 AI 人才,可谓一举两得。
现阶段不少 AI 人才被各大厂疯抢,阿里通过开放专利,吸引更多专业人士与业界的关注,也算是出其不意了。
无论怎么说,在本轮的 AI 技术内卷之下,作为开发者与普通用户的我们,都能受益匪浅。
推荐 GitHub 上一个功能颇为强大的一站式开源持续测试平台:MeterSphere。
涵盖测试管理、接口测试、UI 测试和性能测试等核心功能,以及项目设置、系统设置等基础模块。
GitHub: https://github.com/metersphere/metersphere
项目主要功能如下:
- 测试跟踪: 对接主流项目管理平台,测试过程全链路跟踪管理;
- 接口测试: API 管理、Mock 服务、场景编排、多协议支持;
- UI 测试: 无需复杂的代码编写,人人都可开展的低代码自动化测试;
- 性能测试: 可实现高并发、分布式的性能压测,完成压测任务的统一调度与管理。
MeterSphere 提供了十分完善且简单的安装脚本,可用脚本一键打包安装数据库、Redis、中间件等,无需自己额外部署。
作为一个开箱即用的测试平台,其本身功能也足够丰富与强大,满足大部分测试场景。项目还配有详细的中文教程,方便开发者上手部署使用。
分享一个 ChatGPT 代码解释器(Code Interpreter)插件的开源实现。
开发者可直接调用 API,在项目使用 AI 来快速处理数据分析、图像处理、股票图表展示等工作。
今年随着 AIGC 行业爆火,让全球各个头部科技企业争相入局。然而,AI 大模型风光无限的背后是成本极其高昂,单次预训练成本或高达上千万元。
基于 LLaMA 等现有开源大模型的微调,也难以满足企业打造核心竞争力和多样化商业使用等需求。
为此,作为全球最大、最活跃的大模型开发工具与社区 Colossal-AI,以当前被最广泛使用的 LLaMA 为例,提供了开箱即用的 650 亿参数预训练方案,将训练速度提升至 38%,为大模型企业节省了大量成本!
GitHub: https://github.com/hpcaitech/ColossalAI
该方案仅需 32 张 A100/A800 即可使用,并且不限制商业使用。项目搭配了丰富的中文教程,让开发者能够更快的上手。
目前,该项目已在 GitHub 开源,大家可以学习一下。
现在在使用 ChatGPT 时,我们经常需要调试、输入各种 Prompt(提示词),以便获取最佳生成结果。
有鉴于此,国外一位开发者在 GitHub 上开源了一个项目:GPT Prompt Engineer。
用户只需要输入一些简单的任务描述,并提供参考用例。该工具便会自动帮你生成各种 Prompt,自动对 Prompt 测试和评分,帮你尽可能找到最优项目提示。
GitHub: https://github.com/mshumer/gpt-prompt-engineer
项目引入了提示测试、ELO 评级系统、权重和偏差日志记录,在 Prompt 生成过程中,给你足够的数据作为评估。
MetaGPT,一个基于 AI 构建的实验性项目。
可通过用户需求,直接生成产品分析文档、用户故事、竞品分析、数据结构、项目 API 等内容。
在 GitHub 上看到一个功能强大的开源简历生成器:OpenResume。
拥有简洁美观的 UI 设计,并支持导入与解析 PDF 简历文件,实时更新简历数据,帮你快速撰写出清晰直观的个人简历。
GitHub 上看到一个比较实用的笔记插件:Better Notes,需搭配文献管理工具 Zotero 使用。
该插件开箱即用,集成了论文阅读、段落注释、做笔记、元数据分析、知识输出、AI 写作等功能。
GitHub: https://github.com/windingwind/zotero-better-notes
插件完全开源、免费,支持双链笔记、Markdown 与标记语言,并深度集成了文献管理与阅读功能。
GitHub 上一个简单的 AI 入门项目。
实现了 AIGC 中常用的图像/文本模型、向量存储、身份验证、项目部署等一整套流程,可作为开发 AI 应用时的项目参考。
微信公众号「GitHubDaily」
微博自动同步bot,原则上不搬运广告内容呢,如果自动搬运了广告内容麻烦帮忙点一下举报