Show newer

推荐 GitHub 上一款能从任何文档中提取文本的开源工具:Kreuzberg。

支持 PDF、图像、Word 文档等各种文件格式,自动化提取文本,以便用于检索增强生成(RAG)。

GitHub: github.com/Goldziher/kreuzberg

使用简单,且对 GPU 无要求,并提供了一个统一的异步接口,更高效地提取。

:icon_weibo: weibo.com/5722964389/PemihxU47

DeepSeek 官方给出本地部署 R1 模型的最佳相关设置。

- 不设定系统提示词

- Temperature(温度值):推荐 0.6

除此之外,还提供了所用到的提示词:

文件上传



file_template = \


"""[file name]: {file_name}


[file content begin]


{file_content}


[file content end]


{question}"""


搜索:



# 以下内容是基于用户发送的消息的搜索结果:


{search_results}


在我给你的搜索结果中,每个结果都是[webpage X begin]...[webpage X end]格式的,X代表每篇文章的数字索引。请在适当的情况下在句子末尾引用上下文。请按照引用编号[citation:X]的格式在答案中对应部分引用上下文。如果一句话源自多个上下文,请列出所有相关的引用编号,例如[citation:3][citation:5],切记不要将引用集中在最后返回引用编号,而是在答案对应部分列出。


在回答时,请注意以下几点:


\- 今天是{cur_date}。


\- 并非搜索结果的所有内容都与用户的问题密切相关,你需要结合问题,对搜索结果进行甄别、筛选。


\- 对于列举类的问题(如列举所有航班信息),尽量将答案控制在10个要点以内,并告诉用户可以查看搜索来源、获得完整信息。优先提供信息完整、最相关的列举项;如非必要,不要主动告诉用户搜索结果未提供的内容。


\- 对于创作类的问题(如写论文),请务必在正文的段落中引用对应的参考编号,例如[citation:3][citation:5],不能只在文章末尾引用。你需要解读并概括用户的题目要求,选择合适的格式,充分利用搜索结果并抽取重要信息,生成符合用户要求、极具思想深度、富有创造力与专业性的答案。你的创作篇幅需要尽可能延长,对于每一个要点的论述要推测用户的意图,给出尽可能多角度的回答要点,且务必信息量大、论述详尽。


\- 如果回答很长,请尽量结构化、分段落总结。如果需要分点作答,尽量控制在5个点以内,并合并相关的内容。


\- 对于客观类的问答,如果问题的答案非常简短,可以适当补充一到两句相关信息,以丰富内容。


\- 你需要根据用户要求和回答内容选择合适、美观的回答格式,确保可读性强。


\- 你的回答应该综合多个相关网页来回答,不能重复引用一个网页。


\- 除非用户要求,否则你回答的语言需要和用户提问的语言保持一致。


# 用户消息为:


{question}


同时,还给出防止模型绕过推理思考的建议。



在每个输出的开头强制要求模型以"<think>\n"开始其响应。


:icon_weibo: weibo.com/5722964389/Peh9R9cnh

在 GitHub 上发现一个 Deep Research 开源版:DeeSearcher。

结合了大模型和向量数据库,为个人/企业知识管理、智能问答、信息搜索等场景提供高度准确的答案和全面分析。

GitHub: github.com/zilliztech/deep-sea

支持本地文件导入,以及网络数据爬取等文档加载,支持 DeepSeek、OpenAI 等大模型。

:icon_weibo: weibo.com/5722964389/PegOab2P1

微软出了一期学习 GitHub Copilot 的入门教程。

一共有 9 节课程,将教授我们如何有效使用 GitHub Copilot 并用于辅助编程。

通过该课程,将学会:

- GitHub 基础使用,包括理解和操作仓库、分支、提交和拉取请求。

- 了解 GitHub Codespaces 和 GitHub Copilot。

- 学会 GitHub Copilot 的自动完成功能、自定义选项和高级编程技巧。

GitHub: github.com/microsoft/Mastering

比较适合想了解 GitHub,并想使用 GitHub Copilot 辅助自己编程的我们学习。

:icon_weibo: weibo.com/5722964389/PedcdhjYg

推荐 GitHub 上一个基于 AI 强大的有声书工具集:LiberSonora。

包含了音频字幕提取、标题生成、多语言翻译等功能,支持离线使用,GPU 加速以及自定义大模型。

GitHub: github.com/LiberSonora/LiberSo

提供 Docker 快速部署方式,支持通过 API 接口集成到现有工作流中使用。

:icon_weibo: weibo.com/5722964389/Pe8xTtL3D

推荐 GitHub 上一个简单易用的视频字幕翻译开源工具:Video Subtitle Master。

不仅能批量生成视频字幕,还支持将字幕批量翻译多语言,并提供可视化操作客户端,开箱即用,轻松上手。

GitHub: github.com/buxuku/video-subtit

支持 DeepSeek、DeepLX、百度翻译、Ollama、火山引擎等等翻译服务。

兼容 Windows、macOS 系统,下载安装包,配置所需翻译服务,即可使用。

:icon_weibo: weibo.com/5722964389/Pe7mPjC4O

分享 GitHub 上一份精选模型上下文协议(MCP) 服务器列表:awesome-mcp-servers。

涵盖了浏览器自动化、云平台、命令行、社交平台、数据库、开发者工具、文件系统、搜索以及旅行交通等方面内容。

GitHub: github.com/punkpeye/awesome-mc

小科普:MCP 是一种开放协议,通过标准化的服务器实现,使 AI 模型能够安全地与本地和远程资源进行交互。

:icon_weibo: weibo.com/5722964389/Pe6nX78JB

推荐 GitHub 上一个开源好用的 OpenAI 接口管理和分发系统:One Hub。

基于 One API 进行开发,新增了支持更多模型,加入了统计页面,以及完善非 OpenAI 模型的函数调用。

GitHub: github.com/MartialBE/one-hub

同时还带来全新的 UI 界面、用户仪表盘,以及管理员分析数据统计界面。

如果该项目对 One API 修改优化的内容,刚好是大家的需求,不妨试下它。

:icon_weibo: weibo.com/5722964389/Pe3ri7Ff8

分享一份由 Hugging Face 出品关于智能体(Agent)的课程:Agents Course。

共有五个章节,涵盖了从智能体基础介绍到使用各种框架的构建实际应用案例,最终以构建一个基准测试项目结束。

GitHub: github.com/huggingface/agents-

课程内容目前还没有完成,从往期 Hugging Face 出品的课程来看质量都是相当不错的。

如果感兴趣的同学,值得关注一下。不过需要一些基础的 Python 以及 LLMs 知识。

:icon_weibo: weibo.com/5722964389/PdZa9jRsS

分享 GitHub 上一个能够快速且准确地将 PDF 转换为 Markdown 格式的工具:Marker。

不仅能将 PDF 文件,还能将图像以高精度快速转换为 Markdown、JSON 和 HTML 等格式。

GitHub: github.com/VikParuchuri/marker

支持处理表格、表单、数学方程式、链接以及代码块等内容,支持多种语言。

除此之外,还可以自动去除文档中非主要内容,如页眉和页脚等。

:icon_weibo: weibo.com/5722964389/PdWXs1NNh

分享 GitHub 上一个能在苹果手机上使用 AI 聊天快捷指令:Siri Ultra。

无需下载任何 App,只需配置一个 API,即可通过 Siri 实时语音对话,体验到最新的大模型。

GitHub: github.com/fatwang2/siri-ultra

除此之外,还支持联网搜索以及网页总结。目前已支持 DeepSeek R1 + 联网。

也可以配置其他服务商,比如 OpenAI、Groq、Gemini、OpenRouter等。

并且提供了详细的使用指南,轻松把手上的 Siri 升级体验。

:icon_weibo: weibo.com/5722964389/PdVAcFiHd

推荐 GitHub 上一款开源的全能 AI 助理客户端:Cherry Studio。

内置 300+ 预配置 AI 助手,可多个模型同时对话,支持上传 png、docs、pdf 等文件格式,代码高亮显示等功能。

GitHub: github.com/CherryHQ/cherry-stu

除此之外,还集成了全局搜索、对话管理、多语言翻译、拖拽排序等等实用功能。

同时支持主流 LLM 云服务,以及集成流行 AI Web 服务,还支持 Ollama 本地部署模型。

提供开箱即用的安装包,支持 Windows、macOS 以及 Linux 系统。值得大家安装一试。

:icon_weibo: weibo.com/5722964389/PdPK1kGGz

分享 GitHub 上一个使用 DeepSeek 构建微信聊天机器人的开源方案:deepseek_project。

通过对接 DeepSeek API 与微信接口实现的智能聊天机器人,支持实时监听消息并自动化响应。

GitHub: github.com/1692775560/deepseek

除此之外,还支持上下文敏感型回复生成,以及异常流量熔断机制。

感兴趣的同学,建议使用小号尝试,谨防被封。

:icon_weibo: weibo.com/5722964389/PdKAifFJ1

推荐 GitHub 上一个开源的视频字幕翻译工具:VideoCaptioner。

提供可视化界面操作简单,无需复杂配置,一键高质量对视频字幕进行翻译,还支持断句、校正以及自定义字幕样式。

GitHub: github.com/WEIFENG2333/VideoCa

除此之外,还支持人声分离、字级时间戳、字幕便捷编辑、实时预览以及批量处理字幕等功能。

目前 Windows 系统提供了开箱即用安装包,而 macOS 需要自行打包,也可以通过 Docker 部署使用。

:icon_weibo: weibo.com/5722964389/PdEzbyi0x

分享一份由清华大学出品的《DeepSeek 从入门到精通》手册。

从对 DeepSeek 的基本介绍,到 DeepSeek 能做什么,再到如何使用 DeepSeek,共 104 页,全方位带大家从入门到精通。

获取🔗见评论

内容讲得非常详细,质量比网上众多教程高出不少,值得一看。

:icon_weibo: weibo.com/5722964389/PdCQ43x31

推荐 GitHub 上一款颇为好用的浏览器 AI 插件:Page Assist。

通过安装此插件,可以在浏览器上访问本地运行模型,并提供可视化对话界面,还可以与网页内容进行交互。

GitHub: github.com/n4ze3m/page-assist

目前已支持多种本地 AI 提供商,如 Ollama、Chrome AI 等,以及兼容 OpenAI API 使用。

浏览器方面支持 Chrome、Firefox、Edge 等,可在侧边栏或独立的 WebUI 界面访问。

已经在本地部署了模型的同学,不妨安装此插件体验下。

:icon_weibo: weibo.com/5722964389/PdB9Nxqq7

推荐 GitHub 上一个功能强大、可扩展的通信机器人平台:LangBot。

提供了丰富生态、支持扩展、多模态的能力,用于构建大模型的即时通信机器人,支持接入 QQ、微信、飞书等平台。

GitHub: github.com/RockChinQ/LangBot

同时支持多种主流大模型,如 DeepSeek、ChatGPT、Claude、Gemini、Ollama 等。

除此之外,还支持访问控制、限速、敏感词过滤等功能,支持多种部署方式,而且配置简单。

有需要的同学不妨看下。

:icon_weibo: weibo.com/5722964389/PdwQ62Yqv

推荐 GitHub 上一款开源免费的小红书的 图文/视频 作品采集工具:XHS-Downloader。

主要功能:

- 采集小红书图文/视频作品信息

- 提取小红书图文/视频作品下载地址

- 下载小红书无水印图文/视频作品文件

- 自动跳过已下载的作品文件

- 作品文件完整性处理机制

- 持久化储存作品信息至文件

GitHub: github.com/JoeanAmier/XHS-Down

工具所拥有的功能,基本能平替市场上大部分的收费软件,有需要的收藏使用。

:icon_weibo: weibo.com/5722964389/PdvFIbkzk

推荐 GitHub 上一款完全免费开源的 抖音/TikTok 采集工具:TikTokDownloader。

主要功能清单如下:

- 下载 抖音/TikTok 无水印 视频/图集

- 批量下载 抖音/TikTok 账号 发布/喜欢 作品

- 可采集 抖音/TikTok 详细数据,如作品评论数据、账号数据、热榜数据等

- 多账号批量下载作品

- 获取抖音直播推流地址,可下载直播视频

- 支持部署至 私有/公开 服务器

GitHub: github.com/JoeanAmier/TikTokDo

提供了开箱即用的安装包,支持 Windows 和 macOS 系统,有需求的可以收藏使用。

:icon_weibo: weibo.com/5722964389/PduFXzgOy

分享 GitHub 上一份专为首席技术官(CTO )设计的资源清单:awesome-cto。

由国外一位 CTO Dima 精心收集整理分享出来的,并称非常适用于初创公司和快速成长的企业。

内容含有 CTO 角色介绍、招聘技巧、团队管理、职业发展、项目管理实践、开发流程、初创公司指南、产品开发、市场营销等等。

GitHub: github.com/kuchin/awesome-cto

这些都是 Dima 收集的各种指南、使用到的工具以及相关技巧,值得看看。

:icon_weibo: weibo.com/5722964389/PdtYmfLIF

Show older
小森林

每个人都有属于自己的一片森林,也许我们从来不曾走过,但它一直在那里,总会在那里。迷失的人迷失了,相逢的人会再相逢。愿这里,成为属于你的小森林。