1月8日

08:00

HuggingFace Daily Papers（社区热门论文）

研究团队提出专为网页文档设计的 W-RAC 分块框架，将文本提取与语义分块规划解耦，以结构化 ID 寻址单元管理内容，并仅利用 LLM 执行检索感知分组决策而非文本生成。该方法在消除幻觉风险、提升系统可观测性的同时，将分块相关 LLM 成本降低一个数量级，且保持或优于传统方法的检索性能。

arXiv 检索增强数据/训练论文/研究

04:00

Qwen：Blog Retrieval（API）

Qwen3-VL-Embedding 与 Qwen3-VL-Reranker：面向下一代多模态检索

Qwen Studio 发布新一代多模态检索模型 Qwen3-VL-Embedding 与 Qwen3-VL-Reranker，平台集成聊天机器人、图像视频理解、图像生成、文档处理、联网搜索、工具调用及 Artifacts 等全栈多模态能力。

检索增强多模态模型发布

12月22日

08:00

xAI：News（网页）

Grok 发布 Collections API

Grok 推出 Collections API，支持上传 PDF、Excel、代码库等文件构建知识库，提供语义、关键词及混合搜索三种检索方式，帮助开发者零基础设施构建 RAG 应用。首周文件索引与存储免费，检索定价 $2.50/千次。基准测试显示，其在金融（93.0%）、法律（73.9%）、编码（86%）场景的检索准确率均优于 Gemini Pro 3 和 GPT 5.1。

检索增强 xAI 产品更新部署/工程

10月9日

23:49

Jeff Dean@JeffDean

精选

Gemini 与 Google Cloud 推出组织上下文数据及 Agent 系统新功能

Google 为 Gemini 和 Google Cloud 推出一系列新功能，支持基于组织上下文数据构建 Agent 系统，实现企业数据信息提取与任务自动化，例如根据历史会议记录自动整理项目待办事项。

智能体 Google 检索增强产品更新

推荐理由：Google推出Gemini企业级Agent构建功能，支持基于组织私有数据的智能任务处理

8月29日

02:07

Andrej Karpathy@karpathy

精选

将人类知识、传感器与执行器从"人类优先"转向"LLM优先"……

教科书等知识载体应从人类可读格式转为LLM优化格式：提取正文为结构化markdown，例题转为SFT训练数据，练习题转为RL环境并附加答案作为评判标准，同时支持合成数据无限扩展（如将时钟角度问题泛化为任意时间的自动出题器），最终构建RAG或MCP服务供LLM像学生一样系统学习，远比简单PDF转文本更高效。

检索增强大佬观点数据/训练

推荐理由：Karpathy提出LLMification概念，将教科书重构为LLM训练数据的新范式

7月30日

22:44

Hacker News：AI 热帖

Show HN： Sourcebot - 可自托管的代码库版 Perplexity

Sourcebot v4.6.0 新增 Ask Sourcebot 功能，支持用自然语言查询代码库并获取带内联引用的 Markdown 回答。用户需自备 LLM API key，实现类似 Perplexity 的自托管代码搜索体验。

GitHub 检索增强开源/仓库编码

5月28日

00:00

Mistral AI：News（网页）

Mistral AI 发布代码专用嵌入模型 Codestral Embed

Mistral AI 发布首个专为代码设计的嵌入模型 Codestral Embed。该模型在代码检索任务上性能显著超越当前领先的 Voyage Code 3、Cohere Embed v4.0 和 OpenAI 大型嵌入模型。它支持输出不同维度和精度的嵌入向量，即使在 256 维度 int8 精度下仍优于竞品。模型通过 API 以 codestral-embed-2505 名称提供，定价为每百万 token 0.15 美元，批量 API 享五折优惠。最大上下文长度为 8192 tokens，推荐使用 3000 字符（含 1000 字符重叠）分块以优化检索效果。

检索增强模型发布编码

4月9日

00:00

Mistral AI：News（网页）

使用大语言模型作为评判者评估 RAG 系统

评估 RAG 系统需同时验证检索相关性和生成准确性。传统方法难以全面评估，因此提出了“LLM 作为评判者”的方法，通过一个“法官 LLM”依据量表对“生成器 LLM”的输出进行评分。评估框架 RAG Triad 从三个维度进行综合评估：上下文相关性（检索内容是否契合查询）、事实基础（生成内容是否基于检索内容）和答案相关性（最终回答是否切题）。Mistral 的模型适用于构建生成与评判组件。

检索增强教程/实践

9月19日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选72

引入上下文检索：大幅提升RAG系统准确性的新方法

传统RAG系统在编码时易丢失上下文，导致检索失败。新方法“上下文检索”通过“上下文嵌入”和“上下文BM25”两项子技术，在检索前为文本块添加解释性上下文，能将检索失败次数减少49%，结合重排序后降幅可达67%，显著提升了下游任务性能。对于小于20万token的小型知识库，可直接将其完整内容放入提示词，结合Claude的提示词缓存功能，能降低超过2倍的延迟和高达90%的成本。对于大型知识库，上下文检索则提供了可扩展的解决方案。

Anthropic 检索增强教程/实践部署/工程

推荐理由：Anthropic 把 RAG 检索失败率砍了 67%，方法不复杂但数据扎实，做知识库的开发者可以直接抄 cookbook 上手，是那种读完当天就能改进生产环境的实用帖。

10月29日

08:00

Lilian Weng：Lil'Log（RSS）

如何构建开放域问答系统？

文章探讨了构建开放域问答系统的方法，指出该类系统能够回答事实性知识相关问题，可应用于聊天机器人或AI助手等场景。文中分析了闭卷和开卷两种技术路线，并提及在已有强大预训练语言模型的前提下，如何实际搭建这类系统。文章在2020年11月12日更新后，新增了使用OpenAI API（测试版）进行闭卷事实问答的具体示例。

检索增强搜索教程/实践