研究团队提出专为网页文档设计的 W-RAC 分块框架,将文本提取与语义分块规划解耦,以结构化 ID 寻址单元管理内容,并仅利用 LLM 执行检索感知分组决策而非文本生成。该方法在消除幻觉风险、提升系统可观测性的同时,将分块相关 LLM 成本降低一个数量级,且保持或优于传统方法的检索性能。
研究团队提出专为网页文档设计的 W-RAC 分块框架,将文本提取与语义分块规划解耦,以结构化 ID 寻址单元管理内容,并仅利用 LLM 执行检索感知分组决策而非文本生成。该方法在消除幻觉风险、提升系统可观测性的同时,将分块相关 LLM 成本降低一个数量级,且保持或优于传统方法的检索性能。
Qwen Studio 发布新一代多模态检索模型 Qwen3-VL-Embedding 与 Qwen3-VL-Reranker,平台集成聊天机器人、图像视频理解、图像生成、文档处理、联网搜索、工具调用及 Artifacts 等全栈多模态能力。
Grok 推出 Collections API,支持上传 PDF、Excel、代码库等文件构建知识库,提供语义、关键词及混合搜索三种检索方式,帮助开发者零基础设施构建 RAG 应用。首周文件索引与存储免费,检索定价 $2.50/千次。基准测试显示,其在金融(93.0%)、法律(73.9%)、编码(86%)场景的检索准确率均优于 Gemini Pro 3 和 GPT 5.1。
Google 为 Gemini 和 Google Cloud 推出一系列新功能,支持基于组织上下文数据构建 Agent 系统,实现企业数据信息提取与任务自动化,例如根据历史会议记录自动整理项目待办事项。
教科书等知识载体应从人类可读格式转为LLM优化格式:提取正文为结构化markdown,例题转为SFT训练数据,练习题转为RL环境并附加答案作为评判标准,同时支持合成数据无限扩展(如将时钟角度问题泛化为任意时间的自动出题器),最终构建RAG或MCP服务供LLM像学生一样系统学习,远比简单PDF转文本更高效。
Sourcebot v4.6.0 新增 Ask Sourcebot 功能,支持用自然语言查询代码库并获取带内联引用的 Markdown 回答。用户需自备 LLM API key,实现类似 Perplexity 的自托管代码搜索体验。
Mistral AI 发布首个专为代码设计的嵌入模型 Codestral Embed。该模型在代码检索任务上性能显著超越当前领先的 Voyage Code 3、Cohere Embed v4.0 和 OpenAI 大型嵌入模型。它支持输出不同维度和精度的嵌入向量,即使在 256 维度 int8 精度下仍优于竞品。模型通过 API 以 codestral-embed-2505 名称提供,定价为每百万 token 0.15 美元,批量 API 享五折优惠。最大上下文长度为 8192 tokens,推荐使用 3000 字符(含 1000 字符重叠)分块以优化检索效果。
评估 RAG 系统需同时验证检索相关性和生成准确性。传统方法难以全面评估,因此提出了“LLM 作为评判者”的方法,通过一个“法官 LLM”依据量表对“生成器 LLM”的输出进行评分。评估框架 RAG Triad 从三个维度进行综合评估:上下文相关性(检索内容是否契合查询)、事实基础(生成内容是否基于检索内容)和答案相关性(最终回答是否切题)。Mistral 的模型适用于构建生成与评判组件。
传统RAG系统在编码时易丢失上下文,导致检索失败。新方法“上下文检索”通过“上下文嵌入”和“上下文BM25”两项子技术,在检索前为文本块添加解释性上下文,能将检索失败次数减少49%,结合重排序后降幅可达67%,显著提升了下游任务性能。对于小于20万token的小型知识库,可直接将其完整内容放入提示词,结合Claude的提示词缓存功能,能降低超过2倍的延迟和高达90%的成本。对于大型知识库,上下文检索则提供了可扩展的解决方案。
文章探讨了构建开放域问答系统的方法,指出该类系统能够回答事实性知识相关问题,可应用于聊天机器人或AI助手等场景。文中分析了闭卷和开卷两种技术路线,并提及在已有强大预训练语言模型的前提下,如何实际搭建这类系统。文章在2020年11月12日更新后,新增了使用OpenAI API(测试版)进行闭卷事实问答的具体示例。