全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 116 条

全部一手资讯 X 论文

标签「RAG」清除

5月1日周五

02:13Google Developers Blog（RSS）62精选基于Gemini Embedding 2构建：智能多模态RAG及其他应用

4月30日周四

08:00HuggingFace Daily Papers（社区热门论文）44EviMem：基于证据缺口的迭代检索框架，用于长期对话记忆

4月29日周三

05:38HuggingFace Daily Papers（社区热门论文）49通过表示稳定性提升表格检索的鲁棒性

4月27日周一

17:55公众号：通义实验室（千问）34搜对≠答对：EAPO用"证据奖励"让大模型不再靠猜

4月26日周日

08:00HuggingFace Daily Papers（社区热门论文）50RaV-IDP：基于重建验证的可靠智能文档处理框架

4月25日周六

08:00HuggingFace Daily Papers（社区热门论文）45IndustryAssetEQA：面向工业资产维护的具身问答神经符号操作智能系统

4月24日周五

12:17HuggingFace Daily Papers（社区热门论文）45可信需验证：DAVinCI框架--语言模型声明推理的双重归因与验证

08:00HuggingFace Daily Papers（社区热门论文）59上下文永不足够：基于结构化推理的可扩展长文档集问答

08:00HuggingFace Daily Papers（社区热门论文）53为冻结大语言模型学习证据高亮（Learning Evidence Highlighting for Frozen LLMs）

4月21日周二

12:34HuggingFace Daily Papers（社区热门论文）MathNet：全球多模态数学推理与检索基准

10:10IT之家（RSS）RAG AI 测试：AMD 3D V-Cache 比非 X3D 型号处理器性能最高提升 88%

4月20日周一

08:00HuggingFace Daily Papers（社区热门论文）面向指令遵循信息检索的双视角训练

4月19日周日

08:00HuggingFace Daily Papers（社区热门论文）语码转换信息检索：基准测试、分析与现有检索器的局限

4月17日周五

21:02HuggingFace Daily Papers（社区热门论文）基于LLM的密集检索器鲁棒性研究：泛化性与稳定性系统分析

17:53HuggingFace Daily Papers（社区热门论文）无需检索，只需导航：将企业知识蒸馏为可导航的 Agent 技能用于 QA 和 RAG

10:53HuggingFace Daily Papers（社区热门论文）UniDoc-RL：基于层次化动作与密集奖励的由粗到细视觉RAG

4月16日周四

21:00Cloudflare BlogAI Search：面向智能体的搜索原语

11:47HuggingFace Daily Papers（社区热门论文）MERRIN：嘈杂网络环境中的多模态证据检索与推理基准

10:47HuggingFace Daily Papers（社区热门论文）ROSE：面向检索的分割增强

4月13日周一

08:00HuggingFace Daily Papers（社区热门论文）时间并非标签：面向时序知识图谱与智能体记忆的连续相位旋转

4月12日周日

08:00HuggingFace Daily Papers（社区热门论文）PersonalAI：个性化LLM智能体知识图谱存储与检索方法的系统比较

4月10日周五

08:00OpenAI：官网动态（RSS · 排除企业/客户案例）在 ChatGPT 中处理文件

4月9日周四

17:30公众号：通义实验室（千问）56VimRAG：图文视频全模态知识库开源框架

4月8日周三

08:00HuggingFace Daily Papers（社区热门论文）ATANT：AI 连续性评估框架

3月23日周一

08:00Google Developers Blog（RSS）71精选使用 LlamaParse 与 Gemini 3.1 构建智能金融助手

3月17日周二

08:00HuggingFace Daily Papers（社区热门论文）32AgriIR：一个可扩展的领域特定知识检索框架

3月16日周一

00:00Google Research：Blog（网页）用高温超导问题测试 LLM 的研究能力

2月28日周六

21:29Hacker News：AI 热帖Show HN： Now I Get It - 将科学论文转化为交互式网页

1月8日周四

08:00HuggingFace Daily Papers（社区热门论文）面向高效低成本 RAG 系统的网页检索感知分块（W-RAC）

04:00Qwen：Blog Retrieval（API）Qwen3-VL-Embedding 与 Qwen3-VL-Reranker：面向下一代多模态检索

12月22日周一

08:00xAI：News（网页）Grok 发布 Collections API

7月30日周三

22:44Hacker News：AI 热帖Show HN： Sourcebot - 可自托管的代码库版 Perplexity

5月28日周三

00:00Mistral AI：News（网页）61Mistral AI 发布代码专用嵌入模型 Codestral Embed

4月9日周三

00:00Mistral AI：News（网页）67使用大语言模型作为评判者评估 RAG 系统

9月19日周四

00:00Anthropic：Engineering（事故复盘 + 工程实践 · 网页）72精选引入上下文检索：大幅提升RAG系统准确性的新方法

10月29日周四

08:00Lilian Weng：Lil'Log（RSS）31如何构建开放域问答系统？

没有更多了

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月1日

02:13

Google Developers Blog（RSS）

精选62

基于Gemini Embedding 2构建：智能多模态RAG及其他应用

Google正式发布Gemini Embedding 2统一嵌入模型，该模型能将文本、图像、视频、音频和文档映射到同一语义空间。开发者可通过单请求处理交织多模态输入，显著提升智能RAG、视觉搜索等内容审核任务的性能。模型支持超100种语言，并提供任务特定前缀和马特廖什卡降维等特性，为构建复杂AI智能体提供高效精准的基础。

Google 检索增强多模态模型发布

推荐理由：开发者做多模态RAG的苦日子结束了，Gemini Embedding 2把文本、图片、视频塞进同一个语义空间，还自带Matryoshka降维，直接省掉一堆胶水代码。

4月30日

08:00

HuggingFace Daily Papers（社区热门论文）

44

EviMem：基于证据缺口的迭代检索框架，用于长期对话记忆

研究团队提出EviMem系统，包含IRIS闭环框架与LaceMem分层记忆架构，通过显式诊断证据缺口来驱动精准查询优化。该系统在LoCoMo数据集上显著提升长期对话记忆的检索效果：针对时序问题的判断准确率从73.3%提升至81.6%，多跳问题准确率从65.9%提升至85.2%，同时延迟降低至原有方法的1/4.5。核心创新在于实现了从缺口检测、缺失内容诊断到针对性查询优化的完整闭环。

arXiv 检索增强论文/研究

4月29日

05:38

HuggingFace Daily Papers（社区热门论文）

49

通过表示稳定性提升表格检索的鲁棒性

基于Transformer的表格检索系统将结构化表格扁平化为序列，导致即使语义不变，不同序列化格式（如CSV、HTML）也会产生显著差异的检索结果。研究将不同格式的嵌入视为共享语义的噪声视图，以其质心作为规范表示。质心平均法能有效抑制格式特异性变异，在多个检索模型的比较中优于单一格式。此外，研究引入轻量级残差瓶颈适配器，将单格式嵌入映射向质心目标，并施加协方差正则化。该适配器提升了多个稠密检索器的鲁棒性，但改进效果因模型而异，对稀疏检索提升较弱。相关代码与模型已开源。

检索增强论文/研究部署/工程

4月27日

17:55

公众号：通义实验室（千问）

34

搜对≠答对：EAPO用"证据奖励"让大模型不再靠猜

检索增强推理教程/实践

4月26日

08:00

HuggingFace Daily Papers（社区热门论文）

50

RaV-IDP：基于重建验证的可靠智能文档处理框架

智能文档处理管道常因缺乏验证机制，导致提取错误无声传递至下游系统。RaV-IDP框架创新性地引入重建作为核心组件，在提取每个实体后，通过专用重建器将结果渲染回与原文档区域可比的形式，并由比较器评估重建与原始截图的保真度，生成无需标注的质量信号。若保真度低于实体类型阈值，系统触发基于GPT-4.1 Vision的结构化回退机制并重复验证循环，始终以原始文档区域为锚点，避免循环依赖。该框架还提供了每阶段评估方法，将管道组件与基准配对，相关代码已在GitHub开源供实验使用。

检索增强论文/研究部署/工程

4月25日

08:00

HuggingFace Daily Papers（社区热门论文）

45

IndustryAssetEQA：面向工业资产维护的具身问答神经符号操作智能系统

工业维护中，AI助手常因解释泛化、缺乏遥测基础而影响信任。为此，研究团队推出IndustryAssetEQA，该系统结合事件遥测表征与故障模式影响分析知识图谱，实现针对工业资产的神经符号具身问答。在覆盖旋转机械、涡扇发动机等四种资产类型的数据集上评估显示，相比纯大语言模型基线，其结构有效性最高提升0.51，反事实准确性最高提升0.47，解释蕴涵度提升0.64，并将专家评定的严重过度断言从28%降至2%（降幅约93%）。相关代码、数据集及知识图谱已开源。

检索增强具身智能论文/研究

4月24日

12:17

HuggingFace Daily Papers（社区热门论文）

45

可信需验证：DAVinCI框架--语言模型声明推理的双重归因与验证

针对大语言模型存在事实错误与幻觉的问题，本文提出了DAVinCI双重归因与验证框架。该框架首先将模型生成的声明归因于内部组件和外部来源，随后利用蕴含推理和置信度校准进行验证。在FEVER等数据集上的评估表明，DAVinCI将分类准确率、归因精确率、召回率和F1分数提升了5-20%。研究通过消融实验分析了关键组件的影响，并发布了可集成至现有LLM流程的模块化方案。该框架为构建可审计、可信赖的AI系统提供了可扩展路径。

检索增强安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

59

上下文永不足够：基于结构化推理的可扩展长文档集问答

SLIDERS框架通过结构化方法解决长文档集问答的扩展性难题。它将文档关键信息提取至关系数据库，利用SQL进行高效推理，避免了传统文本拼接法的瓶颈。其核心创新是数据协调阶段，通过来源、依据和元数据检测并修复重复、不一致或不完整的记录，确保信息全局一致性。该框架在三个现有长上下文基准测试中均超越所有基线模型，平均领先GPT-4.1达6.6分；在包含390万和3600万token的两个新基准上，相较次优模型的优势分别扩大至约19分和32分，展现出卓越的大规模文档处理能力。

检索增强论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

53

为冻结大语言模型学习证据高亮（Learning Evidence Highlighting for Frozen LLMs）

HiLight 是一个证据强调框架，它将证据选择与推理过程解耦，专门用于服务参数冻结的大语言模型。该框架训练一个轻量级的“强调执行器”，在不改动原始上下文的前提下，仅围绕关键证据片段插入最少量的高亮标记，从而避免压缩或重写输入可能导致的证据丢失或扭曲。随后，冻结的“求解器”模型基于被强调的输入进行下游推理。该方法将高亮视为弱监督决策问题，仅利用求解器的任务奖励通过强化学习优化执行器，无需证据标注，也无需访问或修改求解器。在序列推荐和长上下文问答任务中，HiLight 的性能持续优于基于提示和自动提示优化的基线方法。学习到的强调策略能够零样本迁移到未见过的、或大或小的求解器模型家族，包括基于 API 的求解器，这表明执行器捕捉到了真实且可复用的证据结构，而非对单一骨干模型过拟合。

检索增强推理论文/研究

4月21日

12:34

HuggingFace Daily Papers（社区热门论文）

MathNet：全球多模态数学推理与检索基准

本文提出MathNet，一个大规模多语言奥林匹克数学基准，收录47国17种语言的30,676道专家命题，跨越二十年竞赛历史。该基准支持问题求解、数学感知检索及检索增强问题求解三项任务。实验显示，即使最先进的推理模型（Gemini-3.1-Pro 78.4%、GPT-5 69.3%）仍面临挑战，而嵌入模型在数学等价检索上表现不佳。研究表明，DeepSeek-V3.2-Speciale通过检索增强技术实现最高12%性能提升，创下基准最高分。

DeepSeek OpenAI 检索增强推理

10:10

IT之家（RSS）

RAG AI 测试：AMD 3D V-Cache 比非 X3D 型号处理器性能最高提升 88%

摩根士丹利基于开源 X3D RAG 基准测试显示，在 RAG AI 向量搜索场景中，AMD 3D V-Cache 处理器性能较非 X3D 型号最高提升 88%。10 万批量搜索中，Ryzen 3D V-Cache 芯片速度领先 88%；20 万规模下，Ryzen 7 9850X3D 较 9700X 提升超 50%，甚至超越 16 核的 9950X。大容量缓存显著优化 HNSW 图检索算法，使索引构建耗时在 10 万和 20 万规模下分别缩短 50% 和 39%。

检索增强评测/基准部署/工程

4月20日

08:00

HuggingFace Daily Papers（社区热门论文）

面向指令遵循信息检索的双视角训练

研究人员提出基于极性反转的双视角数据合成策略，通过提示 LLM 生成互补指令，使相关文档与违反指令的难负样本交换相关性标签，强制检索器依据指令而非固定主题线索重新评估候选集。在 305M 参数的编码器上，该方法在 FollowIR 基准测试中性能提升 45%，超越同等或更大规模的通用嵌入模型。实验表明数据多样性与指令监督具有互补作用，前者保持通用检索质量，后者提升指令敏感度。

arXiv 检索增强数据/训练论文/研究

4月19日

08:00

HuggingFace Daily Papers（社区热门论文）

语码转换信息检索：基准测试、分析与现有检索器的局限

研究人员发布CSR-L和CS-MTEB两项基准测试以评估混合语言检索场景，后者涵盖11类任务。实验显示，语码转换使检索性能最高下降27%，其根源在于纯文本与混合文本在嵌入空间存在显著差异。即使采用词汇扩展等标准多语言技术也无法完全消除该缺陷，暴露出当前系统在处理自然混合语言查询时的结构性脆弱。

arXiv 检索增强论文/研究

4月17日

21:02

HuggingFace Daily Papers（社区热门论文）

基于LLM的密集检索器鲁棒性研究：泛化性与稳定性系统分析

本文首次系统研究开源LLM密集检索器的鲁棒性，从泛化性与稳定性双维度，在覆盖30个数据集的4项基准上评估。发现指令微调模型虽整体优异，但针对复杂推理优化的模型存在"专业化税"，泛化能力受限。稳定性测试表明，LLM检索器对拼写错误和语料库投毒攻击比仅编码器基线更鲁棒，但对同义词替换等语义扰动仍敏感。嵌入几何结构（如角度均匀性）可预测词汇稳定性，且扩大模型规模通常能提升鲁棒性。

arXiv Hugging Face 检索增强论文/研究

17:53

HuggingFace Daily Papers（社区热门论文）

无需检索，只需导航：将企业知识蒸馏为可导航的 Agent 技能用于 QA 和 RAG

Corpus2Skill 通过迭代聚类与分层摘要生成，将企业文档语料库离线蒸馏为树状可导航技能目录，使 LLM 智能体在 serving 时能够全局浏览语料结构、主动深入主题分支并回溯优化检索路径，实现从被动消费证据到主动导航探索的范式转变。在 WixQA 企业客服基准测试中，该系统在所有质量指标上均超越密集检索、RAPTOR 及 agentic RAG 基线。

智能体 arXiv 检索增强论文/研究

10:53

HuggingFace Daily Papers（社区热门论文）

UniDoc-RL：基于层次化动作与密集奖励的由粗到细视觉RAG

针对现有视觉RAG系统忽略细粒度视觉语义的问题，本文提出UniDoc-RL统一强化学习框架。该方法将视觉信息获取建模为层次化顺序决策过程，通过从粗粒度文档检索到细粒度图像选择再到主动区域裁剪的渐进式策略，使大型视觉语言模型智能体联合执行检索、重排序与推理。引入密集多奖励方案为每个动作提供任务感知监督，并基于GRPO算法实现端到端训练而无需价值网络。在三个基准测试中，该方法相比现有基于RL的方法性能提升最高达17.7%。

智能体 arXiv 检索增强论文/研究

4月16日

21:00

Cloudflare Blog

AI Search：面向智能体的搜索原语

AI Search 作为面向智能体的搜索基础组件发布，支持动态创建实例、上传文件，并基于混合检索与相关性增强技术实现跨实例搜索。用户只需完成创建搜索实例、上传文档、执行检索三步操作，即可为 Agents 快速构建高效的知识检索能力，满足智能体对信息查询与知识管理的核心需求。

智能体检索增强产品更新

11:47

HuggingFace Daily Papers（社区热门论文）

MERRIN：嘈杂网络环境中的多模态证据检索与推理基准

研究团队发布MERRIN基准，评估搜索增强智能体在嘈杂网络环境中的多模态证据检索与推理能力。该基准涵盖视频、音频等未充分探索模态，要求智能体在无明确模态提示的查询下检索复杂且常含噪声或冲突的证据。测试显示，10个模型（包括GPT-5.4-mini、Gemini 3/3.1及Qwen3系列）平均准确率仅22.3%，最佳达40.1%。研究发现，强智能体虽表现更优，但因过度探索导致资源消耗高而准确率提升有限，且相比人类存在信源选择低效和过度依赖文本模态的问题。

智能体 arXiv 检索增强多模态

10:47

HuggingFace Daily Papers（社区热门论文）

ROSE：面向检索的分割增强

研究团队提出即插即用框架ROSE，通过引入互联网检索增强生成、文本与视觉提示增强及WebSense智能调度四大模块，解决多模态大语言模型在分割训练数据外新颖实体与需实时信息新兴实体时的知识滞后问题。同步构建的NEST基准测试用于评估此类场景。实验显示，ROSE在NEST基准上较Gemini-2.0 Flash检索基线提升19.2 gIoU，显著增强模型对实时网络信息的利用能力。

arXiv Hugging Face 检索增强多模态

4月13日

08:00

HuggingFace Daily Papers（社区热门论文）

时间并非标签：面向时序知识图谱与智能体记忆的连续相位旋转

研究团队推出RoMem时序知识图谱模块，采用连续相位旋转机制替代传统离散时间标签。预训练语义速度门为不同关系分配波动率分数，使"总统"等易变关系快速旋转而"出生地"等持久事实保持稳定，通过几何阴影遮蔽过时信息而非直接删除。该方法在ICEWS05-15数据集取得72.6 MRR的SOTA成绩，应用于智能体记忆时在MultiTQ时序推理任务实现2-3倍MRR提升，并在LoCoMo、DMR-MSC及FinTMMBench基准测试中展现零退化与零样本泛化能力。

智能体 arXiv 检索增强论文/研究

4月12日

08:00

HuggingFace Daily Papers（社区热门论文）

PersonalAI：个性化LLM智能体知识图谱存储与检索方法的系统比较

本文提出PersonalAI，一种基于知识图谱的灵活外部记忆框架，由LLM自动构建和更新。该框架在AriGraph基础上引入混合图设计，支持标准边与两种超边，实现丰富的语义和时间表示。系统集成A*、WaterCircles遍历、束搜索等多种检索机制，在TriviaQA、HotpotQA及扩展版DiaASQ基准测试中验证表明：不同任务需配置不同记忆与检索策略。研究还扩展DiaASQ数据集，添加时间注释和矛盾陈述，证明系统在时间依赖管理和上下文感知推理中的鲁棒性。

智能体 arXiv 检索增强论文/研究

4月10日

08:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

在 ChatGPT 中处理文件

了解如何在 ChatGPT 中上传 PDF、电子表格等文件，利用该功能分析数据、总结文档，并基于文件内容生成新内容。

OpenAI 检索增强教程/实践

4月9日

17:30

公众号：通义实验室（千问）

56

VimRAG：图文视频全模态知识库开源框架

VimRAG 是一个开源框架，通过模态统一记忆技术，支持图文视频全模态知识库，告别分模态处理，实现一体化管理。

检索增强多模态开源/仓库

4月8日

08:00

HuggingFace Daily Papers（社区热门论文）

ATANT：AI 连续性评估框架

研究团队发布 ATANT 开源评估框架，用于衡量 AI 系统跨时间保持上下文连续性的能力。框架定义了连续性的 7 项必要属性，采用无 LLM 参与的 10 检查点方法，包含 250 个故事和 1,835 个验证问题。评估显示，参考实现从遗留架构的 58% 提升至隔离模式 100%，250 故事累积模式下达 96%。该框架系统无关、模型独立，可验证 AI 在多叙事共存时避免交叉污染的能力。

智能体 arXiv 检索增强论文/研究

3月23日

08:00

Google Developers Blog（RSS）

精选71

使用 LlamaParse 与 Gemini 3.1 构建智能金融助手

结合 LlamaParse 与 Gemini 3.1 模型，可从复杂的非结构化文档中提取高质量数据。该方案采用事件驱动架构，利用 Gemini 3.1 Pro 对密集的金融表格进行智能解析，并使用 Gemini 3.1 Flash 进行高性价比的摘要生成。开发者通过此教程可构建个人财务助手，将杂乱的经纪账户对账单转化为结构清晰、易于理解的分析报告。

智能体 Google 检索增强教程/实践

推荐理由：开发者可快速上手构建财务AI助手，将杂乱数据转化为结构化见解。

3月17日

08:00

HuggingFace Daily Papers（社区热门论文）

32

AgriIR：一个可扩展的领域特定知识检索框架

本文提出AgriIR，一个可配置的检索增强生成框架，旨在以低计算成本提供基于事实的领域特定答案。该框架将信息获取过程分解为声明式模块化阶段，包括查询优化、子查询规划、检索、合成与评估，无需修改架构即可适配新知识领域。参考实现面向印度农业信息获取，集成了10亿参数语言模型、自适应检索器和领域感知智能体目录。系统强制执行确定性引用，集成遥测数据以确保透明性，并包含自动化部署资产以实现可审计、可复现的运行。该设计表明，精心设计的流程能在有限资源下实现领域精准且可信的检索，体现了“农业人工智能”的理念，通过提升可访问性、可持续性和可问责性，推动检索增强生成系统的发展。

检索增强论文/研究部署/工程

3月16日

00:00

Google Research：Blog（网页）

用高温超导问题测试 LLM 的研究能力

Google Research 与康奈尔大学在 PNAS 发表研究，评估六个 LLM 回答高温超导领域专家级问题的能力。测试包含 67 个关于铜氧化物超导机制的深层问题，由 12 位国际专家评分。结果显示，基于 15 篇精选综述和 1726 个质量控制来源的封闭系统（NotebookLM 及定制系统）表现最优，而开放网络访问的模型准确性不足。研究表明，在专业物理领域，基于 curated 数据库的封闭系统比开放搜索更能提供准确、均衡的学术回答。

Google 检索增强论文/研究

2月28日

21:29

Hacker News：AI 热帖

Show HN： Now I Get It - 将科学论文转化为交互式网页

上传科学 PDF（建议小于 10MB，最大 32MB）至 Now I Get It，即可生成通俗易懂的交互式解释网页，当前输出公开可分享，私人账户功能即将上线。

检索增强产品更新

1月8日

08:00

HuggingFace Daily Papers（社区热门论文）

面向高效低成本 RAG 系统的网页检索感知分块（W-RAC）

研究团队提出专为网页文档设计的 W-RAC 分块框架，将文本提取与语义分块规划解耦，以结构化 ID 寻址单元管理内容，并仅利用 LLM 执行检索感知分组决策而非文本生成。该方法在消除幻觉风险、提升系统可观测性的同时，将分块相关 LLM 成本降低一个数量级，且保持或优于传统方法的检索性能。

arXiv 检索增强数据/训练论文/研究

04:00

Qwen：Blog Retrieval（API）

Qwen3-VL-Embedding 与 Qwen3-VL-Reranker：面向下一代多模态检索

Qwen Studio 发布新一代多模态检索模型 Qwen3-VL-Embedding 与 Qwen3-VL-Reranker，平台集成聊天机器人、图像视频理解、图像生成、文档处理、联网搜索、工具调用及 Artifacts 等全栈多模态能力。

检索增强多模态模型发布

12月22日

08:00

xAI：News（网页）

Grok 发布 Collections API

Grok 推出 Collections API，支持上传 PDF、Excel、代码库等文件构建知识库，提供语义、关键词及混合搜索三种检索方式，帮助开发者零基础设施构建 RAG 应用。首周文件索引与存储免费，检索定价 $2.50/千次。基准测试显示，其在金融（93.0%）、法律（73.9%）、编码（86%）场景的检索准确率均优于 Gemini Pro 3 和 GPT 5.1。

检索增强 xAI 产品更新部署/工程

7月30日

22:44

Hacker News：AI 热帖

Show HN： Sourcebot - 可自托管的代码库版 Perplexity

Sourcebot v4.6.0 新增 Ask Sourcebot 功能，支持用自然语言查询代码库并获取带内联引用的 Markdown 回答。用户需自备 LLM API key，实现类似 Perplexity 的自托管代码搜索体验。

GitHub 检索增强开源/仓库编码

5月28日

00:00

Mistral AI：News（网页）

61

Mistral AI 发布代码专用嵌入模型 Codestral Embed

Mistral AI 发布首个专为代码设计的嵌入模型 Codestral Embed。该模型在代码检索任务上性能显著超越当前领先的 Voyage Code 3、Cohere Embed v4.0 和 OpenAI 大型嵌入模型。它支持输出不同维度和精度的嵌入向量，即使在 256 维度 int8 精度下仍优于竞品。模型通过 API 以 codestral-embed-2505 名称提供，定价为每百万 token 0.15 美元，批量 API 享五折优惠。最大上下文长度为 8192 tokens，推荐使用 3000 字符（含 1000 字符重叠）分块以优化检索效果。

检索增强模型发布编码

4月9日

00:00

Mistral AI：News（网页）

67

使用大语言模型作为评判者评估 RAG 系统

评估 RAG 系统需同时验证检索相关性和生成准确性。传统方法难以全面评估，因此提出了“LLM 作为评判者”的方法，通过一个“法官 LLM”依据量表对“生成器 LLM”的输出进行评分。评估框架 RAG Triad 从三个维度进行综合评估：上下文相关性（检索内容是否契合查询）、事实基础（生成内容是否基于检索内容）和答案相关性（最终回答是否切题）。Mistral 的模型适用于构建生成与评判组件。

检索增强教程/实践

9月19日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选72

引入上下文检索：大幅提升RAG系统准确性的新方法

传统RAG系统在编码时易丢失上下文，导致检索失败。新方法“上下文检索”通过“上下文嵌入”和“上下文BM25”两项子技术，在检索前为文本块添加解释性上下文，能将检索失败次数减少49%，结合重排序后降幅可达67%，显著提升了下游任务性能。对于小于20万token的小型知识库，可直接将其完整内容放入提示词，结合Claude的提示词缓存功能，能降低超过2倍的延迟和高达90%的成本。对于大型知识库，上下文检索则提供了可扩展的解决方案。

Anthropic 检索增强教程/实践部署/工程

推荐理由：Anthropic 把 RAG 检索失败率砍了 67%，方法不复杂但数据扎实，做知识库的开发者可以直接抄 cookbook 上手，是那种读完当天就能改进生产环境的实用帖。

10月29日

08:00

Lilian Weng：Lil'Log（RSS）

31

如何构建开放域问答系统？

文章探讨了构建开放域问答系统的方法，指出该类系统能够回答事实性知识相关问题，可应用于聊天机器人或AI助手等场景。文中分析了闭卷和开卷两种技术路线，并提及在已有强大预训练语言模型的前提下，如何实际搭建这类系统。文章在2020年11月12日更新后，新增了使用OpenAI API（测试版）进行闭卷事实问答的具体示例。

检索增强搜索教程/实践

1 23

下一页 ›