7月3日

06:08

MarkTechPost（RSS）

RAG-Anything 教程：在 Colab 中构建文本、表格、公式和图像的多模态检索管道

本教程使用 RAG-Anything 搭建多模态检索工作流，可检索文本、表格、公式和图像。首先在 Colab 中安装依赖并修复 Pillow 版本，通过 OpenAI API key 配置对话、视觉和嵌入函数。接着生成包含图表和 PDF 的合成多模态报告，将其转为 content_list 格式并插入检索系统。最后配置并测试 naive、local、global 和 hybrid 四种检索模式。环境变量包括 CHUNK_SIZE=900、CHUNK_OVERLAP_SIZE=120，便于在笔记本中复现。

检索增强多模态教程/实践

6月29日

08:00

HuggingFace Daily Papers（社区热门论文）

紧凑型语言模型在RAG系统中实现设备端推理，无需GPU

一项研究评估了小型语言模型在检索增强生成（RAG）系统中的生成性能。实验采用开源与专有数据集，覆盖多种学科与问题类型。结果表明，配备小语言模型的RAG系统可在设备端直接运行，且无需任何GPU硬件，在合理时间内完成推理。实验代码及补充材料已通过GitHub仓库公开。

检索增强端侧论文/研究

6月26日

03:01

Hacker News 热门（buzzing.cc 中文翻译）

《圣经》作为RAG数据库

一个将《圣经》文本作为RAG（检索增强生成）数据库的网站，提供基于圣经内容的问答检索功能，项目地址为crosscanon.com。

检索增强产品更新

6月24日

11:55

HuggingFace Daily Papers（社区热门论文）

DREAM：通过自回归建模实现密集检索嵌入

DREAM是一种利用大语言模型（LLM）自回归下一token预测目标为密集检索嵌入模型提供监督训练的方法。它将检索器生成的查询-文档相似度分数注入冻结LLM的选定注意力头，使预测损失通过注意力机制为检索器提供梯度。在BEIR和RTEB检索基准上，使用0.5B至3B参数的嵌入骨干，DREAM均持续优于现有基线。

arXiv 检索增强数据/训练论文/研究

08:18

MarkTechPost（RSS）

同事件精选72

Mistral AI 发布 OCR 4 模型

Mistral AI 今日发布 OCR 4，支持 170 种语言，可单容器自托管部署。新版本除提取文本外，还返回边界框、块类型（标题/表格/方程等）和逐字置信度分数。独立标注者在 600+ 文档、12+ 语言的测试中平均胜率 72%。价格 $4/千页，批量 $2/千页，Document AI 模式 $5/千页。企业客户可自托管。Rogo 报告等效精度下成本低约 8 倍、延迟低 17 倍；Anaqua 测得每页快约 4 倍。OCR 4 同时作为 Mistral Search Toolkit（公开预览）的接入组件。

检索增强产品更新多模态搜索

同一事件，精选展示《Mistral OCR 4》

推荐理由：Mistral OCR 4 不只是提取文本，而是输出带定位框和置信度的结构，这对需要引用和溯源的企业搜索很有价值，不过按页计费对小团队是门槛。

6月23日

15:13

HuggingFace Daily Papers（社区热门论文）

精选75

HAKARI-Bench：统一条件下比较检索架构与效率设置的轻量级基准

HAKARI-Bench 是一个轻量级检索基准，将现有检索套件重建为小型数据集（Nano-sets），涵盖 35 个基准、551 个任务和 43 种语言，采用统一格式实现模型无关比较。它支持 BM25、稠密、稀疏、晚交互和重排序五种检索家族及其效率变体（降维、量化等）在同一条件下对比。在 55 个模型上，整体排名与 MTEB retrieval v2、MMTEB v2 retrieval 及 English BEIR（完整版）的 Spearman 相关系数均高于 0.97。HAKARI-Bench 不取代全面评测，而是用于快速模型选择、回归检测和探索质量-效率帕累托前沿。代码、数据和排行榜以 MIT 许可证开源。

Hugging Face 检索增强论文/研究

推荐理由：有了这个轻量级基准，做检索的开发者不用再跑整套 MTEB 就能快速筛选嵌入模型和效率配置，而且排名与完整评测高度一致，是工程选型的高性价比工具。

11:13

HuggingFace Daily Papers（社区热门论文）

KaLM-Reranker-V1：快速但非延迟交互的压缩文档重排序器

KaLM-Reranker-V1 是一种快速但非延迟交互（FBNL）重排序器，采用编码器-解码器架构。编码器使用 Matryoshka 嵌入池化预编码段落，解码器建模系统指令、用户指令和查询意图，再通过交叉注意力捕获查询与段落间的相关性，实现解耦计算并保持高效。模型提供 Nano（0.27B）、Small（1B）和 Large（4B）三种激活参数尺寸。在 BEIR 上达到 SOTA，与 Qwen3-Reranker 系列持平；在 MIRACL 上未经大量多语言训练仍表现优异；在 LMEB 上，0.27B Nano 模型可与 7-12B 嵌入模型竞争。

arXiv 检索增强搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

我们准备好迎接智能体原生记忆系统了吗？

从数据管理视角对LLM智能体记忆系统进行系统性实验研究，将其分解为表示与存储、提取、检索与路由、维护四个核心模块。评估了12个代表性记忆系统和两个参考基线，覆盖5个基准工作负载共11个数据集。端到端结果显示无单一架构占优，效果取决于记忆结构与工作负载瓶颈的对齐。细粒度消融实验量化了各模块对表示保真度、检索精度、更新正确性和长期稳定性的影响。实际工作负载下局部维护比全局重组更具成本效益。代码已公开。

智能体检索增强论文/研究

6月22日

08:00

HuggingFace Daily Papers（社区热门论文）

ChartWalker：面向跨图表RAG任务的基准框架

ChartWalker是一个面向跨图表检索增强生成（RAG）任务的新框架。它采用层次知识图谱构建方法，按粒度组织实体与关系，并设计结构感知采样算法生成语义一致的多跳推理路径，显式控制查询难度与粒度，以解决现有基准中查询与证据词汇重合度高、推理链逻辑不一致的问题。基于该框架发布ChartWalker-Bench基准，覆盖多领域与多类型跨图表查询。主流RAG范式评估显示显著性能差距，同时提供ChartWalker-Agent基线辅助分析。

检索增强多模态论文/研究

6月21日

18:06

Hacker News 热门（buzzing.cc 中文翻译）

PRINCE：拜耳与Thoughtworks联合开发的智能体式AI临床前数据平台

拜耳与Thoughtworks合作开发了云端平台PRINCE，利用Agentic RAG和Text-to-SQL整合数十年临床前安全研究报告。该系统从关键词搜索演进为能回答复杂问题并起草监管文档的智能研究助手。架构通过上下文工程控制信息路由，通过驾驭工程实现编排、错误恢复与可观测性。系统以透明度、可解释性和人工参与为核心信任机制，显著提升数据可访问性与研究效率，同时确保治理与合规。

智能体检索增强教程/实践部署/工程

6月19日

18:51

MarkTechPost（RSS）

Liquid AI 发布 LFM2.5-Embedding-350M 与 LFM2.5-ColBERT-350M 双向编码检索模型

Liquid AI 本周发布两款 350M 参数检索模型：稠密双编码器 LFM2.5-Embedding-350M 和后期交互模型 LFM2.5-ColBERT-350M。二者基于 LFM2.5-350M-Base，通过将因果注意力改为双向注意力实现双向编码，支持阿拉伯语、德语、英语等 11 种语言的单语与跨语言搜索。在 NanoBEIR 多语言检索上，ColBERT 版 NDCG@10 为 0.605，Embedding 版为 0.577，均优于 Qwen3-Embedding-0.6B。在 MKQA-11 问答 Recall@20 上分别为 0.694 和 0.691。上下文窗口 32,768 tokens，文档调优至 512 tokens。提供 GGUF 格式，MacBook Pro M4 Max 上查询延迟低于 10 ms。模型以 LFM Open License v1.0 发布在 Hugging Face。

Hugging Face 检索增强搜索模型发布

08:00

HuggingFace Daily Papers（社区热门论文）

EvoEmbedding：用于长上下文检索和智能体记忆的可演化表征

现有嵌入模型是静态的，孤立编码文本片段，忽略上下文与时间顺序。EvoEmbedding 生成可演化表征，专为信息动态、序列化的长上下文场景设计。模型顺序处理输入时维护连续更新的隐记忆，并与原始内容共同生成演化嵌入，使同一查询能根据上下文检索不同目标。为联合优化隐记忆与检索，构建了训练数据集 EvoTrain‑180K，并引入记忆队列防止表征崩塌，结合分段批处理加速训练 3.8 倍。实验表明，该模型在长上下文检索基准上超越更大规模专用模型，并可泛化至上下文长 10 倍的下游任务；集成至简单 RAG 管线即可超越专用智能体记忆系统。

智能体检索增强论文/研究

6月17日

18:00

公众号：小红书技术（dots.llm）

小红书联合浙大推出 RedParrot：基于语义缓存的 NL-to-DSL 加速框架（ICDE 2026）

RedParrot 是一种面向企业级商业分析的 NL-to-DSL 加速框架，通过查询语义缓存、骨架匹配、实体无关表示学习和多源异构 RAG，将多阶段 LLM 工作流压缩为短链路生成。在小红书真实业务数据集上，平均实现 3.6x 推理加速，执行准确率提升 8.26%，表选择准确率达 85.99%；在开放基准 Spider-DSL 和 BIRD-DSL 上，准确率分别提升 29.9 和 39.7 个百分点。P90 延迟降低至约 21 秒。框架采用短链路与长链路双路径兜底，支持增量缓存更新。

检索增强数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ACIE：基于智能体RAG的可配置临床信息提取--什么有效、什么失效及原因

患者上下文涉及数百份异构文档与数千个结构化数据点，但文档级元数据缺失，标准RAG在处理时间推理、跨文档依赖等任务时表现不佳。为此，研究者在埃森大学医学中心部署了ACIE——一个本地部署的智能体RAG流水线，它可推理完整患者上下文并将每个回答锚定在源段落中供临床医生验证。在一项独立的回顾性淋巴瘤登记研究中，核医学医生对每个提取值与其引用来源进行核对，在7326次判断中接受了96.5%的提取结果，各类型接受率介于80%至99%之间。

智能体 Hugging Face 检索增强论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

FAPO：多步LLM管道的全自主提示优化框架

FAPO是一个让Claude Code在标准化代码库内自动优化多步LLM管道的框架。它评估管道、检查中间步骤、诊断失败、提出范围性更改并反复验证，优先尝试提示编辑，仅当提示优化不足且归因识别出结构瓶颈时才调整链结构。在6个基准和3个任务模型上，FAPO在18个模型-基准比较中15次击败基线GEPA，平均增益+14.1pp；其中11次比较中均值±标准差范围不重叠。在HoVer和IFBench上，提示优先搜索升级为结构变化的6次比较中FAPO全胜，平均增益+33.8pp。安全任务上，仅提示版FAPO在CTIBench-RCM上将GPT-5测试准确率提升+4.0pp，Foundation-Sec-8B-Instruct提升+7.1pp，Foundation-Sec-8B-Reasoning提升+2.0pp。

检索增强推理论文/研究部署/工程

02:28

HuggingFace Daily Papers（社区热门论文）

SproutRAG：基于注意力引导的树搜索与渐进式嵌入的长文档RAG

SproutRAG是一个注意力引导的层次化RAG框架，通过学习句子间注意力构建二分块树，将句子级块组织成语义连贯的渐增单元。检索时使用层次化波束搜索获取多粒度候选，无需额外LLM调用或压缩摘要。框架端到端联合训练，优化嵌入和树结构。在科学、法律和开放域四个基准上，平均信息效率（IE）提升6.1%。代码已开源。

GitHub 检索增强论文/研究

6月16日

15:38

MarkTechPost（RSS）

使用 Docling Parse 构建布局感知文档智能解析管道教程

本教程演示了利用 Docling Parse 对 PDF 文档进行结构化解析的流程。先搭建稳定 Python 环境并生成含文本、列、表格、矢量图形和嵌入图像的多页 PDF。再通过 Docling Parse 提取词、字符和行级文本及页面坐标，渲染可视化叠加图层，最后输出为 JSON 与 CSV 文件。该流程展示了底层 PDF 解析如何支持布局分析、阅读顺序还原、表格感知处理及检索就绪的文档预处理等文档 AI 任务。

检索增强教程/实践部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

MCompassRAG：主题元数据作为段落级检索的语义指南针

MCompassRAG是一个元数据引导的检索框架，利用主题级信号作为语义指南针，通过LLM教师蒸馏训练轻量检索器，在不额外调用LLM的情况下实现主题感知检索。在6个复杂检索基准上，MCompassRAG的信息效率（IE）平均提升8.24%，延迟比最强高效RAG基线低5倍以上。代码已开源。

arXiv 检索增强论文/研究

6月15日

16:43

IT之家（RSS）

腾讯AI生态进一步打通：ima知识库作为信源接入元宝

腾讯今日宣布，ima知识库作为信源接入元宝，元宝在解答提问时可将ima知识库相关内容作为信源之一，提供更精准、个性化的智能问答体验。目前ima知识号覆盖金融、法律、医疗、教育等20余个行业，知识内容被应用超1.4亿次。用户可点击信源引用卡片跳转ima原文，并一键加入个人知识库继续提问。此外，WorkBuddy与ima结合可实现AI全包资料查找，腾讯文档支持文档秒进知识库，微信读书实现读书笔记自动归纳与随时提问。

检索增强产品更新

08:00

HuggingFace Daily Papers（社区热门论文）

RL-Index：面向检索索引推理的强化学习方法

RL-Index 是一种智能体索引框架，将检索索引推理形式化为强化学习问题。它在索引阶段利用 LLM 生成的推理（rationales）增强文档，并采用 Group Relative Policy Optimization（GRPO）与检索相似度作为可验证奖励信号，直接优化索引决策以提升检索效果。在 BRIGHT 基准上，RL-Index 持续提升检索与下游问答性能，显著降低在线推理延迟，且所学的推理增强可跨不同检索器与生成器泛化，作为一种即插即用的索引策略。

检索增强推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

理解环境感知信息检索的行为：强化学习如何为不同检索器定制查询策略

基于检索增强生成（RAG）的方法在处理复杂查询时表现出色，但不同检索器需要截然不同的查询构建策略。该工作首次系统分析大语言模型（LLM）如何通过强化学习（RL）学习为不同检索器定制查询策略。实验表明，RL能有效指导LLM根据检索器特性调整查询风格，且不同检索器对描述型或疑问型查询的偏好显著不同。引入分支式rollout技术提升了多步检索轨迹下的训练稳定性。研究为构建真正检索器感知的RAG系统提供了实证证据和可操作洞见。代码与资源已公开。

检索增强论文/研究

6月12日

08:00

HuggingFace Daily Papers（社区热门论文）

Dr-DCI：检索器引导的动态工作空间扩展框架

Dr-DCI 将检索作为智能体可调用的动作来扩展本地工作空间，动态拉取相关文档到演化中的工作空间内执行直接语料交互（DCI）操作。在 Browsecomp-Plus 上达到 71.2% 准确率，优于原始 DCI 最多 8.3 个百分点，并降低工具使用次数与成本。工作空间保留式上下文重置后准确率提升至 73.3%。在 10 万到 1000 万文档的语料扩展实验中保持有效，而原始 DCI 变得不稳定。在 2000 万级 Wiki-18 QA 设置下平均得分为 63.0，超越基于检索和搜索智能体的基线。消融分析表明，排序预览和文档间 DCI 是性能关键。

智能体检索增强搜索论文/研究

6月11日

08:00

HuggingFace Daily Papers（社区热门论文）

研究团队提出V-RAGBench基准与CARVE方法以改进长视频RAG

针对现有视频RAG基准中查询无需视频即可回答、且采用单一模态-粒度配置的局限，研究者提出V-RAGBench基准，包含(query, evidence chunk, answer)三元组，支持检索与生成的解耦评估；同时提出CARVE方法，通过并行运行多配置检索器并对每个chunk进行自适应重排序，为每个chunk选择最优配置，使生成阶段交织不同配置的证据块。在长视频场景下，CARVE在八个近期VideoRAG基线方法中取得最优结果。

检索增强多模态论文/研究

6月10日

11:56

HuggingFace Daily Papers（社区热门论文）

每项多模态证据仅用一个token：面向资源受限问答的Latent Memory

Latent Memory提出一种潜在空间记忆范式，由小型压缩器LLM/VLM将每个原始文本或图像证据压缩为单个高维潜在token。查询时，将查询嵌入同一空间检索相关token并直接输入预训练LLM/VLM生成答案。通过统一端到端训练，结合重建、对比和蒸馏目标，使单个token同时携带重建、检索和生成信息。在HotpotQA等七个纯文本QA基准和多项多模态QA基准上，Latent Memory取得与先进RAG基线相当的问答性能，同时生成器token消耗减少3至10倍，并在WebQA上达到图像问答最强性能。代码已公开。

arXiv 检索增强多模态论文/研究

05:40

Hacker News 热门（buzzing.cc 中文翻译）

Grep 真的就够了吗？代理框架如何重塑基于代理的搜索

该研究质疑在基于代理的搜索（agentic search）中“grep 是否足够”这一假设，并分析代理框架（agent harnesses）如何重新定义智能体搜索的交互方式与能力边界，推动搜索范式从简单工具调用向结构化代理行为演进。

智能体检索增强搜索论文/研究

6月8日

16:38

MarkTechPost（RSS）

Google Research 为 Gemini Enterprise Agent Platform 引入 Agentic RAG 与 Sufficient Context Agent 支持多跳查询

Google Research 在 Gemini Enterprise Agent Platform 中推出一个 Agentic RAG 框架。该框架中的 Sufficient Context Agent 会持续重新搜索，直到多跳、多源查询拥有足够的 grounding 来生成回答。相比标准 RAG，该框架将事实准确性最高提升 34%。

智能体 Google 检索增强产品更新

6月7日

14:34

MarkTechPost（RSS）

精选73

Harness-1：基于强化学习训练的有状态搜索20B检索子智能体

UIUC与Chroma联合推出Harness-1，一个20B参数的检索子智能体。它通过强化学习在一个有状态搜索框架中训练，该框架维护候选池、重要性标注集、证据图和验证记录，由策略决定搜索、筛选、验证及停止的时机。Harness-1在8个基准测试上达到0.730平均curated recall，比下一个最佳开源子智能体高出11.4个百分点，仅落后于Opus-4.6。模型权重和框架代码均已公开。

检索增强搜索模型发布

推荐理由：UIUC和Chroma放出的这个20B检索子代理，用RL训练出了0.73的平均召回，把开源竞品甩开11.4分，只比Opus-4.6低一点。权重、Harness全开源，搞RAG的可以真刀真枪试试了。

6月6日

04:30

Google Research：Blog（网页）

精选64

谷歌推出基于 Gemini Enterprise Agent Platform 的 Agentic RAG 框架

Google Research 与 Google Cloud 合作推出跨语料库检索（Cross-Corpus Retrieval）框架，作为 Gemini Enterprise Agent Platform 的 Agentic RAG。该多智能体工作流将复杂企业查询分解为子任务，通过规划、重写和路由，迭代搜索多个数据源直至获得充分上下文，再生成可靠回答。与标准 RAG 相比，在事实性数据集上准确率最高提升 34%；在多个领域特定内部数据集上也实现了更好的接地与推理准确性。

Google 检索增强产品更新

推荐理由：企业级 RAG 的新标杆，多 agent 架构加上‘足够上下文’检查，准确度提升 34%。做知识库问答的产品经理和架构师都应该认真看。

6月5日

08:00

HuggingFace Daily Papers（社区热门论文）

ECI_{sem}：面向困难负样本评估的语义残差有效对比信息方法

提出ECI_{sem}，一种无需训练的语义残差变体，利用冻结目标编码器嵌入对密集检索候选负样本源排序。每个评分需查询、标注正例及显式候选负例。ECI_{sem}从目标一致性、语义局部性、词汇残差性和对数行列式多样性构建加权残差信息矩阵。在MS MARCO上，族内ECI_{sem}将LLM负样本（非混合）和Dense+LLM（混合源）排为最高，与DistilBERT、E5-base、Contriever在BEIR上的最强聚合迁移结果一致。消融实验表明对齐依赖目标编码器族，且在样本量、温度等扰动下稳定。

检索增强搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

RISE：面向智能体搜索的交互空间检索方法

RISE 方法提出用 BM25 为智能体搜索构建一个有边界的交互空间，并在索引时处理文档以支持 shell 式导航。在 BrowseComp-Plus 上，RISE 搭配 gpt-5.4-mini 达到 78% 准确率，每查询成本约为纯 shell DCI 基线的四分之一。当语料库扩充至 100 万文档时，RISE-BM25 在 gpt-5.4-mini 上准确率提升至 81%，而 DCI 在 gpt-5.4-nano 上准确率降至 60%，且 33% 的查询因超时失败。

智能体检索增强搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

UnEmbedding矩阵：文本嵌入的潜在特征透镜

大语言模型在零样本文本嵌入任务中表现不佳，原因在于嵌入向量倾向于与高频但无信息的token对齐，抑制语义捕获。本文提出EmbedFilter，一种简单的线性变换方法，通过利用LLM内部unembedding矩阵编码的潜在空间，过滤掉高频token子空间，从而增强语义表示。该方法可自然降维，减少索引存储并加速检索，同时保持精炼后嵌入质量。实验表明，嵌入EmbedFilter的LLM在显著降低嵌入维度时仍取得更优零样本下游性能。代码已开源。

检索增强数据/训练论文/研究

6月4日

11:00

HuggingFace Daily Papers（社区热门论文）

答案存在性驱动RAG重写增益

一项干预审计研究揭示了检索增强问答流程中重写器（rewriter）性能提升的因果机制：增益主要来自重写上下文中出现正确答案字符串，而非证据质量本身的改善。在Qwen2.5-7B、Qwen3.5-35B、GLM-4.7三个读者模型、HotpotQA和2WikiMultihopQA两个数据集上的十二组实验显示，从重写输出中移除答案跨度导致读者F1分数比长度匹配的安慰剂对照额外下降28至64点；向原无答案的重写内容前缀注入答案则在10/12组合中带来0.7至9.7点的F1提升。传统单[MASK]探针检测法存在脆弱性——在2Wiki数据集上报告+4.12 F1“非泄漏残差”，但改用四种替代哨兵后结果翻转至-3.33至-7.81 F1，且其中三种未通过等价检验。

检索增强论文/研究

6月3日

12:06

Hacker News 热门（buzzing.cc 中文翻译）

我们如何为RAG建立图像索引

为解决检索增强生成（RAG）系统处理图像时的挑战，Kapa.ai提出了一种方法。他们使用GPT-4 Vision模型为每张图像生成文本描述。处理流程包括将图片压缩至512×512像素并批量生成描述。最终，这些图像描述与元数据一同存入向量数据库。该方法使RAG能够检索图像内容，实现约70%的检索准确率，且成本极低，每张图片处理成本约0.01美元。

检索增强多模态教程/实践部署/工程

00:40

HuggingFace Daily Papers（社区热门论文）

Harness-1：面向搜索智能体的强化学习与状态外部化框架

Harness-1是一个20B参数的检索子智能体，通过强化学习训练。其核心创新是将状态管理外部化至环境侧的框架中，该框架负责维护包括候选池、重要性标注的精选集、证据链与验证记录等工作记忆，使策略本身专注于搜索语义决策。在八个涵盖网页、金融、专利等领域的检索基准测试中，Harness-1取得了0.730的平均精选召回率，超越了次优的开源搜索子智能体11.4个点，并与规模更大的前沿模型保持竞争力。其代码已开源。

智能体检索增强搜索论文/研究

6月2日

01:10

MarkTechPost（RSS）

了解Memory OS：构建在Hermes Agent之上的六层开源记忆栈

Memory OS是一个开源项目，它通过一个六层结构为Hermes Agent添加了本地持久记忆功能。该记忆栈包含门控检索机制和一个wiki系统，旨在增强智能体的记忆能力。

智能体检索增强开源/仓库

5月30日

08:00

HuggingFace Daily Papers（社区热门论文）

Critic-R：利用自然语言内省反馈改进智能体搜索的检索模型

Critic-R 框架在推理和训练阶段显式连接推理智能体与检索模型的反馈循环。它引入批评模型评估智能体的内省推理轨迹，判断上下文是否充分支持下一步推理。框架包含两种机制：Critic-R-Zero 在推理时迭代重写查询与检索指令；Critic-Embed 利用成功与失败的细化轨迹自动监督检索模型训练，无需人工标注。在 HotpotQA、2WikiMultihopQA、MuSiQue 和 Bamboogle 上的实验表明，Critic-R 显著提升了检索质量和答案准确率。

智能体检索增强搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

OCC-RAG：为忠实问答优化的最优认知核心

OCC-RAG 是 Optimal Cognitive Core (OCC) 家族中专为忠实问答优化的 SLM。研究团队通过大规模合成多上下文、多跳 QA 数据（超300万样本）训练出 0.6B 和 1.7B 两个版本。模型生成结构化推理轨迹并引用原文证据。在 HotpotQA、MuSiQue、TAT-QA（多跳推理）、ConFiQA（忠实性）和 MuSiQue-Un（拒答）基准上，性能匹配或超越 2-6 倍规模的通用模型。

arXiv 检索增强推理论文/研究

5月29日

14:30

HuggingFace Daily Papers（社区热门论文）

超越数学与代码的可验证奖励：面向事实性问答的轻量级基于语料库的过程监督

针对强化学习提升事实性问答准确度时的奖励设计难题，本文提出CorVer方法。它用基于Wikipedia共现统计的轻量级语料库信号，替代了昂贵且不可靠的神经验证器（如NLI或LLM判断器）。CorVer为每个句子分配信用值，并通过简单对齐映射到token级优势，仅需一个0.5B的提取器和单次语料库查询。在覆盖六个指令微调模型和五个问答基准的30个测试组合中，CorVer使每个组合的性能均优于原始基线，其中TriviaQA平均提升+4.1个百分点。在可行配置下，它在20个组合中的18个超越了神经验证器基线，且训练速度快4.8至8.4倍。

arXiv 检索增强推理论文/研究

5月28日

20:47

Mistral AI：News（网页）

精选77

发布 Search Toolkit

Mistral AI 发布了 Search Toolkit 的公共预览版。这是一个用于构建 AI 应用生产级搜索管道的可组合框架。该框架旨在解决团队在搭建搜索基础设施时，因数据摄取、检索和评估工具分散而耗费过多工程时间的问题。Search Toolkit 将这三者整合到单一框架与共享接口中，使团队能更专注于提升搜索质量。该工具开源，可部署在云端、本地或边缘环境，并支持企业搜索、RAG 等多种检索场景。

MCP/工具检索增强产品更新搜索

推荐理由：做 RAG 的团队都该看一眼，它把 ingestion、retrieval、evaluation 揉进一个开源框架，省下的大把集成时间够你调几次检索策略了。

16:28

HuggingFace Daily Papers（社区热门论文）

Clark Hash：神经网络嵌入向量的无状态稀疏Johnson-Lindenstrauss量化

Clark Hash是一种用于紧凑存储神经网络嵌入向量的无状态编解码方法。在默认的384维句子嵌入设置下，它将一个余弦搜索向量存储为48字节的固定宽度标量量化码，相比使用f32格式的密集存储（需1536字节），实现了32倍的压缩。该方法无需训练过程、学习码本或预先计算语料库统计信息。基于多语言MiniLM编码器的评估显示，其48字节草稿与密集余弦分数在STS17和STS22测试集上的宏皮尔逊相关系数分别达到了0.910和0.946。

检索增强论文/研究部署/工程