6月5日

14:07

ginobefun@hongming731

精选78

你的 Agent 还在全网垃圾里捞内容？不如先喂它 375 个高质量微信公众号 RSS 源。 🔽

ginobefun: http://x.com/i/article/2062762354149146624

智能体检索增强搜索教程/实践

推荐理由：这个整理直接命中了 Agent 在中文垃圾信息里捞内容的痛点，375 个高质量公众号 RSS 源，做中文信息追踪的可以直接导入，比全网乱爬靠谱太多。

09:06

ginobefun@hongming731

BestBlogs早报：ChatGPT记忆升级、AI研发自动化、SpaceX资本版图

本期早报聚焦三则动态：OpenAI发布ChatGPT dreaming V3，记忆架构重写为“写入时合成”，效率提升5倍，免费用户可用个性化记忆摘要；阿里云工程师落地LLM-Wiki模式，从传统RAG转向“写入时合成”知识库，封装五大研发技能包实现PRD到全自动研发；SpaceX招股书披露与Anthropic签订450亿美元算力合同，每月12.5亿美元至2029年5月，年收入增加80%，并持有18712枚比特币。记忆与知识库的“写入时合成”成共同范式。

Anthropic OpenAI 检索增强现象/趋势

09:06

ginobefun@hongming731

BestBlogs早报06-05

今日早报推荐三篇AI相关文章：① ChatGPT升级记忆系统，可自动整理用户对话历史并记住偏好，无需反复提示，免费用户也可使用。② 阿里云工程师分享实战经验，将团队代码库和文档整理成AI可直接调用的知识库，搭配专项技能包，目标是只需给出需求文档即可由AI完成后续工作。③ SpaceX招股书解读中透露，Anthropic每月支付12.5亿美元购买算力，该数字反映其大规模AI训练与推理的算力需求。

智能体 Anthropic OpenAI 检索增强

08:00

HuggingFace Daily Papers（社区热门论文）

ECI_{sem}：面向困难负样本评估的语义残差有效对比信息方法

提出ECI_{sem}，一种无需训练的语义残差变体，利用冻结目标编码器嵌入对密集检索候选负样本源排序。每个评分需查询、标注正例及显式候选负例。ECI_{sem}从目标一致性、语义局部性、词汇残差性和对数行列式多样性构建加权残差信息矩阵。在MS MARCO上，族内ECI_{sem}将LLM负样本（非混合）和Dense+LLM（混合源）排为最高，与DistilBERT、E5-base、Contriever在BEIR上的最强聚合迁移结果一致。消融实验表明对齐依赖目标编码器族，且在样本量、温度等扰动下稳定。

检索增强搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

RISE：面向智能体搜索的交互空间检索方法

RISE 方法提出用 BM25 为智能体搜索构建一个有边界的交互空间，并在索引时处理文档以支持 shell 式导航。在 BrowseComp-Plus 上，RISE 搭配 gpt-5.4-mini 达到 78% 准确率，每查询成本约为纯 shell DCI 基线的四分之一。当语料库扩充至 100 万文档时，RISE-BM25 在 gpt-5.4-mini 上准确率提升至 81%，而 DCI 在 gpt-5.4-nano 上准确率降至 60%，且 33% 的查询因超时失败。

智能体检索增强搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

UnEmbedding矩阵：文本嵌入的潜在特征透镜

大语言模型在零样本文本嵌入任务中表现不佳，原因在于嵌入向量倾向于与高频但无信息的token对齐，抑制语义捕获。本文提出EmbedFilter，一种简单的线性变换方法，通过利用LLM内部unembedding矩阵编码的潜在空间，过滤掉高频token子空间，从而增强语义表示。该方法可自然降维，减少索引存储并加速检索，同时保持精炼后嵌入质量。实验表明，嵌入EmbedFilter的LLM在显著降低嵌入维度时仍取得更优零样本下游性能。代码已开源。

检索增强数据/训练论文/研究

6月4日

11:00

HuggingFace Daily Papers（社区热门论文）

答案存在性驱动RAG重写增益

一项干预审计研究揭示了检索增强问答流程中重写器（rewriter）性能提升的因果机制：增益主要来自重写上下文中出现正确答案字符串，而非证据质量本身的改善。在Qwen2.5-7B、Qwen3.5-35B、GLM-4.7三个读者模型、HotpotQA和2WikiMultihopQA两个数据集上的十二组实验显示，从重写输出中移除答案跨度导致读者F1分数比长度匹配的安慰剂对照额外下降28至64点；向原无答案的重写内容前缀注入答案则在10/12组合中带来0.7至9.7点的F1提升。传统单[MASK]探针检测法存在脆弱性——在2Wiki数据集上报告+4.12 F1“非泄漏残差”，但改用四种替代哨兵后结果翻转至-3.33至-7.81 F1，且其中三种未通过等价检验。

检索增强论文/研究

6月3日

12:06

Hacker News 热门（buzzing.cc 中文翻译）

我们如何为RAG建立图像索引

为解决检索增强生成（RAG）系统处理图像时的挑战，Kapa.ai提出了一种方法。他们使用GPT-4 Vision模型为每张图像生成文本描述。处理流程包括将图片压缩至512×512像素并批量生成描述。最终，这些图像描述与元数据一同存入向量数据库。该方法使RAG能够检索图像内容，实现约70%的检索准确率，且成本极低，每张图片处理成本约0.01美元。

检索增强多模态教程/实践部署/工程

00:40

HuggingFace Daily Papers（社区热门论文）

Harness-1：面向搜索智能体的强化学习与状态外部化框架

Harness-1是一个20B参数的检索子智能体，通过强化学习训练。其核心创新是将状态管理外部化至环境侧的框架中，该框架负责维护包括候选池、重要性标注的精选集、证据链与验证记录等工作记忆，使策略本身专注于搜索语义决策。在八个涵盖网页、金融、专利等领域的检索基准测试中，Harness-1取得了0.730的平均精选召回率，超越了次优的开源搜索子智能体11.4个点，并与规模更大的前沿模型保持竞争力。其代码已开源。

智能体检索增强搜索论文/研究

6月2日

01:10

MarkTechPost（RSS）

了解Memory OS：构建在Hermes Agent之上的六层开源记忆栈

Memory OS是一个开源项目，它通过一个六层结构为Hermes Agent添加了本地持久记忆功能。该记忆栈包含门控检索机制和一个wiki系统，旨在增强智能体的记忆能力。

智能体检索增强开源/仓库

6月1日

21:09

AK@_akhaliq

GrepSeek 训练搜索智能体以直接交互语料库

智能体检索增强搜索论文/研究

10:04

Rohan Paul@rohanpaul_ai

AI聊天机器人处理新闻：优势与脆弱性并存

该论文评估了商业AI聊天机器人作为新闻中介的能力。研究发现，当以多选题形式提问时，最佳系统对数小时前新闻的准确率已超过90%，这表明检索增强生成技术正从静态知识库迈向实时信息处理。然而，这种高准确性并不稳定。当要求系统自由生成回答、新闻为印地语，或用户提问包含错误预设时，其表现显著下降。超过70%的错误源于检索失败或来源偏差，即系统检索到了近似但不精确的信息，随后基于错误的来源、语言或时间戳生成了回答。论文标题为《Evaluating Commercial AI Chatbots as News Intermediaries》（arxiv.org/abs/2605.22785）。

检索增强搜索论文/研究

01:48

elvis@omarsar0

效率前沿

该论文指出，当AI智能体在多轮对话中重复使用相同文档和历史记录时，固定的上下文策略并非最优。研究提出了“效率前沿”框架，将上下文策略选择建模为一个成本与性能的平衡问题。通过引入重用参数N进行扫描，可以识别出检索、压缩或全上下文各自占据优势的交叉区域。在5000个HotpotQA实例上的测试表明，部署感知的选择能在保持相同性能下减少约25%的有效token使用量，而摊销内存压缩在高性能设置下比全上下文提示的运行成本便宜超过50%。

智能体 arXiv 检索增强论文/研究

5月31日

08:45

meng shao@shao__meng

如何从 PDF 构建金融知识图谱？

LandingAI 黑客松项目「ArthaNethra」展示了从 PDF 到金融知识图谱的流程：上传后通过 ADE 提取为结构化 Markdown，超过 15MB 的文档异步处理。提取后按文档类型路由归一化：发票/贷款/合同采用确定性解析（无 LLM）；10-K/MD&A 使用 Claude Haiku 结合正则。实体和关系分别存入 Weaviate 和 Neo4j（500 词分块，100 词重叠，all-mpnet-base-v2 向量化），图谱包含 10 类实体和 26 种规范关系，并通过别名映射进行同义词归一化。最后结合规则与 LLM 进行风险检测。

LandingAI: http://x.com/i/article/2060438013273108480

检索增强教程/实践数据/训练

07:45

ginobefun@hongming731

#BestBlogs 早报 05-31

今日精选三篇AI深度文章。首篇介绍无工程背景的产品负责人利用Codex独立完成15人团队18个月才能交付的MVP。第二篇拆解RAG检索系统五类架构性失效，指出上游过滤是关键优化杠杆。第三篇探讨AI造成的深层认知异化问题。

OpenAI 检索增强现象/趋势编码

5月30日

08:00

HuggingFace Daily Papers（社区热门论文）

Critic-R：利用自然语言内省反馈改进智能体搜索的检索模型

Critic-R 框架在推理和训练阶段显式连接推理智能体与检索模型的反馈循环。它引入批评模型评估智能体的内省推理轨迹，判断上下文是否充分支持下一步推理。框架包含两种机制：Critic-R-Zero 在推理时迭代重写查询与检索指令；Critic-Embed 利用成功与失败的细化轨迹自动监督检索模型训练，无需人工标注。在 HotpotQA、2WikiMultihopQA、MuSiQue 和 Bamboogle 上的实验表明，Critic-R 显著提升了检索质量和答案准确率。

智能体检索增强搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

OCC-RAG：为忠实问答优化的最优认知核心

OCC-RAG 是 Optimal Cognitive Core (OCC) 家族中专为忠实问答优化的 SLM。研究团队通过大规模合成多上下文、多跳 QA 数据（超300万样本）训练出 0.6B 和 1.7B 两个版本。模型生成结构化推理轨迹并引用原文证据。在 HotpotQA、MuSiQue、TAT-QA（多跳推理）、ConFiQA（忠实性）和 MuSiQue-Un（拒答）基准上，性能匹配或超越 2-6 倍规模的通用模型。

arXiv 检索增强推理论文/研究

00:15

AK@_akhaliq

OmniRetrieval 跨异构知识源的统一检索

检索增强论文/研究

5月29日

14:30

HuggingFace Daily Papers（社区热门论文）

超越数学与代码的可验证奖励：面向事实性问答的轻量级基于语料库的过程监督

针对强化学习提升事实性问答准确度时的奖励设计难题，本文提出CorVer方法。它用基于Wikipedia共现统计的轻量级语料库信号，替代了昂贵且不可靠的神经验证器（如NLI或LLM判断器）。CorVer为每个句子分配信用值，并通过简单对齐映射到token级优势，仅需一个0.5B的提取器和单次语料库查询。在覆盖六个指令微调模型和五个问答基准的30个测试组合中，CorVer使每个组合的性能均优于原始基线，其中TriviaQA平均提升+4.1个百分点。在可行配置下，它在20个组合中的18个超越了神经验证器基线，且训练速度快4.8至8.4倍。

arXiv 检索增强推理论文/研究

5月28日

20:47

Mistral AI：News（网页）

精选77

发布 Search Toolkit

Mistral AI 发布了 Search Toolkit 的公共预览版。这是一个用于构建 AI 应用生产级搜索管道的可组合框架。该框架旨在解决团队在搭建搜索基础设施时，因数据摄取、检索和评估工具分散而耗费过多工程时间的问题。Search Toolkit 将这三者整合到单一框架与共享接口中，使团队能更专注于提升搜索质量。该工具开源，可部署在云端、本地或边缘环境，并支持企业搜索、RAG 等多种检索场景。

MCP/工具检索增强产品更新搜索

推荐理由：做 RAG 的团队都该看一眼，它把 ingestion、retrieval、evaluation 揉进一个开源框架，省下的大把集成时间够你调几次检索策略了。

16:28

HuggingFace Daily Papers（社区热门论文）

Clark Hash：神经网络嵌入向量的无状态稀疏Johnson-Lindenstrauss量化

Clark Hash是一种用于紧凑存储神经网络嵌入向量的无状态编解码方法。在默认的384维句子嵌入设置下，它将一个余弦搜索向量存储为48字节的固定宽度标量量化码，相比使用f32格式的密集存储（需1536字节），实现了32倍的压缩。该方法无需训练过程、学习码本或预先计算语料库统计信息。基于多语言MiniLM编码器的评估显示，其48字节草稿与密集余弦分数在STS17和STS22测试集上的宏皮尔逊相关系数分别达到了0.910和0.946。

检索增强论文/研究部署/工程

16:10

MarkTechPost（RSS）

精选70

pgvector驱动的语义、混合、稀疏与量化向量搜索系统构建编码指南

本教程在Google Colab中构建一个完整的pgvector实验环境，展示PostgreSQL如何作为向量数据库服务于现代AI应用。内容涵盖安装PostgreSQL、编译pgvector扩展、通过Psycopg建立连接，并注册向量类型以实现与Python的平滑集成。最后使用SentenceTransformers创建并存储嵌入向量。

检索增强开源生态教程/实践部署/工程

推荐理由：这份教程把 pgvector 的稀疏向量、量化搜索等高级功能打包成 Colab 代码，用 PostgreSQL 做向量数据库的团队可以直接复制粘贴跑起来。

12:28

HuggingFace Daily Papers（社区热门论文）

MemTrace：大语言模型记忆系统的错误追踪与归因

本文研究了大语言模型记忆系统中错误追踪与归因的新问题。我们提出了MemTrace框架，它将记忆管线转化为可执行的记忆演化图，以实现操作信息流的细粒度追踪。我们构建了MemTraceBench基准，数据来自Long-Context、RAG、Mem0和EverMemOS等代表性系统，用于系统研究记忆失效模式。此外，我们引入了一种自动归因方法，通过迭代追踪操作子图来定位失败根因。分析表明，记忆失败具有系统性，源于信息丢失与检索错位等操作级问题。利用这些细粒度归因信号指导下游提示词优化，可构建一个自动纠错的闭环系统，将端到端任务性能最高提升7.62%。

智能体 GitHub 检索增强论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

通过跨语言分词器手术和离线蒸馏适配多语言嵌入模型至土耳其语

本文介绍了embeddingmagibu-200m，一款专注于土耳其语的句子嵌入模型。它能生成768维L2归一化向量，支持8,192 token的上下文窗口。该模型不进行完整预训练，而是采用三阶段适配流水线训练：构建优化的土耳其语分词器、克隆并适配教师模型权重，以及使用预计算向量进行离线知识蒸馏。学生模型约200M参数，在单个GPU上训练约4小时，成本为5-20美元。它在STSbTR基准上性能超越了作为教师的300M参数模型，并在TR-MTEB的26个任务中排名靠前，实现了有竞争力的性价比。所有模型权重、分词器及训练工具均已开源。

Hugging Face 检索增强开源/仓库论文/研究

5月27日

18:20

HuggingFace Daily Papers（社区热门论文）

精选72

Gemini Embedding 2：来自Gemini的原生多模态嵌入模型

Google DeepMind推出Gemini Embedding 2，这是一款原生多模态嵌入模型，支持在统一表示空间中嵌入视频、音频、图像和文本。该模型利用Gemini的多模态能力，通过大规模对比学习实现SOTA性能。在关键基准上表现优异：MSCOCO取得62.9 R@1，Vatex取得68.8 NDCG@10，MTEB multilingual达到69.9，MTEB Code达到84.0，超越了专用模型。其统一能力使其适用于RAG、推荐与搜索等下游任务，并在天文学、生物科学、艺术和烹饪等专业领域展现出强大的零样本性能。

Google 检索增强多模态论文/研究

推荐理由：Google 把多模态嵌入统一到一个模型里了，文本、代码、跨模态检索全面刷榜，做 RAG 和搜索的该认真看看了。

08:00

HuggingFace Daily Papers（社区热门论文）

同一问题，不同来源，不同答案：医疗多来源RAG系统的来源依赖性审计

检索增强生成系统处理多来源语料时，可能因检索来源不同而对同一问题给出不同答案，这是一种现有评估体系无法诊断的失效模式。研究团队在医疗患者教育场景发布了三个工具：基准TransplantQA，为真实患者问题提供基于多机构手册的参考答案；分层检索与审计策略HERO-QA；以及一个基于经验证的5标签分类体系的结构化评估器，用于评分来源间关系。大规模审计显示，更优的检索能力所暴露出的来源分歧远高于此前估计。该框架具有领域通用性。

检索增强论文/研究

07:37

MarkTechPost（RSS）

使用 ZeroEntropy Zerank-2 Reranker 设计高精度检索-重排流水线

介绍如何使用基于 Qwen3、参数规模为 4B 的交叉编码器重排器 Zerank-2 Reranker 构建检索-重排流水线。该流水线先通过快速双编码器检索候选文档，再由 Zerank-2 进行重排以提升检索精度。

检索增强教程/实践部署/工程

5月26日

08:00

HuggingFace Daily Papers（社区热门论文）

密集检索器的位置偏见是内建的，还是从数据中学来的？

本研究探讨了密集检索器位置偏见的成因，聚焦于训练数据中证据位置分布的影响。通过构造证据位于文档开头、中间或结尾的合成训练集，并对8种架构的预训练模型进行微调，实验发现：偏斜的训练分布会使模型偏好相应位置的信息。在位置敏感的评测基准上，位置平衡训练可降低57%–87%的位置敏感性，且检索性能具有竞争力。表示层分析表明，微调能重塑模型的位置偏好，但部分模型中预训练或架构固有的倾向仍会持续。该研究指出训练数据的位置分布是影响检索位置偏见的主要可控因素，平衡数据编排是一种有效的缓解策略。

arXiv 检索增强数据/训练论文/研究

5月24日

21:17

AYi@AYi_AInotes

PDF与Markdown喂AI的效率差异与最佳实践

作者发现直接使用PDF文档喂给AI存在严重问题。AI处理PDF时并非进行“阅读”，而是在执行字符坐标识别、结构猜测等复杂任务，这不仅消耗更多Token，还容易导致数据错乱（如数字位置被调换）。相比之下，Markdown具有清晰的结构化标记，能直接被模型高效理解。经过咨询Claude和Grok，确认在大量RAG工程实践中，将PDF转换为Markdown再输入是标准流程。因此，建议对技术文档等非视觉主导内容，优先以Markdown格式创建，现有PDF可借助markitdown、LlamaParse等工具进行转换。

检索增强教程/实践

08:00

HuggingFace Daily Papers（社区热门论文）

STREAM：一种从流媒体中挖掘高价值任务导向对话的数据中心框架

为解决垂直领域大语言模型缺乏复杂任务导向对话数据的瓶颈，STREAM框架提出一种从公开流媒体（直播与短视频）中规模化合成高质量服务对话的新方法。该框架从嘈杂的流媒体中挖掘真实交互信号，结合角色人物构建与对话蓝图设计，并利用检索增强生成（RAG）技术支持知识响应。基于此发布的StreamDial数据集覆盖汽车、餐饮与酒店三大领域，包含87,498个对话会话与1,497,320轮对话。评估表明，该数据集提升了对话内在质量，并在多个骨干模型上改善了对话状态跟踪性能；在Qwen3-8B上的多语言迁移实验也取得了积极结果。

arXiv 检索增强论文/研究

5月23日

10:49

宝玉@dotey

当前AI Agent开发实习生的招聘需求显著上升，其核心技术栈已从传统的后台开发项目（如秒杀、电商）转向集中应用Langchain框架与RAG（检索增强生成）技术。这反映出市场对AI应用开发岗位的技能要求正发生明确转变，具备相关实践经验的实习生受到青睐。

Leo Xiang: 之前招后台的研发的实习生项目都是秒杀、电商。如今招 AI Agent 开发的实习生项目都是 Langchain + Rag。话说 X 上有想找 AI Agent 开发实习生方向的工作的不? 我这里在招实习生。

智能体检索增强行业动态

5月21日

08:48

Google DeepMind@GoogleDeepMind

同事件精选70

如何加速你的日常研究工作流？通过为AI提供正确的科学工具包。我们为Google @Antigravity推出了Science Skills，整合了来自30多个主要生命科学来源的洞见，包括UniProt和AlphaFold数据库。

DeepMind 检索增强产品更新

同一事件，精选展示《Gemini for Science：面向科学的AI实验与工具，开启发现新时代》

推荐理由：Google 把 AlphaFold 和 UniProt 变成 AI 的“科学技能”，这不是又一次数据库整合，而是让 AI 能直接查询实验知识的工具链，做生命科学的可以认真看看。

05:42

MarkTechPost（RSS）

介绍Turbovec：一个基于Google TurboQuant算法的Rust向量索引，支持Python绑定

Google Research的TurboQuant算法已通过Turbovec项目应用于向量搜索领域。该工具以Rust语言构建，提供Python绑定接口，可直接集成到RAG流水线中。Turbovec实现了16倍的向量压缩率，同时无需进行任何码本训练，显著降低了部署和使用门槛。

Google 检索增强开源/仓库部署/工程

5月20日

15:42

swyx🛬 SFO@swyx

噢不，Contextual AI被挖墙脚了

Techmeme: Sources: Google DeepMind has reached a ~$100M deal to hire 20+ researchers from Contextual AI, including CEO Douwe Kiela...

检索增强行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

ACL-Verbatim：面向研究的无幻觉问答

针对学术研究中大语言模型（LLM）存在幻觉的问题，研究者将抽取式问答系统VerbatimRAG应用于ACL Anthology论文集，实现用户查询到文档原文片段的直接映射。团队构建了一个新基准数据集，由NLP研究人员基于ScIRGen方法生成的合成用户查询进行人工标注，用于训练和评估多种抽取式模型。其中，一个参数规模为150M的ModernBERT分类器，在基于ScIRGen方法生成的查询和论文片段上进行训练后，在词级F1分数上达到53.6，超越了被评估的最强LLM抽取器（48.7）。

检索增强数据/训练论文/研究

5月19日

23:01

Hugging Face：Blog（RSS）

精选60

引入 Ettin Reranker 系列

Hugging Face 发布六个 Ettin Reranker 重排序模型（17m、32m、68m、150m、400m、1b），基于 Ettin ModernBERT 编码器，蒸馏 self-mxbai-rerank-large-v2 分数训练，在 MTEB(eng, v2) Retrieval 达各自规模 SOTA。模型以 Sentence Transformers CrossEncoder 接口提供，三行代码可调用。同时发布 train-sentence-transformers Agent Skill（v5.5.0），允许 AI 编码智能体在用户数据上微调模型。训练配方、数据集和脚本已全部开源。

Hugging Face 检索增强开源/仓库搜索

推荐理由：从17M到1B的全尺寸reranker家族，每个量级都是SOTA，而且训练数据和代码全开放，做搜索和RAG的开发者可以无痛替换旧模型。

5月18日

23:52

Hugging Face：Blog（RSS）

精选68

PaddleOCR 3.5：使用Transformers后端运行OCR和文档解析任务

PaddleOCR 发布 3.5 版本，正式将 Transformers 确立为运行 PP-OCRv5 及 PaddleOCR-VL 1.5 模型的可选推理后端之一。此次更新引入了更灵活的 engine 与 engine_config 参数，允许开发者自主选择后端并配置数据类型、设备等选项。其核心价值在于，显著降低了将文档处理能力集成至以 Transformers 为中心的主流开发栈（如 RAG、智能体、文档AI）的门槛，使开发者能更便捷地利用现有生态，减少集成阻力，从而专注于下游应用构建。

Hugging Face 检索增强产品更新多模态

推荐理由：PaddleOCR 3.5 最大的变化不是新模型，而是终于能跑在 Transformers 上了，做 RAG 和文档智能的开发者可以少写一堆胶水代码。

08:00

HuggingFace Daily Papers（社区热门论文）

LongMINT：长周期智能体系统中多目标干扰下的记忆评估

LongMINT是一个评估智能体在信息不断更新、存在大量干扰的长周期环境中记忆能力的新基准。它包含平均13.88万token（最长180万token）的长上下文，涵盖状态追踪、多轮对话、维基百科修订和GitHub提交四个领域，并设置了单目标检索与多目标聚合两类问题。对7个代表性系统的测试显示，平均准确率仅为27.9%，尤其在综合多证据推理的任务上表现差。分析表明，性能主要受限于检索和记忆构建能力，且系统难以有效处理后续信息对早期事实的更新与干扰。

智能体检索增强论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于上下文记忆的高效长上下文生成方法

针对大语言模型在使用长上下文前缀时面临影响力衰减和计算开销大这两个问题，本文提出了一种名为“注意力状态记忆”的无训练方法。该方法将上下文前缀外化为一个轻量级、基于查找的预计算记忆库，存储了前缀与查询词之间的注意力状态。实验表明，在 LLaMA-3.1-8B 上，该方法在 1K-8K 记忆预算下提升了准确率，并将注意力计算延迟降低了 1.36 倍。同时，它在 NBA 基准测试中，仅用全注意力 RAG 20% 的内存开销，便超越了其性能表现。

Meta 检索增强推理论文/研究

5月15日

08:48

HuggingFace Daily Papers（社区热门论文）

精选73

迈向自我进化的智能文献检索系统

针对传统检索无法理解复杂意图、而前沿大语言模型成本高且存在幻觉的问题，研究团队提出了自我进化的智能文献检索系统PaSaMaster。该系统通过迭代式意图分析、检索与排序，将文献检索转变为动态演进的过程，并采用三项关键设计：利用排序证据揭示信息缺口以优化搜索；将检索定义为意图-论文相关性排序任务，从根本上杜绝虚假文献；通过分离规划与检索来提升效率，仅用大模型理解意图，而将大规模检索与评分交由轻量模型处理。在涵盖38个学科的基准测试中，该系统将传统关键词检索的F1分数提升15.6倍，完全消除了文献幻觉，且性能超越GPT-5.2达30%，计算成本仅为后者的1%。

智能体 GitHub 检索增强论文/研究

推荐理由：学术文献检索一直被关键词和LLM幻觉两头堵，这个系统用规划与检索分离做到了零幻觉，F1暴涨15.6倍，比GPT-5.2强30%却只花1%算力，做科研的可以马上跑起来。