AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 116 条
全部一手资讯X论文
标签「RAG」清除
5月28日周四
16:10MarkTechPost(RSS)70精选pgvector驱动的语义、混合、稀疏与量化向量搜索系统构建编码指南
12:28HuggingFace Daily Papers(社区热门论文)68MemTrace:大语言模型记忆系统的错误追踪与归因
08:00HuggingFace Daily Papers(社区热门论文)53通过跨语言分词器手术和离线蒸馏适配多语言嵌入模型至土耳其语
5月27日周三
18:20HuggingFace Daily Papers(社区热门论文)72精选Gemini Embedding 2:来自Gemini的原生多模态嵌入模型
08:00HuggingFace Daily Papers(社区热门论文)50同一问题,不同来源,不同答案:医疗多来源RAG系统的来源依赖性审计
07:37MarkTechPost(RSS)67使用 ZeroEntropy Zerank-2 Reranker 设计高精度检索-重排流水线
5月26日周二
08:00HuggingFace Daily Papers(社区热门论文)51密集检索器的位置偏见是内建的,还是从数据中学来的?
5月24日周日
08:00HuggingFace Daily Papers(社区热门论文)53STREAM:一种从流媒体中挖掘高价值任务导向对话的数据中心框架
5月21日周四
05:42MarkTechPost(RSS)65介绍Turbovec:一个基于Google TurboQuant算法的Rust向量索引,支持Python绑定
5月20日周三
08:00HuggingFace Daily Papers(社区热门论文)41ACL-Verbatim:面向研究的无幻觉问答
5月19日周二
23:01Hugging Face:Blog(RSS)60精选引入 Ettin Reranker 系列
5月18日周一
23:52Hugging Face:Blog(RSS)68精选PaddleOCR 3.5:使用Transformers后端运行OCR和文档解析任务
08:00HuggingFace Daily Papers(社区热门论文)62LongMINT:长周期智能体系统中多目标干扰下的记忆评估
08:00HuggingFace Daily Papers(社区热门论文)58基于上下文记忆的高效长上下文生成方法
5月15日周五
08:48HuggingFace Daily Papers(社区热门论文)73精选迈向自我进化的智能文献检索系统
08:00HuggingFace Daily Papers(社区热门论文)59主动学习器作为高效的PRP重排序器
03:45Hugging Face:Blog(RSS)60精选IBM 发布 Granite Embedding Multilingual R2 开源多语言嵌入模型
5月14日周四
16:46HuggingFace Daily Papers(社区热门论文)64PersonalAI 2.0:通过规划机制增强知识图谱遍历/检索以优化个性化LLM智能体
14:46HuggingFace Daily Papers(社区热门论文)55F-GRPO:用于统一候选生成与排序的因子化组相对策略优化
12:45HuggingFace Daily Papers(社区热门论文)72精选检索廉价,代码为王:基于可执行程序的多跳推理检索增强生成
10:45HuggingFace Daily Papers(社区热门论文)63基于主动信息搜索的上下文训练
09:45HuggingFace Daily Papers(社区热门论文)72精选持续更新导致LLM智能体记忆效用衰退
5月13日周三
23:44HuggingFace Daily Papers(社区热门论文)63ORBIT:通过原点调控的权重合并,在生成式检索中保留大语言模型的基础能力
08:00HuggingFace Daily Papers(社区热门论文)62EvolveMem:基于AutoResearch的LLM智能体自进化记忆架构
08:00HuggingFace Daily Papers(社区热门论文)66书签:面向角色扮演代理的高效主动故事情节记忆框架
00:44HuggingFace Daily Papers(社区热门论文)60DeepRefine:基于强化学习的智能体知识库精炼
5月11日周一
14:34IT之家(RSS)62腾讯 QClaw 上线"文件空间"功能,打通本地文件、腾讯文档、ima 知识库
5月10日周日
19:22Hacker News 热门(buzzing.cc 中文翻译)66Gemini API 文件搜索现已支持多模态
02:42Hugging Face:Blog(RSS)68精选OncoAgent:一个用于隐私保护肿瘤临床决策支持的双层多智能体框架
5月8日周五
11:22HuggingFace Daily Papers(社区热门论文)49MiA-Signature:面向长上下文理解的全局激活近似方法
08:00HuggingFace Daily Papers(社区热门论文)41MLAIRE:面向多语言的信息检索语言感知评估协议
08:00HuggingFace Daily Papers(社区热门论文)46从内部检索:基于注意力的模型的内在能力
5月5日周二
08:00HuggingFace Daily Papers(社区热门论文)57反思推理密集型检索:在智能体搜索系统中评估与提升检索器
5月4日周一
12:13IT之家(RSS)54仅花 12 美元,工程师成功欺骗 AI 将虚构赛事奉为事实
08:00HuggingFace Daily Papers(社区热门论文)44Q-RAG:基于价值嵌入器训练的长上下文多步检索方法
5月3日周日
08:00HuggingFace Daily Papers(社区热门论文)54超越语义相似性:通过直接语料库交互重新思考智能体搜索的检索方式
5月2日周六
08:00HuggingFace Daily Papers(社区热门论文)52证据链:面向迭代检索增强生成的像素级视觉归因框架
5月1日周五
08:00HuggingFace Daily Papers(社区热门论文)51医疗AI智能体训练环境与多轮强化学习稳定性研究
08:00HuggingFace Daily Papers(社区热门论文)58BlenderRAG:基于检索增强代码合成的高保真3D物体生成
08:00HuggingFace Daily Papers(社区热门论文)58用于跨文档检索增强生成的分层抽象树
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月28日
16:10
MarkTechPost(RSS)
精选70
pgvector驱动的语义、混合、稀疏与量化向量搜索系统构建编码指南

本教程在Google Colab中构建一个完整的pgvector实验环境,展示PostgreSQL如何作为向量数据库服务于现代AI应用。内容涵盖安装PostgreSQL、编译pgvector扩展、通过Psycopg建立连接,并注册向量类型以实现与Python的平滑集成。最后使用SentenceTransformers创建并存储嵌入向量。

检索增强开源生态教程/实践部署/工程

推荐理由:这份教程把 pgvector 的稀疏向量、量化搜索等高级功能打包成 Colab 代码,用 PostgreSQL 做向量数据库的团队可以直接复制粘贴跑起来。
12:28
HuggingFace Daily Papers(社区热门论文)
68
MemTrace:大语言模型记忆系统的错误追踪与归因

本文研究了大语言模型记忆系统中错误追踪与归因的新问题。我们提出了MemTrace框架,它将记忆管线转化为可执行的记忆演化图,以实现操作信息流的细粒度追踪。我们构建了MemTraceBench基准,数据来自Long-Context、RAG、Mem0和EverMemOS等代表性系统,用于系统研究记忆失效模式。此外,我们引入了一种自动归因方法,通过迭代追踪操作子图来定位失败根因。分析表明,记忆失败具有系统性,源于信息丢失与检索错位等操作级问题。利用这些细粒度归因信号指导下游提示词优化,可构建一个自动纠错的闭环系统,将端到端任务性能最高提升7.62%。

智能体GitHub检索增强论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
通过跨语言分词器手术和离线蒸馏适配多语言嵌入模型至土耳其语

本文介绍了embeddingmagibu-200m,一款专注于土耳其语的句子嵌入模型。它能生成768维L2归一化向量,支持8,192 token的上下文窗口。该模型不进行完整预训练,而是采用三阶段适配流水线训练:构建优化的土耳其语分词器、克隆并适配教师模型权重,以及使用预计算向量进行离线知识蒸馏。学生模型约200M参数,在单个GPU上训练约4小时,成本为5-20美元。它在STSbTR基准上性能超越了作为教师的300M参数模型,并在TR-MTEB的26个任务中排名靠前,实现了有竞争力的性价比。所有模型权重、分词器及训练工具均已开源。

Hugging Face检索增强开源/仓库论文/研究
5月27日
18:20
HuggingFace Daily Papers(社区热门论文)
精选72
Gemini Embedding 2:来自Gemini的原生多模态嵌入模型

Google DeepMind推出Gemini Embedding 2,这是一款原生多模态嵌入模型,支持在统一表示空间中嵌入视频、音频、图像和文本。该模型利用Gemini的多模态能力,通过大规模对比学习实现SOTA性能。在关键基准上表现优异:MSCOCO取得62.9 R@1,Vatex取得68.8 NDCG@10,MTEB multilingual达到69.9,MTEB Code达到84.0,超越了专用模型。其统一能力使其适用于RAG、推荐与搜索等下游任务,并在天文学、生物科学、艺术和烹饪等专业领域展现出强大的零样本性能。

Google检索增强多模态论文/研究

推荐理由:Google 把多模态嵌入统一到一个模型里了,文本、代码、跨模态检索全面刷榜,做 RAG 和搜索的该认真看看了。
08:00
HuggingFace Daily Papers(社区热门论文)
50
同一问题,不同来源,不同答案:医疗多来源RAG系统的来源依赖性审计

检索增强生成系统处理多来源语料时,可能因检索来源不同而对同一问题给出不同答案,这是一种现有评估体系无法诊断的失效模式。研究团队在医疗患者教育场景发布了三个工具:基准TransplantQA,为真实患者问题提供基于多机构手册的参考答案;分层检索与审计策略HERO-QA;以及一个基于经验证的5标签分类体系的结构化评估器,用于评分来源间关系。大规模审计显示,更优的检索能力所暴露出的来源分歧远高于此前估计。该框架具有领域通用性。

检索增强论文/研究
07:37
MarkTechPost(RSS)
67
使用 ZeroEntropy Zerank-2 Reranker 设计高精度检索-重排流水线

介绍如何使用基于 Qwen3、参数规模为 4B 的交叉编码器重排器 Zerank-2 Reranker 构建检索-重排流水线。该流水线先通过快速双编码器检索候选文档,再由 Zerank-2 进行重排以提升检索精度。

检索增强教程/实践部署/工程
5月26日
08:00
HuggingFace Daily Papers(社区热门论文)
51
密集检索器的位置偏见是内建的,还是从数据中学来的?

本研究探讨了密集检索器位置偏见的成因,聚焦于训练数据中证据位置分布的影响。通过构造证据位于文档开头、中间或结尾的合成训练集,并对8种架构的预训练模型进行微调,实验发现:偏斜的训练分布会使模型偏好相应位置的信息。在位置敏感的评测基准上,位置平衡训练可降低57%–87%的位置敏感性,且检索性能具有竞争力。表示层分析表明,微调能重塑模型的位置偏好,但部分模型中预训练或架构固有的倾向仍会持续。该研究指出训练数据的位置分布是影响检索位置偏见的主要可控因素,平衡数据编排是一种有效的缓解策略。

arXiv检索增强数据/训练论文/研究
5月24日
08:00
HuggingFace Daily Papers(社区热门论文)
53
STREAM:一种从流媒体中挖掘高价值任务导向对话的数据中心框架

为解决垂直领域大语言模型缺乏复杂任务导向对话数据的瓶颈,STREAM框架提出一种从公开流媒体(直播与短视频)中规模化合成高质量服务对话的新方法。该框架从嘈杂的流媒体中挖掘真实交互信号,结合角色人物构建与对话蓝图设计,并利用检索增强生成(RAG)技术支持知识响应。基于此发布的StreamDial数据集覆盖汽车、餐饮与酒店三大领域,包含87,498个对话会话与1,497,320轮对话。评估表明,该数据集提升了对话内在质量,并在多个骨干模型上改善了对话状态跟踪性能;在Qwen3-8B上的多语言迁移实验也取得了积极结果。

arXiv检索增强论文/研究
5月21日
05:42
MarkTechPost(RSS)
65
介绍Turbovec:一个基于Google TurboQuant算法的Rust向量索引,支持Python绑定

Google Research的TurboQuant算法已通过Turbovec项目应用于向量搜索领域。该工具以Rust语言构建,提供Python绑定接口,可直接集成到RAG流水线中。Turbovec实现了16倍的向量压缩率,同时无需进行任何码本训练,显著降低了部署和使用门槛。

Google检索增强开源/仓库部署/工程
5月20日
08:00
HuggingFace Daily Papers(社区热门论文)
41
ACL-Verbatim:面向研究的无幻觉问答

针对学术研究中大语言模型(LLM)存在幻觉的问题,研究者将抽取式问答系统VerbatimRAG应用于ACL Anthology论文集,实现用户查询到文档原文片段的直接映射。团队构建了一个新基准数据集,由NLP研究人员基于ScIRGen方法生成的合成用户查询进行人工标注,用于训练和评估多种抽取式模型。其中,一个参数规模为150M的ModernBERT分类器,在基于ScIRGen方法生成的查询和论文片段上进行训练后,在词级F1分数上达到53.6,超越了被评估的最强LLM抽取器(48.7)。

检索增强数据/训练论文/研究
5月19日
23:01
Hugging Face:Blog(RSS)
精选60
引入 Ettin Reranker 系列

Hugging Face 发布六个 Ettin Reranker 重排序模型(17m、32m、68m、150m、400m、1b),基于 Ettin ModernBERT 编码器,蒸馏 self-mxbai-rerank-large-v2 分数训练,在 MTEB(eng, v2) Retrieval 达各自规模 SOTA。模型以 Sentence Transformers CrossEncoder 接口提供,三行代码可调用。同时发布 train-sentence-transformers Agent Skill(v5.5.0),允许 AI 编码智能体在用户数据上微调模型。训练配方、数据集和脚本已全部开源。

Hugging Face检索增强开源/仓库搜索

推荐理由:从17M到1B的全尺寸reranker家族,每个量级都是SOTA,而且训练数据和代码全开放,做搜索和RAG的开发者可以无痛替换旧模型。
5月18日
23:52
Hugging Face:Blog(RSS)
精选68
PaddleOCR 3.5:使用Transformers后端运行OCR和文档解析任务

PaddleOCR 发布 3.5 版本,正式将 Transformers 确立为运行 PP-OCRv5 及 PaddleOCR-VL 1.5 模型的可选推理后端之一。此次更新引入了更灵活的 engine 与 engine_config 参数,允许开发者自主选择后端并配置数据类型、设备等选项。其核心价值在于,显著降低了将文档处理能力集成至以 Transformers 为中心的主流开发栈(如 RAG、智能体、文档AI)的门槛,使开发者能更便捷地利用现有生态,减少集成阻力,从而专注于下游应用构建。

Hugging Face检索增强产品更新多模态

推荐理由:PaddleOCR 3.5 最大的变化不是新模型,而是终于能跑在 Transformers 上了,做 RAG 和文档智能的开发者可以少写一堆胶水代码。
08:00
HuggingFace Daily Papers(社区热门论文)
62
LongMINT:长周期智能体系统中多目标干扰下的记忆评估

LongMINT是一个评估智能体在信息不断更新、存在大量干扰的长周期环境中记忆能力的新基准。它包含平均13.88万token(最长180万token)的长上下文,涵盖状态追踪、多轮对话、维基百科修订和GitHub提交四个领域,并设置了单目标检索与多目标聚合两类问题。对7个代表性系统的测试显示,平均准确率仅为27.9%,尤其在综合多证据推理的任务上表现差。分析表明,性能主要受限于检索和记忆构建能力,且系统难以有效处理后续信息对早期事实的更新与干扰。

智能体检索增强论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
58
基于上下文记忆的高效长上下文生成方法

针对大语言模型在使用长上下文前缀时面临影响力衰减和计算开销大这两个问题,本文提出了一种名为“注意力状态记忆”的无训练方法。该方法将上下文前缀外化为一个轻量级、基于查找的预计算记忆库,存储了前缀与查询词之间的注意力状态。实验表明,在 LLaMA-3.1-8B 上,该方法在 1K-8K 记忆预算下提升了准确率,并将注意力计算延迟降低了 1.36 倍。同时,它在 NBA 基准测试中,仅用全注意力 RAG 20% 的内存开销,便超越了其性能表现。

Meta检索增强推理论文/研究
5月15日
08:48
HuggingFace Daily Papers(社区热门论文)
精选73
迈向自我进化的智能文献检索系统

针对传统检索无法理解复杂意图、而前沿大语言模型成本高且存在幻觉的问题,研究团队提出了自我进化的智能文献检索系统PaSaMaster。该系统通过迭代式意图分析、检索与排序,将文献检索转变为动态演进的过程,并采用三项关键设计:利用排序证据揭示信息缺口以优化搜索;将检索定义为意图-论文相关性排序任务,从根本上杜绝虚假文献;通过分离规划与检索来提升效率,仅用大模型理解意图,而将大规模检索与评分交由轻量模型处理。在涵盖38个学科的基准测试中,该系统将传统关键词检索的F1分数提升15.6倍,完全消除了文献幻觉,且性能超越GPT-5.2达30%,计算成本仅为后者的1%。

智能体GitHub检索增强论文/研究

推荐理由:学术文献检索一直被关键词和LLM幻觉两头堵,这个系统用规划与检索分离做到了零幻觉,F1暴涨15.6倍,比GPT-5.2强30%却只花1%算力,做科研的可以马上跑起来。
08:00
HuggingFace Daily Papers(社区热门论文)
59
主动学习器作为高效的PRP重排序器

本文针对成对排序提示(PRP)框架中LLM生成成对偏好判断时存在的噪声、顺序敏感性和不可传递性问题,指出传统排序算法在这些条件下性能受限。作者将PRP重排问题重构为从噪声成对比较中主动学习的过程,提出主动排序器作为即插即用的替代方案,在调用次数受限场景下显著提升NDCG@10指标。此外,引入随机方向预言机机制,每次比较仅需一次LLM调用,将系统位置偏差转化为零均值噪声,实现无偏聚合排序并降低计算成本。

arXiv检索增强搜索论文/研究
03:45
Hugging Face:Blog(RSS)
精选60
IBM 发布 Granite Embedding Multilingual R2 开源多语言嵌入模型

IBM 发布两个 Apache 2.0 开源多语言嵌入模型:97M 参数的紧凑型(granite-embedding-97m-multilingual-r2)在 MTEB Multilingual Retrieval 上得 60.3 分,超越所有开放子 1 亿参数模型;311M 全尺寸模型(granite-embedding-311m-multilingual-r2)得 65.2 分,在 500M 以下开放模型中排第二,并支持 Matryoshka 维度。两者均基于 ModernBERT 架构,支持 200+ 种语言,针对 52 种语言和 9 种编程代码检索训练,上下文窗口达 32,768 tokens。可直接替换 sentence-transformers、LangChain、LlamaIndex 等框架中的默认模型,预置 ONNX 和 OpenVINO 权重以优化 CPU 推理。

检索增强开源生态搜索模型发布

推荐理由:97M小模型在跨语言检索上打败很多300M级选手,32K上下文让长文档处理不再鸡肋,Apache 2.0开源意味着做多语言RAG的可以直接拿来当默认嵌入模型了。
5月14日
16:46
HuggingFace Daily Papers(社区热门论文)
64
PersonalAI 2.0:通过规划机制增强知识图谱遍历/检索以优化个性化LLM智能体

PersonalAI 2.0(PAI-2)是一个集成外部知识图谱的新型框架,旨在提升大语言模型系统的性能。它通过动态多阶段查询处理流程,克服了现有图检索增强生成技术的局限,能基于实体、图节点和线索查询进行自适应迭代搜索。在六个基准数据集上的评估表明,其生成答案的事实正确性平均提升4%,有效降低了幻觉。图谱遍历算法相比标准检索器平均提升6%,而启用的搜索规划机制更带来了18%的性能提升。此外,PAI-2在MINE-1基准上取得了89%的信息保留分数,达到当前最优水平,且仅使用7-14B参数的模型,展现了作为下一代个性化AI基础模型的潜力。

arXiv检索增强论文/研究
14:46
HuggingFace Daily Papers(社区热门论文)
55
F-GRPO:用于统一候选生成与排序的因子化组相对策略优化

传统检索流程将候选生成与重排序分阶段优化,存在效用不对齐问题。大语言模型虽能单步完成两者,但其组合输出空间面临反馈模糊的优化难题。为此,本研究提出F-GRPO统一框架,在单一自回归过程中执行生成与排序,并通过因子化组相对策略优化进行端到端训练。该方法将策略分解为生成与排序两部分,共享同一LLM主干,并联合使用顺序无关的覆盖度奖励和位置感知的效用奖励进行训练。在序列推荐和多跳问答基准测试中,F-GRPO在Top排名性能上超越了相关基线及监督学习方案,并与强大的零样本重排序模型保持竞争力,且无需改变推理架构。

检索增强搜索论文/研究
12:45
HuggingFace Daily Papers(社区热门论文)
精选72
检索廉价,代码为王:基于可执行程序的多跳推理检索增强生成

针对多跳检索增强生成(RAG)中推理过程隐式、检索漂移及错误难以自查的问题,研究团队提出PyRAG框架,将多跳推理任务重构为程序合成与执行过程。该框架将推理步骤编写为可执行的Python程序,通过显式调用检索与问答工具实现多步计算,使中间状态变量化、反馈确定化,并生成完整可检查的推理轨迹。该方法无需额外训练即可支持基于编译器的自我修复与执行驱动的自适应检索。在PopQA、HotpotQA等五个问答基准测试中,PyRAG在无需训练和强化学习训练两种设定下均显著优于基线模型,尤其在组合式多跳数据集上提升显著。相关资源已开源。

检索增强论文/研究

推荐理由:把多跳RAG变成可执行的Python程序,中间状态全透明,实验在五个数据集上都压住了基线,做检索增强的值得看一眼。
10:45
HuggingFace Daily Papers(社区热门论文)
63
基于主动信息搜索的上下文训练

研究为大型语言模型的上下文优化器引入维基百科搜索与浏览器工具,使其能够主动获取外部信息。单纯在标准流程中添加工具会降低性能,但配合基于搜索的训练流程——维护并修剪多个候选上下文——后,模型在多个领域实现显著提升。该方法在低资源翻译、健康场景以及强推理任务上均表现一致且高效,同时具备数据利用率高、超参数鲁棒性强等特点,所生成的文本上下文能很好地迁移至不同模型。

检索增强搜索论文/研究
09:45
HuggingFace Daily Papers(社区热门论文)
精选72
持续更新导致LLM智能体记忆效用衰退

研究发现,当前由大语言模型驱动的智能体记忆系统在持续整合更新记忆时,会产生错误记忆,导致性能不升反降。即使基于完全正确的经验进行整合,GPT-4在部分问题上仍有54%的失败率,而这些问题是其无记忆时曾成功解决的。性能衰退源于整合步骤本身,而非原始经验。在受控测试中,默认保留原始经历片段的智能体,其准确率是强制整合版本的两倍;完全禁用整合、仅进行片段管理,能达到与自动管理相当的性能。因此,稳健的智能体记忆系统应将原始经历片段视为首要证据,并明确控制整合的触发条件,而非在每次交互后都自动执行。

智能体检索增强论文/研究

推荐理由:LLM 整合记忆的常规套路被这篇论文掀了桌子。连续更新反而会把有用的经验搞坏,甚至 GPT-5.4 自己解过的题,加上记忆后正确率暴跌。做 agent 的人值得认真看看,记忆架构可能要转向保留原始轨迹。
5月13日
23:44
HuggingFace Daily Papers(社区热门论文)
63
ORBIT:通过原点调控的权重合并,在生成式检索中保留大语言模型的基础能力

研究指出,为大语言模型微调生成式检索任务会迅速导致其通用语言推理能力的灾难性遗忘,且遗忘程度与微调后和原始模型参数的偏离距离相关。为此,研究者提出了ORBIT方法。该方法主动追踪微调权重与初始权重之间的距离,一旦超过预设阈值,便采用权重平均策略来约束模型在微调过程中的漂移。实验表明,ORBIT在文本和检索性能上均优于常见的持续学习基线及同样采用权重平均的正则化方法,有效缓解了基础能力的遗忘问题。

arXiv检索增强数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
EvolveMem:基于AutoResearch的LLM智能体自进化记忆架构

针对LLM智能体长期记忆系统中检索机制固定不变的问题,研究团队提出自进化记忆架构EvolveMem。该架构将完整的检索配置(如评分函数、融合策略)构建为结构化行动空间,由一个LLM驱动的诊断模块进行闭环优化。系统通过AutoResearch过程自主运行:诊断模块分析失败日志、定位根因并提出配置调整,再由受保护的元分析器在防性能衰退和探索停滞的保障下应用调整。实验表明,EvolveMem在LoCoMo和MemBench基准上显著优于基线,进化后的配置能跨基准正向迁移,表明系统捕捉到了通用的检索原则。代码已开源。

智能体检索增强论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
66
书签:面向角色扮演代理的高效主动故事情节记忆框架

针对角色扮演代理长期一致性记忆的需求,本研究提出基于搜索的记忆框架BOOKMARKS。它通过主动初始化、维护和更新与当前任务相关的“书签”来替代传统的循环摘要方法,避免重要细节丢失。每个书签被构建为故事情节特定时间点上一个问题的答案,支持概念、行为和状态三种搜索类型,并采用高效同步机制更新答案以供未来复用。相比基线方法,该框架兼具主动锚定任务细节和被动更新以减少计算开销的优势。在涵盖16个作品、85个角色的测试中,其性能显著优于现有记忆基线。

智能体arXiv检索增强论文/研究
00:44
HuggingFace Daily Papers(社区热门论文)
60
DeepRefine:基于强化学习的智能体知识库精炼

DeepRefine 是一种基于大语言模型的通用推理模型,旨在通过与知识库进行多轮交互,精炼其中存在的缺陷(如证据缺失、断言置信度低或指代模糊等问题),从而提升其在开放域、知识密集型下游任务中的适用性。该模型通过溯因诊断定位缺陷,并执行针对性操作以增量更新知识库。为在没有黄金参考的情况下优化精炼策略,研究引入了“超越草案增益”奖励,并采用强化学习进行端到端训练。大量实验表明,该方法能在多个强基线模型上带来一致的下游性能提升。

智能体检索增强数据/训练论文/研究
5月11日
14:34
IT之家(RSS)
62
腾讯 QClaw 上线"文件空间"功能,打通本地文件、腾讯文档、ima 知识库

腾讯云QClaw正式上线“文件空间”功能,通过一次授权即可一站式打通用户的本地文件、腾讯文档和ima知识库,实现了深度集成与稳定的权限管控。用户可在QClaw内直接操作腾讯文档内容,勾选多份文件交由AI处理,AI能生成可协作的活化文档并支持团队协同编辑。同时,用户可直接调取ima知识库文件进行分析,AI生成的方案也能一键保存回知识库,便于后续使用。

MCP/工具检索增强产品更新
5月10日
19:22
Hacker News 热门(buzzing.cc 中文翻译)
66
Gemini API 文件搜索现已支持多模态

Gemini API 的文件搜索功能现已升级为多模态版本。此次更新允许开发者上传并搜索图像、PDF、PPT 和 Word 等多种格式的文件,突破了此前仅支持文本文件的限制。该功能基于检索增强生成技术,能同时处理文本和视觉信息,从上传的文档中提取关键内容以生成更准确的回答。这一变化旨在帮助开发者更高效地构建能理解和分析复杂多模态数据的应用程序。

Google检索增强产品更新多模态
02:42
Hugging Face:Blog(RSS)
精选68
OncoAgent:一个用于隐私保护肿瘤临床决策支持的双层多智能体框架

研究团队发布了开源肿瘤临床决策支持系统OncoAgent。该系统采用双层多智能体框架,结合LangGraph拓扑与四阶段Corrective RAG流程,检索超过70份权威临床指南。系统根据查询复杂度,将任务路由至9B参数的速度优化模型或27B参数的深度推理模型,两者均通过QLoRA在AMD MI300X硬件上使用包含26万余病例的数据集进行微调。系统强制执行严格的零受保护健康信息政策,并通过三层反射安全验证器确保安全,支持完全本地部署以保护患者数据主权。

智能体Hugging Face检索增强开源生态

推荐理由:这个开源肿瘤AI系统把多智能体、RAG和隐私合规全塞进一台AMD服务器,临床落地又近了一步,不是那种只发论文不交代码的项目。
5月8日
11:22
HuggingFace Daily Papers(社区热门论文)
49
MiA-Signature:面向长上下文理解的全局激活近似方法

研究提出“心智景观激活签名”概念,通过子模优化选取高层概念以覆盖被激活的上下文空间,并可借助工作记忆进行轻量迭代更新。该压缩表示能近似全局激活状态对下游处理的影响,同时保持计算可行性。将MiA-Signature集成至RAG与智能体系统中,在多项长上下文理解任务上实现了持续的性能提升。

智能体检索增强论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
41
MLAIRE:面向多语言的信息检索语言感知评估协议

现有信息检索评估主要关注语义相关性,忽视了检索结果语言对用户实用性的影响。为解决此问题,研究提出MLAIRE评估协议。该协议通过构建跨语言平行段落对照集合,能够同时测量跨语言语义检索准确率与查询语言偏好度,并引入语言偏好率、Lang-nDCG等指标进行四类分解。对31种检索器的评估显示,标准指标会掩盖不同检索器的行为差异:语义能力强的检索器可能返回非查询语言内容,而语言偏好强的检索器可能牺牲语义相关性。该协议为评估多语言检索系统的真实效用提供了新维度。

检索增强搜索论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
46
从内部检索:基于注意力的模型的内在能力

研究团队提出INTRA框架,使基于注意力的编码器-解码器模型能够直接从自身内部表征中检索信息,无需依赖外部检索器。该方法利用解码器的注意力查询对预编码的证据块进行评分,并将其直接复用为生成上下文,从而统一了检索与生成过程,避免了传统RAG流程中模块不匹配的问题。在问答基准测试中,INTRA在证据召回率和答案质量上均优于强工程化检索流程。结果表明,基于注意力的模型本身已具备可被激发的内在检索机制。

检索增强论文/研究
5月5日
08:00
HuggingFace Daily Papers(社区热门论文)
57
反思推理密集型检索:在智能体搜索系统中评估与提升检索器

推理密集型检索旨在为下游推理提供证据支持,而非仅匹配主题相似性,这对需要迭代搜索与证据合成的智能体搜索系统至关重要。针对现有评估与训练的不足,研究发布了BRIGHT-Pro专家标注基准,为每个查询扩展了多维度黄金证据,并在静态与智能体搜索两种协议下评估检索器。同时,研究构建了RTriever-Synth合成语料库,通过生成互补正例和正例条件硬负例,对Qwen3-Embedding-4B进行LoRA微调得到RTriever-4B。实验表明,维度感知与智能体评估能揭示标准指标所掩盖的检索行为,而RTriever-4B相比其基础模型取得了显著提升。

arXivMCP/工具检索增强推理
5月4日
12:13
IT之家(RSS)
54
仅花 12 美元,工程师成功欺骗 AI 将虚构赛事奉为事实

安全工程师仅花费12美元注册域名并编辑维基百科词条,虚构了一场纸牌游戏的2025年世界冠军赛事。多款具备联网搜索功能的AI聊天机器人将此虚假信息当作事实传播,暴露了AI在检索增强生成(RAG)中的核心漏洞:模型无条件信任网络检索结果,无法甄别信息来源真伪。此次低成本攻击揭示了AI在信息可信度与数据溯源方面存在重大隐患,涉及检索层误导、训练语料污染及智能体被操控执行恶意操作等多重风险。

检索增强安全/对齐
08:00
HuggingFace Daily Papers(社区热门论文)
44
Q-RAG:基于价值嵌入器训练的长上下文多步检索方法

检索增强生成(RAG)方法通过筛选相关上下文提升大型语言模型性能,但传统单步检索难以应对复杂问题。现有多步检索方法通常微调小型LLMs,资源消耗大且无法利用更大模型。本研究提出Q-RAG,采用强化学习微调嵌入器模型以实现多步检索,避免了资源密集问题。该方法在开放域问答任务中提供资源高效的替代方案,并在长上下文基准测试BabiLong和RULER上取得最先进结果,支持高达1000万词元的上下文。代码已开源。

arXivGitHub检索增强推理
5月3日
08:00
HuggingFace Daily Papers(社区热门论文)
54
超越语义相似性:通过直接语料库交互重新思考智能体搜索的检索方式

传统检索系统依赖固定的相似性接口,在智能体搜索中易成为瓶颈,难以支持精确约束、多步推理与假设细化。研究提出直接语料库交互方法,使智能体无需嵌入模型或向量索引,直接通过通用终端工具搜索原始语料。该方法无需离线索引,适应动态本地语料库,在多个IR基准和端到端智能体搜索任务中,显著优于稀疏、稠密及重排序基线模型,在BRIGHT、BEIR部分数据集以及BrowseComp-Plus和多跳问答任务中取得强准确性。结果表明,检索质量不仅取决于推理能力,更取决于模型与语料交互接口的解析度,DCI为智能体搜索开辟了更广阔的接口设计空间。

智能体检索增强搜索论文/研究
5月2日
08:00
HuggingFace Daily Papers(社区热门论文)
52
证据链:面向迭代检索增强生成的像素级视觉归因框架

针对迭代检索增强生成在解析文本时存在的证据定位粗粒度与视觉语义丢失问题,本研究提出了“证据链”框架。该框架与检索器无关,直接利用视觉语言模型对检索到的文档截图进行推理,无需针对特定格式进行解析,并能输出精确的边界框以可视化完整推理链条。在Wiki-CoE和SlideVQA两个基准上的实验表明,经微调的Qwen3-VL-8B-Instruct模型表现稳健,在需要视觉布局理解的场景中显著优于基于文本的基线方法,为像素级可解释的iRAG提供了一个通用解决方案。代码已开源。

arXiv检索增强多模态论文/研究
5月1日
08:00
HuggingFace Daily Papers(社区热门论文)
51
医疗AI智能体训练环境与多轮强化学习稳定性研究

研究团队构建了覆盖10个临床领域、包含3600多项任务的Gymnasium兼容医疗AI训练环境。分析发现,现有多轮智能体强化学习方法易退化为冗长单轮独白,工具使用频率下降,问题源于稀疏最终奖励与连续临床轨迹的错配。为此,研究提出“轮次截断策略蒸馏”自蒸馏框架,利用梯度冻结的EMA教师模型在每轮对话提供密集的KL正则化。该方法在18项基准测试的10项中取得最佳性能,较非强化学习基线平均提升3.9个百分点,实现了更快早期收敛、可控响应长度和持续的多轮工具使用。

智能体检索增强数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
58
BlenderRAG:基于检索增强代码合成的高保真3D物体生成

BlenderRAG是一个检索增强生成系统,能够从自然语言描述自动生成可执行的Blender代码。该系统基于一个包含500个经专家验证的多模态样本(文本、代码、图像)的数据集,覆盖50种物体类别。在代码生成过程中,系统通过检索语义相似的示例来引导大语言模型,从而将四大前沿模型的代码编译成功率从40.8%显著提升至70.0%,并将语义对齐度(CLIP相似度)从0.41提高到0.77。该方法无需对模型进行微调或使用专用硬件,可立即部署使用。相关数据集和代码已在GitHub开源。

arXivGitHub检索增强多模态
08:00
HuggingFace Daily Papers(社区热门论文)
58
用于跨文档检索增强生成的分层抽象树

针对现有树状检索增强生成方法在应对跨文档多跳查询时面临的分布适应性差、结构隔离和抽象粒度粗糙三大挑战,研究者提出了Ψ-RAG框架。该框架包含两个核心组件:一是通过“合并与坍缩”迭代过程构建、无需先验分布假设的分层抽象树索引;二是配备重组查询和智能体驱动混合检索器的多粒度检索代理。Ψ-RAG支持从词元级问答到文档级摘要的多样化任务,在跨文档多跳问答基准测试中,其平均F1分数显著优于现有先进方法。相关代码已开源。

arXiv检索增强搜索论文/研究
‹ 上一页
123
下一页 ›