本文针对成对排序提示(PRP)框架中LLM生成成对偏好判断时存在的噪声、顺序敏感性和不可传递性问题,指出传统排序算法在这些条件下性能受限。作者将PRP重排问题重构为从噪声成对比较中主动学习的过程,提出主动排序器作为即插即用的替代方案,在调用次数受限场景下显著提升NDCG@10指标。此外,引入随机方向预言机机制,每次比较仅需一次LLM调用,将系统位置偏差转化为零均值噪声,实现无偏聚合排序并降低计算成本。
本文针对成对排序提示(PRP)框架中LLM生成成对偏好判断时存在的噪声、顺序敏感性和不可传递性问题,指出传统排序算法在这些条件下性能受限。作者将PRP重排问题重构为从噪声成对比较中主动学习的过程,提出主动排序器作为即插即用的替代方案,在调用次数受限场景下显著提升NDCG@10指标。此外,引入随机方向预言机机制,每次比较仅需一次LLM调用,将系统位置偏差转化为零均值噪声,实现无偏聚合排序并降低计算成本。
IBM 发布两个 Apache 2.0 开源多语言嵌入模型:97M 参数的紧凑型(granite-embedding-97m-multilingual-r2)在 MTEB Multilingual Retrieval 上得 60.3 分,超越所有开放子 1 亿参数模型;311M 全尺寸模型(granite-embedding-311m-multilingual-r2)得 65.2 分,在 500M 以下开放模型中排第二,并支持 Matryoshka 维度。两者均基于 ModernBERT 架构,支持 200+ 种语言,针对 52 种语言和 9 种编程代码检索训练,上下文窗口达 32,768 tokens。可直接替换 sentence-transformers、LangChain、LlamaIndex 等框架中的默认模型,预置 ONNX 和 OpenVINO 权重以优化 CPU 推理。
国际学校老师离职与Slack停服事件,暴露企业组织记忆托管于外部工具的脆弱性。当前主流AI协作产品聚焦扩大记忆容量,但记忆结构仍是碎片化的列表型。Tanka采用图谱型记忆,将实体、关系和时间结构化,并基于稀疏注意力架构降低计算复杂度,支持固定定价。稀疏架构虽提升确定性任务效率,但可能抑制跨边界创新洞察。该工具适合组织结构稳定、数据栈已集成的团队,为企业构建跨越人员流动的组织记忆图谱。
PersonalAI 2.0(PAI-2)是一个集成外部知识图谱的新型框架,旨在提升大语言模型系统的性能。它通过动态多阶段查询处理流程,克服了现有图检索增强生成技术的局限,能基于实体、图节点和线索查询进行自适应迭代搜索。在六个基准数据集上的评估表明,其生成答案的事实正确性平均提升4%,有效降低了幻觉。图谱遍历算法相比标准检索器平均提升6%,而启用的搜索规划机制更带来了18%的性能提升。此外,PAI-2在MINE-1基准上取得了89%的信息保留分数,达到当前最优水平,且仅使用7-14B参数的模型,展现了作为下一代个性化AI基础模型的潜力。
传统检索流程将候选生成与重排序分阶段优化,存在效用不对齐问题。大语言模型虽能单步完成两者,但其组合输出空间面临反馈模糊的优化难题。为此,本研究提出F-GRPO统一框架,在单一自回归过程中执行生成与排序,并通过因子化组相对策略优化进行端到端训练。该方法将策略分解为生成与排序两部分,共享同一LLM主干,并联合使用顺序无关的覆盖度奖励和位置感知的效用奖励进行训练。在序列推荐和多跳问答基准测试中,F-GRPO在Top排名性能上超越了相关基线及监督学习方案,并与强大的零样本重排序模型保持竞争力,且无需改变推理架构。
针对多跳检索增强生成(RAG)中推理过程隐式、检索漂移及错误难以自查的问题,研究团队提出PyRAG框架,将多跳推理任务重构为程序合成与执行过程。该框架将推理步骤编写为可执行的Python程序,通过显式调用检索与问答工具实现多步计算,使中间状态变量化、反馈确定化,并生成完整可检查的推理轨迹。该方法无需额外训练即可支持基于编译器的自我修复与执行驱动的自适应检索。在PopQA、HotpotQA等五个问答基准测试中,PyRAG在无需训练和强化学习训练两种设定下均显著优于基线模型,尤其在组合式多跳数据集上提升显著。相关资源已开源。
ExaAILabs的一项关键实验表明,在强化学习阶段训练大语言模型的搜索能力时,使用其Exa搜索API替代Google数据,不仅能使模型达到更高性能,还可节省高达70%的训练算力。这一结果直接挑战了“提升AI搜索能力主要依赖增加算力”的普遍观点,揭示了搜索工具本身的质量与效率可能更具决定性影响。该发现为从事AI Agent、RAG以及训练具备搜索能力大模型的团队提供了重要启示,意味着未来LLM训练的效率竞争可能始于对底层工具的选择。
How does Exa compare to Google for training LLMs to search? In this blog post, we find that LLMs using Exa during reinfo...
研究为大型语言模型的上下文优化器引入维基百科搜索与浏览器工具,使其能够主动获取外部信息。单纯在标准流程中添加工具会降低性能,但配合基于搜索的训练流程——维护并修剪多个候选上下文——后,模型在多个领域实现显著提升。该方法在低资源翻译、健康场景以及强推理任务上均表现一致且高效,同时具备数据利用率高、超参数鲁棒性强等特点,所生成的文本上下文能很好地迁移至不同模型。
研究发现,当前由大语言模型驱动的智能体记忆系统在持续整合更新记忆时,会产生错误记忆,导致性能不升反降。即使基于完全正确的经验进行整合,GPT-4在部分问题上仍有54%的失败率,而这些问题是其无记忆时曾成功解决的。性能衰退源于整合步骤本身,而非原始经验。在受控测试中,默认保留原始经历片段的智能体,其准确率是强制整合版本的两倍;完全禁用整合、仅进行片段管理,能达到与自动管理相当的性能。因此,稳健的智能体记忆系统应将原始经历片段视为首要证据,并明确控制整合的触发条件,而非在每次交互后都自动执行。
研究指出,为大语言模型微调生成式检索任务会迅速导致其通用语言推理能力的灾难性遗忘,且遗忘程度与微调后和原始模型参数的偏离距离相关。为此,研究者提出了ORBIT方法。该方法主动追踪微调权重与初始权重之间的距离,一旦超过预设阈值,便采用权重平均策略来约束模型在微调过程中的漂移。实验表明,ORBIT在文本和检索性能上均优于常见的持续学习基线及同样采用权重平均的正则化方法,有效缓解了基础能力的遗忘问题。
Jina发布了其首个统一的多模态Embedding模型jina-embeddings-v5-omni,能够处理文本、图像、音频和视频。模型提供Small和Nano两种尺寸,分别具有1.57B和0.95B参数,并支持Matryoshka截断技术。关键优势在于完全向后兼容:现有jina-embeddings-v5-text的索引无需重新构建,可直接替换为v5-omni,在同一向量空间内实现对多媒体内容的搜索。该模型性能强劲,小尺寸即可媲美或超越参数量更大的开源模型。目前已上线Hugging Face、Jina API和Elastic Inference Service。
jina-embeddings-v5-omni is here! Our first universal embedding model for text, images, audio, and video. Available in tw...
针对LLM智能体长期记忆系统中检索机制固定不变的问题,研究团队提出自进化记忆架构EvolveMem。该架构将完整的检索配置(如评分函数、融合策略)构建为结构化行动空间,由一个LLM驱动的诊断模块进行闭环优化。系统通过AutoResearch过程自主运行:诊断模块分析失败日志、定位根因并提出配置调整,再由受保护的元分析器在防性能衰退和探索停滞的保障下应用调整。实验表明,EvolveMem在LoCoMo和MemBench基准上显著优于基线,进化后的配置能跨基准正向迁移,表明系统捕捉到了通用的检索原则。代码已开源。
针对角色扮演代理长期一致性记忆的需求,本研究提出基于搜索的记忆框架BOOKMARKS。它通过主动初始化、维护和更新与当前任务相关的“书签”来替代传统的循环摘要方法,避免重要细节丢失。每个书签被构建为故事情节特定时间点上一个问题的答案,支持概念、行为和状态三种搜索类型,并采用高效同步机制更新答案以供未来复用。相比基线方法,该框架兼具主动锚定任务细节和被动更新以减少计算开销的优势。在涵盖16个作品、85个角色的测试中,其性能显著优于现有记忆基线。
DeepRefine 是一种基于大语言模型的通用推理模型,旨在通过与知识库进行多轮交互,精炼其中存在的缺陷(如证据缺失、断言置信度低或指代模糊等问题),从而提升其在开放域、知识密集型下游任务中的适用性。该模型通过溯因诊断定位缺陷,并执行针对性操作以增量更新知识库。为在没有黄金参考的情况下优化精炼策略,研究引入了“超越草案增益”奖励,并采用强化学习进行端到端训练。大量实验表明,该方法能在多个强基线模型上带来一致的下游性能提升。
腾讯云QClaw正式上线“文件空间”功能,通过一次授权即可一站式打通用户的本地文件、腾讯文档和ima知识库,实现了深度集成与稳定的权限管控。用户可在QClaw内直接操作腾讯文档内容,勾选多份文件交由AI处理,AI能生成可协作的活化文档并支持团队协同编辑。同时,用户可直接调取ima知识库文件进行分析,AI生成的方案也能一键保存回知识库,便于后续使用。
Garry Tan系统的核心是Skillify元技能,它能将用户任何一次手动操作自动分析、封装成可复用的技能文件,实现复利效应——技能每改进一次,所有相关流程永久增强。其架构理念为“胖技能+胖代码+胖数据+瘦路由”,强调AI模型仅是引擎,真正的价值源于个人积累的海量结构化数据与专属可组合技能。该系统不仅是工具,更是AI时代个人能力的指数级放大方案,例如Book Mirror能将书籍内容深度映射至个人全部经历,远超普通RAG的检索能力。
说实话,Garry Tan 这篇长帖,是我今年看到的最重要的 AI 文章,没有之一。 大多数人看完估计只会惊叹:"哇,这个读书工具好厉害。" 但他们其实并没看懂,这不仅仅是一个工具,说是一份 AI 时代个人能力的指数级放大说明书更合适一些。...
Gemini API 的文件搜索功能现已升级为多模态版本。此次更新允许开发者上传并搜索图像、PDF、PPT 和 Word 等多种格式的文件,突破了此前仅支持文本文件的限制。该功能基于检索增强生成技术,能同时处理文本和视觉信息,从上传的文档中提取关键内容以生成更准确的回答。这一变化旨在帮助开发者更高效地构建能理解和分析复杂多模态数据的应用程序。
Garry Tan的文章指出,以Book Mirror为例的先进AI工具,其意义远超普通读书工具或RAG系统。它能将一本162页的书籍在40分钟内转化为3万字的深度个人化分析,将书中观点精准映射到用户的个人历史、工作与经历中。这种交互相当于作者与用户进行两天的一对一深度对话,其效率远超传统方式,代表了AI对个人能力进行指数级放大的新范式。
http://x.com/i/article/2052898104039657472
研究团队发布了开源肿瘤临床决策支持系统OncoAgent。该系统采用双层多智能体框架,结合LangGraph拓扑与四阶段Corrective RAG流程,检索超过70份权威临床指南。系统根据查询复杂度,将任务路由至9B参数的速度优化模型或27B参数的深度推理模型,两者均通过QLoRA在AMD MI300X硬件上使用包含26万余病例的数据集进行微调。系统强制执行严格的零受保护健康信息政策,并通过三层反射安全验证器确保安全,支持完全本地部署以保护患者数据主权。
研究提出“心智景观激活签名”概念,通过子模优化选取高层概念以覆盖被激活的上下文空间,并可借助工作记忆进行轻量迭代更新。该压缩表示能近似全局激活状态对下游处理的影响,同时保持计算可行性。将MiA-Signature集成至RAG与智能体系统中,在多项长上下文理解任务上实现了持续的性能提升。
现有信息检索评估主要关注语义相关性,忽视了检索结果语言对用户实用性的影响。为解决此问题,研究提出MLAIRE评估协议。该协议通过构建跨语言平行段落对照集合,能够同时测量跨语言语义检索准确率与查询语言偏好度,并引入语言偏好率、Lang-nDCG等指标进行四类分解。对31种检索器的评估显示,标准指标会掩盖不同检索器的行为差异:语义能力强的检索器可能返回非查询语言内容,而语言偏好强的检索器可能牺牲语义相关性。该协议为评估多语言检索系统的真实效用提供了新维度。
研究团队提出INTRA框架,使基于注意力的编码器-解码器模型能够直接从自身内部表征中检索信息,无需依赖外部检索器。该方法利用解码器的注意力查询对预编码的证据块进行评分,并将其直接复用为生成上下文,从而统一了检索与生成过程,避免了传统RAG流程中模块不匹配的问题。在问答基准测试中,INTRA在证据召回率和答案质量上均优于强工程化检索流程。结果表明,基于注意力的模型本身已具备可被激发的内在检索机制。
Gemini API 文件搜索工具近日扩展三项功能更新,旨在帮助开发者更轻松地构建高精度多模态检索增强生成系统。更新包括:多模态支持,通过Gemini Embedding 2模型实现对图像和文本的同步推理;自定义元数据过滤,允许为文件添加键值标签以结构化非结构化数据,从而提升搜索速度;精确引用功能,能够捕获并返回每条索引信息的精确来源,如页码。开发者可通过Google AI Studio的示例应用体验这些功能,与图像和文档库交互,提问并追溯答案来源。
PageIndex提出一种全新的RAG方法,摒弃了传统依赖向量数据库、嵌入模型、分块和相似度搜索的技术路线。它通过为文档构建树状索引,让LLM能够像人类阅读一样进行分层推理。该方法在FinanceBench基准测试中取得了98.7%的准确率,超越了所有传统向量RAG方案,并且完全开源。这标志着一个范式级的转变:从“检索优先”转向“推理优先”,核心思路是让LLM先理解整体文档结构再回答问题,而非仅仅优化检索速度。此举可能对过去三年构建的整个RAG基础设施产生颠覆性影响。
推理密集型检索旨在为下游推理提供证据支持,而非仅匹配主题相似性,这对需要迭代搜索与证据合成的智能体搜索系统至关重要。针对现有评估与训练的不足,研究发布了BRIGHT-Pro专家标注基准,为每个查询扩展了多维度黄金证据,并在静态与智能体搜索两种协议下评估检索器。同时,研究构建了RTriever-Synth合成语料库,通过生成互补正例和正例条件硬负例,对Qwen3-Embedding-4B进行LoRA微调得到RTriever-4B。实验表明,维度感知与智能体评估能揭示标准指标所掩盖的检索行为,而RTriever-4B相比其基础模型取得了显著提升。
安全工程师仅花费12美元注册域名并编辑维基百科词条,虚构了一场纸牌游戏的2025年世界冠军赛事。多款具备联网搜索功能的AI聊天机器人将此虚假信息当作事实传播,暴露了AI在检索增强生成(RAG)中的核心漏洞:模型无条件信任网络检索结果,无法甄别信息来源真伪。此次低成本攻击揭示了AI在信息可信度与数据溯源方面存在重大隐患,涉及检索层误导、训练语料污染及智能体被操控执行恶意操作等多重风险。
检索增强生成(RAG)方法通过筛选相关上下文提升大型语言模型性能,但传统单步检索难以应对复杂问题。现有多步检索方法通常微调小型LLMs,资源消耗大且无法利用更大模型。本研究提出Q-RAG,采用强化学习微调嵌入器模型以实现多步检索,避免了资源密集问题。该方法在开放域问答任务中提供资源高效的替代方案,并在长上下文基准测试BabiLong和RULER上取得最先进结果,支持高达1000万词元的上下文。代码已开源。
传统检索系统依赖固定的相似性接口,在智能体搜索中易成为瓶颈,难以支持精确约束、多步推理与假设细化。研究提出直接语料库交互方法,使智能体无需嵌入模型或向量索引,直接通过通用终端工具搜索原始语料。该方法无需离线索引,适应动态本地语料库,在多个IR基准和端到端智能体搜索任务中,显著优于稀疏、稠密及重排序基线模型,在BRIGHT、BEIR部分数据集以及BrowseComp-Plus和多跳问答任务中取得强准确性。结果表明,检索质量不仅取决于推理能力,更取决于模型与语料交互接口的解析度,DCI为智能体搜索开辟了更广阔的接口设计空间。
针对迭代检索增强生成在解析文本时存在的证据定位粗粒度与视觉语义丢失问题,本研究提出了“证据链”框架。该框架与检索器无关,直接利用视觉语言模型对检索到的文档截图进行推理,无需针对特定格式进行解析,并能输出精确的边界框以可视化完整推理链条。在Wiki-CoE和SlideVQA两个基准上的实验表明,经微调的Qwen3-VL-8B-Instruct模型表现稳健,在需要视觉布局理解的场景中显著优于基于文本的基线方法,为像素级可解释的iRAG提供了一个通用解决方案。代码已开源。
本文介绍了2026年构建高效团队LLM知识库必须掌握的六个核心术语。LLM知识库是让大语言模型处理原始资料并自主检索回答的系统,难点在于团队适配。持续数据摄取能自动从Slack、CRM等工作工具同步信息。来源可信度分级帮助区分官方决策与聊天观点等不同价值信息。时效性监控可主动发现信息矛盾并降低过时内容权重。自主维护实现文档随工作进展自动更新。这些技术共同对抗知识漂移,即文档与现实间缓慢产生的信息偏差,这是导致AI代理给出错误答案的主要根源。
6 LLM Knowledge Base terms you need to know in 2026: (Most teams are missing at least 3, their AI agents pay the price) ...
研究团队构建了覆盖10个临床领域、包含3600多项任务的Gymnasium兼容医疗AI训练环境。分析发现,现有多轮智能体强化学习方法易退化为冗长单轮独白,工具使用频率下降,问题源于稀疏最终奖励与连续临床轨迹的错配。为此,研究提出“轮次截断策略蒸馏”自蒸馏框架,利用梯度冻结的EMA教师模型在每轮对话提供密集的KL正则化。该方法在18项基准测试的10项中取得最佳性能,较非强化学习基线平均提升3.9个百分点,实现了更快早期收敛、可控响应长度和持续的多轮工具使用。
BlenderRAG是一个检索增强生成系统,能够从自然语言描述自动生成可执行的Blender代码。该系统基于一个包含500个经专家验证的多模态样本(文本、代码、图像)的数据集,覆盖50种物体类别。在代码生成过程中,系统通过检索语义相似的示例来引导大语言模型,从而将四大前沿模型的代码编译成功率从40.8%显著提升至70.0%,并将语义对齐度(CLIP相似度)从0.41提高到0.77。该方法无需对模型进行微调或使用专用硬件,可立即部署使用。相关数据集和代码已在GitHub开源。
针对现有树状检索增强生成方法在应对跨文档多跳查询时面临的分布适应性差、结构隔离和抽象粒度粗糙三大挑战,研究者提出了Ψ-RAG框架。该框架包含两个核心组件:一是通过“合并与坍缩”迭代过程构建、无需先验分布假设的分层抽象树索引;二是配备重组查询和智能体驱动混合检索器的多粒度检索代理。Ψ-RAG支持从词元级问答到文档级摘要的多样化任务,在跨文档多跳问答基准测试中,其平均F1分数显著优于现有先进方法。相关代码已开源。
传统RAG系统在推理前单次检索,无法满足如o1、R1等大型推理模型在生成长链思维时中途出现的知识需求。ReaLM-Retrieve提出推理感知的检索框架,能在多步推理中动态注入证据。其核心在于以推理步骤粒度检测不确定性,学习判断何时引入外部证据有效,并将单次检索开销降低3.2倍。在多个QA数据集上,该框架比标准RAG的F1绝对值提升10.1%,且检索调用次数比固定间隔的IRCoT减少47%。在2-4跳的MuSiQue任务中,仅用平均1.8次检索即可达到71.2%的F1值,表明面向推理模型的RAG需优化检索时机而不仅是检索内容。
Google正式发布Gemini Embedding 2统一嵌入模型,该模型能将文本、图像、视频、音频和文档映射到同一语义空间。开发者可通过单请求处理交织多模态输入,显著提升智能RAG、视觉搜索等内容审核任务的性能。模型支持超100种语言,并提供任务特定前缀和马特廖什卡降维等特性,为构建复杂AI智能体提供高效精准的基础。
研究团队提出EviMem系统,包含IRIS闭环框架与LaceMem分层记忆架构,通过显式诊断证据缺口来驱动精准查询优化。该系统在LoCoMo数据集上显著提升长期对话记忆的检索效果:针对时序问题的判断准确率从73.3%提升至81.6%,多跳问题准确率从65.9%提升至85.2%,同时延迟降低至原有方法的1/4.5。核心创新在于实现了从缺口检测、缺失内容诊断到针对性查询优化的完整闭环。
基于Transformer的表格检索系统将结构化表格扁平化为序列,导致即使语义不变,不同序列化格式(如CSV、HTML)也会产生显著差异的检索结果。研究将不同格式的嵌入视为共享语义的噪声视图,以其质心作为规范表示。质心平均法能有效抑制格式特异性变异,在多个检索模型的比较中优于单一格式。此外,研究引入轻量级残差瓶颈适配器,将单格式嵌入映射向质心目标,并施加协方差正则化。该适配器提升了多个稠密检索器的鲁棒性,但改进效果因模型而异,对稀疏检索提升较弱。相关代码与模型已开源。
根据Menlo Ventures数据,51%的企业AI生产部署采用RAG技术,而仅9%主要依赖微调。Actian推出的VectorAI DB是一款专为云访问受限、延迟高或风险大的边缘环境设计的向量数据库。它支持在本地、边缘或物理隔离网络中运行RAG流水线、语义搜索和实时AI智能体,核心优势包括数据保留在内部网络、原生集成LangChain/LlamaIndex、实时索引更新以及混合搜索功能。该产品已通过黑客马拉松验证,应用于海事AI、设备端治疗师等场景,现正式向公众开放。
We're excited to announce VectorAI DB, the first vector database purpose-built for high-performance, reliable AI at the ...