Google正式发布Gemini Embedding 2统一嵌入模型,该模型能将文本、图像、视频、音频和文档映射到同一语义空间。开发者可通过单请求处理交织多模态输入,显著提升智能RAG、视觉搜索等内容审核任务的性能。模型支持超100种语言,并提供任务特定前缀和马特廖什卡降维等特性,为构建复杂AI智能体提供高效精准的基础。
Google正式发布Gemini Embedding 2统一嵌入模型,该模型能将文本、图像、视频、音频和文档映射到同一语义空间。开发者可通过单请求处理交织多模态输入,显著提升智能RAG、视觉搜索等内容审核任务的性能。模型支持超100种语言,并提供任务特定前缀和马特廖什卡降维等特性,为构建复杂AI智能体提供高效精准的基础。
研究团队提出EviMem系统,包含IRIS闭环框架与LaceMem分层记忆架构,通过显式诊断证据缺口来驱动精准查询优化。该系统在LoCoMo数据集上显著提升长期对话记忆的检索效果:针对时序问题的判断准确率从73.3%提升至81.6%,多跳问题准确率从65.9%提升至85.2%,同时延迟降低至原有方法的1/4.5。核心创新在于实现了从缺口检测、缺失内容诊断到针对性查询优化的完整闭环。
基于Transformer的表格检索系统将结构化表格扁平化为序列,导致即使语义不变,不同序列化格式(如CSV、HTML)也会产生显著差异的检索结果。研究将不同格式的嵌入视为共享语义的噪声视图,以其质心作为规范表示。质心平均法能有效抑制格式特异性变异,在多个检索模型的比较中优于单一格式。此外,研究引入轻量级残差瓶颈适配器,将单格式嵌入映射向质心目标,并施加协方差正则化。该适配器提升了多个稠密检索器的鲁棒性,但改进效果因模型而异,对稀疏检索提升较弱。相关代码与模型已开源。
智能文档处理管道常因缺乏验证机制,导致提取错误无声传递至下游系统。RaV-IDP框架创新性地引入重建作为核心组件,在提取每个实体后,通过专用重建器将结果渲染回与原文档区域可比的形式,并由比较器评估重建与原始截图的保真度,生成无需标注的质量信号。若保真度低于实体类型阈值,系统触发基于GPT-4.1 Vision的结构化回退机制并重复验证循环,始终以原始文档区域为锚点,避免循环依赖。该框架还提供了每阶段评估方法,将管道组件与基准配对,相关代码已在GitHub开源供实验使用。
工业维护中,AI助手常因解释泛化、缺乏遥测基础而影响信任。为此,研究团队推出IndustryAssetEQA,该系统结合事件遥测表征与故障模式影响分析知识图谱,实现针对工业资产的神经符号具身问答。在覆盖旋转机械、涡扇发动机等四种资产类型的数据集上评估显示,相比纯大语言模型基线,其结构有效性最高提升0.51,反事实准确性最高提升0.47,解释蕴涵度提升0.64,并将专家评定的严重过度断言从28%降至2%(降幅约93%)。相关代码、数据集及知识图谱已开源。
针对大语言模型存在事实错误与幻觉的问题,本文提出了DAVinCI双重归因与验证框架。该框架首先将模型生成的声明归因于内部组件和外部来源,随后利用蕴含推理和置信度校准进行验证。在FEVER等数据集上的评估表明,DAVinCI将分类准确率、归因精确率、召回率和F1分数提升了5-20%。研究通过消融实验分析了关键组件的影响,并发布了可集成至现有LLM流程的模块化方案。该框架为构建可审计、可信赖的AI系统提供了可扩展路径。
SLIDERS框架通过结构化方法解决长文档集问答的扩展性难题。它将文档关键信息提取至关系数据库,利用SQL进行高效推理,避免了传统文本拼接法的瓶颈。其核心创新是数据协调阶段,通过来源、依据和元数据检测并修复重复、不一致或不完整的记录,确保信息全局一致性。该框架在三个现有长上下文基准测试中均超越所有基线模型,平均领先GPT-4.1达6.6分;在包含390万和3600万token的两个新基准上,相较次优模型的优势分别扩大至约19分和32分,展现出卓越的大规模文档处理能力。
HiLight 是一个证据强调框架,它将证据选择与推理过程解耦,专门用于服务参数冻结的大语言模型。该框架训练一个轻量级的“强调执行器”,在不改动原始上下文的前提下,仅围绕关键证据片段插入最少量的高亮标记,从而避免压缩或重写输入可能导致的证据丢失或扭曲。随后,冻结的“求解器”模型基于被强调的输入进行下游推理。该方法将高亮视为弱监督决策问题,仅利用求解器的任务奖励通过强化学习优化执行器,无需证据标注,也无需访问或修改求解器。在序列推荐和长上下文问答任务中,HiLight 的性能持续优于基于提示和自动提示优化的基线方法。学习到的强调策略能够零样本迁移到未见过的、或大或小的求解器模型家族,包括基于 API 的求解器,这表明执行器捕捉到了真实且可复用的证据结构,而非对单一骨干模型过拟合。
本文提出MathNet,一个大规模多语言奥林匹克数学基准,收录47国17种语言的30,676道专家命题,跨越二十年竞赛历史。该基准支持问题求解、数学感知检索及检索增强问题求解三项任务。实验显示,即使最先进的推理模型(Gemini-3.1-Pro 78.4%、GPT-5 69.3%)仍面临挑战,而嵌入模型在数学等价检索上表现不佳。研究表明,DeepSeek-V3.2-Speciale通过检索增强技术实现最高12%性能提升,创下基准最高分。
摩根士丹利基于开源 X3D RAG 基准测试显示,在 RAG AI 向量搜索场景中,AMD 3D V-Cache 处理器性能较非 X3D 型号最高提升 88%。10 万批量搜索中,Ryzen 3D V-Cache 芯片速度领先 88%;20 万规模下,Ryzen 7 9850X3D 较 9700X 提升超 50%,甚至超越 16 核的 9950X。大容量缓存显著优化 HNSW 图检索算法,使索引构建耗时在 10 万和 20 万规模下分别缩短 50% 和 39%。
研究人员提出基于极性反转的双视角数据合成策略,通过提示 LLM 生成互补指令,使相关文档与违反指令的难负样本交换相关性标签,强制检索器依据指令而非固定主题线索重新评估候选集。在 305M 参数的编码器上,该方法在 FollowIR 基准测试中性能提升 45%,超越同等或更大规模的通用嵌入模型。实验表明数据多样性与指令监督具有互补作用,前者保持通用检索质量,后者提升指令敏感度。
研究人员发布CSR-L和CS-MTEB两项基准测试以评估混合语言检索场景,后者涵盖11类任务。实验显示,语码转换使检索性能最高下降27%,其根源在于纯文本与混合文本在嵌入空间存在显著差异。即使采用词汇扩展等标准多语言技术也无法完全消除该缺陷,暴露出当前系统在处理自然混合语言查询时的结构性脆弱。
本文首次系统研究开源LLM密集检索器的鲁棒性,从泛化性与稳定性双维度,在覆盖30个数据集的4项基准上评估。发现指令微调模型虽整体优异,但针对复杂推理优化的模型存在"专业化税",泛化能力受限。稳定性测试表明,LLM检索器对拼写错误和语料库投毒攻击比仅编码器基线更鲁棒,但对同义词替换等语义扰动仍敏感。嵌入几何结构(如角度均匀性)可预测词汇稳定性,且扩大模型规模通常能提升鲁棒性。
Corpus2Skill 通过迭代聚类与分层摘要生成,将企业文档语料库离线蒸馏为树状可导航技能目录,使 LLM 智能体在 serving 时能够全局浏览语料结构、主动深入主题分支并回溯优化检索路径,实现从被动消费证据到主动导航探索的范式转变。在 WixQA 企业客服基准测试中,该系统在所有质量指标上均超越密集检索、RAPTOR 及 agentic RAG 基线。
针对现有视觉RAG系统忽略细粒度视觉语义的问题,本文提出UniDoc-RL统一强化学习框架。该方法将视觉信息获取建模为层次化顺序决策过程,通过从粗粒度文档检索到细粒度图像选择再到主动区域裁剪的渐进式策略,使大型视觉语言模型智能体联合执行检索、重排序与推理。引入密集多奖励方案为每个动作提供任务感知监督,并基于GRPO算法实现端到端训练而无需价值网络。在三个基准测试中,该方法相比现有基于RL的方法性能提升最高达17.7%。
AI Search 作为面向智能体的搜索基础组件发布,支持动态创建实例、上传文件,并基于混合检索与相关性增强技术实现跨实例搜索。用户只需完成创建搜索实例、上传文档、执行检索三步操作,即可为 Agents 快速构建高效的知识检索能力,满足智能体对信息查询与知识管理的核心需求。
研究团队发布MERRIN基准,评估搜索增强智能体在嘈杂网络环境中的多模态证据检索与推理能力。该基准涵盖视频、音频等未充分探索模态,要求智能体在无明确模态提示的查询下检索复杂且常含噪声或冲突的证据。测试显示,10个模型(包括GPT-5.4-mini、Gemini 3/3.1及Qwen3系列)平均准确率仅22.3%,最佳达40.1%。研究发现,强智能体虽表现更优,但因过度探索导致资源消耗高而准确率提升有限,且相比人类存在信源选择低效和过度依赖文本模态的问题。
研究团队提出即插即用框架ROSE,通过引入互联网检索增强生成、文本与视觉提示增强及WebSense智能调度四大模块,解决多模态大语言模型在分割训练数据外新颖实体与需实时信息新兴实体时的知识滞后问题。同步构建的NEST基准测试用于评估此类场景。实验显示,ROSE在NEST基准上较Gemini-2.0 Flash检索基线提升19.2 gIoU,显著增强模型对实时网络信息的利用能力。
研究团队推出RoMem时序知识图谱模块,采用连续相位旋转机制替代传统离散时间标签。预训练语义速度门为不同关系分配波动率分数,使"总统"等易变关系快速旋转而"出生地"等持久事实保持稳定,通过几何阴影遮蔽过时信息而非直接删除。该方法在ICEWS05-15数据集取得72.6 MRR的SOTA成绩,应用于智能体记忆时在MultiTQ时序推理任务实现2-3倍MRR提升,并在LoCoMo、DMR-MSC及FinTMMBench基准测试中展现零退化与零样本泛化能力。
本文提出PersonalAI,一种基于知识图谱的灵活外部记忆框架,由LLM自动构建和更新。该框架在AriGraph基础上引入混合图设计,支持标准边与两种超边,实现丰富的语义和时间表示。系统集成A*、WaterCircles遍历、束搜索等多种检索机制,在TriviaQA、HotpotQA及扩展版DiaASQ基准测试中验证表明:不同任务需配置不同记忆与检索策略。研究还扩展DiaASQ数据集,添加时间注释和矛盾陈述,证明系统在时间依赖管理和上下文感知推理中的鲁棒性。
了解如何在 ChatGPT 中上传 PDF、电子表格等文件,利用该功能分析数据、总结文档,并基于文件内容生成新内容。
研究团队发布 ATANT 开源评估框架,用于衡量 AI 系统跨时间保持上下文连续性的能力。框架定义了连续性的 7 项必要属性,采用无 LLM 参与的 10 检查点方法,包含 250 个故事和 1,835 个验证问题。评估显示,参考实现从遗留架构的 58% 提升至隔离模式 100%,250 故事累积模式下达 96%。该框架系统无关、模型独立,可验证 AI 在多叙事共存时避免交叉污染的能力。
结合 LlamaParse 与 Gemini 3.1 模型,可从复杂的非结构化文档中提取高质量数据。该方案采用事件驱动架构,利用 Gemini 3.1 Pro 对密集的金融表格进行智能解析,并使用 Gemini 3.1 Flash 进行高性价比的摘要生成。开发者通过此教程可构建个人财务助手,将杂乱的经纪账户对账单转化为结构清晰、易于理解的分析报告。
本文提出AgriIR,一个可配置的检索增强生成框架,旨在以低计算成本提供基于事实的领域特定答案。该框架将信息获取过程分解为声明式模块化阶段,包括查询优化、子查询规划、检索、合成与评估,无需修改架构即可适配新知识领域。参考实现面向印度农业信息获取,集成了10亿参数语言模型、自适应检索器和领域感知智能体目录。系统强制执行确定性引用,集成遥测数据以确保透明性,并包含自动化部署资产以实现可审计、可复现的运行。该设计表明,精心设计的流程能在有限资源下实现领域精准且可信的检索,体现了“农业人工智能”的理念,通过提升可访问性、可持续性和可问责性,推动检索增强生成系统的发展。
Google Research 与康奈尔大学在 PNAS 发表研究,评估六个 LLM 回答高温超导领域专家级问题的能力。测试包含 67 个关于铜氧化物超导机制的深层问题,由 12 位国际专家评分。结果显示,基于 15 篇精选综述和 1726 个质量控制来源的封闭系统(NotebookLM 及定制系统)表现最优,而开放网络访问的模型准确性不足。研究表明,在专业物理领域,基于 curated 数据库的封闭系统比开放搜索更能提供准确、均衡的学术回答。
上传科学 PDF(建议小于 10MB,最大 32MB)至 Now I Get It,即可生成通俗易懂的交互式解释网页,当前输出公开可分享,私人账户功能即将上线。
研究团队提出专为网页文档设计的 W-RAC 分块框架,将文本提取与语义分块规划解耦,以结构化 ID 寻址单元管理内容,并仅利用 LLM 执行检索感知分组决策而非文本生成。该方法在消除幻觉风险、提升系统可观测性的同时,将分块相关 LLM 成本降低一个数量级,且保持或优于传统方法的检索性能。
Qwen Studio 发布新一代多模态检索模型 Qwen3-VL-Embedding 与 Qwen3-VL-Reranker,平台集成聊天机器人、图像视频理解、图像生成、文档处理、联网搜索、工具调用及 Artifacts 等全栈多模态能力。
Grok 推出 Collections API,支持上传 PDF、Excel、代码库等文件构建知识库,提供语义、关键词及混合搜索三种检索方式,帮助开发者零基础设施构建 RAG 应用。首周文件索引与存储免费,检索定价 $2.50/千次。基准测试显示,其在金融(93.0%)、法律(73.9%)、编码(86%)场景的检索准确率均优于 Gemini Pro 3 和 GPT 5.1。
Sourcebot v4.6.0 新增 Ask Sourcebot 功能,支持用自然语言查询代码库并获取带内联引用的 Markdown 回答。用户需自备 LLM API key,实现类似 Perplexity 的自托管代码搜索体验。
Mistral AI 发布首个专为代码设计的嵌入模型 Codestral Embed。该模型在代码检索任务上性能显著超越当前领先的 Voyage Code 3、Cohere Embed v4.0 和 OpenAI 大型嵌入模型。它支持输出不同维度和精度的嵌入向量,即使在 256 维度 int8 精度下仍优于竞品。模型通过 API 以 codestral-embed-2505 名称提供,定价为每百万 token 0.15 美元,批量 API 享五折优惠。最大上下文长度为 8192 tokens,推荐使用 3000 字符(含 1000 字符重叠)分块以优化检索效果。
评估 RAG 系统需同时验证检索相关性和生成准确性。传统方法难以全面评估,因此提出了“LLM 作为评判者”的方法,通过一个“法官 LLM”依据量表对“生成器 LLM”的输出进行评分。评估框架 RAG Triad 从三个维度进行综合评估:上下文相关性(检索内容是否契合查询)、事实基础(生成内容是否基于检索内容)和答案相关性(最终回答是否切题)。Mistral 的模型适用于构建生成与评判组件。
传统RAG系统在编码时易丢失上下文,导致检索失败。新方法“上下文检索”通过“上下文嵌入”和“上下文BM25”两项子技术,在检索前为文本块添加解释性上下文,能将检索失败次数减少49%,结合重排序后降幅可达67%,显著提升了下游任务性能。对于小于20万token的小型知识库,可直接将其完整内容放入提示词,结合Claude的提示词缓存功能,能降低超过2倍的延迟和高达90%的成本。对于大型知识库,上下文检索则提供了可扩展的解决方案。
文章探讨了构建开放域问答系统的方法,指出该类系统能够回答事实性知识相关问题,可应用于聊天机器人或AI助手等场景。文中分析了闭卷和开卷两种技术路线,并提及在已有强大预训练语言模型的前提下,如何实际搭建这类系统。文章在2020年11月12日更新后,新增了使用OpenAI API(测试版)进行闭卷事实问答的具体示例。