现代AI需要三类记忆系统:存储持久知识的参数记忆、获取新鲜事实的检索记忆,以及记录目标与经验的智能体记忆。单一记忆模式存在局限,核心瓶颈在于记忆控制机制——如何协调检索、保留与更新。外部记忆为AI提供了经验索引,使其能从静态预测器转变为能长期运作、具备个性化与时序推理能力的系统。当前挑战包括长上下文成本高、检索干扰生成、记忆编辑破坏关联知识,以及多模态数据的扩展难题。未来方向在于协调永久存储、检索与经验记忆三者关系,而非构建单一巨型记忆。
最新研究发现,企业为提升精确性而微调RAG嵌入模型,可能导致检索质量下降高达40%。其核心矛盾在于,单个密集嵌入向量被同时要求承担广泛主题召回和精确语义判别的双重任务。当强制模型区分细微结构差异(如否定、语序颠倒)时,会损害其跨领域聚合相关材料的能力。解决方案是采用两阶段检索:先用嵌入模型快速召回,再通过能感知结构的词元级比对来验证候选结果。这揭示了“几乎相同的句子”与“相同含义”本质不同,在合同、合规等高精度领域混淆二者将导致系统关键失效。
NotebookLM最新更新解决了资料过多导致混乱的核心问题。当用户添加超过5个来源后,AI会自动按主题对所有文档进行智能分组并命名,例如将园艺资料分为堆肥、种植日历等类别。文档可跨组归属,用户也能手动调整。此次更新的关键在于AI仅在资料量达到需要整理的阈值(5个以上)时才自动介入,既避免了过度干预,又有效帮助用户从繁琐查找中解放出来,更专注于思考与学习。
Mo sources mo problems? Not anymore: Rolling out now, NotebookLM can auto-label & categorize sources (when you have 5+),...
智能文档处理管道常因缺乏验证机制,导致提取错误无声传递至下游系统。RaV-IDP框架创新性地引入重建作为核心组件,在提取每个实体后,通过专用重建器将结果渲染回与原文档区域可比的形式,并由比较器评估重建与原始截图的保真度,生成无需标注的质量信号。若保真度低于实体类型阈值,系统触发基于GPT-4.1 Vision的结构化回退机制并重复验证循环,始终以原始文档区域为锚点,避免循环依赖。该框架还提供了每阶段评估方法,将管道组件与基准配对,相关代码已在GitHub开源供实验使用。
工业维护中,AI助手常因解释泛化、缺乏遥测基础而影响信任。为此,研究团队推出IndustryAssetEQA,该系统结合事件遥测表征与故障模式影响分析知识图谱,实现针对工业资产的神经符号具身问答。在覆盖旋转机械、涡扇发动机等四种资产类型的数据集上评估显示,相比纯大语言模型基线,其结构有效性最高提升0.51,反事实准确性最高提升0.47,解释蕴涵度提升0.64,并将专家评定的严重过度断言从28%降至2%(降幅约93%)。相关代码、数据集及知识图谱已开源。
针对大语言模型存在事实错误与幻觉的问题,本文提出了DAVinCI双重归因与验证框架。该框架首先将模型生成的声明归因于内部组件和外部来源,随后利用蕴含推理和置信度校准进行验证。在FEVER等数据集上的评估表明,DAVinCI将分类准确率、归因精确率、召回率和F1分数提升了5-20%。研究通过消融实验分析了关键组件的影响,并发布了可集成至现有LLM流程的模块化方案。该框架为构建可审计、可信赖的AI系统提供了可扩展路径。
SLIDERS框架通过结构化方法解决长文档集问答的扩展性难题。它将文档关键信息提取至关系数据库,利用SQL进行高效推理,避免了传统文本拼接法的瓶颈。其核心创新是数据协调阶段,通过来源、依据和元数据检测并修复重复、不一致或不完整的记录,确保信息全局一致性。该框架在三个现有长上下文基准测试中均超越所有基线模型,平均领先GPT-4.1达6.6分;在包含390万和3600万token的两个新基准上,相较次优模型的优势分别扩大至约19分和32分,展现出卓越的大规模文档处理能力。
HiLight 是一个证据强调框架,它将证据选择与推理过程解耦,专门用于服务参数冻结的大语言模型。该框架训练一个轻量级的“强调执行器”,在不改动原始上下文的前提下,仅围绕关键证据片段插入最少量的高亮标记,从而避免压缩或重写输入可能导致的证据丢失或扭曲。随后,冻结的“求解器”模型基于被强调的输入进行下游推理。该方法将高亮视为弱监督决策问题,仅利用求解器的任务奖励通过强化学习优化执行器,无需证据标注,也无需访问或修改求解器。在序列推荐和长上下文问答任务中,HiLight 的性能持续优于基于提示和自动提示优化的基线方法。学习到的强调策略能够零样本迁移到未见过的、或大或小的求解器模型家族,包括基于 API 的求解器,这表明执行器捕捉到了真实且可复用的证据结构,而非对单一骨干模型过拟合。
本文提出MathNet,一个大规模多语言奥林匹克数学基准,收录47国17种语言的30,676道专家命题,跨越二十年竞赛历史。该基准支持问题求解、数学感知检索及检索增强问题求解三项任务。实验显示,即使最先进的推理模型(Gemini-3.1-Pro 78.4%、GPT-5 69.3%)仍面临挑战,而嵌入模型在数学等价检索上表现不佳。研究表明,DeepSeek-V3.2-Speciale通过检索增强技术实现最高12%性能提升,创下基准最高分。
摩根士丹利基于开源 X3D RAG 基准测试显示,在 RAG AI 向量搜索场景中,AMD 3D V-Cache 处理器性能较非 X3D 型号最高提升 88%。10 万批量搜索中,Ryzen 3D V-Cache 芯片速度领先 88%;20 万规模下,Ryzen 7 9850X3D 较 9700X 提升超 50%,甚至超越 16 核的 9950X。大容量缓存显著优化 HNSW 图检索算法,使索引构建耗时在 10 万和 20 万规模下分别缩短 50% 和 39%。
研究人员提出基于极性反转的双视角数据合成策略,通过提示 LLM 生成互补指令,使相关文档与违反指令的难负样本交换相关性标签,强制检索器依据指令而非固定主题线索重新评估候选集。在 305M 参数的编码器上,该方法在 FollowIR 基准测试中性能提升 45%,超越同等或更大规模的通用嵌入模型。实验表明数据多样性与指令监督具有互补作用,前者保持通用检索质量,后者提升指令敏感度。
研究人员发布CSR-L和CS-MTEB两项基准测试以评估混合语言检索场景,后者涵盖11类任务。实验显示,语码转换使检索性能最高下降27%,其根源在于纯文本与混合文本在嵌入空间存在显著差异。即使采用词汇扩展等标准多语言技术也无法完全消除该缺陷,暴露出当前系统在处理自然混合语言查询时的结构性脆弱。
本文首次系统研究开源LLM密集检索器的鲁棒性,从泛化性与稳定性双维度,在覆盖30个数据集的4项基准上评估。发现指令微调模型虽整体优异,但针对复杂推理优化的模型存在"专业化税",泛化能力受限。稳定性测试表明,LLM检索器对拼写错误和语料库投毒攻击比仅编码器基线更鲁棒,但对同义词替换等语义扰动仍敏感。嵌入几何结构(如角度均匀性)可预测词汇稳定性,且扩大模型规模通常能提升鲁棒性。
Corpus2Skill 通过迭代聚类与分层摘要生成,将企业文档语料库离线蒸馏为树状可导航技能目录,使 LLM 智能体在 serving 时能够全局浏览语料结构、主动深入主题分支并回溯优化检索路径,实现从被动消费证据到主动导航探索的范式转变。在 WixQA 企业客服基准测试中,该系统在所有质量指标上均超越密集检索、RAPTOR 及 agentic RAG 基线。
针对现有视觉RAG系统忽略细粒度视觉语义的问题,本文提出UniDoc-RL统一强化学习框架。该方法将视觉信息获取建模为层次化顺序决策过程,通过从粗粒度文档检索到细粒度图像选择再到主动区域裁剪的渐进式策略,使大型视觉语言模型智能体联合执行检索、重排序与推理。引入密集多奖励方案为每个动作提供任务感知监督,并基于GRPO算法实现端到端训练而无需价值网络。在三个基准测试中,该方法相比现有基于RL的方法性能提升最高达17.7%。
Ready to make the most of notebooks in Gemini? Join @GoogleDeepMind Product Manager, Rebecca Zapfel, for a live demo on ...
AI Search 作为面向智能体的搜索基础组件发布,支持动态创建实例、上传文件,并基于混合检索与相关性增强技术实现跨实例搜索。用户只需完成创建搜索实例、上传文档、执行检索三步操作,即可为 Agents 快速构建高效的知识检索能力,满足智能体对信息查询与知识管理的核心需求。
研究团队发布MERRIN基准,评估搜索增强智能体在嘈杂网络环境中的多模态证据检索与推理能力。该基准涵盖视频、音频等未充分探索模态,要求智能体在无明确模态提示的查询下检索复杂且常含噪声或冲突的证据。测试显示,10个模型(包括GPT-5.4-mini、Gemini 3/3.1及Qwen3系列)平均准确率仅22.3%,最佳达40.1%。研究发现,强智能体虽表现更优,但因过度探索导致资源消耗高而准确率提升有限,且相比人类存在信源选择低效和过度依赖文本模态的问题。
研究团队提出即插即用框架ROSE,通过引入互联网检索增强生成、文本与视觉提示增强及WebSense智能调度四大模块,解决多模态大语言模型在分割训练数据外新颖实体与需实时信息新兴实体时的知识滞后问题。同步构建的NEST基准测试用于评估此类场景。实验显示,ROSE在NEST基准上较Gemini-2.0 Flash检索基线提升19.2 gIoU,显著增强模型对实时网络信息的利用能力。
BlockNote是基于React的开源富文本编辑器,采用Notion风格Block模式,基于ProseMirror和Tiptap构建。通过高层封装显著降低集成门槛,几行代码即可部署完整UI。核心亮点是原生AI支持,可接入OpenAI等模型实现写作辅助。协议分层需注意:核心功能采用MPL-2.0允许商业自由使用,但AI集成等xl-系列高级包基于GPL-3.0,闭源项目需购买商业许可。适合追求快速落地的CMS、知识库等场景。
Google发布2025美国经济影响报告,揭示其通过数字生态助力小企业发展的成效。数据显示,Google已连接1950万家企业与客户,并为超35万名企业主提供数字技能培训。报告同时指出,Gemini、NotebookLM等AI工具正被广泛应用于客户报告生成、内部知识库构建等场景,帮助小企业提升运营效率。目前,Google的数字化支持网络已覆盖全美各州。
研究团队推出RoMem时序知识图谱模块,采用连续相位旋转机制替代传统离散时间标签。预训练语义速度门为不同关系分配波动率分数,使"总统"等易变关系快速旋转而"出生地"等持久事实保持稳定,通过几何阴影遮蔽过时信息而非直接删除。该方法在ICEWS05-15数据集取得72.6 MRR的SOTA成绩,应用于智能体记忆时在MultiTQ时序推理任务实现2-3倍MRR提升,并在LoCoMo、DMR-MSC及FinTMMBench基准测试中展现零退化与零样本泛化能力。
本文提出PersonalAI,一种基于知识图谱的灵活外部记忆框架,由LLM自动构建和更新。该框架在AriGraph基础上引入混合图设计,支持标准边与两种超边,实现丰富的语义和时间表示。系统集成A*、WaterCircles遍历、束搜索等多种检索机制,在TriviaQA、HotpotQA及扩展版DiaASQ基准测试中验证表明:不同任务需配置不同记忆与检索策略。研究还扩展DiaASQ数据集,添加时间注释和矛盾陈述,证明系统在时间依赖管理和上下文感知推理中的鲁棒性。
了解如何在 ChatGPT 中上传 PDF、电子表格等文件,利用该功能分析数据、总结文档,并基于文件内容生成新内容。
研究团队发布 ATANT 开源评估框架,用于衡量 AI 系统跨时间保持上下文连续性的能力。框架定义了连续性的 7 项必要属性,采用无 LLM 参与的 10 检查点方法,包含 250 个故事和 1,835 个验证问题。评估显示,参考实现从遗留架构的 58% 提升至隔离模式 100%,250 故事累积模式下达 96%。该框架系统无关、模型独立,可验证 AI 在多叙事共存时避免交叉污染的能力。
GLM-5.1在vector-db-bench向量数据库基准测试中登顶第一,实现从国产SOTA到全球SOTA的关键跨越。测试数据显示其性能已超越国际主流模型,展现强劲竞争力。相比之下,GPT-5.4-Pro(xhigh)单次测试成本高达150美元,价格劣势显著。作者将发布详细评测视频进一步解析GLM-5.1的技术表现与性价比优势。
结合 LlamaParse 与 Gemini 3.1 模型,可从复杂的非结构化文档中提取高质量数据。该方案采用事件驱动架构,利用 Gemini 3.1 Pro 对密集的金融表格进行智能解析,并使用 Gemini 3.1 Flash 进行高性价比的摘要生成。开发者通过此教程可构建个人财务助手,将杂乱的经纪账户对账单转化为结构清晰、易于理解的分析报告。
本文提出AgriIR,一个可配置的检索增强生成框架,旨在以低计算成本提供基于事实的领域特定答案。该框架将信息获取过程分解为声明式模块化阶段,包括查询优化、子查询规划、检索、合成与评估,无需修改架构即可适配新知识领域。参考实现面向印度农业信息获取,集成了10亿参数语言模型、自适应检索器和领域感知智能体目录。系统强制执行确定性引用,集成遥测数据以确保透明性,并包含自动化部署资产以实现可审计、可复现的运行。该设计表明,精心设计的流程能在有限资源下实现领域精准且可信的检索,体现了“农业人工智能”的理念,通过提升可访问性、可持续性和可问责性,推动检索增强生成系统的发展。
Google Research 与康奈尔大学在 PNAS 发表研究,评估六个 LLM 回答高温超导领域专家级问题的能力。测试包含 67 个关于铜氧化物超导机制的深层问题,由 12 位国际专家评分。结果显示,基于 15 篇精选综述和 1726 个质量控制来源的封闭系统(NotebookLM 及定制系统)表现最优,而开放网络访问的模型准确性不足。研究表明,在专业物理领域,基于 curated 数据库的封闭系统比开放搜索更能提供准确、均衡的学术回答。
上传科学 PDF(建议小于 10MB,最大 32MB)至 Now I Get It,即可生成通俗易懂的交互式解释网页,当前输出公开可分享,私人账户功能即将上线。