苹果机器学习研究团队提出摊销MIPS方法,训练神经网络直接预测最大内积搜索(MIPS)的解。核心思路是将MIPS值函数建模为键集的凸支撑函数,其梯度指向最优键。据此设计两种互补模型:SupportNet(输入凸神经网络拟合支撑函数,用作聚类路由)和KeyNet(向量值网络直接回归最优键,可替换原始查询输入索引流水线)。在BEIR基准文档嵌入实验中,两种模型在FLOPs、探测次数或时钟时间等计算开销指标下均显著提升IVF匹配率。代码已开源。
苹果机器学习研究团队提出摊销MIPS方法,训练神经网络直接预测最大内积搜索(MIPS)的解。核心思路是将MIPS值函数建模为键集的凸支撑函数,其梯度指向最优键。据此设计两种互补模型:SupportNet(输入凸神经网络拟合支撑函数,用作聚类路由)和KeyNet(向量值网络直接回归最优键,可替换原始查询输入索引流水线)。在BEIR基准文档嵌入实验中,两种模型在FLOPs、探测次数或时钟时间等计算开销指标下均显著提升IVF匹配率。代码已开源。
现有视频检索方法常将检索视为预处理步骤,失败后无法优化查询,且智能体框架多假设已提供相关视频。VideoSearch-R1提出一种智能体框架,通过与视频搜索引擎多轮交互实现迭代检索与推理。其核心是软查询优化(SQR),在连续潜在空间中优化搜索查询token,而非在离散文本空间重写。SQR及推理过程使用组相对策略优化(GRPO)训练,由检索和下游任务的任务级奖励信号引导。该方法在三个视频语料库时刻检索(VCMR)数据集上达到最先进性能,且生成的token远少于显式文本级查询优化。
一篇新论文指出,当前Web假设人类浏览页面、观看广告、点击链接,但AI智能体可收集并总结内容而不回访原站,损害出版商利益并导致网站封锁。作者提议将AI智能体视为人类代理,在Web请求中添加“agent metadata”,标明身份、所代表的人类、目的、限制和支付规则。网站通过新策略文件agents.txt决定允许、限速、收费、继承用户订阅、提供代理友好内容或屏蔽。内容还需附带provenance标签,让智能体识别来源是人类、AI还是两者。缺乏新机制将导致Web更难访问、出版商更难盈利、AI内容循环降低可靠性。
现有网页智能体基准主要测深度搜索,缺乏广度枚举能力评估。Ko-WideSearch 是韩语广度搜索基准,通过自动化合成-验证流程构建。任务要求从集合父实体(如电视剧季、王朝)中完整列举成员并填充属性表,采用 Item-F1、Column-F1、Row-F1 评分。基准含 228 张表格,覆盖 190 个实体、16 个类别,设三个难度层级,通过表宽和二维复合键控制成员覆盖率。对 20 个智能体的测试显示,智能体能恢复集合但无法填充行(Item-F1 92.8,Row-F1 53.7),难度提升准确率下降,增加搜索或花费无法缩小差距;难点在找到正确值而非格式化,自由文本单元格失败率最高。
TheoremGraph 是覆盖非形式化与形式化数学的语句级依赖图。非形式化侧从 arXiv 解析 1170 万定理环境,提取 1830 万条有向依赖;形式化侧 LeanGraph 从 25 个 Lean 项目提取 388,105 声明节点和 1130 万类型化边。通过嵌入自然语言 slogan 将两类图映射到同一语义空间,LLM judge 在余弦阈值 ≥0.8 时确认 47,952 个匹配,阈值 ≥0.9 时接受率升至 87%。形式化概念检索中,name-and-signature 加图扩展的 Recall@10 达 0.775,接近 LeanSearch v2 的 0.780(无需 LM 重排序)。相关数据集、提取器、HTTP API 及 MCP 接口已开源。
KaLM-Reranker-V1 是一种快速但非延迟交互(FBNL)重排序器,采用编码器-解码器架构。编码器使用 Matryoshka 嵌入池化预编码段落,解码器建模系统指令、用户指令和查询意图,再通过交叉注意力捕获查询与段落间的相关性,实现解耦计算并保持高效。模型提供 Nano(0.27B)、Small(1B)和 Large(4B)三种激活参数尺寸。在 BEIR 上达到 SOTA,与 Qwen3-Reranker 系列持平;在 MIRACL 上未经大量多语言训练仍表现优异;在 LMEB 上,0.27B Nano 模型可与 7-12B 嵌入模型竞争。
提出检索增强搜索(RAS)方法,通过束搜索优化候选程序,每一步从慢-快程序对训练数据中检索上下文示例引导LLM。基于LLM生成的自然语言描述进行上下文检索效果优于基于源代码的检索。同时提出AEGIS方法,将训练示例分解为原子编辑以提高可解释性。在C++程序优化上,RAS比先前最先进黑盒适应策略性能提升2.06倍,AEGIS提升1.37倍且编辑量更小。对于Python程序,RAS使平均运行时间百分位提升10.27。
皮尤研究中心最新报告显示,仅16%美国成年人预期AI在未来20年帮助社会,40%预期伤害。24%每天使用聊天机器人,51%从未使用。聊天机器人首要用途是搜索信息(42%),38%上班族用于工作,10%用于情感支持,4%用于陪伴。ChatGPT使用率最高(44%),其次Gemini(24%)、Copilot(17%)、Meta AI(14%)、Grok(8%)、Claude(6%)、Character.ai(3%)。30%称聊天机器人提升生产力,28%认为帮助了解信息。60%成年人阅读AI搜索摘要,表明AI正影响信息摄入。
Together with researchers at Boston Children's Hospital and Harvard, we published a study in NEJM AI showing how o3 Deep...
Visual-Seeker 是一种视觉原生多模态深度搜索智能体,通过主动视觉推理而非将视觉视为静态输入,动态收集细粒度视觉证据以完成多跳跨模态搜索。研究人员设计了主动视觉推理数据流水线,合成了 5K 高质量多模态轨迹用于模型训练。在五个具有挑战性的多模态搜索基准上,Visual-Seeker 达到最先进性能,甚至超越部分闭源模型。代码和数据集已开源。
研究团队推出XBCP基准测试,用于评估深度研究AI智能体在证据语言与用户查询不一致时的表现。XBCP保留BrowseComp-Plus的英文问答空间,将支持文档改为跨语言(单语言证据)和多语言(12种语言均匀分布)两种设置。评估四种AI智能体使用稀疏和密集多语言检索器。结果显示,证据翻译后准确率、证据召回率和引用可靠性显著下降,且即使直接提供所有黄金证据,准确率仍然较低。这表明跨语言深度研究不仅存在检索失败,智能体在整合语言不匹配的证据时还有独立困难。
Google Research 在《JAMA Dermatology》发表两项研究,探索 AI 帮助普通人理解自身皮肤问题。一项涉及 2345 名参与者的定量研究显示,AI 辅助显著提升了用户识别皮肤疾病名称的能力,并影响了其就医或自我护理的下一步决策。另一项混合方法研究对比了用户通过 AI 工具与医生对话获取的认知。这些工作基于此前开发的 AI 鉴别诊断模型和 SCIN 数据集,旨在通过高质量信息支持皮肤健康决策。
Dr-DCI 将检索作为智能体可调用的动作来扩展本地工作空间,动态拉取相关文档到演化中的工作空间内执行直接语料交互(DCI)操作。在 Browsecomp-Plus 上达到 71.2% 准确率,优于原始 DCI 最多 8.3 个百分点,并降低工具使用次数与成本。工作空间保留式上下文重置后准确率提升至 73.3%。在 10 万到 1000 万文档的语料扩展实验中保持有效,而原始 DCI 变得不稳定。在 2000 万级 Wiki-18 QA 设置下平均得分为 63.0,超越基于检索和搜索智能体的基线。消融分析表明,排序预览和文档间 DCI 是性能关键。
FORT-Searcher 提出抗捷径训练数据合成框架 FORT,识别证据共覆盖、单线索选择性、暴露常数和先验知识绑定四种捷径风险,在实体选择、证据图构建、问题生成和对抗性精炼环节控制。实验表明,FORT 生成的数据比现有开源深度搜索数据集诱导更长的搜索路径和更少的捷径模式。仅用监督微调(SFT)训练的 FORT-Searcher 在多个深度搜索基准上达到同类开源搜索智能体的最佳整体性能。资源即将开放。
该研究质疑在基于代理的搜索(agentic search)中“grep 是否足够”这一假设,并分析代理框架(agent harnesses)如何重新定义智能体搜索的交互方式与能力边界,推动搜索范式从简单工具调用向结构化代理行为演进。
哈佛大学与 Perplexity 联合发表论文,采用匹配对会话方法对比自主 AI 智能体与搜索助手。结果显示,AI 智能体每会话可自主工作 26 分钟,而搜索助手仅能完成 33 秒的自主工作。智能体在自主性、时间效率与成本方面均实现大幅提升,并且尝试的工作范围更为广泛。
Flash-GMM 是一个基于 Triton 的融合内核,可在单次 GPU pass 中高效计算大规模高斯混合模型(GMM)。它无需在 GPU 内存中实例化完整责任矩阵,相比现有实现实现 20 倍加速,并支持在单设备上训练比之前大 100 倍以上的数据集。将 Flash-GMM 集成到 IVF 粗量化器中用于近似最近邻搜索(ANN)后,软 GMM 聚类可替代 k-means,利用 GMM 责任矩阵将边界向量分配到多个簇。该方法达到固定召回目标时所需距离计算减少 1.7 倍,或在同等计算成本下召回@10 提升 2–12。该内核已作为开源项目发布。
Harness-1 将大语言模型的记忆工作转移到外部辅助系统(harness),解决传统搜索智能体需在同一上下文窗口内处理语义决策与状态记录导致的效率低下问题。模型仅负责搜索、验证等关键语义选择,而可恢复状态(候选池、证据链接、去重记录、预算感知记忆等)由 harness 追踪。这一分离使一个 20B 参数模型实现了更好的搜索表现。在强化学习中,外部化状态避免了失败原因混淆,有助于策略学习。Harness-1 在未见 benchmark 上提升更大,表明模型学到了可复用的搜索策略而非记忆领域习惯。论文 arXiv:2606.02373。
现有深度研究智能体多基于证据累积模型线性聚合信息,缺乏处理跨模态矛盾信息的机制。为此提出的Struct-Searcher是一种基于信念修正理论的结构化智能体工作流,在推理过程中显式维护一个不断演化的多模态结构图,实现冲突感知的多模态深度信息检索。实验表明,Struct-Searcher即插即用、模型无关,在BrowseComp-VL上对五种骨干模型的平均相对准确率提升17.2%;同时在MM-BrowseComp、HLE-VL、BrowseComp-VL上分别比次优方法高3.7%、1.5%和0.7%。
DuMate-DeepResearch 基于千帆智能体工厂构建,将负责任务理解、规划与调度的 Agent Core 与可扩展工具生态解耦,使中间决策与工具调用可追溯。框架引入三种机制:基于图的动态规划策略实现研究路线图由粗到细扩展与持续修正;递归两层执行将复杂搜索子任务委托给内层 Search Agent,隔离噪声并稳定长程执行;基于准则的测试时优化动态生成质量标准,作为证据合成与自适应停止的推理支架。在 DeepResearch Bench 和 DeepResearch Bench II 上分别取得 58.03% 和 61.95% 的最高总分,并在信息召回与分析维度排名第一。
提出ECI_{sem},一种无需训练的语义残差变体,利用冻结目标编码器嵌入对密集检索候选负样本源排序。每个评分需查询、标注正例及显式候选负例。ECI_{sem}从目标一致性、语义局部性、词汇残差性和对数行列式多样性构建加权残差信息矩阵。在MS MARCO上,族内ECI_{sem}将LLM负样本(非混合)和Dense+LLM(混合源)排为最高,与DistilBERT、E5-base、Contriever在BEIR上的最强聚合迁移结果一致。消融实验表明对齐依赖目标编码器族,且在样本量、温度等扰动下稳定。
RISE 方法提出用 BM25 为智能体搜索构建一个有边界的交互空间,并在索引时处理文档以支持 shell 式导航。在 BrowseComp-Plus 上,RISE 搭配 gpt-5.4-mini 达到 78% 准确率,每查询成本约为纯 shell DCI 基线的四分之一。当语料库扩充至 100 万文档时,RISE-BM25 在 gpt-5.4-mini 上准确率提升至 81%,而 DCI 在 gpt-5.4-nano 上准确率降至 60%,且 33% 的查询因超时失败。
Harness-1是一个20B参数的检索子智能体,通过强化学习训练。其核心创新是将状态管理外部化至环境侧的框架中,该框架负责维护包括候选池、重要性标注的精选集、证据链与验证记录等工作记忆,使策略本身专注于搜索语义决策。在八个涵盖网页、金融、专利等领域的检索基准测试中,Harness-1取得了0.730的平均精选召回率,超越了次优的开源搜索子智能体11.4个点,并与规模更大的前沿模型保持竞争力。其代码已开源。
K-BrowseComp 是一个针对韩语语境的网页浏览智能体基准,包含400个问题,其中300个为人工构建验证的子集。在此子集上,GPT-5.5、DeepSeek-V4-Pro 和 GLM-5.1 等前沿大语言模型仅达到30.00%–45.67%的准确率,而韩国本土大模型得分仅为0.00%–10.33%。此外构建的100题合成对抗测试集中,最强模型得分仅为26.00%。数据集与代码已公开。
哈尔滨工业大学研究人员发现,包括 GPT-5.4 和 Kimi K2.6 在内的领先 AI 搜索代理,在已有的基准测试上并未进行太多真正的网络研究。它们主要利用网络来确认其在训练阶段已学到的知识。研究团队使用名为 LiveBrowseComp 的新基准测试得出了该结论,此测试仅涉及过去 90 天内的事件。当模型无法依赖既有记忆时,其表现显著下降,现有的性能排名也随之改变。
Critic-R 框架在推理和训练阶段显式连接推理智能体与检索模型的反馈循环。它引入批评模型评估智能体的内省推理轨迹,判断上下文是否充分支持下一步推理。框架包含两种机制:Critic-R-Zero 在推理时迭代重写查询与检索指令;Critic-Embed 利用成功与失败的细化轨迹自动监督检索模型训练,无需人工标注。在 HotpotQA、2WikiMultihopQA、MuSiQue 和 Bamboogle 上的实验表明,Critic-R 显著提升了检索质量和答案准确率。
Xetrieval是一种用于解释密集检索行为的嵌入级别的机制性框架。它首先引入轻量级推理内化器,通过单次前向传播在嵌入空间近似链式推理,以增强句子嵌入的推理信息。随后,框架将这些推理增强的嵌入分解为稀疏的、人类可解释的特征,并为每个特征赋予自然语言描述。通过聚合多个文档侧视图的稀疏特征重叠,Xetrieval能够为单个检索决策提供特征级别的解释。实验表明,该方法在不同检索器和基准上能发现连贯的可解释特征,并支持任务级的特征引导。
现实世界的信息需求需要访问结构多样的知识源,但现有检索器一次只能处理单一类型源。OmniRetrieval 框架能接收自然语言查询,识别合适知识源,并向各源的本地执行引擎发送原生查询。在涵盖文本、关系型和图结构知识源的13个数据集与309个知识库的广泛基准测试中,OmniRetrieval 的性能超越了单源基线,证明其可以作为异构知识源的通用接口,同时保留了每个源独特的结构优势。
该研究系统评估了观察遮蔽策略在不同规模(4B至284B参数)模型骨干与三种检索器上的效果。发现其准确率增益相对于模型无管理时的准确率呈非对称倒U型曲线:弱检索器下效果平缓,强检索器与中等容量模型结合时达到峰值,模型能力饱和后性能急剧下降。其机制源于检索器召回率与模型隐式过滤能力的交互。遮蔽本质上是一种用轮次换token的权衡,它移除了模型已基本忽略的观察;当新增轮次能将失败转化为成功时有益,但当移除模型本会使用的证据时则会失效。
针对大语言模型生成代码可能无意识复制训练数据并引发版权问题,研究提出了SOURCETRACKER编码器及混合溯源流水线HYBRIDSOURCETRACKER。该系统在THESTACKV2数据集子集上训练与评估,在包含改编片段的10万片段搜索空间中,对于60-token及以上的窗口,其性能稳定超越传统Winnowing算法达5.4%,并保持对数时间查询复杂度。基于LLM的评估显示,许多检索到的片段仍与预期源代码高度相似,具有实用价值。
研究揭示基于LLM的搜索智能体存在“内在知识依赖”:在BrowseComp基准测试中,智能体在无需工具时仍能回答高达44.5%的问题,超过半数的搜索查询源于模型内部假设而非检索线索,移除支撑证据时其表现甚至差于闭卷基准。这表明静态基准可能奖励的是基于记忆的验证。为此,研究引入深度搜索基准LiveBrowseComp,包含335个依赖于基准构建前90天内发布事实的人工问题。在LiveBrowseComp上,所有智能体的闭卷准确率低于2%,搜索增强得分显著下降,且先前模型排名不再可靠。
基于LLM的智能体在现有搜索基准上表现优异,但真实用户体验不佳,这源于现有基准依赖于高度明确的查询、单轮交互和固定格式评估,无法反映用户与智能体通过多轮对话协同澄清模糊意图的真实搜索行为。为此,研究提出了“VibeSearch”范式并发布了VibeSearchBench,该基准包含200个手工策划的双语任务,覆盖20个领域,分为专业与日常生活两个子集。评估通过用户模拟器和图匹配框架进行。对七个前沿模型的测试显示,所有模型在VibeSearch任务上表现均不充分(最佳F1分数为30.30),凸显了在长期上下文推理、主动意图激发等方面取得根本进展的必要性。
GrepSeek是一种优化的直接语料库交互搜索智能体。它将大型文本语料库视为环境,通过执行可执行的shell命令来查找和组合证据,以解决传统检索系统的局限性。为应对在大语料库上直接应用强化学习导致的不稳定问题,研究提出了两阶段训练流程:首先使用答案感知的“导师”和答案盲目的“规划器”构建冷启动数据集;然后通过组相对策略优化进行训练,使智能体能在与语料库的直接交互中改进搜索行为。此外,引入的语义保持分片并行执行引擎在确保结果字节一致的前提下,显著提升了检索速度。实验表明,GrepSeek在多个开放域问答基准测试中表现优异。
智能搜索通过迭代推理和外部搜索使大语言模型解决复杂问题,但模型常因缺乏自我认知而导致过度搜索,引发延迟与成本。SAAS是一种强化学习框架,旨在培养动态自我感知以精准调控搜索行为。其核心包括搜索边界建模机制、边界感知奖励模块以及分阶段优化策略,通过序贯课程设计优先优化推理而非搜索正则化。实验证明,SAAS能在保持准确率的同时显著减少不必要的搜索行为。
Meta 推出SilverTorch推荐系统架构,统一了用户生成内容的所有检索组件。该架构吞吐量比现有技术高23.7倍,计算成本效率比CPU方案高20.9倍,同时提升了准确性。
为解决大语言模型并行测试时缩放(TTS)中各分支信息隔离导致的重复探索问题,研究提出了协作并行思考(CPT)框架。该框架无需训练,可在推理时跨并行分支共享中间发现:它从各分支提取紧凑信息,维护一个去重的查询级信息池,并通过输入上下文广播信息,使后续分支能复用已有发现。在 HMMT 和 AIME 基准上的实验表明,CPT 在不同预算和模型规模下,均比强基线方法建立了更好的准确率-延迟帕累托前沿,验证了搜索时协作是实现高效并行 TTS 的有效方向。
AlphaTransit 是一个用于城市公交网络设计的搜索规划框架,旨在解决线路设计中因延迟反馈导致的路径交互欺骗性问题。该框架结合了蒙特卡洛树搜索(MCTS)与神经策略-价值网络:网络负责提出线路延伸方案并评估设计质量,搜索过程则利用这些预测进行决策,从而在构建线路时实现前瞻性。在 Bloomington TRNDP 基准测试中,AlphaTransit 在混合和全需求设置下分别达到了 54.6% 和 82.1% 的服务率。与不使用搜索的强化学习相比,服务率分别提升 9.9% 和 11.4%;与没有学习引导的 MCTS 相比,分别提升 2.5% 和 11.2%。该研究的代码与数据已开源。
SMART是一个框架,旨在解锁标准单向量嵌入模型的潜在多向量能力。它通过在推理时对标准对比训练后冻结的隐藏状态应用直接后期交互,实现即插即用的性能提升。研究表明,SMART能提升包括最先进模型在内的多模态检索性能,在MMEB-V2上进一步改善了效果。简单的轻量级后训练不仅节省时间和算力,还能在视觉文档检索任务上使单向量模型超越当前最强大的多向量模型。该项目代码和权重已在GitHub开源。
论文建立了针对遥感组合图像检索(RSCIR)的统一基准评测框架。研究在PatternCom数据集上,系统评估了六种视觉语言骨干网络支持的代表性组合图像检索方法。同时,引入了一个名为xView2-CIR、以灾害和损毁监测为中心的新数据集。结果表明,无需训练的组合方法可作为遥感图像检索强健且可扩展的基线;而以变化为中心的检索任务,因需保持场景身份不变,带来了与基于属性检索不同的挑战。