微软发布 Edge 148 稳定版,核心更新是将工作区迁移至 V2 架构,数据从 OneDrive 转移至 Edge Sync 服务,并移除了协作功能,新建工作区仅本地保存。AI 方面,上线了整合搜索、聊天与个性化内容的 Copilot 新标签页,并更新了侧边栏 Copilot Chat 容器页。此外,密码自动填充功能得到改进,新增对护照、驾照等证件类型的支持。
微软发布 Edge 148 稳定版,核心更新是将工作区迁移至 V2 架构,数据从 OneDrive 转移至 Edge Sync 服务,并移除了协作功能,新建工作区仅本地保存。AI 方面,上线了整合搜索、聊天与个性化内容的 Copilot 新标签页,并更新了侧边栏 Copilot Chat 容器页。此外,密码自动填充功能得到改进,新增对护照、驾照等证件类型的支持。
一家传媒公司因AI搜索平台结果置顶其版权剧集的盗版网盘链接而提起诉讼。平台辩称其仅为搜索服务提供者,未人为干预结果,并在收到通知后及时断开链接。法院审理认为,平台基于大语言模型的搜索引擎无法避免索引公共网页内容,现有证据无法证明其存在人为编辑或推荐行为,主观上无过错。平台已履行算法备案义务,提供顺畅投诉渠道并及时处理,尽到了法定义务。最终,法院驳回原告全部诉讼请求,二审维持原判。判决强调,平台胜诉核心在于尽到义务,若明知盗版仍刻意推荐或拖延处理,则需承担责任。
现有信息检索评估主要关注语义相关性,忽视了检索结果语言对用户实用性的影响。为解决此问题,研究提出MLAIRE评估协议。该协议通过构建跨语言平行段落对照集合,能够同时测量跨语言语义检索准确率与查询语言偏好度,并引入语言偏好率、Lang-nDCG等指标进行四类分解。对31种检索器的评估显示,标准指标会掩盖不同检索器的行为差异:语义能力强的检索器可能返回非查询语言内容,而语言偏好强的检索器可能牺牲语义相关性。该协议为评估多语言检索系统的真实效用提供了新维度。
针对自回归模型生成多代表词元效率低下的问题,DiffRetriever提出了一种基于扩散语言模型的检索方法。它通过在提示后添加K个掩码位置,并利用扩散模型的双向前向传播一次性生成所有代表词元,从而避免了顺序生成的延迟瓶颈。实验表明,在多类扩散骨干模型上,其多词元版本在领域内及跨领域评估中均显著优于单词元版本,而自回归的多词元方法则效果不佳且延迟随K线性增加。经监督微调后,基于Dream骨干的DiffRetriever在BEIR-7基准上超越了PromptReps、同骨干的编码式基线以及对比微调的RepLLaMA。研究还发现,在冻结基础模型上采用自适应预算选择策略能取得更优效果。
现有基准测试未能充分评估视觉证据在交错搜索轨迹中的作用。为此,研究团队推出InterLV-Search基准,专门评估语言与视觉证据在搜索过程中反复交错使用的智能体能力。该基准包含2,061个示例,涵盖主动视觉证据搜寻、受控离线及开放网络交错多模态搜索三个层级,并首次引入涉及多实体比较的多模态多分支样本。实验表明,当前最先进的多模态智能体在此任务上整体准确率仍低于50%,在视觉证据定位、搜索控制和多模态证据整合方面面临显著挑战。基准数据与评估代码已开源。
OpenRouter 向所有支持工具调用的模型开放自主网络搜索与页面内容抓取能力,并允许用户从多个搜索引擎和抓取引擎中自行选择。
同一事件,精选展示《OpenRouter 通过 API 引入网页搜索功能》OpenRouter 推出新功能,允许任何工具调用模型自主进行网页搜索并抓取页面内容,支持多种搜索引擎和抓取引擎供选择。
同一事件,精选展示《OpenRouter 通过 API 引入网页搜索功能》腾讯混元联合多所高校开源了OpenSearch-VL多模态训练方案,旨在通过强化学习解决前沿多模态搜索智能体的高质量训练数据瓶颈。该方案提供了从数据构建、工具集成到训练算法的完整开源框架。其核心是构建了高质量数据管道,通过维基百科路径采样与模糊实体重写等技术,产出高质量数据集,抑制检索捷径,鼓励智能体进行多跳搜索与推理。工具环境集成了文本/图像搜索、OCR及多种图像处理功能。实验结果显示,其模型将基线平均得分从47.8显著提升至61.6。
本研究提出了一种仅通过监督微调(SFT)训练前沿搜索智能体的高效方法。该方法基于三项关键数据合成改进:扩展知识图谱规模、增加工具集以及进行严格的低步数过滤。仅使用1.06万条数据训练的OpenSeeker-v2,在四个基准测试中均取得了领先性能,全面超越了采用复杂CPT+SFT+RL流程训练的同类模型。这是首个由纯学术团队仅通过SFT实现的、在同等模型规模与范式下的顶尖搜索智能体,其模型权重将开源以促进社区研究。
本文提出了CoREB,一个旨在避免数据污染、涵盖代码检索与重排序全流程的多任务基准,并发布了微调后的重排序模型CoREB-Reranker。该基准基于五个编程语言的LiveCodeBench问题构建,采用定时发布和分级相关性标注。研究在文本到代码、代码到文本和代码到代码三个任务上评估了11个嵌入模型和5个重排序器。主要发现包括:专用代码嵌入在代码到代码检索上优势显著(约2倍于通用编码器),但无单一模型全胜;接近真实开发者搜索的短关键词查询会使所有模型性能骤降;现有重排序器存在任务不对称性,而CoREB-Reranker首次在所有任务上实现了一致的性能提升。相关数据与模型已开源。
基础模型在自然语言处理中建立了统一表示,但表格数据领域仍待探索。现有方法存在根本限制:基于LLM的方法缺乏检索兼容的向量输出,而文本嵌入模型常无法捕捉表格结构和数值语义。为此,我们首先引入表格嵌入基准TabBench,以评估嵌入模型的表格理解能力;然后提出首个通用嵌入模型TabEmbed,将分类和检索任务统一到共享嵌入空间。TabEmbed通过将多样表格任务重构为语义匹配问题,利用大规模对比学习和正样本感知的困难负样本挖掘技术,捕捉细粒度结构与数值语义。实验表明,TabEmbed在TabBench上显著优于当前最先进的文本嵌入模型,为通用表格表示学习设立了新基准。相关代码和数据集已在GitHub和Hugging Face平台开源。
AI产品坟场网站收录了超过1000款已关闭的AI工具,揭示了该领域产品快速迭代与淘汰的现状。数据显示,这些失败产品的平均寿命仅为347天。该目录按关闭时间倒序排列,提供了产品名称、简介、存活时长与关闭原因,直观反映了AI创业赛道的高风险与高淘汰率。
推理密集型检索旨在为下游推理提供证据支持,而非仅匹配主题相似性,这对需要迭代搜索与证据合成的智能体搜索系统至关重要。针对现有评估与训练的不足,研究发布了BRIGHT-Pro专家标注基准,为每个查询扩展了多维度黄金证据,并在静态与智能体搜索两种协议下评估检索器。同时,研究构建了RTriever-Synth合成语料库,通过生成互补正例和正例条件硬负例,对Qwen3-Embedding-4B进行LoRA微调得到RTriever-4B。实验表明,维度感知与智能体评估能揭示标准指标所掩盖的检索行为,而RTriever-4B相比其基础模型取得了显著提升。
谷歌母公司Alphabet市值已超4.66万亿美元,正逼近当前全球市值第一的英伟达。其股价周四大涨10%,年内涨幅达140%,主要得益于财报超预期,尤其是谷歌云季度营收首次突破200亿美元,同比大增63%。与此同时,受OpenAI营收未达预期消息影响,英伟达股价两日跌超6%,市值降至约4.82万亿美元,双方差距缩小至约3.32%。若英伟达在5月20日财报发布后股价未能反弹,Alphabet有望自2016年后重登全球市值榜首。
传统检索系统依赖固定的相似性接口,在智能体搜索中易成为瓶颈,难以支持精确约束、多步推理与假设细化。研究提出直接语料库交互方法,使智能体无需嵌入模型或向量索引,直接通过通用终端工具搜索原始语料。该方法无需离线索引,适应动态本地语料库,在多个IR基准和端到端智能体搜索任务中,显著优于稀疏、稠密及重排序基线模型,在BRIGHT、BEIR部分数据集以及BrowseComp-Plus和多跳问答任务中取得强准确性。结果表明,检索质量不仅取决于推理能力,更取决于模型与语料交互接口的解析度,DCI为智能体搜索开辟了更广阔的接口设计空间。
针对现有树状检索增强生成方法在应对跨文档多跳查询时面临的分布适应性差、结构隔离和抽象粒度粗糙三大挑战,研究者提出了Ψ-RAG框架。该框架包含两个核心组件:一是通过“合并与坍缩”迭代过程构建、无需先验分布假设的分层抽象树索引;二是配备重组查询和智能体驱动混合检索器的多粒度检索代理。Ψ-RAG支持从词元级问答到文档级摘要的多样化任务,在跨文档多跳问答基准测试中,其平均F1分数显著优于现有先进方法。相关代码已开源。
Alphabet计划在2026年前向AI和云基础设施投入高达1900亿美元,并预计2027年支出将再次“显著”增长。公司CEO Pichai表示,用户对搜索中的“AI Overviews”功能反响积极,该功能提升了用户参与度,促使人们更频繁地使用搜索服务。这项投资旨在巩固其在AI驱动搜索领域的领先地位。
Opera 将 AI 技术全面融入产品,从传统浏览器转型为 AI 驱动的超级入口,并由此成为昆仑万维海外市场增长的核心引擎。
Perplexity公司宣布其AI浏览器Comet现已全面适配iPadOS。新版本原生支持iPad的多任务处理功能,允许用户同时开启多个浏览器窗口进行操作。除了传统网页浏览,该浏览器深度整合了OpenAI和Anthropic等主流AI模型,为用户提供智能搜索与交互体验。这是Comet在苹果生态内的又一次重要扩展,继今年3月登陆iPhone和此前推出Mac版之后,现已覆盖iPad平台。此外,该公司近期还在Mac平台推出了名为“Personal Computer”的智能体助手功能。
Web2BigTable是一个支持广度和深度搜索的双层多智能体框架。上层编排器将任务分解为子问题,下层工作智能体并行求解。系统通过运行-验证-反思的闭环流程,利用持久化外部记忆联合改进任务分解与执行,并实现单智能体的自我进化。工作智能体通过共享工作空间协调,减少冗余探索、调和冲突证据并适应覆盖缺口。该系统在广度搜索基准WideSearch上达到新SOTA:Avg@4成功率为38.50(是第二名的7.5倍),行F1为63.53,项F1为80.12。在深度搜索基准XBench-DeepSearch上也取得73.0的准确率。代码已开源。
谷歌正在测试名为“Ask YouTube”的对话式搜索功能。该功能将传统的视频列表结果页面,替换为融合文本摘要、完整长度视频及Shorts短视频的综合结果页。用户可通过自然语言对话进行搜索,获得更直接、整合的信息呈现,标志着视频搜索体验从关键词匹配向交互式对话转变。
豆包App上线“帮你选”功能,内嵌于导航栏。该功能以对话式交互为核心,用户通过语音或文字提出购物需求,豆包会快速梳理并列出选项的优缺点、价格对比,提供个性化建议。关键进展在于该功能已与抖音电商深度打通,构建交易闭环,用户可在豆包App内直接下单支付,无需跳转至抖音。此前,豆包已于3月开始内测“购物下单”功能。字节跳动CEO梁汝波曾表示,豆包用户规模增长较快,但与国际头部竞品仍有差距。
微软公布2026年OneDrive发展规划,聚焦AI整合与协作体验升级。用户可通过Copilot实现内容摘要、PDF审阅及Markdown在线编辑;移动端新增OCR识别PDF文本,iPad支持离线搜索和"英雄链接"权限管理。桌面端Copilot+ PC支持语义搜索,IT管理员可自定义目录根名称。此外,Windows预览版用户可同步最多100万个项目,并在文件资源管理器中使用"Ask Copilot"功能。
OpenAI广告合作伙伴StackAdapt正基于"提示词相关性"出售ChatGPT广告位。据Adweek披露的泄露文件显示,该程序化广告平台已制定详细投放策略,允许广告主根据用户输入的提示词内容匹配相关广告,将广告展示与对话查询意图直接关联。这一模式标志着ChatGPT商业化进入精准定向新阶段。
一位开发者在向ChatGPT、Claude、Perplexity和Gemini发送提示后,通过分析Nginx服务器日志追踪这些AI工具的爬虫访问行为,对比AI直接流量与传统引荐流量的差异。该实验展示了主流AI助手抓取网站内容时的真实流量特征和日志记录模式,为网站管理员识别AI爬虫流量提供了实际观察案例。
Google 正将 AI 模式深度整合至 Chrome 浏览器,即将推出的新功能可使网站内容直接在 AI 回复旁打开,无需用户点击进入原始网页。这一改变进一步削弱了传统页面直接访问的必要性,意味着用户未来或可通过 AI 交互直接获取信息,而无需访问原始网站。
Google 针对暑期出行场景发布七项智能旅行新功能,帮助用户优化行程规划、筛选高性价比方案并探索目的地。这些工具整合最新技术,提供从行前规划到实地探索的全流程支持,旨在提升旅行效率、降低出行成本,为用户带来更便捷、智能的今夏旅行体验。
Google正将AI模式深度整合至Chrome浏览器,未来网站内容将直接展示在AI回复旁边,用户无需点击链接即可浏览网页。这一功能进一步削弱了传统网页访问的必要性,意味着用户可在不离开搜索界面的情况下获取信息,标志着Google在AI搜索体验上的重大转变,可能彻底改变用户获取网络内容的方式。
OpenAI 正加速推进 ChatGPT 的广告商业化,推出全新定价模式以扩大收入。但早期广告商反馈,平台目前缺乏基础的跟踪工具和精准定位选项,导致投放效果难以评估。这一工具链的缺失为 OpenAI 的广告扩张计划带来现实阻碍。
ChatGPT 上线基于 Agentic Commerce Protocol 的全新购物功能,提供更丰富的视觉化沉浸式体验,支持商品发现、并排对比及商家集成。
Google 将 Personal Intelligence 扩展至 Search 的 AI Mode、Gemini 应用及 Chrome 中的 Gemini,覆盖更多用户。
REDSearcher是一个30B参数的深度搜索Agent,性能超越GPT-5,同时实现低成本与可扩展性。
Google 搜索 AI 模式通过 query fan-out(查询扇出)技术处理视觉搜索,将图像查询拆解为多个子问题并行分析,从而提升对视觉内容的理解能力。
Google Search 的 AI Mode 已向美国所有用户开放 Canvas 功能,新增文档起草和交互式工具构建能力,用户可直接在搜索页面完成创作。
MiniMax 最新发布的大语言模型 M2.5,通过在数十万个复杂现实环境中进行强化学习训练,在编码、智能体工具调用、搜索和办公工作等多项任务上达到 SOTA。模型推理效率高,完成 SWE-Bench Verified 评估的速度比前代 M2.1 快 37%,与 Claude Opus 4.6 相当。定价方面,以 100 tokens/秒运行时每小时成本仅 1 美元。M2.5 在超过 10 种编程语言和 20 多万个真实环境中训练,具备从系统设计到测试的全流程能力。