百度伐谋进入北京工业大学苗扬团队实验室,辅助解决PEM电解槽制氢故障诊断、空间站空气监测和液体表面波可视化等难题。在制氢安全中,模型准确率从92.26%提升至95.04%,探索周期从“周级”缩短至“小时级”;在空间站色谱柱优化中,72小时内生成方案,体积缩小40%、分离效率提升3倍、误差降低8.17%;海外运维场景预计节省70%–80%维修等待时间。伐谋不替科研人员“写答案”,而是围绕目标、变量和评价标准进行大规模搜索试错。
百度伐谋进入北京工业大学苗扬团队实验室,辅助解决PEM电解槽制氢故障诊断、空间站空气监测和液体表面波可视化等难题。在制氢安全中,模型准确率从92.26%提升至95.04%,探索周期从“周级”缩短至“小时级”;在空间站色谱柱优化中,72小时内生成方案,体积缩小40%、分离效率提升3倍、误差降低8.17%;海外运维场景预计节省70%–80%维修等待时间。伐谋不替科研人员“写答案”,而是围绕目标、变量和评价标准进行大规模搜索试错。
现有深度研究智能体多基于证据累积模型线性聚合信息,缺乏处理跨模态矛盾信息的机制。为此提出的Struct-Searcher是一种基于信念修正理论的结构化智能体工作流,在推理过程中显式维护一个不断演化的多模态结构图,实现冲突感知的多模态深度信息检索。实验表明,Struct-Searcher即插即用、模型无关,在BrowseComp-VL上对五种骨干模型的平均相对准确率提升17.2%;同时在MM-BrowseComp、HLE-VL、BrowseComp-VL上分别比次优方法高3.7%、1.5%和0.7%。
DuMate-DeepResearch 基于千帆智能体工厂构建,将负责任务理解、规划与调度的 Agent Core 与可扩展工具生态解耦,使中间决策与工具调用可追溯。框架引入三种机制:基于图的动态规划策略实现研究路线图由粗到细扩展与持续修正;递归两层执行将复杂搜索子任务委托给内层 Search Agent,隔离噪声并稳定长程执行;基于准则的测试时优化动态生成质量标准,作为证据合成与自适应停止的推理支架。在 DeepResearch Bench 和 DeepResearch Bench II 上分别取得 58.03% 和 61.95% 的最高总分,并在信息召回与分析维度排名第一。
提出ECI_{sem},一种无需训练的语义残差变体,利用冻结目标编码器嵌入对密集检索候选负样本源排序。每个评分需查询、标注正例及显式候选负例。ECI_{sem}从目标一致性、语义局部性、词汇残差性和对数行列式多样性构建加权残差信息矩阵。在MS MARCO上,族内ECI_{sem}将LLM负样本(非混合)和Dense+LLM(混合源)排为最高,与DistilBERT、E5-base、Contriever在BEIR上的最强聚合迁移结果一致。消融实验表明对齐依赖目标编码器族,且在样本量、温度等扰动下稳定。
RISE 方法提出用 BM25 为智能体搜索构建一个有边界的交互空间,并在索引时处理文档以支持 shell 式导航。在 BrowseComp-Plus 上,RISE 搭配 gpt-5.4-mini 达到 78% 准确率,每查询成本约为纯 shell DCI 基线的四分之一。当语料库扩充至 100 万文档时,RISE-BM25 在 gpt-5.4-mini 上准确率提升至 81%,而 DCI 在 gpt-5.4-nano 上准确率降至 60%,且 33% 的查询因超时失败。
该教程展示了面向研究级数学问题的完整NLP流水线:利用ResearchMath-14k数据集,通过TF-IDF提取领域关键词、生成句子嵌入,使用UMAP进行问题景观可视化,并结合K-Means聚类。进一步构建语义搜索引擎,训练分类器预测每个问题的开放状态,并基于相似性发现近似重复问题。
Cloudflare CEO Matthew Prince 表示,互联网上机器人流量已超过人类流量,这一转折点比他此前预测的 2027 年底提前数年。他将流量激增归因于 AI 智能体,并得出结论:网络的未来将是“pay to crawl”(付费爬取)。
Google 必须修改 AI Overviews,因其声称用户不想要“大量来源”。同时,Google 被要求在 AI 搜索中展示更清晰的链接,并允许英国出版商选择退出。
Google 首次在 Search Console 中为网站运营者提供关闭 AI Overviews 和 AI Mode 等 AI 搜索功能的开关,这两项功能已覆盖超过 35 亿月活用户。新的表现报告将展示次数单独列出。此举由英国竞争与市场管理局(CMA)推动,该机构认为网站运营者在当前局面下处于严重劣势。
亚马逊将利用视觉搜索与AI技术,在用户搜索时生成并展示匹配查询的AI产品图片。该零售商表示,此举旨在帮助引导用户找到对应商品。
英国监管机构要求谷歌提供一项工具,允许网站出版商选择退出生成式AI搜索功能。该选项将先在英国测试,随后在全球范围内推出。
谷歌母公司 Alphabet 公布投资者演示文稿显示,Gemini App 月活跃用户超 9 亿,一年内翻倍超过一倍。Gemini 已为谷歌 13 款超 10 亿用户产品提供支持,其中 5 款用户量超 30 亿(搜索、Gmail、Android、Chrome、YouTube)。谷歌搜索 AI Overviews 月活跃用户超 25 亿。自 Gemini 3 推出,核心 AI 响应成本降低 30% 以上。谷歌预计本月推出 Gemini 3.5 Pro 模型。
Google Search 和 Google Shopping 中的 AI 工具帮助用户在二手和复古购物中发现好物。
英国竞争与市场管理局(CMA)出台新行为规则,要求谷歌允许网站所有者将其内容排除在AI Overviews等AI搜索功能之外,并防止内容被用于“微调”谷歌的AI模型。CMA称这是全球首创,出版商将拥有有效工具阻止其内容用于驱动AI搜索功能,从而在谈判中占据更有利地位。
谷歌正在测试一项新功能,允许网站所有者通过Search Console中的退出开关,管理其内容是否出现在谷歌的生成式AI搜索产品(如AI Overviews、AI Mode)中。谷歌称,AI Overviews月活跃用户已超25亿,AI Mode月用户超10亿。该功能不影响网站在常规搜索中的排名。据9To5Google报道,此设置不适用于Gemini应用。
微软推出 Microsoft Web IQ,一套专为 AI 智能体设计的搜索 API。它基于必应经验全新重构,能返回高度浓缩的信息页面,以减少 Token 消耗。该 API 在 Token 效率与响应速度上领先,95% 的请求可在 165 毫秒内响应,速度约为同类产品的 2.5 倍。目前该 API 已被 Copilot 和 OpenAI 的 ChatGPT 使用。
Harness-1是一个20B参数的检索子智能体,通过强化学习训练。其核心创新是将状态管理外部化至环境侧的框架中,该框架负责维护包括候选池、重要性标注的精选集、证据链与验证记录等工作记忆,使策略本身专注于搜索语义决策。在八个涵盖网页、金融、专利等领域的检索基准测试中,Harness-1取得了0.730的平均精选召回率,超越了次优的开源搜索子智能体11.4个点,并与规模更大的前沿模型保持竞争力。其代码已开源。
OpenAI为ChatGPT推出新的职业相关功能。该功能可展示来自Indeed、Upwork和Appcast的个性化职位列表,目前仅在美国推出。用户还可以直接在ChatGPT中创建简历,并针对特定职位进行定制。
K-BrowseComp 是一个针对韩语语境的网页浏览智能体基准,包含400个问题,其中300个为人工构建验证的子集。在此子集上,GPT-5.5、DeepSeek-V4-Pro 和 GLM-5.1 等前沿大语言模型仅达到30.00%–45.67%的准确率,而韩国本土大模型得分仅为0.00%–10.33%。此外构建的100题合成对抗测试集中,最强模型得分仅为26.00%。数据集与代码已公开。
哈尔滨工业大学研究人员发现,包括 GPT-5.4 和 Kimi K2.6 在内的领先 AI 搜索代理,在已有的基准测试上并未进行太多真正的网络研究。它们主要利用网络来确认其在训练阶段已学到的知识。研究团队使用名为 LiveBrowseComp 的新基准测试得出了该结论,此测试仅涉及过去 90 天内的事件。当模型无法依赖既有记忆时,其表现显著下降,现有的性能排名也随之改变。
本教程展示如何实现 SkillNet 用例,将其作为一个实用框架,用于发现、安装、检查、评估和组织可重用的 AI 技能,以构建技能增强型 AI 智能体。
微信鸿蒙版 App 在华为应用市场推出 8.0.18.34 版本尝鲜升级,测试期为 2026/5/30 至 2026/6/29。该应用安装量已超 5000 万次。本次更新主要包括:将“歌曲制作”变更为“音乐回声”,并引入 AI 翻唱模型;聊天界面图片/视频支持横屏自动旋转;新增 AI 搜索功能(部分场景可用);以及视频号、通讯录、设置等多处界面与功能优化。
Critic-R 框架在推理和训练阶段显式连接推理智能体与检索模型的反馈循环。它引入批评模型评估智能体的内省推理轨迹,判断上下文是否充分支持下一步推理。框架包含两种机制:Critic-R-Zero 在推理时迭代重写查询与检索指令;Critic-Embed 利用成功与失败的细化轨迹自动监督检索模型训练,无需人工标注。在 HotpotQA、2WikiMultihopQA、MuSiQue 和 Bamboogle 上的实验表明,Critic-R 显著提升了检索质量和答案准确率。
一组预算模型通过OpenRouter平台进行模型融合,在包含100个复杂研究任务的评估中,得分超过了GPT-5.5与Claude Opus 4.7。
关联讨论 1 条OpenRouter:Announcements(RSS)Xetrieval是一种用于解释密集检索行为的嵌入级别的机制性框架。它首先引入轻量级推理内化器,通过单次前向传播在嵌入空间近似链式推理,以增强句子嵌入的推理信息。随后,框架将这些推理增强的嵌入分解为稀疏的、人类可解释的特征,并为每个特征赋予自然语言描述。通过聚合多个文档侧视图的稀疏特征重叠,Xetrieval能够为单个检索决策提供特征级别的解释。实验表明,该方法在不同检索器和基准上能发现连贯的可解释特征,并支持任务级的特征引导。
元宝助手正式入驻QQ浏览器,搜索栏、划词等AI入口全面升级为元宝助手,底层模型同步升级至Hy3 preview。新功能包括搜索栏唤起提问、跨标签读取多个网页与文件、拍照搜题分步解析、长网页一键转音频,以及写作、改文章、出图等。元宝助手已同步嵌入微信、腾讯会议、QQ音乐等腾讯系应用,Mac版本已更新,其他版本逐步放量。
现实世界的信息需求需要访问结构多样的知识源,但现有检索器一次只能处理单一类型源。OmniRetrieval 框架能接收自然语言查询,识别合适知识源,并向各源的本地执行引擎发送原生查询。在涵盖文本、关系型和图结构知识源的13个数据集与309个知识库的广泛基准测试中,OmniRetrieval 的性能超越了单源基线,证明其可以作为异构知识源的通用接口,同时保留了每个源独特的结构优势。
企业AI搜索初创公司Glean的年收入增长至3亿美元,即使在科技巨头进入该领域的情况下,其收入仍实现三倍增长。同时,帮助企业削减AI成本已成为其核心卖点。
该研究系统评估了观察遮蔽策略在不同规模(4B至284B参数)模型骨干与三种检索器上的效果。发现其准确率增益相对于模型无管理时的准确率呈非对称倒U型曲线:弱检索器下效果平缓,强检索器与中等容量模型结合时达到峰值,模型能力饱和后性能急剧下降。其机制源于检索器召回率与模型隐式过滤能力的交互。遮蔽本质上是一种用轮次换token的权衡,它移除了模型已基本忽略的观察;当新增轮次能将失败转化为成功时有益,但当移除模型本会使用的证据时则会失效。
CNN 在纽约法院起诉 AI 搜索引擎 Perplexity,指控其工具“逐字”复制了 CNN 的文章内容。诉讼称,Perplexity 无视 CNN 试图阻止其爬虫抓取的努力,不仅未经授权使用内容,还为用户提供本应订阅才能访问的信息。CNN 主张这些内容由人类记者采写编辑,而 Perplexity 未获许可或补偿便加以使用。
Mistral AI 发布了 Search Toolkit 的公共预览版。这是一个用于构建 AI 应用生产级搜索管道的可组合框架。该框架旨在解决团队在搭建搜索基础设施时,因数据摄取、检索和评估工具分散而耗费过多工程时间的问题。Search Toolkit 将这三者整合到单一框架与共享接口中,使团队能更专注于提升搜索质量。该工具开源,可部署在云端、本地或边缘环境,并支持企业搜索、RAG 等多种检索场景。
针对大语言模型生成代码可能无意识复制训练数据并引发版权问题,研究提出了SOURCETRACKER编码器及混合溯源流水线HYBRIDSOURCETRACKER。该系统在THESTACKV2数据集子集上训练与评估,在包含改编片段的10万片段搜索空间中,对于60-token及以上的窗口,其性能稳定超越传统Winnowing算法达5.4%,并保持对数时间查询复杂度。基于LLM的评估显示,许多检索到的片段仍与预期源代码高度相似,具有实用价值。
谷歌AI摘要(AI Overview)频繁出现基础拼写错误,如将“Google”字母数答错、拼错常见单词。谷歌称大语言模型在单词字母计数上存在难题。研究人员解释,因模型基于Transformer架构,将文本拆分为词元(token)处理而非逐字母识别,此属固有缺陷,难以彻底根治。这类错误提醒用户需核实AI生成内容的准确性。
研究揭示基于LLM的搜索智能体存在“内在知识依赖”:在BrowseComp基准测试中,智能体在无需工具时仍能回答高达44.5%的问题,超过半数的搜索查询源于模型内部假设而非检索线索,移除支撑证据时其表现甚至差于闭卷基准。这表明静态基准可能奖励的是基于记忆的验证。为此,研究引入深度搜索基准LiveBrowseComp,包含335个依赖于基准构建前90天内发布事实的人工问题。在LiveBrowseComp上,所有智能体的闭卷准确率低于2%,搜索增强得分显著下降,且先前模型排名不再可靠。
基于LLM的智能体在现有搜索基准上表现优异,但真实用户体验不佳,这源于现有基准依赖于高度明确的查询、单轮交互和固定格式评估,无法反映用户与智能体通过多轮对话协同澄清模糊意图的真实搜索行为。为此,研究提出了“VibeSearch”范式并发布了VibeSearchBench,该基准包含200个手工策划的双语任务,覆盖20个领域,分为专业与日常生活两个子集。评估通过用户模拟器和图匹配框架进行。对七个前沿模型的测试显示,所有模型在VibeSearch任务上表现均不充分(最佳F1分数为30.30),凸显了在长期上下文推理、主动意图激发等方面取得根本进展的必要性。
小米招聘Agent正式上线官网,依托Xiaomi MiMo大模型为求职者提供政策解答、职位智能推荐、招聘进展查询等服务。