谷歌在AI模式中正式推出搜索智能体功能,首批上线信息智能体,可全天候自动监测博客、新闻、社交媒体及实时数据库,覆盖金融行情、商品库存、体育赛事等。用户只需输入“持续为我关注”等句式并补充条件即可设置。相比此前Gemini应用的定时任务(每日或每15分钟一次),新智能体实现即时推送。该功能目前仅面向谷歌AI Ultra订阅用户开放,月费99.99美元或199.99美元,计划今年夏季晚些时候下放至AI Pro订阅档位。
通过OpenRouter融合的一组预算模型,在100个复杂研究任务上得分超过GPT-5.5和Claude Opus 4.8。
同一事件,精选展示《OpenRouter融合预算模型性能超越GPT-5.5与Claude Opus 4.7》Visual-Seeker 是一种视觉原生多模态深度搜索智能体,通过主动视觉推理而非将视觉视为静态输入,动态收集细粒度视觉证据以完成多跳跨模态搜索。研究人员设计了主动视觉推理数据流水线,合成了 5K 高质量多模态轨迹用于模型训练。在五个具有挑战性的多模态搜索基准上,Visual-Seeker 达到最先进性能,甚至超越部分闭源模型。代码和数据集已开源。
研究团队推出XBCP基准测试,用于评估深度研究AI智能体在证据语言与用户查询不一致时的表现。XBCP保留BrowseComp-Plus的英文问答空间,将支持文档改为跨语言(单语言证据)和多语言(12种语言均匀分布)两种设置。评估四种AI智能体使用稀疏和密集多语言检索器。结果显示,证据翻译后准确率、证据召回率和引用可靠性显著下降,且即使直接提供所有黄金证据,准确率仍然较低。这表明跨语言深度研究不仅存在检索失败,智能体在整合语言不匹配的证据时还有独立困难。
Ask our developer docs. They'll show you the way The new docs agent on 🔗http://developers.openai.com helps you find ans...
Google Research 在《JAMA Dermatology》发表两项研究,探索 AI 帮助普通人理解自身皮肤问题。一项涉及 2345 名参与者的定量研究显示,AI 辅助显著提升了用户识别皮肤疾病名称的能力,并影响了其就医或自我护理的下一步决策。另一项混合方法研究对比了用户通过 AI 工具与医生对话获取的认知。这些工作基于此前开发的 AI 鉴别诊断模型和 SCIN 数据集,旨在通过高质量信息支持皮肤健康决策。
微软搜索部门负责人 Jordi Ribas 于 6 月 6 日在 X 平台宣布,推出浏览器扩展 Microsoft Bing AI Search Choice,已上架谷歌 Chrome 和微软 Edge 应用商店。用户安装启用后,可在 Bing 搜索结果中一键移除 Copilot 生成的 AI 回答。微软表示该功能为预览版,目的是让用户掌控搜索体验,并非所有用户都希望在所有场景默认使用 AI。
Berry Xia 整理优化了一份可复制的清单,包含100+海外一手AI资讯和AI大神信息源,并附链接。此前版本无法复制,现提供可直接复制操作的版本,建议收藏。
Dr-DCI 将检索作为智能体可调用的动作来扩展本地工作空间,动态拉取相关文档到演化中的工作空间内执行直接语料交互(DCI)操作。在 Browsecomp-Plus 上达到 71.2% 准确率,优于原始 DCI 最多 8.3 个百分点,并降低工具使用次数与成本。工作空间保留式上下文重置后准确率提升至 73.3%。在 10 万到 1000 万文档的语料扩展实验中保持有效,而原始 DCI 变得不稳定。在 2000 万级 Wiki-18 QA 设置下平均得分为 63.0,超越基于检索和搜索智能体的基线。消融分析表明,排序预览和文档间 DCI 是性能关键。
Deep Research in Computer is built on our Search as Code architecture. The model writes code that assembles search itsel...
DoorDash 推出名为 Ask DoorDash 的 AI 聊天机器人,用户可以用自己的话搜索应用,或通过提示词和照片直接下单,无需逐页浏览餐厅和商店来构建购物车。
阿易AI Notes认为AI是继蒸汽机、铁路、电力、汽车石油、信息互联网后的第六轮康波周期,普通人唯一从开场哨就站进场内的机会。红利不在卷模型或融资,而在自媒体。作者推特5个月做到5万粉,策略跑通后开始进军小红书、公众号、视频号。公众号已非订阅制:头部账号推荐流占30%–60%,搜一搜占30%–40%,订阅仅小部分。新号前十篇决定权重,零粉也能获百万级曝光,老号先发优势减半。康波不缺看见的人,缺一篇篇把内容垒起来的人。
http://x.com/i/article/2064536412670562304
德国法院在一起针对 Google 的诉讼中作出裁决,认为用户不需要用 AI 来搜索互联网。该判决导致 Google AI Overview 败诉,并可能对 AI 搜索行业造成严重打击。
Google更新搜索交互数据保存方式,新增“Search Services History”设置,用于保存用户搜索时使用的图片、文件、音频和视频,包括Google Lens搜索的图片、实时搜索工具Search Live的录音、语音搜索和Translate中的语音片段。这些数据将被用于“提供、改进和开发AI模型”。用户可关闭该设置并禁用“Save Media”选项以避免保存。
德国慕尼黑地方法院裁定谷歌须为AI搜索概览内容承担直接责任,对其发出临时禁令。法院认定AI概览是谷歌自身生成的内容,而非传统搜索结果列表,谷歌是直接侵权人。AI概览将原告与诈骗、订阅陷阱等不良商业行为错误关联,甚至提出了任何链接源中均未提及的指控。裁决指出,AI用自己的语言重写并评判结果,谷歌对算法及产品供应拥有控制权。
Google 为 NotebookLM 推出重大升级。该研究工具现基于 Gemini 3.5 Flash 运行,拥有自己的云计算机用于代码执行,并能通过 Google Search 自主查找来源。内部测试中,新系统在 78.2% 的情况下击败了上一版本。
德国法院裁定谷歌需为其AI Overviews(AI概览)功能生成的错误答案承担法律责任。该裁定认定,AI概览中出现的虚假信息视为谷歌自身发布的内容,公司无法通过声称“AI自动生成”来推卸责任。这一判决对AI生成内容的责任界定产生重要影响。
同一事件,精选展示《突发:Google 因模型幻觉被判负有法律责任》FORT-Searcher 提出抗捷径训练数据合成框架 FORT,识别证据共覆盖、单线索选择性、暴露常数和先验知识绑定四种捷径风险,在实体选择、证据图构建、问题生成和对抗性精炼环节控制。实验表明,FORT 生成的数据比现有开源深度搜索数据集诱导更长的搜索路径和更少的捷径模式。仅用监督微调(SFT)训练的 FORT-Searcher 在多个深度搜索基准上达到同类开源搜索智能体的最佳整体性能。资源即将开放。
该研究质疑在基于代理的搜索(agentic search)中“grep 是否足够”这一假设,并分析代理框架(agent harnesses)如何重新定义智能体搜索的交互方式与能力边界,推动搜索范式从简单工具调用向结构化代理行为演进。
After chat and code, analytics is the biggest opportunity in AI and it's still completely untapped with our current tool...
德国地方法院裁定,Google 对其 AI 概览生成的内容直接承担法律责任,不能援引搜索引擎运营商原有的有限责任保护。涉案 AI 概览错误地将两家出版商与欺诈行为关联,且相关声明未出现在任何链接来源中。该裁决可能为全球 AI 生成内容责任认定树立先例。
同一事件,精选展示《突发:Google 因模型幻觉被判负有法律责任》NotebookLM 迎来重大升级。底层模型更换为 Gemini 3.5 和 Antigravity;每个 Notebook 自带云端电脑,支持写代码和复杂分析,内置 100 多个技能;新增十几种输出格式,包括 PDF、docx、Excel、PPT、图表、图片等,生成后可二次修改;还打通了 Google 搜索,用户无需自带资料即可开工。
哈佛大学与 Perplexity 联合发表论文,采用匹配对会话方法对比自主 AI 智能体与搜索助手。结果显示,AI 智能体每会话可自主工作 26 分钟,而搜索助手仅能完成 33 秒的自主工作。智能体在自主性、时间效率与成本方面均实现大幅提升,并且尝试的工作范围更为广泛。
Google NotebookLM 迎来重大升级,在聊天中注入智能体(agentic)能力、更先进的推理逻辑以及一整套新输出格式。它可自主拆解复杂多步研究任务,逐步推理并生成结果;能主动从网络挖掘新资料,但最终答案严格基于用户批准过的来源,大幅减少幻觉。这让人机协作从“对话”升级为“搭档”。该更新已面向 Google AI Ultra 订阅用户逐步推送。
Introducing a more powerful NotebookLM 🚀 Massive upgrades deliver agentic capabilities in chat, more advanced reasoning...
Flash-GMM 是一个基于 Triton 的融合内核,可在单次 GPU pass 中高效计算大规模高斯混合模型(GMM)。它无需在 GPU 内存中实例化完整责任矩阵,相比现有实现实现 20 倍加速,并支持在单设备上训练比之前大 100 倍以上的数据集。将 Flash-GMM 集成到 IVF 粗量化器中用于近似最近邻搜索(ANN)后,软 GMM 聚类可替代 k-means,利用 GMM 责任矩阵将边界向量分配到多个簇。该方法达到固定召回目标时所需距离计算减少 1.7 倍,或在同等计算成本下召回@10 提升 2–12。该内核已作为开源项目发布。
Anthropic 通过一个新 Swift 包,让 Apple 开发者能在 Foundation Models 框架中直接调用 Claude。开发者用 Apple 框架以原生 Swift 方式,仅需三行代码即可通过引导生成返回类型化 Swift 值。当请求涉及多步推理、代码生成、联网搜索或数据分析时,Claude 可接手处理,并将流式响应传回同一视图。该支持可在 iOS 27、iPadOS 27、macOS 27、visionOS 27 和 watchOS 27 上使用,开发者需添加包并配置 Anthropic API 密钥。
关联讨论 1 条X:Claude Devs (@ClaudeDevs)In the next version of siri you can search for files across your mac
Introducing a more powerful NotebookLM 🚀 Massive upgrades deliver agentic capabilities in chat, more advanced reasoning...
在 WWDC26 上,苹果宣布 macOS 27 将全新 Siri AI 整合进“聚焦”功能。用户按住 Control 键点选图像、文件和文本即可向 Siri 提问,还能随意拖放窗口调整界面大小。Siri 能够调用 Mac 本地文件回答问题,支持同时选中多个文件并通过关键菜单发起提问。
苹果在 2026 年全球开发者大会(WWDC)上宣布升级 iOS 27 版 Home 应用,利用 AI 精简智能家居配件的通知,减少对用户的干扰。Home 应用可识别已连接摄像头的视频片段并生成描述,还能将不同摄像头的相关视频拼接在一起,用户可通过自然语言搜索视频片段。
Google 为 AI 笔记应用 NotebookLM 推送全方位更新,底层模型升级为 Gemini 3.5,可提供更准确可靠的信息。新功能允许用户直接通过提问开始研究项目,无需事先导入笔记或 YouTube 视频;NotebookLM 将借助 Google Search 自动查找相关来源,基于其“discover”功能实现。
Google Research 在 Gemini Enterprise Agent Platform 中推出一个 Agentic RAG 框架。该框架中的 Sufficient Context Agent 会持续重新搜索,直到多跳、多源查询拥有足够的 grounding 来生成回答。相比标准 RAG,该框架将事实准确性最高提升 34%。
宝玉 (@dotey) 对比各模型 Deep Research 表现:ChatGPT 的 DeepResearch 最好,Gemini 搜索能力强、表现也不错,Claude 做得很差。引用推文补充:在写代码、工程工作及需联网搜索数据并分析得出结论的任务上,Claude 的“5.5”版本远超 Opus,Opus 搜索能力几乎不可用。
@dotey 但是写代码,工程工作,以及所有需要上网搜索数据计算得出分析结论的事项,5.5 比 opus 强很多,opus基本不可用,它的搜索能力几乎等于没发用
Perplexity 的 "Search as Code" 架构放弃固定搜索 API,改为让 AI 模型在 Python 沙箱中自主编写搜索例程,自行完成过滤和去重。该方案在关键基准测试中超越 OpenAI 和 Anthropic 的模型,并将 token 成本削减高达 85%。
UIUC与Chroma联合推出Harness-1,一个20B参数的检索子智能体。它通过强化学习在一个有状态搜索框架中训练,该框架维护候选池、重要性标注集、证据图和验证记录,由策略决定搜索、筛选、验证及停止的时机。Harness-1在8个基准测试上达到0.730平均curated recall,比下一个最佳开源子智能体高出11.4个百分点,仅落后于Opus-4.6。模型权重和框架代码均已公开。
Jina AI 提供免费 Reader 服务,在网址前加上 https://r.jina.ai/ 即可让 Claude 等 AI 模型抓取并读取被限制的网页。原理是请求从 Jina 国外服务器发出,绕过 IP 限制,并将网页清洗为干净的 Markdown 文本(去除广告、导航、代码),省 token 效果好。局限性:无法绕过强力 Cloudflare 验证、登录墙/付费墙,对重度依赖 JavaScript 的现代网站效果打折。
Claude 教会了我,打不开的网站可以用 http://r.jina.ai 突破限制(