首期GEO公开课于上周末直播,由姚老师主讲,吸引了飞书和视频号数千人在线参与。课后已将直播PPT、免费开源的GEOflow系统及全部提示词等干货资源在评论区开放分享。
首期GEO公开课于上周末直播,由姚老师主讲,吸引了飞书和视频号数千人在线参与。课后已将直播PPT、免费开源的GEOflow系统及全部提示词等干货资源在评论区开放分享。
用户指出,Claude在普通聊天中(特别是技术搜索)表现较懒散,但通过Claude Code编程智能体,却能精准获取所需论文图表并完成任务。相比之下,GPT 5.5和OpenAI近期模型表现得极为彻底和坚持不懈,而Codex harness(编程工具框架)对模型的改造相对更轻量。核心对比在于不同模型与不同工具框架结合后,在搜索与研究任务上的表现差异。
法国创业者Arnaud Bertrand通过分析X在GitHub公开的最新算法代码,揭示创作者触达率暴跌的核心原因。其一是2026年4月上线的自动翻译功能,使同一话题下的内容竞争者数量级激增。其二是新版算法采用两阶段排序:先基于话题语义从数十亿帖子中筛选约1,500条候选帖,再由Grok模型依据15个预测行为打分,其中粉丝量与账号历史权重被大幅削弱。5月15日更新进一步引入一次性曝光过滤、作者多样性评分等机制。结论是算法结构性偏爱带媒体、情绪化、强话题性的内容,每条内容需独立竞争,话题选择比账号积累更重要。
X平台近期算法更新导致众多用户(包括大V)帖子触达量显著下降。核心原因在于平台推出自动翻译功能,使内容竞争从单一语言圈扩大至全球范围,竞争池倍增。同时,粉丝数的流量分配作用被大幅削弱,每条帖子都需通过预测互动率单独争取读者。算法分两步工作:先从全平台约1500个候选帖中检索,再由基于Grok的模型通过预测约15种用户互动行为(如喜欢、回复、停留、屏蔽等)的概率来排序打分。最关键的逻辑是,算法打分完全基于预测的互动可能性,不考量内容质量、作者专业性或资历。因此,长文流量下滑是多重机制叠加的结果。
So I spent some time studying the new Twitter/X algorithm today since the latest version was published about a week ago ...
微信鸿蒙版 App 在华为应用市场推出 8.0.18.34 版本尝鲜升级,测试期为 2026/5/30 至 2026/6/29。该应用安装量已超 5000 万次。本次更新主要包括:将“歌曲制作”变更为“音乐回声”,并引入 AI 翻唱模型;聊天界面图片/视频支持横屏自动旋转;新增 AI 搜索功能(部分场景可用);以及视频号、通讯录、设置等多处界面与功能优化。
今晚八点,会通过WaytoAGI做第一场GEO直播分享,会把GEO的底层逻辑、方法、系统原理及理念做一轮讲解,相关的一些资料和系统如下,分享给大家: 1、GEOFlow,今晚主讲的系统和背后的GEO原理 https://github.com...
Critic-R 框架在推理和训练阶段显式连接推理智能体与检索模型的反馈循环。它引入批评模型评估智能体的内省推理轨迹,判断上下文是否充分支持下一步推理。框架包含两种机制:Critic-R-Zero 在推理时迭代重写查询与检索指令;Critic-Embed 利用成功与失败的细化轨迹自动监督检索模型训练,无需人工标注。在 HotpotQA、2WikiMultihopQA、MuSiQue 和 Bamboogle 上的实验表明,Critic-R 显著提升了检索质量和答案准确率。
一组预算模型通过OpenRouter平台进行模型融合,在包含100个复杂研究任务的评估中,得分超过了GPT-5.5与Claude Opus 4.7。
关联讨论 1 条OpenRouter:Announcements(RSS)Xetrieval是一种用于解释密集检索行为的嵌入级别的机制性框架。它首先引入轻量级推理内化器,通过单次前向传播在嵌入空间近似链式推理,以增强句子嵌入的推理信息。随后,框架将这些推理增强的嵌入分解为稀疏的、人类可解释的特征,并为每个特征赋予自然语言描述。通过聚合多个文档侧视图的稀疏特征重叠,Xetrieval能够为单个检索决策提供特征级别的解释。实验表明,该方法在不同检索器和基准上能发现连贯的可解释特征,并支持任务级的特征引导。
元宝助手正式入驻QQ浏览器,搜索栏、划词等AI入口全面升级为元宝助手,底层模型同步升级至Hy3 preview。新功能包括搜索栏唤起提问、跨标签读取多个网页与文件、拍照搜题分步解析、长网页一键转音频,以及写作、改文章、出图等。元宝助手已同步嵌入微信、腾讯会议、QQ音乐等腾讯系应用,Mac版本已更新,其他版本逐步放量。
现实世界的信息需求需要访问结构多样的知识源,但现有检索器一次只能处理单一类型源。OmniRetrieval 框架能接收自然语言查询,识别合适知识源,并向各源的本地执行引擎发送原生查询。在涵盖文本、关系型和图结构知识源的13个数据集与309个知识库的广泛基准测试中,OmniRetrieval 的性能超越了单源基线,证明其可以作为异构知识源的通用接口,同时保留了每个源独特的结构优势。
企业AI搜索初创公司Glean的年收入增长至3亿美元,即使在科技巨头进入该领域的情况下,其收入仍实现三倍增长。同时,帮助企业削减AI成本已成为其核心卖点。
该研究系统评估了观察遮蔽策略在不同规模(4B至284B参数)模型骨干与三种检索器上的效果。发现其准确率增益相对于模型无管理时的准确率呈非对称倒U型曲线:弱检索器下效果平缓,强检索器与中等容量模型结合时达到峰值,模型能力饱和后性能急剧下降。其机制源于检索器召回率与模型隐式过滤能力的交互。遮蔽本质上是一种用轮次换token的权衡,它移除了模型已基本忽略的观察;当新增轮次能将失败转化为成功时有益,但当移除模型本会使用的证据时则会失效。
CNN 在纽约法院起诉 AI 搜索引擎 Perplexity,指控其工具“逐字”复制了 CNN 的文章内容。诉讼称,Perplexity 无视 CNN 试图阻止其爬虫抓取的努力,不仅未经授权使用内容,还为用户提供本应订阅才能访问的信息。CNN 主张这些内容由人类记者采写编辑,而 Perplexity 未获许可或补偿便加以使用。
Mistral AI 发布了 Search Toolkit 的公共预览版。这是一个用于构建 AI 应用生产级搜索管道的可组合框架。该框架旨在解决团队在搭建搜索基础设施时,因数据摄取、检索和评估工具分散而耗费过多工程时间的问题。Search Toolkit 将这三者整合到单一框架与共享接口中,使团队能更专注于提升搜索质量。该工具开源,可部署在云端、本地或边缘环境,并支持企业搜索、RAG 等多种检索场景。
针对大语言模型生成代码可能无意识复制训练数据并引发版权问题,研究提出了SOURCETRACKER编码器及混合溯源流水线HYBRIDSOURCETRACKER。该系统在THESTACKV2数据集子集上训练与评估,在包含改编片段的10万片段搜索空间中,对于60-token及以上的窗口,其性能稳定超越传统Winnowing算法达5.4%,并保持对数时间查询复杂度。基于LLM的评估显示,许多检索到的片段仍与预期源代码高度相似,具有实用价值。
谷歌AI摘要(AI Overview)频繁出现基础拼写错误,如将“Google”字母数答错、拼错常见单词。谷歌称大语言模型在单词字母计数上存在难题。研究人员解释,因模型基于Transformer架构,将文本拆分为词元(token)处理而非逐字母识别,此属固有缺陷,难以彻底根治。这类错误提醒用户需核实AI生成内容的准确性。
研究揭示基于LLM的搜索智能体存在“内在知识依赖”:在BrowseComp基准测试中,智能体在无需工具时仍能回答高达44.5%的问题,超过半数的搜索查询源于模型内部假设而非检索线索,移除支撑证据时其表现甚至差于闭卷基准。这表明静态基准可能奖励的是基于记忆的验证。为此,研究引入深度搜索基准LiveBrowseComp,包含335个依赖于基准构建前90天内发布事实的人工问题。在LiveBrowseComp上,所有智能体的闭卷准确率低于2%,搜索增强得分显著下降,且先前模型排名不再可靠。
基于LLM的智能体在现有搜索基准上表现优异,但真实用户体验不佳,这源于现有基准依赖于高度明确的查询、单轮交互和固定格式评估,无法反映用户与智能体通过多轮对话协同澄清模糊意图的真实搜索行为。为此,研究提出了“VibeSearch”范式并发布了VibeSearchBench,该基准包含200个手工策划的双语任务,覆盖20个领域,分为专业与日常生活两个子集。评估通过用户模拟器和图匹配框架进行。对七个前沿模型的测试显示,所有模型在VibeSearch任务上表现均不充分(最佳F1分数为30.30),凸显了在长期上下文推理、主动意图激发等方面取得根本进展的必要性。
小米招聘Agent正式上线官网,依托Xiaomi MiMo大模型为求职者提供政策解答、职位智能推荐、招聘进展查询等服务。
GrepSeek是一种优化的直接语料库交互搜索智能体。它将大型文本语料库视为环境,通过执行可执行的shell命令来查找和组合证据,以解决传统检索系统的局限性。为应对在大语料库上直接应用强化学习导致的不稳定问题,研究提出了两阶段训练流程:首先使用答案感知的“导师”和答案盲目的“规划器”构建冷启动数据集;然后通过组相对策略优化进行训练,使智能体能在与语料库的直接交互中改进搜索行为。此外,引入的语义保持分片并行执行引擎在确保结果字节一致的前提下,显著提升了检索速度。实验表明,GrepSeek在多个开放域问答基准测试中表现优异。
智能搜索通过迭代推理和外部搜索使大语言模型解决复杂问题,但模型常因缺乏自我认知而导致过度搜索,引发延迟与成本。SAAS是一种强化学习框架,旨在培养动态自我感知以精准调控搜索行为。其核心包括搜索边界建模机制、边界感知奖励模块以及分阶段优化策略,通过序贯课程设计优先优化推理而非搜索正则化。实验证明,SAAS能在保持准确率的同时显著减少不必要的搜索行为。
Meta 推出SilverTorch推荐系统架构,统一了用户生成内容的所有检索组件。该架构吞吐量比现有技术高23.7倍,计算成本效率比CPU方案高20.9倍,同时提升了准确性。
Google I/O宣布AI生成答案现已成为搜索的核心内容,但大多数品牌几乎无法了解AI如何向客户描述他们。这改变了以往依赖10个蓝色链接的SEO策略规则。
谷歌声称用户喜爱其AI搜索模式后,搜索引擎DuckDuckGo的访问量在随后一周内增长了28%。
本文记录了与Google搜索产品副总裁Robby Stein在Google I/O的访谈,核心探讨Google Search向“AI原生”模式的重大转变。讨论话题包括AI Mode是进化还是重塑、如何将复杂问题拆解为多轮搜索、AI搜索的高运行成本、Google TPU及基础设施的优势、AI时代搜索量不减反增的原因,以及优质AI回答与出版商流量之间的张力。访谈还涉及Google决定展示哪些信息源与链接的逻辑,并围绕一个核心问题展开:如果Google直接给出答案,传统的基于链接的网页生态将走向何方?
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》为解决大语言模型并行测试时缩放(TTS)中各分支信息隔离导致的重复探索问题,研究提出了协作并行思考(CPT)框架。该框架无需训练,可在推理时跨并行分支共享中间发现:它从各分支提取紧凑信息,维护一个去重的查询级信息池,并通过输入上下文广播信息,使后续分支能复用已有发现。在 HMMT 和 AIME 基准上的实验表明,CPT 在不同预算和模型规模下,均比强基线方法建立了更好的准确率-延迟帕累托前沿,验证了搜索时协作是实现高效并行 TTS 的有效方向。
AlphaTransit 是一个用于城市公交网络设计的搜索规划框架,旨在解决线路设计中因延迟反馈导致的路径交互欺骗性问题。该框架结合了蒙特卡洛树搜索(MCTS)与神经策略-价值网络:网络负责提出线路延伸方案并评估设计质量,搜索过程则利用这些预测进行决策,从而在构建线路时实现前瞻性。在 Bloomington TRNDP 基准测试中,AlphaTransit 在混合和全需求设置下分别达到了 54.6% 和 82.1% 的服务率。与不使用搜索的强化学习相比,服务率分别提升 9.9% 和 11.4%;与没有学习引导的 MCTS 相比,分别提升 2.5% 和 11.2%。该研究的代码与数据已开源。
Google 在 I/O 2026 大会上用 AI 智能体彻底重构了其搜索服务,取消了传统的蓝色链接。此举引发强烈用户反弹,数据显示 DuckDuckGo 应用下载量因此暴涨了 30%,反映出用户正积极寻求替代方案。
文章的核心论点是 Google 凭借其分发优势,在 AI 分发竞赛中占据了有利位置。目前 Gemini 拥有 9 亿用户,这主要归功于向 Android 用户进行的默认应用替换,以及向 Google 搜索用户推送的 AI 概览。其大语言模型 token 用量在 12 个月内从 480 万亿增长至 3.2 千万亿。为支撑此规模,Google 计划今年投入 1900 亿美元用于基础设施。Google 的关键优势在于能够利用庞大的 Android 设备基础,通过其搜索和 AI 模式免费向用户推广 Gemini。这一策略的部分成本优势源于自研的 TPU 芯片,使其在推理和训练上更独立,并能基于自身盈利补贴免费 AI 服务。尽管游戏远未结束,但 Google 的开局位置非常出色。
Google 与 Alphabet CEO Sundar Pichai 在 Google I/O 后受访,回顾了公司为应对 ChatGPT 而进行的战略重组与高管调整。访谈聚焦于新的 Gemini 模型及其在产品中的整合,包括全新的智能搜索框与 Gemini Spark 智能体平台,旨在让搜索从提供结果转向启动任务。Pichai 讨论了这些变化对开放网络的持续冲击,回应了主持人此前提出的“Google Zero”概念(即来自 Google 的网站流量可能归零),并提及 Google 正利用 YouTube 视频训练模型以改变视频搜索与索引方式。最后,他对 Google DeepMind CEO Demis Hassabis 关于“处于智能奇点起步阶段”的言论表示认同,并分享了对 AGI 时间线的看法。
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》当谷歌搜索引擎功能发生转变后,TechCrunch 文章推荐了可供用户尝试的替代性搜索引擎选项。