7月3日

01:08

Apple Machine Learning Research（RSS）

苹果机器学习研究团队提出摊销MIPS方法，训练神经网络直接预测最大内积搜索（MIPS）的解。核心思路是将MIPS值函数建模为键集的凸支撑函数，其梯度指向最优键。据此设计两种互补模型：SupportNet（输入凸神经网络拟合支撑函数，用作聚类路由）和KeyNet（向量值网络直接回归最优键，可替换原始查询输入索引流水线）。在BEIR基准文档嵌入实验中，两种模型在FLOPs、探测次数或时钟时间等计算开销指标下均显著提升IVF匹配率。代码已开源。

搜索论文/研究

7月2日

15:04

IT之家（RSS）

微软通报假冒 Perplexity 第三方 Chrome 扩展，可劫持和监控用户搜索流量

微软安全研究团队于 6 月 30 日通报，名为 Search for perplexity ai 的 Chrome 扩展冒用 Perplexity AI 品牌，监控用户搜索记录。该扩展已从 Chrome Web Store 移除，已安装用户需手动卸载。合法域名为 perplexity.ai，假冒扩展将搜索流量跳转到 perplexity-ai.online。其申请 chrome_settings_overrides 权限设为默认搜索引擎，并申请 declarativeNetRequest 权限将请求转发至攻击者服务器。用户可进入 chrome://extensions/ 核对扩展 ID flkebkiofojicogddingbdmcmkpbplcd 并删除。

安全/对齐搜索

09:28

HuggingFace Daily Papers（社区热门论文）

VideoSearch-R1：通过软查询优化实现迭代视频检索与推理

现有视频检索方法常将检索视为预处理步骤，失败后无法优化查询，且智能体框架多假设已提供相关视频。VideoSearch-R1提出一种智能体框架，通过与视频搜索引擎多轮交互实现迭代检索与推理。其核心是软查询优化（SQR），在连续潜在空间中优化搜索查询token，而非在离散文本空间重写。SQR及推理过程使用组相对策略优化（GRPO）训练，由检索和下游任务的任务级奖励信号引导。该方法在三个视频语料库时刻检索（VCMR）数据集上达到最先进性能，且生成的token远少于显式文本级查询优化。

多模态搜索论文/研究

09:03

IT之家（RSS）

微软 Teams 将于 2026 年 8 月推出 AI 会议助手 Facilitator

微软计划 2026 年 8 月为 Teams 推出 Facilitator 会议协调助手。该 AI 功能在会议中实时分析对话，识别提问、未解答问题或不确定表达，并在会议聊天中给出相关答案。默认禁用且不直接发言，管理员可控制显示范围，用户可自行启用。触发频率通常低于每场 1 次。仅支持标准 Teams 会议，不支持通话、网络研讨会或 Town Hall。系统会实时处理对话，必要时执行网络搜索。功能将于 8 月上旬向 Targeted Release 用户推送，8 月下旬全面上线。

Microsoft 产品更新搜索

02:02

TechCrunch：AI（RSS）

同事件精选72

Cloudflare新政策：默认屏蔽混合爬虫，推动AI公司付费

Cloudflare宣布，自2026年9月15日起，其默认设置将屏蔽同时用于搜索、AI智能体及训练的“混合用途”爬虫访问托管广告的页面，除非站点所有者手动调整。此举旨在保护出版商内容不被无偿使用。同时将原有的“Pay Per Crawl”模式升级为“Pay Per Use”，允许出版商在内容创造价值时向AI公司收费，初期合作方为Ceramic.ai和You.com。Cloudflare数据显示，AI爬虫超过50%的抓取流量浪费在重复获取未变更页面上。新政策适用于新客户、现有客户的新站点及所有现有免费客户。

搜索数据/训练行业动态

同一事件，精选展示《Cloudflare 推出全新AI流量管理选项：区分搜索、智能体与训练爬虫，保护广告页面》

推荐理由：Cloudflare用基础设施商的话语权重新划定了AI内容付费线，默认屏蔽混合爬虫这一刀切下去，从Google到创业公司都躲不开，出版商到底该分多少钱的讨论终于有了一个落地的支点。

7月1日

22:20

Cloudflare Blog

精选58

Cloudflare 推出全新AI流量管理选项：区分搜索、智能体与训练爬虫，保护广告页面

Cloudflare 为所有网站所有者提供更精细的AI流量管控选项，取代一刀切的屏蔽方式。用户可轻松区分并管理搜索爬虫、AI智能体爬虫和训练爬虫，同时新增保护广告变现页面的能力。

智能体产品更新搜索

推荐理由：Cloudflare 把 AI 流量管理拆成了搜索、Agent 和训练三类，对依赖广告收入的站长是个实用功能，早期控制 bot 访问可能影响 SEO，值得测试。

22:20

Cloudflare Blog

Cloudflare 推出两项新举措，让 AI 搜索更智能

Cloudflare 宣布推出两项新举措，以应对 AI 搜索重构网络生态带来的创作困境。在智能体时代，创作者既需要保持可发现性，又要确保作品获得合理报酬，这两项举措旨在帮助平衡二者的关系。具体细节尚未公布。

智能体产品更新搜索

22:20

Cloudflare Blog

内容独立日一周年：构建智能体互联网的商业模型

内容独立日宣布一年后，一个付费内容的动态市场已正式形成。自主AI智能体的兴起正在颠覆传统搜索推荐模式，构建可持续的网络经济需要一套全新基础设施来支撑。

智能体搜索现象/趋势

6月30日

23:28

TechCrunch：AI（RSS）

X推出托管MCP服务器，简化AI工具接入平台

X本周一推出托管MCP服务器，允许Claude、Cursor、Grok Build等MCP兼容AI助手通过用户自己的账户权限直接连接X API。MCP是开放标准，用于AI模型连接外部工具。此前开发者需自建托管MCP服务器，现在由X托管，简化集成。该服务器不新增API能力，仅使已有功能更易被AI调用。X借此定位为实时数据检索网络。X还更新了API v2以应对AI生成垃圾内容，并提高发帖价格至$0.015、发链接至$0.20。

MCP/工具产品更新搜索

19:02

IT之家（RSS）

谷歌前工程负责人用Claude Code开发维基百科搜索引擎Zettair，未手动写一行代码

谷歌前工程负责人休·威廉姆斯借助Anthropic的编程助手Claude Code，开发出可正常运行的搜索引擎Zettair，为150万个维基百科条目建立索引。该引擎支持搜索自动补全、关键词摘要片段、相关搜索推荐、热门话题榜单以及AI生成的内容摘要。威廉姆斯未手动编写一行代码，但底层检索框架源自其21世纪初参与研发的信息检索系统。他认为，Claude Code只有在深厚专业技术功底的配合下才能发挥最佳效果，经验丰富的工程师永远是最出色的“指导者”。

Anthropic 大佬观点搜索编码

6月29日

17:17

Artificial Intelligence News（RSS）

自然语言处理正在改变专业社交网络

自然语言处理技术正重塑专业社交网络的沟通方式，提升个性化与关联性。核心功能包括消息意图检测、语气风格适配、长篇资料摘要及多语言支持。语义匹配取代关键词匹配，基于共同目标与项目推荐更精准的连接。但AI生成消息可能引发隐私担忧，模型幻觉和语言偏见威胁信任。未来方向包括设备端小型语言模型、隐私保护推理及更严格评估指标，以在透明安全前提下维护真实人际关系。

搜索现象/趋势

12:34

Hacker News 热门（buzzing.cc 中文翻译）

我们需要不涉及 AI 的科技新闻来源

Hacker News 用户发帖呼吁科技新闻平台应提供排除 AI 内容的筛选功能或替代来源，认为 Techmeme 等站点已被 AI 新闻淹没。评论中有人支持这一需求，认为应保留非 AI 科技讨论空间；也有人指出 AI 技术本身具有颠覆性价值，应区分商业炒作与真正的工具创新，并观察到 AI 帮助无编程经验者开发出实用应用。另有资深程序员表示期待接手清理“vibe code”的咨询业务。

搜索现象/趋势

6月28日

10:00

IT之家（RSS）

Naver 上线 AI 对话搜索服务 AI Tab，整合电商与本地生活功能挑战谷歌

Naver 于 6 月 26 日正式上线 AI 对话搜索服务“AI Tab”，定位为 AI 智能体搜索，旨在引导用户完成购买与预约。该服务整合 Naver 自家电商、地图、Cafe 社区、博客和本地生活服务，挑战谷歌 AI Mode。AI Tab 在回答深度和推理能力上不及 ChatGPT/Gemini，但在韩国本地餐厅推荐、商品发现及信息整理方面体验优于传统搜索。Naver 计划后续推出个性化房地产推荐和健康智能体服务。

智能体产品更新搜索

6月27日

11:59

IT之家（RSS）

谷歌 Gemini 助手新功能：直接帮用户安装 Play 商店内的应用

谷歌今年 5 月宣布将 Play 商店集成至 Gemini 助手，现已逐步推送。用户可在 Gemini 聊天窗口中直接搜索、安装应用或进行内购，无需离开 Gemini。例如，询问“帮我找一款可以规划每周吃什么的 App”，Gemini 会搜索并跳转至 Play 商店详情页。该功能需年满 18 周岁，仅支持个人账号，且 Android 设备需安装 Play 商店。

智能体 Google 产品更新搜索

10:59

IT之家（RSS）

苹果 iOS 27 Beta 2 固件曝光：百度视觉搜索组件现身

iOS 27 Beta 2 固件代码显示新增 SearchPartnerInferenceProvider 组件，其本地化字符串明确提及“Baidu Visual Search”。该组件为第三方视觉搜索及 AI 服务商的基础设施，目前唯一指名的合作方为百度，未来可能按地区提供不同合作伙伴。本次更新还新增 SystemVoiceAssistant 应用，将 Polaris 音频框架独立为守护进程 polarisd，并新增 bluetoothaudiod 进程。固件包含超 4200 个 dylibs 更新、732 个 Mach-O 可执行文件更新及近 300 个 Kernel Extension 更新。

多模态搜索行业动态

6月26日

22:59

IT之家（RSS）

用户不买账，微软宣布放弃 Edge 浏览器的 AI 历史搜索功能

微软于2026年5月13日宣布取消Edge浏览器中独立的Copilot模式，同时放弃一年前随Edge 138版本分阶段推送的AI历史记录搜索功能。该功能用自然语言、同义词或带拼写错误的短语搜索浏览历史，由本地AI模型驱动，数据不上传云端，IT管理员可通过策略控制。用户因隐私担忧及认为功能冗余而不买账。微软转而将AI能力整合进Edge本身，包括Copilot跨标签页分析、手机端Journeys按主题归类历史，以及Copilot Voice和Copilot Vision等功能。

Microsoft 搜索行业动态

17:59

IT之家（RSS）

AI购物匹配精准度仅16%，上海消保委呼吁电商平台"算法向善"

上海市消保委发布2026年618网购体验报告，基于4308份有效问卷。AI辅助消费决策精准度仅16.06%，84.56%尝试过AI选购但负面反馈主导（38.79%认为不贴合低价需求，29.71%表示高低价混杂）。算法推荐方面，仅24.21%认为高度匹配，38.51%发现同款商品在不同账号优惠不同。超85%消费者期待AI一站式购物。消保委呼吁平台校准算法，强化需求导向。

智能体搜索政策/监管

6月25日

13:58

IT之家（RSS）

谷歌 Chrome 149 升级 AI 交互，引入"Select from screen"功能

谷歌升级 Gemini 3.5 Flash 模型，原生引入“Computer Use”工具，并搭配 Chrome 149 浏览器增强 AI 交互。Chrome 新增“Select from screen”功能，用户可框选屏幕上的图片或文字，直接送入 Gemini 提示词，获得针对性 AI 交互，例如在鞋类网站选中多双运动鞋询问适合的跑步风格。该功能类似 Google Lens，但由对话式 AI 处理。Computer Use 工具使 AI 智能体能在网页、桌面、移动端执行访问网站、填写表单、点击按钮等复杂任务。

Google 产品更新多模态搜索

09:58

IT之家（RSS）

苹果 iOS 27 Beta 2 收紧 Siri AI：拒绝摘要 URL 链接内容

6 月 24 日，科技媒体报道苹果在 iOS 27 Beta 2 更新中收紧 Siri AI 规则，禁止其对用户提供的 URL 链接进行总结、阅读或提取信息。Siri AI 系统提示词新增指令，明确无法跳转访问网页，且不提供后续建议或变通方案。该调整可能关联苹果网页生态策略，防止 AI 直接抓取内容冲击网站流量。不过，在 iOS 27 版 Safari 浏览器中打开网页后，仍可通过 Apple Intelligence 摘要页面内容。

产品更新搜索

08:00

HuggingFace Daily Papers（社区热门论文）

Ko-WideSearch：韩语广度搜索基准

现有网页智能体基准主要测深度搜索，缺乏广度枚举能力评估。Ko-WideSearch 是韩语广度搜索基准，通过自动化合成-验证流程构建。任务要求从集合父实体（如电视剧季、王朝）中完整列举成员并填充属性表，采用 Item-F1、Column-F1、Row-F1 评分。基准含 228 张表格，覆盖 190 个实体、16 个类别，设三个难度层级，通过表宽和二维复合键控制成员覆盖率。对 20 个智能体的测试显示，智能体能恢复集合但无法填充行（Item-F1 92.8，Row-F1 53.7），难度提升准确率下降，增加搜索或花费无法缩小差距；难点在找到正确值而非格式化，自由文本单元格失败率最高。

智能体 arXiv 搜索论文/研究

6月24日

11:20

公众号：卡尔的AI沃茨

实测Codex Record & Replay：把RPA自动化工作流重做了一遍

Codex新功能Record & Replay可将浏览器操作录制成可复用的Skill。实测解决两个痛点：定向信息搜索时自动打开X搜热点、统计高赞帖子、提取关键词重新查询，输出带互动指标的表格和短关键词库，满足60%-70%图文素材需求；视频剪辑上传能完成静音检测、加速、导出GIF等固定流程，但上传可能被网站安全策略拦截，建议先让Codex出Plan判断可行性。Codex能理解意图，例如自动在输入Grok前增加中文关键词组合。目前依赖Computer Use和图片理解，操作慢且偶有误判，但已能将人的操作转化为Agent下次可执行的上下文，替代传统RPA和Replay。

智能体 OpenAI 搜索教程/实践

10:10

公众号：数字生命卡兹克

同事件精选63

微信上线AI智能体"小微"内测

微信近日内测AI智能体“小微”，常驻左上角，支持语音或文本输入，调用WeLM-V4-80B（MoE激活3B）与DeepSeek模型。可向个人/群聊发消息、发起视频通话、发红包或转账，需用户逐项确认；可查询朋友圈（限最近2天）、公众号、视频号，支持创建提醒、笔记、小工具，并能操作奶茶咖啡、打车、电影票等小程序至最后一步后交给用户。小微具备记忆功能，可记录地址等。聊天记录上下文仅在特定入口可用且限最近2天。整体策略“只读不动”，禁止批量发送、定时、删除联系人等操作。微信以谨慎节奏接入AI，是国民级应用全面拥抱AI的重要信号。

智能体搜索教程/实践

同一事件，精选展示《微信Agent小微灰度内测：主入口发消息红包，子入口可读聊天记录》

推荐理由：微信Agent内测体验一手展示，功能上打通通讯录、朋友圈和小程序，却处处需确认且只读不动，是微信在AI时代极其谨慎的第一步。不过一句话生成小工具的能力，已经为小程序生态打开了AI分发的新可能。

08:18

MarkTechPost（RSS）

同事件精选72

Mistral AI 发布 OCR 4 模型

Mistral AI 今日发布 OCR 4，支持 170 种语言，可单容器自托管部署。新版本除提取文本外，还返回边界框、块类型（标题/表格/方程等）和逐字置信度分数。独立标注者在 600+ 文档、12+ 语言的测试中平均胜率 72%。价格 $4/千页，批量 $2/千页，Document AI 模式 $5/千页。企业客户可自托管。Rogo 报告等效精度下成本低约 8 倍、延迟低 17 倍；Anaqua 测得每页快约 4 倍。OCR 4 同时作为 Mistral Search Toolkit（公开预览）的接入组件。

检索增强产品更新多模态搜索

同一事件，精选展示《Mistral OCR 4》

推荐理由：Mistral OCR 4 不只是提取文本，而是输出带定位框和置信度的结构，这对需要引用和溯源的企业搜索很有价值，不过按页计费对小团队是门槛。

08:00

HuggingFace Daily Papers（社区热门论文）

TheoremGraph：连接非形式化与形式化数学的统一语句级依赖图

TheoremGraph 是覆盖非形式化与形式化数学的语句级依赖图。非形式化侧从 arXiv 解析 1170 万定理环境，提取 1830 万条有向依赖；形式化侧 LeanGraph 从 25 个 Lean 项目提取 388,105 声明节点和 1130 万类型化边。通过嵌入自然语言 slogan 将两类图映射到同一语义空间，LLM judge 在余弦阈值 ≥0.8 时确认 47,952 个匹配，阈值 ≥0.9 时接受率升至 87%。形式化概念检索中，name-and-signature 加图扩展的 Recall@10 达 0.775，接近 LeanSearch v2 的 0.780（无需 LM 重排序）。相关数据集、提取器、HTTP API 及 MCP 接口已开源。

搜索数据/训练论文/研究

6月23日

22:24

Mistral AI：News（网页）

精选68

Mistral OCR 4

Mistral AI 发布 OCR 4，新增边界框、块分类（标题、表格、方程式、签名等）及逐页逐词置信度分数。支持 170 种语言、10 个语系，可单容器全自托管部署。在 OlmOCRBench 上得分 85.20，独立标注者偏好率平均 72%。定价每 1000 页 $4，Batch API 享 50% 折扣。可通过 API 或 Mistral Studio 的 Document AI 调用。

多模态搜索模型发布

关联讨论 1 条

推荐理由：Mistral OCR 4 把 bounding box 和置信度输出做进了产品，自托管部署和多语言能力很务实，做文档 RAG 和智能体的团队可以认真看看。

18:07

IT之家（RSS）

微信上线高考 AI 志愿助手，可在搜一搜直接语音提问

微信搜一搜今日上线“AI 志愿助手”，为考生和家长提供志愿填报参考。用户输入分数、大学名称或志愿相关问题，系统结合合作方“掌上高考”的全国高校多年录取分数、位次、计划等结构化数据，给出冲、稳、保三个梯度的建议。支持继续追问以优化推荐，还可直接语音提问并多轮对话。

产品更新搜索

16:07

IT之家（RSS）

火山引擎谭待：豆包保持免费，专业版办公任务模式搭载2.1 Pro模型

在今日火山引擎FORCE原动力大会上，总裁谭待表示豆包将继续免费，并推出面向生产力场景的专业版办公任务模式，搭载豆包大模型2.1 Pro（Doubao-Seed-2.1-Pro），围绕Coding、Agent、VLM三大方向升级。同时五大模型集中亮相：豆包视频生成Seedance 2.5及2.0 4K版、图像创作Seedream 5.0 Pro、音频生成1.0等。豆包大模型2.1已在火山引擎开放API服务，火山方舟体验中心同步上线，并接入豆包、TRAE、扣子等产品。

搜索行业动态

16:06

OpenAI：官网动态（RSS · 排除企业/客户案例）

Omio 携手 OpenAI 打造对话式旅行未来

多式联运旅行平台 Omio 与 OpenAI 合作，在 ChatGPT 上构建了最早一批对话式旅行体验，连接超 3,000 家交通提供商、覆盖 47 国。用户可通过自然语言查询实时票价和路线，获取可预订的行程。内部方面，Omio 为全员部署 ChatGPT 并将 Codex 嵌入研发全流程，产品开发工作量降至原来的约 20%，项目周期从多人一季缩短至一人一月。Omio 的目标是成为 AI 原生公司，由员工对结果负责，AI 加速执行但决策权在人。

OpenAI 搜索行业动态

11:13

HuggingFace Daily Papers（社区热门论文）

KaLM-Reranker-V1：快速但非延迟交互的压缩文档重排序器

KaLM-Reranker-V1 是一种快速但非延迟交互（FBNL）重排序器，采用编码器-解码器架构。编码器使用 Matryoshka 嵌入池化预编码段落，解码器建模系统指令、用户指令和查询意图，再通过交叉注意力捕获查询与段落间的相关性，实现解耦计算并保持高效。模型提供 Nano（0.27B）、Small（1B）和 Large（4B）三种激活参数尺寸。在 BEIR 上达到 SOTA，与 Qwen3-Reranker 系列持平；在 MIRACL 上未经大量多语言训练仍表现优异；在 LMEB 上，0.27B Nano 模型可与 7-12B 嵌入模型竞争。

arXiv 检索增强搜索论文/研究

08:07

IT之家（RSS）

亚马逊在ChatGPT投广告引流，却严防AI抓取自家商品数据

亚马逊已开始在ChatGPT投放广告，成为入驻OpenAI广告业务最知名的零售企业之一。电商分析师卡济乌凯纳斯指出，此举具“象征意义”，因亚马逊此前不愿参与AI购物合作。亚马逊将ChatGPT当作引流渠道，引导用户跳转至自家店铺，同时持续限制OpenAI、Perplexity等AI爬虫抓取数据，包括去年停止向谷歌购物提供数据、更新代码封禁爬虫，今年通过法院禁令阻断Perplexity智能体。对OpenAI而言，这一合作意味着其广告业务有望高速增长。

OpenAI 搜索行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

基于检索增强搜索的LLM程序优化方法

提出检索增强搜索（RAS）方法，通过束搜索优化候选程序，每一步从慢-快程序对训练数据中检索上下文示例引导LLM。基于LLM生成的自然语言描述进行上下文检索效果优于基于源代码的检索。同时提出AEGIS方法，将训练示例分解为原子编辑以提高可解释性。在C++程序优化上，RAS比先前最先进黑盒适应策略性能提升2.06倍，AEGIS提升1.37倍且编辑量更小。对于Python程序，RAS使平均运行时间百分位提升10.27。

arXiv 搜索编码论文/研究

6月22日

23:43

The Decoder：AI News（RSS）

Getty Images与OpenAI签署多年授权协议授权图片接入ChatGPT搜索

Getty Images与OpenAI签署多年授权协议，授权图片将出现在ChatGPT搜索和发现功能中。双方未披露财务条款，也未说明OpenAI是否会使用Getty内容训练未来模型。消息公布后，Getty股价盘前涨约200%，此前年内跌约55%。CEO Craig Peters称授权内容使AI驱动搜索更实用可信。Getty此前曾抵制AI图像生成，后自建生成器并起诉Stability AI，目前仍在等待以37亿美元收购Shutterstock的审批。

OpenAI 搜索行业动态

09:04

IT之家（RSS）

Getty Images 与 OpenAI 达成合作，授权图库内容引入 ChatGPT

6月22日，Getty Images宣布与OpenAI达成展示合作协议，授权图库内容将在ChatGPT的搜索与发现体验中呈现。此前，Getty Images曾与英伟达合作推出“Generative AI by Getty Images”工具，允许用户利用其授权图片库训练并承诺法律保护。OpenAI此前已与图片平台Shutterstock延续六年合作，并于2024年与英国《金融时报》签署协议，利用其资料库训练模型并提供新闻摘要链接。

OpenAI 搜索行业动态

6月21日

04:02

TechCrunch：AI（RSS）

In the Weights：以AI为中心的虚荣搜索新工具

前OpenAI员工Thomas Dimson和Joey Flynn创建了In the Weights网站。该网站向Grok、Gemini、多个GPT版本（包括GPT-5.4 Mini）、Claude、Llama等模型提问“Who is [姓名]?”，聚类描述后生成强度分数，以衡量一个人被AI模型“记住”的程度。测试显示作者得分641（前6%），榜首Macaulay Culkin得分988。网站还会列出返回结果的模型并标注潜在幻觉，例如GPT-5.4 Mini对Anthony Ha的描述。该工具意在替代传统Google vanity search，因为流量正转向大语言模型。

产品更新搜索数据/训练

6月19日

22:52

The Decoder：AI News（RSS）

路透研究所报告：AI聊天机器人新闻使用率升至10%，但信任度仍低

路透研究所2026年数字新闻报告显示，全球每周用AI聊天机器人获取新闻的比例从7%升至10%，仅1%将其视为主要来源。44%活跃用户信任AI生成的新闻，但仅4%经常点击原始来源。用户主要用途为追问（42%）、获取当前新闻（35%）和摘要（34%）。18-24岁年龄段使用率达17%，自称“新闻爱好者”的用户达18%。报告指出，聊天机器人存在强化已有偏见和分裂公共话语的风险，但也能简化复杂话题、翻译内容并提供多源整合，拓宽用户视角。

搜索现象/趋势行业动态

18:51

MarkTechPost（RSS）

Liquid AI 发布 LFM2.5-Embedding-350M 与 LFM2.5-ColBERT-350M 双向编码检索模型

Liquid AI 本周发布两款 350M 参数检索模型：稠密双编码器 LFM2.5-Embedding-350M 和后期交互模型 LFM2.5-ColBERT-350M。二者基于 LFM2.5-350M-Base，通过将因果注意力改为双向注意力实现双向编码，支持阿拉伯语、德语、英语等 11 种语言的单语与跨语言搜索。在 NanoBEIR 多语言检索上，ColBERT 版 NDCG@10 为 0.605，Embedding 版为 0.577，均优于 Qwen3-Embedding-0.6B。在 MKQA-11 问答 Recall@20 上分别为 0.694 和 0.691。上下文窗口 32,768 tokens，文档调优至 512 tokens。提供 GGUF 格式，MacBook Pro M4 Max 上查询延迟低于 10 ms。模型以 LFM Open License v1.0 发布在 Hugging Face。

Hugging Face 检索增强搜索模型发布

18:01

The Decoder：AI News（RSS）

Google就AI生成搜索概览内容直接责任裁决提出上诉

Google宣布将对德国慕尼黑地区法院的一项裁决提出上诉。该法院于2026年5月底判决，AI Overviews属于独立内容而非单纯搜索结果，Google需对其直接承担责任。案中AI错误地将两家慕尼黑出版商与欺诈计划关联。柏林法院6月初在另一案中得出相反结论，认为AI Overviews只是另一种形式的搜索结果，Google仅承担间接责任。Google将在上诉中引用柏林裁决。

Google 搜索政策/监管

03:26

xAI：News（网页）

精选61

xAI 发布 Grok for Word 插件

xAI 将 Grok 引入 Microsoft Word，推出免费 365 插件。用户可将笔记转为结构化文档、重写文本以提升清晰度与简洁性，也能通过插件搜索网页、X 平台或生成图表。插件支持连接 SharePoint 和 Google Drive 等外部来源，还可用于 PowerPoint 和 Excel。

xAI 产品更新搜索

关联讨论 3 条

推荐理由：Grok 正式进入 Office 生态，在 Word 里能直接整理笔记、搜索网页和生成图表，对日常办公用户是个顺手工具，但和微软 Copilot 的边界很模糊。

6月18日

12:14

IT之家（RSS）

英国监管机构要求谷歌整改：限期6个月提高搜索算法透明度

英国竞争与市场管理局（CMA）依据2025年数字竞争框架，限期6个月要求谷歌全面整改搜索排名系统。所有自然搜索结果必须基于客观、非歧视的标准，AI概述功能也不得偏袒任何平台。CMA同时要求谷歌建立更透明的内部投诉处理流程，并允许用户将个人搜索数据安全迁移至第三方。谷歌需在3个月内完成数据可移植性架构。谷歌发言人回应称其排名系统已公平透明，但将配合监管。

Google 搜索政策/监管

12:00

公众号：龙猫LongCat（美团）

美团搜推ASX团队六篇论文被ACL/ICML/KDD 2026收录

美团业务研发平台/搜推ASX团队六篇论文被ACL/ICML/KDD 2026接收。CBS将样本选择建模为上下文多臂老虎机，提升数学推理性能效率；ResRL通过负样本投影残差强化学习，数学超NSR 9.4%、代码刷新CodeForces SOTA、ALFWorld超PPO 7.8%；CDRRM仅用3千样本让未微调模型超越全量微调基线；LocalSearchBench覆盖国内9城6品类超134万商户与900道多跳问答，最优DeepSeek-V3.2正确率仅35.60%；DiningBench含3021道菜品多视角图像，29个VLM模型细粒度识别与营养推理不足；Mem²Evolve双记忆自进化框架在6类任务8个基准上优于单一进化策略。

智能体搜索行业动态