AIHOT

5月6日

13:10

Hacker News 热门（buzzing.cc 中文翻译）

精选70

Cloudflare宣布其代理商合作伙伴现可直接创建Cloudflare账户、购买域名并部署服务。这一功能整合了账户创建、域名注册和项目部署流程，简化了代理商的管理与操作步骤。此举旨在提升合作伙伴的自主性和效率，进一步扩展Cloudflare的生态系统与服务覆盖范围。

智能体产品更新部署/工程

推荐理由：Cloudflare 把账户注册、买域名、部署全开放给 Agent，等于给 AI 发了张建站许可证，做自主 Agent 和自动化运维的人可以直接拿来用。

13:08

IT之家（RSS）

雷柏推出 49 元无线 AI 办公鼠标 C10，可一键唤醒豆包

雷柏新上架无线AI办公鼠标C10，售价49元，提供岩灰、云白、雾蓝三种配色。其核心卖点是支持按键自定义，可一键唤醒豆包AI助手。鼠标配备轻音按键，采用自研驱动AI HUB，通过AA电池供电，续航可达12个月。连接方面支持2.4GHz，具备七档DPI调节和500Hz回报率。

产品更新端侧

12:48

IT之家（RSS）

中国移动上线超 8 万名数智员工，将推移动版智能助理

中国移动在人工智能生态大会上宣布已上线超过8万名“数智员工”，这些AI助手已融入网络鉴伪、研发设计、营销服务等业务流程。同时，公司计划推出“移动版智能助理”，并升级中国移动App、云电脑、云盘等服务入口，以降低人工智能应用门槛。中国移动致力于为10亿手机客户和3亿家庭客户提供数字生活服务，推动全量产品和服务嵌入AI。

智能体行业动态

12:19

IT之家（RSS）

AMD 苏姿丰：智能体 AI 重构算力格局，CPU 与 GPU 配比向 1：1 演进

AMD CEO苏姿丰在财报会议上指出，智能体AI正重塑服务器CPU市场。她表示，AI是增长核心驱动力，云服务商正扩展部署AMD霄龙处理器。智能体AI工作负载需要额外CPU算力进行任务编排和数据移动，这推动了CPU需求的强劲增长。苏姿丰预计，在智能体AI推动下，服务器CPU市场的年复合增长率可能达到35%。她强调CPU需求是对GPU市场的补充，并透露CPU与GPU的配比正从传统的1:4或1:8向1:1演进，在智能体密集场景中CPU数量甚至可能超过GPU。

推理现象/趋势部署/工程

11:37

IT之家（RSS）

全球 AI 电源出货激增，海外公司大规模采购国产 MCU 芯片

海外AI电源与光通信公司正大规模采购国产MCU芯片，以应对算力扩张带来的电源需求。服务器与光通信电源功率大幅提升导致MCU用量短缺，MCU作为AI电源的核心控制中枢，需满足GPU/NPU瞬时大电流、高功率密度的供电挑战。需求激增已传导至上游产业链，国产MCU厂商中微半导今年1月宣布对MCU等产品提价15%至50%，国民技术也于4月起将部分产品价格上调15%至20%。

行业动态部署/工程

11:18

IT之家（RSS）

全国智能化医疗器械标准化工作组获批筹建，将填补我国该领域空白

市场监管总局近日批准筹建全国智能化医疗器械标准化工作组，由国家药监局负责管理。该工作组将负责人工智能医疗器械、医用机器人、脑机接口医疗器械及融合技术类医疗器械等领域的标准化工作。此举旨在顺应新技术与医疗器械深度融合的趋势，填补我国在该领域标准化技术组织的空白，进一步完善医疗器械标准体系。下一步，相关部门将加快构建系统完备、科学规范且与国际接轨的智能化医疗器械标准体系。

政策/监管

11:00

IT之家（RSS）

我国测控装备智能化测评技术迈上新台阶，已面向 6 类典型测控装备开展智能化测评验证

市场监管总局组织科技力量，在测控装备智能化测评技术上取得系列创新。研究团队利用自然语言处理与人工智能聚类技术，构建了通用及典型测控装备的智能化测评指标体系和评估模型，并形成相关标准。同时，攻克了数字孪生测评方法等关键技术，研发了数字孪生体测量系统与物理实体测评装置，实现了智能化水平的可测试与可量化。目前，相关成果已形成综合测评系统与认证模式，面向6类典型装备开展了测评验证，搭建了3套实物验证场景，构建了测试、计量、认证一体化的评测体系。

行业动态部署/工程

10:47

IT之家（RSS）

华为鸿蒙 HarmonyOS 6.1 系统"小艺帮记"获热更新，上线身份验证、同步收藏功能

华为鸿蒙HarmonyOS 6.1系统的AI记忆管家“小艺帮记”正通过热更新上线两项新功能。身份验证功能开启后，查看个人敏感信息时需要验证身份以增强安全性。同步收藏功能可将应用内收藏的内容自动同步至小艺帮记，便于集中访问和管理，并支持智能合集、AI摘要、AI问答及AI播客等智能化处理。该应用本身支持一站式记录身份证、生日、地址、订单等常用信息，并能收藏与管理在线网页和本地文件。

智能体产品更新端侧

10:45

Hacker News 热门（buzzing.cc 中文翻译）

Show HN： Airbyte 代理--跨多个数据源的代理上下文

Airbyte 代理发布，为跨多个数据源的智能体提供上下文支持。该工具允许开发者和数据团队将不同来源的数据（如数据库、API、文件）统一接入，并转化为可供AI代理或自动化流程使用的结构化上下文。其在Hacker News上获得102点关注，显示社区关注度较高。这一方案旨在简化多源数据集成流程，提升智能体处理复杂任务的效率。

智能体MCP/工具产品更新

09:54

IT之家（RSS）

微软游戏 AI 助手遇冷，Xbox 主动收缩战线

微软Xbox新任CEO确认将逐步关闭移动端Gaming Copilot并停止主机端开发。该AI游戏助手功能因在单机游戏中可能缩短游戏时长、削弱探索乐趣，且被指直接抓取现有攻略网站内容而引发争议，遭到玩家和内容创作者批评。由于整体市场反响冷淡及内部支持不足，新任管理层决定收缩战线，但PC端Gaming Copilot的命运暂未明确。

Microsoft产品更新

09:47

IT之家（RSS）

美国电动汽车公司 Rivian 拟自产激光雷达，考虑与中国公司合作

美国电动汽车制造商 Rivian CEO 斯卡林奇表示，公司计划自行生产激光雷达传感器，并考虑通过与中国企业组建合资企业等方式，在美国本土吸收和应用中国先进的激光雷达技术。此举是其自有自动驾驶技术战略的一部分，旨在生产目标售价仅几百美元的传感器。同时，Rivian 已投入数亿美元自研芯片，首款芯片 RAP-1 将于今年推出，后续将推出更先进版本。公司也在与其他汽车制造商探讨合作，以在美国建立生产能力。

行业动态

09:40

Claude Code：GitHub Releases（RSS）

精选58

Claude Code v2.1.129 版本更新

Claude Code 发布 v2.1.129 版本，带来多项功能新增与问题修复。新增功能包括支持通过 `--plugin-url` 从 URL 获取插件压缩包、新增 `CLAUDE_CODE_FORCE_SYNC_OUTPUT` 环境变量以强制启用终端同步输出，以及为 Homebrew 或 WinGet 安装提供后台自动更新提示。功能调整方面，插件清单中的 `themes` 和 `monitors` 现在建议在 `"experimental"` 下声明；网关模型发现功能改为通过环境变量手动启用；Ctrl+R 历史记录选择器恢复为默认搜索所有项目的提示。此外，修复了约 20 项问题，涉及 `/clear` 命令、会话标题显示、外部编辑器切换、令牌浪费、OAuth 凭证刷新、缓存警告等多个方面。

Anthropic产品更新编码

推荐理由：Claude Code 用户最烦的 session 消失、token 浪费和缓存降级问题这次都修了，还支持从 URL 加载插件，日常体验会顺滑不少。

09:37

IT之家（RSS）

美图公司：2026 年一季度全球付费用户超 1790 万创新高，同比增长 30.2%

美图公司2026年第一季度业绩显示，其全球付费订阅用户数突破1790万，同比增长30.2%，创历史新高。以付费订阅为主的影像与设计产品收入达8.52亿元，同比增长34.3%。公司首次披露AI生产力应用年度经常性收入（ARR）约为5.8亿元，同比大幅增长56.2%，相关付费用户增至234万。此外，用户对AI算力点的消耗金额也呈现快速增长态势。

图像生成行业动态

09:20

IT之家（RSS）

OpenAI 总裁布罗克曼日记曝光：称马斯克不懂 AI

在马斯克起诉OpenAI的庭审中，公司总裁布罗克曼约100页的私人日记被作为核心证据公开。日记显示，2017年马斯克曾发出最后通牒，要求完全控制营利部门或让OpenAI保持非营利。布罗克曼在日记中考虑转向营利性，并思考“如何赚到10亿美元”。庭审中，他拒绝将持有的290亿美元归还非营利部门，并辩称日记仅为思维探索。布罗克曼作证称马斯克不懂AI，且马斯克2018年离开时曾计划在AI安全上“走捷径”；马斯克则表示离开是因OpenAI拒绝与特斯拉合并。

OpenAI行业动态

09:11

IT之家（RSS）

Anthropic 承诺 5 年内斥资 2000 亿美元购买谷歌云服务和芯片

据报道，人工智能公司Anthropic已承诺在未来五年内向谷歌云支出2000亿美元，用于购买云服务和AI芯片。这笔巨额承诺占谷歌近期披露的未实现收入的40%以上，消息推动谷歌母公司Alphabet股价盘后上涨约2%。Anthropic表示其AI模型Claude在多种硬件上运行。此前，谷歌已决定向Anthropic投资100亿美元，并可能追加300亿美元。此外，Anthropic也与亚马逊达成长期协议，未来十年将采购超1000亿美元AWS算力资源，并可能获得亚马逊至多250亿美元投资。

AnthropicGoogle行业动态部署/工程

08:54

IT之家（RSS）

AI 训练侵犯版权，爱思唯尔、圣智等多家出版商起诉 Meta

爱思唯尔、圣智、阿歇特等多家出版商及作家斯科特·图罗在曼哈顿联邦法院集体起诉Meta，指控其未经许可滥用数百万部受版权保护的书籍、期刊文章（包括教科书、科学文章及小说《第五季》等）来训练AI模型Llama，并索赔未定金额的经济赔偿。Meta回应称，利用版权材料训练AI可构成合理使用，将积极应诉。此前，AI公司Anthropic曾以支付至少15亿美元的方式，就类似作家集体诉讼达成和解。

Meta政策/监管数据/训练

08:53

Hacker News 热门（buzzing.cc 中文翻译）

出版商称，扎克伯格"亲自批准"了Meta的侵权行为

多家出版商指控Meta及其CEO扎克伯格存在大规模版权侵权。诉状称，扎克伯格“亲自批准”使用受版权保护的书籍、新闻文章等作品来训练其Llama系列AI模型，且公司内部明知此举存在法律风险。诉讼寻求就Meta未经许可复制大量作品的行为获得赔偿，具体涉及的作品数量未公开。此案凸显了AI训练数据版权争议的升级。

Meta数据/训练行业动态

08:51

IT之家（RSS）

目标剔除 13 岁以下账户，Meta 推进 AI 双重手段验证年龄

Meta 计划在 Facebook 和 Instagram 部署 AI 年龄检测系统，旨在识别并移除未满 13 岁的用户账户。新系统采用文本分析与视觉扫描双重手段：视觉扫描通过分析用户上传的照片和视频，从身高、骨骼结构等物理线索估算年龄范围；文本分析则抓取用户内容中的生日帖、年级提及等信号。Meta 强调该系统不进行面部或身份识别，仅估算大致年龄段，以在保护未成年人安全与尊重用户隐私之间寻求平衡。

Meta产品更新安全/对齐

08:26

IT之家（RSS）

对标 OpenClaw，Meta 被曝正开发个性化 AI 智能体

据《金融时报》报道，Meta 正在为其超过30亿用户开发一款高度个性化的AI助手，由新Muse Spark AI模型驱动，旨在对标OpenClaw，帮助用户自动完成网页浏览、邮件管理等日常任务。该助手已进入内部测试，并计划在用户自愿前提下获取健康、财务等敏感信息以提升服务，但面临巨大的用户信任与数据隐私挑战。尽管Meta计划本月裁员10%，CEO扎克伯格仍坚持投入数十亿美元推动AI深度融入产品核心，但投资者对其成本与执行风险日益担忧。

智能体Meta行业动态

08:17

IT之家（RSS）

微软 Xbox 高层大换血： 2 位元老将卸任，5 位 AI 系高管空降

微软Xbox部门在新任首席执行官阿萨·夏尔马上任数月后启动重大领导层重组。两位任职数十年的元老Kevin Gammill和Roanne Sones将卸任。同时，夏尔马从其此前领导的CoreAI团队引入了Jared Palmer、Tim Allen等5位高管空降Xbox，分别负责产品、设计、增长、工程及订阅云业务。夏尔马在内部备忘录中指出，此次调整旨在改变当前效率低下、内部消耗大的工作方式，以加快决策和影响力。

Microsoft行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

精选76

OpenSearch-VL：前沿多模态搜索智能体的开源方案

研究团队推出完全开源的OpenSearch-VL方案，用于训练前沿多模态深度搜索智能体。该方案包含三大核心：通过维基百科路径采样、模糊实体重写和视觉定位构建的高质量训练数据集（包括用于微调的SearchVL-SFT-36k和用于强化学习的SearchVL-RL-8k）；统一文本搜索、图像搜索、OCR及图像处理工具的多样化环境；以及能处理级联工具失败的多轮致命错误感知GRPO训练算法。基于此训练的智能体在七个基准测试中平均提升超过10分，在多项任务上达到与专有商业模型相当的水平。所有数据、代码和模型均将开源。

智能体arXiv多模态论文/研究

推荐理由：把多模态搜索 agent 的完整训练配方开源了，数据、环境、算法全都有，七个基准平均涨 10 点，直接对标商业模型，做深度搜索的同学可以无脑跟。

08:00

HuggingFace Daily Papers（社区热门论文）

基于上下文稀疏注意力的闪电式统一视频编辑

针对上下文学习视频编辑中的计算瓶颈，研究团队提出首个近无损稀疏框架ISA。该框架基于上下文令牌显著性低、查询锐度与近似误差相关两项发现，采用预选择策略修剪冗余上下文，并通过动态查询分组机制，将高误差查询路由至完整注意力、低误差查询路由至高效的零阶泰勒稀疏注意力。结合新建的170万高质量视频数据集，团队构建了LIVEditor模型。实验表明，该模型在注意力模块延迟降低约60%的同时，在多个评测基准上超越现有先进方法，实现了近无损加速并保持了视觉保真度。

arXiv多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Stream-T1：面向流式视频生成的测试时缩放框架

针对流式视频生成中候选探索成本高、缺乏时序引导的问题，研究团队提出了首个综合性测试时缩放框架Stream-T1。该框架包含三个核心单元：流式缩放噪声传播利用历史高质量块噪声优化当前生成，建立时序依赖；流式缩放奖励剪枝结合短期与基于滑动窗口的长期评估，平衡局部空间美学与全局时间连贯性；流式缩放记忆沉淀根据奖励动态管理KV缓存上下文。在5秒和30秒视频基准测试中，Stream-T1显著提升了时间一致性、运动平滑度与帧级视觉质量，同时大幅降低了计算开销。

arXiv推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PhysForge：为交互式虚拟世界生成基于物理的3D资产

针对交互式虚拟世界与具身智能中物理3D资产合成的瓶颈，现有方法多忽视功能性。本文提出PhysForge，一个由大规模四层物理标注数据集PhysDB支持的两阶段框架。第一阶段，视觉语言模型担任“物理架构师”，规划定义材料、功能与运动学约束的“分层物理蓝图”。第二阶段，基于物理的扩散模型通过新颖的运动体素注入机制，合成高保真几何与精确运动学参数。实验证明，PhysForge能生成功能合理、可直接仿真的资产，为交互式3D内容与具身智能体提供了强大的数据引擎。

arXiv具身智能多模态数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

StableI2I：识别图像转换中的非预期变化

针对现有评估方法在图像到图像转换任务中忽视内容保真度与前后一致性的问题，研究团队提出了StableI2I。这是一个无需参考图像的动态评估框架，能在图像编辑、修复等多种任务中量化语义对应与空间结构的保持程度。团队同时构建了配套基准StableI2I-Bench，用于系统评估多模态大模型在此类判断任务上的准确性。实验表明，该框架能提供精细、可解释的评估结果，且与人类主观判断高度相关，可作为诊断真实世界图像转换系统内容一致性与模型性能的实用工具。

图像生成论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

D-OPSD：基于在线策略自蒸馏的步数蒸馏扩散模型持续微调方法

针对高性能少步图像生成模型（如Z-Image-Turbo）在持续监督微调中会损害其固有少步推理能力的问题，本文提出D-OPSD训练范式。该方法利用以LLM/VLM为编码器的扩散模型可继承上下文能力的特点，将训练构建为在线策略自蒸馏过程：模型同时扮演教师（以文本和图像多模态特征为条件）和学生（仅以文本特征为条件）双重角色，并通过最小化其在自身生成轨迹上两个预测分布的差异进行优化。这使得模型能在自身监督下学习新概念或风格，同时保持原有的高效少步生成能力。

图像生成数据/训练论文/研究

08:00

Apple Machine Learning Research（RSS）

精选63

Normalizing Flows with Iterative Denoising

研究团队在归一化流（NFs）生成模型领域取得新进展，提出了迭代TARFlow（iTARFlow）。该方法在训练阶段保持完全端到端的基于似然的目标，采样时则采用自回归生成方式。iTARFlow延续了TARFlow在图像建模任务上的优势，使其成为扩散模型等方法的可行替代方案，进一步提升了归一化流生成模型的性能表现。

图像生成论文/研究

推荐理由：Normalizing Flows 这个老方法被苹果玩出新花样，iTARFlow 在训练上保留端到端似然，采样却自回归，给做生成模型的人提供了扩散模型之外的第二个靠谱选择。

08:00

Apple Machine Learning Research（RSS）

精选64

SpecMD：关于推测性专家预取的综合研究

研究团队开发了SpecMD，这是一个用于在各种硬件配置上对临时缓存策略进行基准测试的标准化框架。该研究聚焦于混合专家模型，这类模型虽然实现了稀疏专家激活，但需要专家缓存机制才能将稀疏性转化为实际性能提升。此前的研究提出了以硬件为中心的缓存策略，但不同缓存策略之间以及它们与不同硬件规格之间的相互作用尚不明确。SpecMD框架旨在填补这一理解空白，系统性地评估缓存策略的交互影响与硬件适配性。

推理论文/研究部署/工程

推荐理由：MoE推理的缓存策略一直靠经验摸，Apple给的标准化框架能系统比较不同策略，做分布式推理的可以省些心力。

08:00

xAI：News（网页）

精选79

Grok Imagine API 推出"Quality Mode"图像生成与编辑功能

xAI正式向企业开发者和团队推出Grok Imagine API的“Quality Mode”图像生成与编辑功能。该模式在真实性、文本渲染和创意控制上实现显著提升，能生成细节精细、纹理准确、场景逼真的图像，并具备清晰的多语言文本生成能力。在独立排行榜中，该API已位列顶级模型之列。定价为输入提示每次0.01美元，输出图像根据分辨率（1K或2K）每张费用在0.05至0.07美元之间。此功能适用于产品可视化、营销素材快速生成、用户内容风格创作等多种商业场景。

xAI产品更新多模态

关联讨论 1 条

推荐理由：Grok Imagine 的 Quality Mode 在写实度和文字渲染上提升很明显，对需要高频生成产品图和 UGC 内容的品牌团队是个实在的更新，API 直接能用，单张才几分钱。

08:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

Singular Bank 借助 ChatGPT 和 Codex 助力银行家高效工作

Singular Bank 开发了名为 Singularity 的内部助手，该工具整合了 ChatGPT 和 Codex 技术，旨在帮助银行家节省日常工作时间。它主要应用于会议准备、投资组合分析和后续跟进等任务，可使银行家每天在这些事务上节省 60 至 90 分钟。

智能体OpenAI行业动态

08:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选72

Uber 利用 OpenAI 帮助司机更智能地赚钱、乘客更快地叫车

Uber 宣布在其全球实时交通服务平台中集成 OpenAI 技术，用于驱动 AI 助手与语音功能。新功能旨在帮助司机更智能地规划接单以提升收入，同时让乘客能够更快完成叫车流程。该技术将应用于优化实时供需匹配与用户体验。

OpenAI行业动态语音

推荐理由：Uber 把 OpenAI 的语音和助手能力搬进了打车场景，这是 AI 真正融入日常服务的一个信号，对做产品的人来说，落地路径比技术参数更重要。

08:00

Apple Machine Learning Research（RSS）

精选72

从位置认知到功能理解：为多模态大语言模型设立空间功能智能基准

现有基准如VSI-Bench主要评估基础几何感知能力，但未能触及具身智能所需的高阶认知。为此，研究团队推出了空间功能智能基准SFI-Bench，该基准包含超过1700个问题，数据来源于多样化的第一人称室内扫描视频。SFI-Bench旨在系统评估多模态大模型从物体位置感知到功能意图理解的高级空间推理能力，标志着对智能体空间认知的评估从几何层面迈向功能层面。

多模态推理论文/研究

推荐理由：Apple 自己搞的 SFI-Bench 把评估从几何定位推进到功能理解，这个方向很对，做具身智能和空间推理的团队该跟一下。

08:00

xAI：News（网页）

精选83

Grok Web 正式推出 Connectors 功能，实现与日常应用深度集成

xAI 正式在 Grok Web 上线 Connectors 功能，提供与多种日常应用工具的深度集成。该功能允许 Grok 端到端处理任务，如阅读总结邮件、更新幻灯片、管理日历和编辑电子表格，无需频繁切换和复制粘贴。首批支持的连接器包括 SharePoint、Outlook、OneDrive、Google Workspace、Notion、GitHub 和 Linear，涵盖文件搜索读写、代码审查与任务管理等操作。同时推出的“自带 MCP”功能支持连接自定义模型上下文协议服务器。完整的 Connectors 支持也即将登陆 Grok iOS 和 Android 应用。

MCP/工具xAI产品更新

推荐理由：Grok这波连接器把 Office、GitHub 和 Notion 全打通了，不是演示级挂接，是能直接读写编辑的真集成，外加开放自建 MCP，产品经理和开发者都该立刻上手试试。

08:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

Introducing ChatGPT Futures： Class of 2026

OpenAI公布了“ChatGPT Futures: 2026届”的26名学生创新者名单。这些学生正利用以ChatGPT为代表的AI技术进行构建、研究，并推动产生现实世界的影响力。他们的项目正在重新定义学习、创造力和机遇，展示了新一代如何将AI工具应用于具体实践以解决实际问题。

OpenAI行业动态

08:00

xAI：News（网页）

精选68

SpaceXAI与Anthropic达成新计算合作伙伴关系

SpaceXAI与Anthropic签署协议，提供对Colossus 1超级计算机的访问权限。Colossus 1是全球最大、部署最快的AI超算之一，拥有超过22万个NVIDIA GPU，包括H100、H200和下一代GB200加速器，专为AI训练、微调、推理及高性能计算工作负载设计。Anthropic计划利用此计算能力直接提升Claude Pro和Claude Max订阅者的服务容量。此外，Anthropic表示有兴趣合作开发多个千兆瓦的轨道AI计算容量，以应对地球资源限制。SpaceX凭借其高发射频率、轨道经济性和星座运营经验，可能使轨道计算在近期成为工程计划，而非仅停留于研究概念。

AnthropicxAI行业动态部署/工程

关联讨论 13 条

推荐理由：Colossus 首次对外提供算力，Anthropic 拿到这些 GPU 会直接提升 Claude 订阅体验。但标题里真正吓人的是后半句，轨道 AI 计算虽然还远，xAI 已经把这当成近期工程目标了。

08:00

Cursor Blog

通过自动安装系统引导Composer开发

团队开发了Composer自动安装系统，利用早期模型（如Composer 1.5）为强化学习训练自动配置可运行环境。该系统分两阶段工作：先由智能体设定成功环境的目标命令与描述，再由另一智能体执行具体配置，包括安装依赖、模拟缺失组件并进行测试。在一项针对区块链项目Celo的真实实验中，该系统成功处理了稀疏文档和复杂依赖。采用此方法后，Composer 2在环境设置基准测试中的得分从47.9%提升至61.7%，为后续训练提供了更优基础。

智能体教程/实践编码部署/工程

08:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选65

前沿企业如何构建人工智能优势

OpenAI的B2B Signals研究揭示了前沿企业深化AI应用、规模化基于Codex的智能体工作流，并构建持久竞争优势的路径。这些企业正超越基础应用，将AI深度集成至核心业务流程，通过部署能自主执行复杂任务的智能体工作流来提升效率与创新能力。研究指出，成功的关键在于规模化应用AI代理，这能带来显著的运营优势并形成竞争壁垒。

智能体OpenAI现象/趋势编码

关联讨论 1 条

推荐理由：OpenAI的B2B研究把企业AI落地差距摊开了，Codex驱动的代理工作流正在成为壁垒，做企业服务的可以当镜子照。

08:00

Hugging Face：Blog（RSS）

为 Open ASR 排行榜添加 Benchmaxxer 防护机制

Hugging Face 团队宣布为其开源自动语音识别（ASR）评测平台 Open ASR Leaderboard 引入名为“Benchmaxxer Repellant”的新防护机制。该机制旨在检测并抑制旨在人为操纵排行榜结果的基准测试投机行为，确保评测结果更公平、更具代表性。这一更新是平台持续维护的一部分，以应对社区中出现的非常规优化策略，维护开源 AI 研究与评估的诚信度。

Hugging Face产品更新评测/基准语音

07:49

Hacker News 热门（buzzing.cc 中文翻译）

GLM-5V-Turbo：迈向多模态智能体的原生基础模型

GLM-5V-Turbo作为一款原生多模态基础模型发布，旨在直接驱动多模态智能体。该模型在多项核心评测中表现优异，在MMBench基准测试上达到90.1分，在MathVista测试中取得78.5%的准确率，并在RealWorldQA基准上以87.3%的准确率超越了GPT-4o。其设计强调对视觉与语言信息的统一理解与生成能力，为构建更高效的端到端多模态智能体提供了新的模型基础。

智能体多模态论文/研究

07:44

Simon Willison 博客

datasette-referrer-policy 0.1 发布

Datasette 新插件 datasette-referrer-policy 0.1 发布，旨在解决 global-power-plants 演示中 OpenStreetMap 地图瓦片无法显示的问题。问题由两个原因导致：一是站点此前添加的 CAPTCHA 错误拦截了地图插件发起的 .json 请求，该问题已修复；二是 OpenStreetMap 会屏蔽使用了 `Referrer-Policy: no-referrer` 头部的站点请求。此插件允许用户将 Datasette 默认的此头部策略更改为其他值，从而确保地图正常加载，同时不影响默认安全设置。插件的开发过程得到了 Codex 与 GPT-5.5 的辅助。

开源/仓库部署/工程