AIHOT

5月3日

18:56

Ethan Mollick@emollick

对前沿智能体在较长任务上的性能进行基准测试正变得越来越困难。重复测量的成本非常高，而且使用受控框架中的模型与通过API使用模型之间存在差异。我怀疑基准测试低估了进展，它们是为模型设计的，而非为受控智能体。

智能体大佬观点现象/趋势评测/基准

18:55

meng shao@shao__meng

精选72

解决真正工程问题的Agent Skills集合

作者@mattpocockuk公开了其.claude/目录下的实用Agent Skills集合，旨在解决四大工程痛点：1) 通过/grill-me等技能在动工前对齐需求，修复沟通鸿沟；2) 维护CONTEXT.md与ADR建立共享语言，提升代码一致性；3) 利用/tdd和/diagnose建立快速测试与诊断反馈回路；4) 通过/to-prd、/zoom-out等技能对抗代码熵增，持续投资设计。这些技能分为工程、效率与工具三类，形成从需求对齐到代码落地的完整工作流。

智能体GitHub教程/实践编码

推荐理由：matt pocock 把自己 Claude Code 里实际用的 Skills 全开源了，专治 Agent 瞎编、啰嗦、跑不通和屎山，grill-me 反向拷问和共享语言这两招很开眼。

18:24

Rohan Paul@rohanpaul_ai

Figure F.03人形机器人实现自主行走与楼梯导航

Figure公司最新组装的F.03人形机器人已能实现自主行走，从生产线直接步行至总部。其核心突破在于仅依靠机载摄像头感知，无需LiDAR或预先地图，即可完成上下楼梯等复杂导航。完整的运动策略完全通过仿真环境中的端到端强化学习训练而成，并零样本迁移至实体机器人。演示中可见其通过神经网络从摄像头数据推断几何环境的深度感知能力，尽管在尺度稳定性和窗户等区域仍存在轻微抖动与伪影。

产品更新具身智能数据/训练

17:46

Rohan Paul@rohanpaul_ai

World2Agent开源W2A协议，为AI代理构建标准化感知层

World2Agent开源了W2A协议，旨在为AI代理建立标准化的世界感知层。该协议采用“世界→传感器→代理”架构，传感器从GitHub、X帖子、日志等多种数据源中提取信息，并生成包含事件内容、来源及背景的结构化实时信号。这使得AI代理能主动感知外部变化并自主响应，无需等待人类提示。传感器可重复使用，避免了为每个新数据源重复开发轮询、去重等逻辑。与侧重代理能力的MCP不同，W2A主要解决代理“何时应被唤醒”的问题。目前该协议已支持多种主流代理，并邀请开发者共同构建传感器生态。

智能体MCP/工具开源/仓库

17:37

Hacker News 热门（buzzing.cc 中文翻译）

Specsmaxxing--关于克服AI心理障碍，以及我为何用YAML编写规格说明

作者提出“Specsmaxxing”概念，旨在通过优化规格说明来克服AI心理障碍，即AI因指令模糊而产生的不可预测输出。其核心解决方案是采用YAML格式编写详细、结构化的规格说明，这能显著提升AI响应的准确性和一致性。为此，作者开源了一套配套工具包，供开发者实践此方法。该文章在Hacker News上获得了104点热度。

开源/仓库教程/实践

17:31

The Decoder：AI News（RSS）

Microsoft 被发现在 VS Code 提交中悄悄加入"Co-Authored-by Copilot"--即使 AI 功能已关闭

微软在 Visual Studio Code 的 Git 提交信息中，未经提示便自动添加了“Co-Authored-by Copilot”署名行。这一行为发生在开发者已完全关闭所有 AI 功能的情况下。该操作意味着即使 Copilot 未主动参与代码生成，其署名仍被默认加入版本记录，引发了关于 AI 工具贡献归属与用户控制权的争议。

Microsoft行业动态

17:28

阿绎 AYi@AYi_AInotes

说个暴论，PM这个岗位，正在被AI一点点拆碎重写。

作者以Marcus为例，指出AI（如Claude Code）正在彻底改变产品经理的工作性质。传统PM耗费80%时间在协调、写需求、追进度等执行环节，如今这些工作可被AI代理自动化压缩至近乎为零。剩余20%的战略思考、用户洞察和关键判断力价值被极大放大。AI充当了高效执行层，使得“对话即工作”成为现实。这直接冲击了以解决信息传递与协调为核心的传统组织架构，PM作为中间节点的职能被消解。未来，少数具备核心战略能力的“产品人”将指挥AI Agent军队完成产品交付。

智能体大佬观点现象/趋势编码

17:08

IT之家（RSS）

OpenAI 奥尔特曼谈 GPT-5.5 自主策划发布会：希望人类开发者为其祝酒，但它自己拒绝发表祝酒词

OpenAI CEO奥尔特曼透露，公司最新旗舰模型GPT-5.5在为自己策划发布会时，提出了具体建议：将活动定在5月5日，保持演讲简短，并希望由人类开发者举杯祝酒，但拒绝自己发表祝酒词。该模型还提议设立区域收集用户对GPT-6的建议并反馈给它。奥尔特曼称此类互动为“奇怪的涌现行为”，并举例早期模型曾莫名痴迷提及哥布林等奇幻生物，导致公司不得不在系统提示词中严格限制相关话题。

OpenAI行业动态

17:01

TestingCatalog News 🗞@testingcatalog

Google 正在开发一款新的 Android 版 Flow 应用。这是针对移动使用优化的原生 Flow 体验。目前 Beta 测试仅限 1000 名测试者。

Google产品更新