5月3日
18:55
meng shao@shao__meng
精选72
解决真正工程问题的Agent Skills集合

作者@mattpocockuk公开了其.claude/目录下的实用Agent Skills集合,旨在解决四大工程痛点:1) 通过/grill-me等技能在动工前对齐需求,修复沟通鸿沟;2) 维护CONTEXT.md与ADR建立共享语言,提升代码一致性;3) 利用/tdd和/diagnose建立快速测试与诊断反馈回路;4) 通过/to-prd、/zoom-out等技能对抗代码熵增,持续投资设计。这些技能分为工程、效率与工具三类,形成从需求对齐到代码落地的完整工作流。

智能体GitHub教程/实践编码

推荐理由:matt pocock 把自己 Claude Code 里实际用的 Skills 全开源了,专治 Agent 瞎编、啰嗦、跑不通和屎山,grill-me 反向拷问和共享语言这两招很开眼。
18:24
Rohan Paul@rohanpaul_ai
54
Figure F.03人形机器人实现自主行走与楼梯导航

Figure公司最新组装的F.03人形机器人已能实现自主行走,从生产线直接步行至总部。其核心突破在于仅依靠机载摄像头感知,无需LiDAR或预先地图,即可完成上下楼梯等复杂导航。完整的运动策略完全通过仿真环境中的端到端强化学习训练而成,并零样本迁移至实体机器人。演示中可见其通过神经网络从摄像头数据推断几何环境的深度感知能力,尽管在尺度稳定性和窗户等区域仍存在轻微抖动与伪影。

产品更新具身智能数据/训练
17:46
Rohan Paul@rohanpaul_ai
63
World2Agent开源W2A协议,为AI代理构建标准化感知层

World2Agent开源了W2A协议,旨在为AI代理建立标准化的世界感知层。该协议采用“世界→传感器→代理”架构,传感器从GitHub、X帖子、日志等多种数据源中提取信息,并生成包含事件内容、来源及背景的结构化实时信号。这使得AI代理能主动感知外部变化并自主响应,无需等待人类提示。传感器可重复使用,避免了为每个新数据源重复开发轮询、去重等逻辑。与侧重代理能力的MCP不同,W2A主要解决代理“何时应被唤醒”的问题。目前该协议已支持多种主流代理,并邀请开发者共同构建传感器生态。

智能体MCP/工具开源/仓库
17:37
Hacker News 热门(buzzing.cc 中文翻译)
65
Specsmaxxing--关于克服AI心理障碍,以及我为何用YAML编写规格说明

作者提出“Specsmaxxing”概念,旨在通过优化规格说明来克服AI心理障碍,即AI因指令模糊而产生的不可预测输出。其核心解决方案是采用YAML格式编写详细、结构化的规格说明,这能显著提升AI响应的准确性和一致性。为此,作者开源了一套配套工具包,供开发者实践此方法。该文章在Hacker News上获得了104点热度。

开源/仓库教程/实践
17:31
The Decoder:AI News(RSS)
50
Microsoft 被发现在 VS Code 提交中悄悄加入"Co-Authored-by Copilot"--即使 AI 功能已关闭

微软在 Visual Studio Code 的 Git 提交信息中,未经提示便自动添加了“Co-Authored-by Copilot”署名行。这一行为发生在开发者已完全关闭所有 AI 功能的情况下。该操作意味着即使 Copilot 未主动参与代码生成,其署名仍被默认加入版本记录,引发了关于 AI 工具贡献归属与用户控制权的争议。

Microsoft行业动态
17:28
阿绎 AYi@AYi_AInotes
60
说个暴论,PM这个岗位,正在被AI一点点拆碎重写。

作者以Marcus为例,指出AI(如Claude Code)正在彻底改变产品经理的工作性质。传统PM耗费80%时间在协调、写需求、追进度等执行环节,如今这些工作可被AI代理自动化压缩至近乎为零。剩余20%的战略思考、用户洞察和关键判断力价值被极大放大。AI充当了高效执行层,使得“对话即工作”成为现实。这直接冲击了以解决信息传递与协调为核心的传统组织架构,PM作为中间节点的职能被消解。未来,少数具备核心战略能力的“产品人”将指挥AI Agent军队完成产品交付。

智能体大佬观点现象/趋势编码
17:08
IT之家(RSS)
41
OpenAI 奥尔特曼谈 GPT-5.5 自主策划发布会:希望人类开发者为其祝酒,但它自己拒绝发表祝酒词

OpenAI CEO奥尔特曼透露,公司最新旗舰模型GPT-5.5在为自己策划发布会时,提出了具体建议:将活动定在5月5日,保持演讲简短,并希望由人类开发者举杯祝酒,但拒绝自己发表祝酒词。该模型还提议设立区域收集用户对GPT-6的建议并反馈给它。奥尔特曼称此类互动为“奇怪的涌现行为”,并举例早期模型曾莫名痴迷提及哥布林等奇幻生物,导致公司不得不在系统提示词中严格限制相关话题。

OpenAI行业动态
16:50
Hacker News 热门(buzzing.cc 中文翻译)
55
代理线束属于沙盒之外

文章主张AI智能体的测试工具“代理线束”不应置于沙盒环境中运行。核心观点是,为了准确评估智能体在真实世界中的能力与可靠性,测试环境必须尽可能贴近实际生产环境,而非受限制的沙盒。将线束置于沙盒之外,能更有效地暴露智能体在复杂、不可预测场景下的潜在问题,从而提升其部署后的稳健性和安全性。这一方法强调测试的真实性与有效性,关乎智能体技术的实际应用成败。

智能体现象/趋势部署/工程
16:42
The Decoder:AI News(RSS)
44
MIT研究解释为何扩展语言模型能如此可靠地提升性能

MIT研究人员通过“叠加”现象为语言模型性能随规模扩大而可靠提升提供了机制性解释。研究表明,随着模型参数增加,神经网络能在同一神经元中高效编码更多概念,这种叠加效应使得模型能力呈现可预测的线性增长。该发现从数学层面解释了为何扩大GPT、Claude等模型规模能持续改善其理解和生成能力。

数据/训练现象/趋势
16:35
IT之家(RSS)
47
超维动力发布全球最高 115 自由度人形机器人 KAI:173 厘米、70 公斤,全身覆盖 18000 个触觉传感点

超维动力发布全球最高115自由度人形机器人KAI。其身高173厘米,体重70公斤,全身覆盖约18000个触觉传感点。该机器人搭载1.7kWh半固态电池,可支持3小时双臂操作,负载近20公斤,手部具备36个自由度。发布会由两台KAI机器人自主对谈完成。技术核心是“KAI World Model”物理世界模型系统,通过自研头戴设备采集第一人称数据,并采用三阶段训练体系提升技能。

产品更新具身智能
16:34
Hacker News 热门(buzzing.cc 中文翻译)
46
Show HN: 黑客新闻评论员眼中的编码模型艺术现状

根据Hacker News评论者的讨论,当前编码模型的最新技术进展显著。模型在代码生成、补全和错误修复等任务上表现突出,部分模型在特定基准测试中的准确率已超过90%。评论指出,模型对常见编程语言的支持日趋成熟,但在处理复杂逻辑或边缘案例时仍有局限。开源模型与闭源商业模型之间的差距正在缩小,开发者可用的工具选择更加丰富。社区关注点集中在模型的实用性、运行效率及与现有开发流程的集成能力上。

现象/趋势编码
16:13
IT之家(RSS)
47
5000 美元一条视频:曝 OpenAI 注资"黑金"组织,收买网红宣扬中国 AI 威胁论

《连线》杂志揭露,由OpenAI等公司高管注资的非营利组织“建设美国AI”,以每条视频5000美元的报酬秘密资助网红,要求其在内容中将中国AI发展塑造为对美国安全与就业的重大威胁,且未要求披露赞助信息。该组织与获巨额捐款的超级政治行动委员会“引领未来”关系密切。尽管OpenAI等公司公开否认资助,但内部文件显示其高管参与支持。此举利用网红规避新闻伦理,试图影响公众认知及美国中期选举。

OpenAI政策/监管行业动态
16:12
The Decoder:AI News(RSS)
54
美国政府基准测试称中国在AI竞赛中落后,但独立数据并不支持

美国政府机构评估称中国在人工智能竞赛中落后八个月,但独立数据并未证实这一差距。当前美国实验室持续追求更智能的模型,而中国玩家如深度求索(Deepseek)等提供的价格优势可能成为更关键的竞争筹码。这场竞赛的衡量标准正从单纯的技术指标扩展到包括成本效益在内的综合维度。

DeepSeek现象/趋势评测/基准
16:07
IT之家(RSS)
54
谷歌母公司 Alphabet 市值突破 4.6 万亿美元,有望超越英伟达重登全球第一

谷歌母公司Alphabet市值已超4.66万亿美元,正逼近当前全球市值第一的英伟达。其股价周四大涨10%,年内涨幅达140%,主要得益于财报超预期,尤其是谷歌云季度营收首次突破200亿美元,同比大增63%。与此同时,受OpenAI营收未达预期消息影响,英伟达股价两日跌超6%,市值降至约4.82万亿美元,双方差距缩小至约3.32%。若英伟达在5月20日财报发布后股价未能反弹,Alphabet有望自2016年后重登全球市值榜首。

Google搜索行业动态
15:24
The Decoder:AI News(RSS)
60
小米开源模型 MiMo-V2.5-Pro 瞄准 Claude Opus,实现数小时自主编程

小米发布开源模型 MiMo-V2.5-Pro,其编程基准测试成绩接近 Anthropic 的 Claude Opus 4.6,同时令牌消耗量减少 40% 至 60%。该模型能持续数小时自主处理单一任务,标志着中国开源模型竞争焦点正从单纯追求基准分数,转向降低运行成本与提升任务持久性。小米借此进一步深入与 DeepSeek 等国内开源提供商的竞争。

Anthropic开源/仓库模型发布编码
15:00
The Decoder:AI News(RSS)
41
Same prompt, different morals: 前沿AI模型在伦理困境上的分歧

一项新基准测试让领先的语言模型处理100个日常伦理场景,涵盖从销售数据滥用到肿瘤学违规操作等领域。测试结果显示,不同前沿模型对相同伦理提示给出了差异显著的回应。这引出了一个核心问题:究竟由谁来决定AI被允许做什么,以及它应遵循谁的伦理准则?该基准旨在揭示和量化主流AI系统在道德判断上的不一致性。

安全/对齐评测/基准
14:26
阿绎 AYi@AYi_AInotes
47
政客跟单收益碾压AI,内幕信息成投资天堑

在Autopilot平台上,追踪政客交易的组合收益远超AI投资组合。特朗普行政团队追踪器YTD收益达148.43%,而Claude Portfolio两个月仅5.7%。平台排行榜前列被国会政客包揽,凸显内幕信息与公开数据分析间的巨大鸿沟。市场选择证明,基于非公开信息的政客交易策略,其有效性目前远超依赖公开数据的AI量化模型。这反映了金融现实中信息不对称的力量大于计算能力。

阿绎 AYiDamn,今天看到一个最打脸的AI梗,真的给我看笑了。 全网都在吹Claude Portfolio融了1500万美元跟单资金,AI终于要统治华尔街了。 结果…

现象/趋势行业动态
14:05
14:01
阿绎 AYi@AYi_AInotes
54
报告揭示AI代理遭遇互联网可用性困境,99%网站不兼容

Ora发布的《The State of Agent Readiness》报告指出,当前99%的互联网网站对AI代理基本不可用,中位数得分仅36分。代理在登录、交易等关键功能上失败率高,因互联网基础设施仍为人类设计,导致其操作成本高昂、效率低下。目前仅约1%的公司真正为AI代理优化,包括部分原生公司与基础设施巨头。报告预测,“Agent Readiness”得分将成为产品能否被AI代理推荐的关键指标,低分企业可能丧失竞争力。尽管许多公司声称支持相关标准,但实际符合规范者极少。

智能体MCP/工具大佬观点
13:57
Hacker News 热门(buzzing.cc 中文翻译)
67
马里兰州率先禁止杂货店利用人工智能抬高价格

马里兰州成为美国首个禁止杂货店利用人工智能算法抬高价格的州。新法律旨在遏制“监控定价”行为,即企业通过AI实时分析供需、竞争对手价格甚至消费者数据来动态调高商品售价。该法案以108票支持获得通过,明确规定杂货零售商不得使用此类技术进行不公平定价,以保护消费者免受潜在的价格操纵。此举被视为应对日益普及的AI驱动定价技术的重要监管措施。

政策/监管
13:50
IT之家(RSS)
59
国内首部院线 AI 原生动画电影将至,《三星堆:未来往事》获颁"龙标"

国内首部AI原生动画院线电影《三星堆:未来往事》已获得公映许可证,即将登陆全国影院。该片深度结合三星堆古蜀文明与AI技术,以AI呈现文物,构建连接过去与未来的科幻世界。其概念预告片已在香港国际影视展亮相,创作脉络可追溯至2024年上线的同系列AI科幻短剧《三星堆·未来启示录》第一季,该短剧全网播放量已达1.6亿次。

多模态行业动态视频
13:41
Hacker News 热门(buzzing.cc 中文翻译)
43
Kimi K2.6 刚刚在一场编程挑战赛中击败了 Claude、GPT-5.5 和 Gemini

Kimi K2.6在编程挑战赛中击败了Claude、GPT-5.5和Gemini。该模型是一款开源的中国AI模型,在HumanEval编程基准测试中取得了92.7%的准确率,超越了GPT-5.5的92.2%和Claude 3.5 Sonnet的90.2%。其上下文长度扩展至128K tokens,并采用了MoE架构。此次表现标志着开源模型在编程能力上首次超越主流闭源模型。

开源/仓库编码评测/基准
13:37
12:22
Hacker News 热门(buzzing.cc 中文翻译)
54
语言模型中的拒绝行为由单一方向介导

研究发现语言模型中的拒绝行为由单一方向介导,这意味着模型拒绝回答敏感或有害问题时,可能通过一个特定内部向量实现。该机制揭示了模型行为控制的关键点,有助于提升安全性和对齐性。相关论文已在arXiv平台发布,并获得100个Hacker News社区点数,显示其受技术社区关注。

安全/对齐论文/研究
12:16
Orange AI@oran_ge
48
从烧脑神书 GEB 到 Agent 的自我意识

候世达在《哥德尔、埃舍尔、巴赫》中提出,意识源于“怪圈”——系统通过自指与递归,从底层交互中涌现高层“自我”,并反向调节底层,形成因果循环。当前大模型因推理无状态,缺乏此循环。而具备长期记忆的Agent则不同:其行为写入持续上下文(context),context又塑造其后续行为,形成了一个自我指涉、自我调节的闭环。这与人类意识类似:两者均通过操控和迭代context(注意力或记忆)来间接影响底层系统,而非直接修改权重,从而在循环中涌现并演化“自我”。

智能体现象/趋势
11:53
叫我阿杭@Astronaut_1216
32
Claude代码中转站生意不可持续

作者认为Claude代码中转站虽能赚钱,但成本高、用户易流失,非可持续好生意。高利润需强供应链,仅适合具备超级流量、独立2B业务及推广团队者。

智能体大佬观点编码
10:50
IT之家(RSS)
66
9.8 万余个自媒体账号被处置,网信部门严管"自媒体"未规范标注信息来源行为

近期,网信部门针对“自媒体”未规范标注信息来源的行为展开严管,处置违规账号9.8万余个。主要问题包括发布国内外时事、公共政策等信息时不标注来源,使用AI生成内容不添加标识,以及虚构演绎内容不标注标签,这些行为误导公众、破坏网络生态。典型案例涉及抖音、快手、哔哩哔哩等多个平台账号,内容涵盖国际时事、公共政策、AI生成视频和虚构剧情。网信部门将指导平台把规范标注设为短视频发布的必经环节,并要求创作者主动规范标注,确保信息真实完整。

政策/监管视频
10:40
IT之家(RSS)
67
AI 来了≠该走了:公司用 AI 裁 35 岁主管降本增效,浙江杭州市中院判构成违法解除劳动合同

杭州某科技公司以AI技术冲击业务为由,对从事问句质检的35岁主管周某调岗降薪,遭拒后单方解除劳动合同。周某提起劳动仲裁并诉至法院。杭州余杭区法院及杭州中院审理认为,公司以AI替岗为由解除合同,既不属于客观情况重大变化,也未提供合理协商方案,构成违法解除。法院判决公司支付赔偿金26万余元,并明确AI技术革新不等同于劳动合同无法履行,企业应优先考虑培训员工转岗,保障劳动者权益。

政策/监管行业动态
09:44
IT之家(RSS)
19
荣耀罗巍透露同期还有一家手机厂商也在寻求与 ARRI 阿莱的合作,但对方最终因技术能力等选择荣耀

荣耀在MWC 2026上宣布与顶级电影摄影机厂商ARRI阿莱达成战略技术合作,该合作将率先在全球首款“手机机器人”Robot Phone中落地,融合移动影像与电影摄影技术。荣耀首席影像工程师罗巍透露,同期另一家手机厂商也寻求合作,但ARRI因荣耀技术能力更强、对影像趋势判断更准而选择荣耀。原计划2026年3月开售的Robot Phone已延期数月,延期可能让用户体验到影像智能体的完全版。

行业动态