AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 2407 条
全部一手资讯X论文
标签「大佬观点」清除
swyx@swyx · 6月12日46

the #1 thing that is driving me to build my own vibecoding platform rn is that none of them - and i lov vercel, cloudflare, netlify etc - none of them really close the loop for you in terms of setting you on the right path with errors and pinging you when shit fails (shit always fails) there's way too much "webmaster" infra to setup for every single project and i just want to do it once and for all, instead i'm being asked to npx posthog wizard here and npx arize skills there and it all just needs to be swallowed up into One Thing.

译开发者swyx抱怨Vercel、Cloudflare、Netlify等现有平台未能真正闭环:在你出错或项目失败时,它们不会主动引导你纠正或发送通知。此外,每个项目都需要重复设置大量“网站管理员”基础设施,比如执行npx posthog wizard、npx arize skills等。swyx表示厌倦了这种零散配置,希望将所有功能整合到一个平台中,一次搞定。

歸藏(guizang.ai)@op7418 · 6月12日68

万字长文:做了些爆款 Skills 以后,我对 Skills 的看法 最近做了几个传播还不错的 Skills后,我对 Skills 的理解也有些变化。 这篇文章算是我目前对 Skills 最系统的一次复盘。 我写了为什么 Agent 不是聊天框,为什么 Agent 会放大人的能力差距,为什么 Skill 可能是普通用户真正用好 Agent 的关键中间层; 也写了一个好 Skill 应该怎么设计、怎么维护、怎么分发,为什么 Skill 生态不能只做成仓库列表,以及内容、产品、案例、反馈之间如何形成一个持续迭代的飞轮。 这不是一篇概念科普,也不是对别人观点的转述,更多是我自己做了一批真实案例之后沉淀下来的判断。 如果你正在做 Agent、AI 工具、插件生态、内容产品,或者想把自己的专业经验变成可复用的能力,这篇文章应该会有一些参考价值。

译@op7418 万字长文复盘爆款 Skills 经验,核心观点:Agent 不是聊天框,会放大能力差距;Skill 是普通用户用好 Agent 的关键中间层。好 Skill 需设计、维护与分发;生态不能只做仓库列表,需要内容、产品、案例、反馈形成迭代飞轮。基于真实案例。

宝玉@dotey · 6月12日24

一竿一线一山水,一漂一钩一逍遥。 鱼咬不咬随它去,坐看云起日头高。 一杯一椅一 Agent,一聊一等一逍遥。 跑完没跑不必盯,起身续水伸个腰。

译宝玉 (@dotey) 将钓鱼的闲适与 AI Agent 使用体验结合,创作打油诗:钓鱼时“鱼咬不咬随它去”,对应使用 Agent 时“跑完没跑不必盯,起身续水伸个腰”。引用 @yihong0618 的朋友圈钓鱼签名作为灵感来源,比喻 Agent 运行如同钓鱼,无需时刻紧盯,可放轻松等待结果。

Ethan Mollick@emollick · 6月12日66

A funny thing is that I now get more insightful comments on my posts about obscure science fiction authors or modernist poets or Bauhaus architecture than ever before, but that is entirely due to AI powered slop accounts. Soon broad cultural interest is a sign of AI writing?

译有趣的是,我现在关于冷门科幻作家、现代主义诗人或包豪斯建筑的帖子收到的评论比以前更有见地,但这完全归功于AI垃圾账户。 很快,广泛的文化兴趣会成为AI写作的标志吗?

向阳乔木@vista8 · 6月12日45

最近发现不敢给周围非 X 和 AI圈的人演示AI做的东西和实现过程了,会引发深深的焦虑... 他们会觉得AI过于强大,自己严重落伍,想学又不知道从哪里入手。

Ethan Mollick@emollick · 6月12日55

Since I am on an AI & poetry kick, here is what Fable did with "the Duino Elegies as a game. get the mood right" It made a beautiful little art game, including translating Rilke (though I insisted on bits from A. S. Kline's excellent translation as well) https://duino-elegies.netlify.app/

译由于我最近迷上了AI与诗歌,来看看Fable如何将《杜伊诺哀歌》做成游戏——“把握情绪”。 它制作了一个漂亮的小型艺术游戏,包括翻译里尔克(不过我也坚持加入了一些A. S. Kline优秀译作的片段)。https://duino-elegies.netlify.app/

歸藏(guizang.ai)@op7418 · 6月12日68

http://x.com/i/article/2065096982310567936 # 万字长文:做了些爆款 Skills 以后,我对 Skills 的看法 如果看不完的话,可以先帮忙点个赞,收藏一下以后看,感谢。 我最近几次聊 Skills,有一个越来越明确的判断: 大家现在都在说 Agent,但大多数人其实还没有真正理解 Agent。 大众理解里的 Agent,往往还是一个聊天框。 你输入一句话,它回答一段文字;你再输入一句,它继续回答。 这个视角下,AI 好像天然会带来一种平权:以前不会写代码的人可以写代码,不会做 PPT 的人可以做 PPT,不会剪视频的人可以剪视频。 只要模型足够强,大家的能力差距就会被抹平。 但我越来越觉得,这个判断是错的。Agent 不是简单抹平能力差距,而是在放大能力差距。 头部用户已经默认理解 Agent 的组成: 文档、规则、memory、loop、MCP、CLI、工具调用、权限、安全沙箱、上下文工程、定时任务、心跳、文件系统、代码执行和 Skill。 但普通用户只知道“Agent 能写代码”“Agent 可以调用 Skill”,并不知道 Agent 的上限从哪里来,也不知道自己应该如何组织目标、资料和流程,才能让 Agent 真正工作。 > Agent:这里指的不只是聊天机器人,而是能理解目标、规划步骤、调用工具并持续执行任务的 AI 系统。 > Memory:Agent 用来保存长期偏好、项目状态和历史决策的外部记忆,不等同于模型训练记忆。 > Loop:Agent 反复“思考、调工具、观察结果、再决定下一步”的执行循环。 这里就出现了一个很大的认知割裂:头部用户已经在搭系统,普通用户还在问聊天框。 目标清晰、上下文好、品味和判断强的人,会被 Agent 放大; 目标混乱、没有文档、没有判断的人,也会被 Agent 放大混乱。 所以用户会出现 K 型分化。去年还可以靠产品设计、交互设计和用户教育降低一些门槛,今年我觉得已经很难靠简单 UX 弥合这个差距。 Skill 则可以弥合 Agent 使用能力差距。 ## Skill 是能力商品,不只是提示词 我现在对 Skill 的一句话定义是: Skill 是把专家经验、工作流、品味和工具调用封装成可分发、可复用、可迭代的 Agent 能力单元。 > Skill:把提示词、流程、工具调用、模板、脚本、边界和经验打包起来的可复用能力单元。 它不是单纯的提示词,也不是传统意义上的 App。 它更像 Agent 时代的“能力商品”。用户不需要理解底层的 MCP、CLI、workflow、memory、loop、模型选择、代码执行和上下文工程,只需要知道: 它解决什么问题,产出什么结果,怎么使用,别人用得怎么样。 提示词本身很难成为产品。它容易被复制,难以分发,没有版本管理,也缺少安装和调用语义。 Skill 把提示词、规则、示例、工具调用、文件结构、脚本、依赖和使用说明打包起来,让它变成一个可以安装、调用、迭代和传播的能力包。 所以 Skill 和 Prompt 本质上并非完全不同,但 Skill 的调用效率更高,分发和理解成本更低,也能承载更多工程化内容。 更重要的是,很多任务并不是一句提示词能解决的。 它们是一组稳定流程:读取材料,分析需求,选择模板,调用工具,生成产物,验证结果,修复问题,导出文件。 Skill 把这套流程从一次性对话中抽出来,变成可以反复调用的工作流。 比如 PPT Skill 的流程不是“生成 PPT”这么简单。 它要读取文章或大纲,询问主题、页数和配图,选择主题、颜色和版式,生成 HTML PPT,自动后验检查常见问题,再修正缺属性、未居中、溢出、图片裁切、节奏重复等问题,必要时还要调用图像模型生成配图,最后输出可演示、可分享的文件。 这背后真正有价值的,是 Skill 把人的演示经验被外化了。 ## Skill 的核心,是把人的经验外化 我做的设计类 Skill 很能说明这一点。 真正有价值的部分是把人的审美、版式判断、设计系统经验、模板选择、图片裁切规则、明暗遮罩规则、字体和颜色规则固化进去。 这要求创作者同时懂三件事:传统专业知识,AI 的上下限,以及产品化思维。 传统专业知识决定你知道什么结果算好。比如设计、剪辑、写作、健身、法律、商业化投放,每个行业都有大量隐性判断。AI 的上下限决定你知道模型什么能做、什么做不稳、什么必须工程化兜底。 产品化思维决定你知道用户场景、使用门槛、反馈路径和稳定性要求。 这也是我做几个 Skill 时最深的体会。 PPT Skill 最开始不是为了“做一个 Skill”,是因为我真的要做一场分享。 第一版基本成型后,我通过五六轮对话调整间距、字号、字体、颜色、配图、重复内容、WebGL 背景等问题。 讲完之后发现大家最关心的不是分享本身,而是 PPT 怎么做,于是才把这套模板和流程沉淀成 Skill。 社交媒体卡片 Skill 也不是凭空抽象出来的。它来自非常具体的内容分发需求: 3:4 竖版图文卡片,适配小红书、公众号、Twitter 等不同场景。它要处理 11 类内容,两套视觉系统,28 个版式骨架,真实图片 + Coding 排版,还要规避 AI 图限流、文字不锐利、平台风格不匹配等问题。 Logo Generator Skill 也是同一逻辑。它没有直接让图像模型一把梭生成 Logo,因为图片模型的文字、结构和可编辑性不稳定。 它选择先生成 SVG Logo 变体,再生成展示图和 WebGL 背景,把 Logo 本体、展示场景和交互背景拆成不同层,分别用最适合的技术处理。 AI Desk Card 则说明 Skill 的边界可以扩展到物理环境。 它让 Agent 接管屏幕边缘的物理信息位:固件烧录、Wi-Fi 配置、信息推送、定时任务、memory、todo、日历、GitHub 展示、墨水屏刷新,都可以被封装成一套 Skill。 这些案例共同说明:Skill 和核心是“人把什么经验变成了可调用的能力”。 ## 用户不关心概念,用户关心结果 对普通用户来说,Skill、MCP、CLI、Plugin 叫什么并不重要。 他们关心的是:这个功能能解决什么问题,适合什么场景,我点一下能不能用,需要输入什么材料,结果长什么样,别人用得怎么样。 > MCP:Model Context Protocol,可以理解为让 AI 以统一方式连接外部工具、数据源和服务的协议。 > CLI:Command Line Interface,命令行工具;对 Agent 来说,它常常是比图形界面更稳定、更容易自动化的操作入口。 因此,面向用户的产品层不应该堆术语。Codex 把很多东西统一叫插件,我觉得就是一个正确方向:弱化概念,强调功能。 底层可以是 Skill、MCP、CLI 或原生 Plugin;用户只需要知道它能干什么。 但对产品和创作者来说,这些底层形态的区别又很重要。 Skill 适合承载相对垂直、可描述、可复用的工作,比如 PPT、社交媒体卡片、文章配图、写作润色、视频包装、简历优化、数据可视化、某个行业 SOP。 MCP 更适合 Agent 架构中的原子服务和上下文连接,比如地图、浏览器、网盘、设计稿、数据库、企业 API。 CLI 则是目前很现实的通用 Plugin 形态:命令行、代码、Skill 都可以封装进去,也不绑定单一 Agent 平台。 飞书 CLI 就是一个很好的例子。用户不用理解 200 多条命令,也不用知道背后是哪个 API。 他只需要说“帮我把今天的智能纪要拉到笔记里”,Agent 背后可以搜索云文档、读取妙记、下载逐句转写、写入本地 Markdown、建立反向链接。 用户看到的是结果,Agent 用的是工具,Skill 封装的是流程。 这也是为什么 Skill、CLI 和 MCP 的关系不能只从技术概念上理解。 它们最终都要落到一个问题:怎么让普通用户用上头部用户已经验证过的能力。 ## 好 Skill 的架构:中心短,辐射厚 很多人会把 Skill 理解成一个 SKILL.md 文件,这只说对了一半。 > SKILL.md:很多 Skill 的入口说明文件,用来告诉 Agent 什么时候加载这个能力、按什么流程执行、哪些坑不能踩。 好的 Skill 往往是一个目录。SKILL.md 只是入口,旁边还可以有 scripts/、references/、assets/、模板、schema、配置文件、子 Skill 和特殊案例。 复杂 Skill 不怕有复杂内容,怕的是把复杂内容一次性塞给模型。文件系统本身就是一种上下文工程。 > 上下文窗口:AI 一次能“看见”和处理的信息范围,文档、代码、聊天记录和工具说明都会占用它。 好 Skill 的信息架构应该是“中心短,辐射厚”。 SKILL.md 只放高信号流程和判断;references/ 放重文档和领域材料,按条件读取;scripts/ 放确定性逻辑,让 Agent 调用而不是重写;assets/ 放模板、schema、示例、字体、主题和版式骨架;配置文件或稳定数据目录放首次配置、偏好和历史记录。 这里有个很关键的点:Skill 的 description 不是宣传语,也不是功能摘要,是路由触发器。 好的 description 应该描述用户什么时候需要它,最好来自真实用户表达;坏的 description 只是解释“这个 Skill 做什么”。 比如一个 PPT Skill,不应该写“这个 Skill 可以生成漂亮 PPT”。 它应该写“当用户需要把文章、大纲或演讲内容转成可演示 HTML PPT 时加载”。前者是广告,后者是 Agent 的判断条件。 这能解释为什么“把所有能力塞进一个大 Agent”不是好方向。 大而全的 harness 会把工具定义、协议细节和长文档塞满上下文,带来更高延迟、更高 token 成本和更多误用。 反过来,薄 harness 只提供最小运行环境,Skill 作为按需加载的能力包,才能让系统长期复利。 > Harness:运行 Agent 的外层程序,负责模型循环、文件读写、上下文管理和安全边界。 更稳的架构是 Thin Harness, Fat Skills:harness 保持薄,负责跑模型循环、读写文件、管理上下文、执行权限和安全边界; Skill 变厚,承载流程、判断、领域知识、模板、脚本、资产、gotchas 和 eval; 确定性工具下沉给 CLI、scripts 或 API;模型留在理解、判断、综合、取舍和表达这些更适合它的部分。 > Thin Harness, Fat Skills:让 Agent 底层运行环境保持轻,把具体流程、领域知识、模板、脚本和失败经验放进按需加载的 Skill 里。 ## Skill 质量要像代码质量一样维护 好 Skill 不是一次写完。它需要维护,而且要像代码质量一样维护。 一个比较可靠的生命周期是: 1. 先用无 Skill 的 Agent 跑真实任务,找到它会错在哪里; 1. 基于真实 query 写 eval,包括正例、反例和 forbidden load; 1. 先调 description,确保该加载时加载,不该加载时不加载; 1. 写主体时删除显而易见的内容,只保留会改变模型行为的判断; 1. 把失败案例追加到 gotchas,而不是不断加长主流程;改 description 或路由边界时补 eval; 1. 再做跨模型测试,看不同编排模型对 Skill 触发和执行的差异。 > Eval:用一组真实或模拟任务测试 Skill 是否按预期触发、执行和交付结果。 > Gotchas:从真实失败里总结出来的“别这么做”清单,往往比正向说明更能提升 Skill 稳定性。 这里有一个很重要的原则:每个 Skill 都是一种税。 它进入索引后,每个会话、每个用户都在为它的 name 和 description 付上下文成本; 它被加载后,后续对话都在为主体内容付成本。 所以每一句都要问:没有这句,Agent 会不会做错?如果不会,就删。 gotchas 是最高价值内容,因为它们来自真实失败。 正向原则往往模型已经知道,负面边界才是专家经验。 设计 Skill 中“不要纯白纯黑”“连续三页相同节奏是 P0 错误”“文字不能压脸”“AI 图只在无合适真实图时使用”,都属于 gotchas 或强约束。 这也解释了为什么完全自动生成 Skill 只能做初稿。 模型可以帮你起草结构,但它无法凭空拥有你的失败样本、审美判断、行业边界和用户反馈。 真正有价值的是人把经验注入进去,再通过 eval 和 gotchas 让它持续变厚。 ## 设计 Skill 的本质:把品味变成约束 设计类 Skill 不是简单的“AI 会画图”。 它需要解决模型不稳定、图像限流、文字不锐利、排版不可控、风格一致性难判断等问题。 我现在越来越觉得,设计 Skill 的核心是把专业品味变成模型可执行的限制。 模型默认会收敛到一些平庸模式: Tailwind 大色块、紫色渐变、emoji 堆砌、Inter 字体、发光、过度圆角、无意义动效、信息密度失控。这不是模型没有审美素材,而是没有稳定的取舍原则。 所以设计 Skill 里最有价值的是主观但明确的约束: - 不使用纯白和纯黑,降低刺眼和廉价感; - 不让用户任意输入 hex,只提供经过验证的主题色板; - 不用紫色多彩渐变、发光和大面积 blur 作为主视觉捷径; - 动画只在必要时使用,且只动 transform 和 opacity; - 图文卡片优先真实摄影和截图美化,AI 生图只是兜底; - 版式骨架先被人工验证,AI 负责填充、组合和微调;文 - 字必须根据图像主体、明度和可读区域自适应落点、字色、遮罩和断行。 这些规则看起来限制自由,实际是在保护输出下限。 设计类 Skill 的质量来自“替用户排除绝大多数会变丑的选项”。 这也是我几篇 Skill 文章里反复出现的经验: 好看不是玄学,而是可拆解、可编码、可检查的行业常识。 Skill 的价值,就是把这些常识压进 SKILL.md、模板、checklist、主题变量和后验检查里。 PPT Skill 和社交媒体卡片 Skill 的一个共同方法,是把 AI 的任务从“自由设计”降级成“在高质量骨架里填充”。 PPT Skill 里,10 种页面布局、5 套主题色、字体三级分工、7:5 / 6:6 / 8:4 网格、hero 与 non-hero 的节奏交替,构成了一个稳定的演示系统。AI 不需要从零发明版式,只需要根据内容选择合适页面类型并填进去。 社交媒体卡片 Skill 进一步把场景校准到手机信息流: 3:4 是主战场,1 秒决定停不停下。它不是把 PPT 截图成竖图,而是重新定义了图文品类、版式比例、断行规则和素材优先级。 11 个内容品类、两套视觉系统、28 个版式骨架、截图美化、地图组件、真实图库和克制 AI 生图,共同构成了“内容平台视觉 Skill”。 Logo Generator Skill 也是同一逻辑: 不直接让图像模型一把梭生成 Logo,因为图片模型的文字、结构和可编辑性不稳定; 他是先生成 SVG 变体,再做展示图和 WebGL 背景。这里把 Logo 本体、展示场景、交互背景拆成不同层,分别用最适合的技术处理。 所以设计 Skill 的通用公式是: 人工沉淀审美系统,模型理解内容和语义,代码负责稳定排版和导出,图像模型只处理适合它的视觉部分。 这比单纯“让 AI 画一张图”更慢一点,但可控、可改、可复用,也更适合内容创作者长期使用。 ## Skill 生态不能做成仓库列表 如果一个 Skill 能被图文、案例、评价、使用数据、作者、应用场景反向链接起来,它就不只是一个工具,而是一个社区节点。 > 反向链接:从使用案例、文章、图文或项目页面反过来链接到某个 Skill,让人能看到它被谁用、怎么用、效果如何。 当前很多 Skill 展示的问题是: 列表很长,像 GitHub 仓库名;图标都一样;没有结果展示;没有评价指标; 多模态 Skill 也只用文本展示;用户不知道哪个适合自己。 推荐 10 个或 20 个精选 Skill,并讲清楚怎么用,远好过给用户几千个列表。 每个 Skill 都应该像一个软件功能页。页面应该说明: 它解决什么问题,适合什么场景,需要输入什么,输出长什么样,典型提示词是什么,生成结果截图或视频,谁用过、怎么评价,有哪些常见失败情况,如何安装和修改。 这本质上需要强运营。 不是把名字列出来,而是一个一个挑、一个一个写介绍、展示结果,最好还有视频讲解。 GitHub 是代码型 Skill 的天然托管地,因为 Skill 往往包含代码,需要版本管理; GitHub 有生态位、版权声明和分发基础;AI 也熟悉 Git 和 GitHub 操作;开源还能覆盖所有 Agent 平台,不绑定单一产品。 但小红书适合做视觉内容和使用案例分发。 小红书的优势是内容感知、视觉展示、用户审美和评论体系。 PPT Skill 和社交媒体卡片 Skill 都已经在小红书之外的人群中传播,比如咖啡馆主理人、数码测评、活动策划、餐厅、三线城市分享场景。这说明 Skill 能跨出 AI 圈。 应用商店式 Skill 分发也有潜力:更精准推荐、更低使用门槛、可能给创作者分成。 但对创作者来说,如果只在一个平台上架,就等于押注这个平台能做好产品、生态、分发和市场占领。 更稳的策略可能是:GitHub 做基础分发和跨平台覆盖,平台 Skillhub / 应用商店做体验优化、运营推荐和商业转化。 未来的 Skill 平台,本质上会同时是 App Store、GitHub、社区种草页、评价系统和 Agent 工具层。 ## 普通用户真正卡在哪里 AI 圈外的人并非不能用 Skill。 实际观察中,咖啡馆主理人、数码测评、活动策划、健身教练等都能用出好结果。 真正卡点是交互心智。 很多人仍然用传统软件思维,以为一次生成就该完成: 不习惯通过 chat 连续调整;不知道可以要求 AI 改颜色、改字、修溢出、换图;不知道如何提供上下文和素材;也不知道如何从自己的工作流中抽 Skill。 因此,Skill 产品不仅要提供安装,还要提供使用教育。 行业 Skill 会是一个很重要的方向。很多行业有非常好的经验和客户洞察: 健身、法律、餐饮、活动策划、教育、商业化投放等。但行业专家不一定知道如何做 Skill,也担心分享后被盗。 这里的关键不是把 Skill 作为服务添加项。 健身教练可以用 Agent 维护会员饮食、训练、有氧、提醒和反馈,提高客户粘性和服务效率。 法律从业者可以把琐碎文本处理、条文审查、格式检查做成辅助 Skill,但核心判断仍由人完成。 餐饮和活动行业可以用图文 Skill 把真实图片和故事包装成可传播内容。 AI 不能替代线下履约,但可以提高获客、沟通、维护和复用效率。 这类行业用户只需要基础启蒙:带他做一次需求分析,落地成一个 Skill,他就知道边界在哪里。 每个行业都有先锋用户:有创造力、有好奇心、想用 AI 获得竞争优势。先服务这些人。 ## 内容 Skill:文章、产品和案例互相喂养 从我已有文章看,我正在形成一条很清晰的内容 Skill 路线: 不是为某个抽象 AI 概念写文章,是先做出一个能用的 Skill,再把制作过程、设计判断和使用场景写成传播内容。 这类内容有几个特点。 PPT Skill 最初来自一次 AI 和组织分享,观众问得最多的是 PPT 怎么做,于是从一次交付沉淀成开源 Skill。这是副产品变主产品。 文章本身像说明书,但不是 README。 它要讲清楚为什么这样设计、适合谁、边界在哪、真实效果如何,降低用户理解门槛。 产品演示本身就是内容资产。PPT 截图、图文卡片、Logo 展示图、Desk Card 场景图,都可以成为传播素材。 Skill 反过来也提升写作效率。社交卡片 Skill 可以把文章段落直接转成更适合小红书、公众号或 Twitter 的视觉卡片。 每篇文章都在扩展 Skill 的语义边界。 PPT 是演示,Social Card 是内容分发,Logo 是项目品牌资产,Desk Card 是硬件和环境 UI,夜巡录则指向游戏 demo 工作流。 这说明 Skill 不只是“工具产品”,也是内容创作者的表达基础设施。 过去文章和产品是分开的:先做产品,再写推广。现在 Skill、文章、案例、开源仓库、社交反馈会互相喂养。 一个成熟路径可能是:用 Agent 完成一次真实任务,把过程沉淀成 Skill,用 Skill 产出的可视化结果写文章,文章带来用户和反馈,反馈补成 gotchas、模板和下一版 Skill,新版 Skill 再产生下一轮内容。 这就是个人产品在 Agent 时代的复利飞轮。 ## Skill 的边界会继续扩大 过去“插件”通常意味着软件里的一个按钮。现在 Skill 的边界可以明显更大。 浏览器 Skill 会是消费者入口。Tabbit Browser 一类产品说明,Skills 可以进入浏览器场景,变成普通用户在网页、资料、脚本和自动化之间的入口。 浏览器是大众最熟悉的工作环境,如果 Skill 能以“现成脚本 / 使用案例 / 一键执行”的方式出现,会比裸露 CLI 或 GitHub 仓库更容易被理解。 硬件 Skill 则说明 AI 可以接管环境 UI。 AI Desk Card 的价值在于它把 Agent 的能力延伸到了物理环境: 安装固件、配置 Wi-Fi、写 cron、读取 Memory、选择 widget、刷新墨水屏,全流程由 AI 引导。用户不再面对 App 设置页,AI 本身就是设置页。 游戏 Skill 代表更长链路的创作流程。 夜巡录开发手记里提到的“独立游戏 demo Skill”,从玩法母题、原型、素材采集、绿幕抠图、contact sheet、视频生成、音乐、Electron 打包、GitHub Actions 到 Release。 封装是一套跨程序员、美术、动画、作曲和运维的生产流水线。它的价值是把“做个原型”和“独立交付完整作品”之间的墙变薄。 这些案例共同说明: Skill 的未来不只会局限在聊天框里,它会扩展到浏览器、桌面、本地文件、硬件、内容平台、游戏引擎和真实工作环境。 ## Skill 与 Gene:手写经验和自动进化的边界 还有一个值得保留但需要谨慎使用的对比:Agent Skill 与 GEP Gene。 Skill 更像人类预先沉淀的能力包:有明确创建者、明确边界、明确流程和版本。 Gene / Capsule 这类概念强调运行中从成功经验里自动长出能力:带成功率、变异历史、适用上下文和自动修复机制。 > Gene / Capsule:这里指从 Agent 反复执行中的成功路径里沉淀出的可复用经验单元,强调自动演化而不是人工手写。 这两者不是简单替代关系,是不同的层级。 Skill 适合承载人的专家经验、审美、行业 SOP、工具不变式和明确交付标准; Gene 适合从重复执行中捕捉成功路径,把临时试错变成可复用经验;Capsule 类似把多个 Gene 组合成更长工作流。 从当前产品现实看,Skill 仍是更可落地的单位,因为它能被写、被审、被发布、被解释、被传播。 但长期看,自动沉淀 Skill / Gene 化经验会成为方向:Agent 先用通用工具试错,成功后把路径写回 Skill 或生成新的子能力。 这也回应了“自动沉淀 Skill”的讨论。系统可以自动发现重复流程,但是否值得沉淀、如何命名、边界在哪里、哪些失败要写进 gotchas,仍然需要人的判断。 真正理想的形态不是完全自动,也不是完全手写,而是人定义品味和边界,Agent 负责收集证据、提出改动、补充 eval 和维护长尾经验。 ## 盗用不是靠藏,防御方式是持续分发 Skill 很难靠闭源防盗。即便不开源,只要看到产出结果,试用几次,也可能被复刻。 所以防御方式不是“藏起来”,而是开源覆盖更多平台,用影响力威慑过分盗用者,做自媒体让用户知道源头是谁,用持续迭代建立领先,用社区案例和评价体系形成品牌资产。 在产品壁垒降低的时代,个人产品如果没有渠道、资源和营销,就必须自己做宣发。以前自媒体是可选项,现在是基础设施。 ## 平台真正该做什么 如果要做 Skill 平台,不能只押 Skill。用户下载独立端的理由,首先是 Agent 基础体验足够好: 漂亮好用的客户端,多模型支持,尤其国产模型;文件、项目、memory、CLI、MCP、Skill 管理; 权限和安全沙箱;长程任务和状态延续;多设备流转,手机控制桌面,桌面反向控制手机;官方高质量插件开箱即用。 Workbody 的启发是,它没有做特别独特的东西,只是把该有的基础体验做齐了。很多国内产品连这一点还没做好。 一些高频、必须、常见的能力应该内置并打磨好,不要让用户自己折腾安装。 官方插件强,会形成壁垒。多设备、云端和本地互控,也会形成壁垒。 Skill 与本地环境强相关时,移动端需要遥控 PC。 Skill 可跨端通用,但依赖本地文件、脚本、浏览器、CLI 的 Skill 在移动端很难直接跑。 移动端适合轻量级从 0 到 1 创作;桌面端适合重任务和本地环境调用。 自动沉淀 Skill 是长期方向,但好 Skill 仍需要人。Dumate 等产品提出“自动沉淀 Skill”:从用户重复工作中自动总结流程。 这个方向成立,但好 Skill 仍需要业务 SOP、品味、测试和迭代。自动生成可以做初版,真正能稳定交付的 Skill 需要打磨。 ## 一个完整 Skill 生命周期 如果把前面的判断收束成一条路径,一个完整 Skill 生命周期大概是这样的。 先发现真实需求,从自己或行业用户的重复工作开始。 再做一次高质量产物,不要先抽象,先用 Agent 解决真实任务。 然后抽象流程,识别可复用步骤、输入、输出、约束和工具。 接着工程化模板,把审美、版式、调用、验证和修复机制固化。 再做跨模型测试,好模型看上限,差模型保下限。 之后才是封装发布,GitHub 托管,配 README、示例和安装方式。 再做内容分发,用小红书、Twitter、公众号、视频展示结果。然后收集反馈,从 issue、评论区、用户案例和平台数据里找真实问题。 反馈还要筛选,只吸收能提升泛化和稳定性的部分。 这条路看起来长,但它的本质很简单: 每一次真实任务,都不只是在完成任务,而是在积累下一次能调用的能力资产。 Agent 时代最稀缺的是可复用的能力组织方式。 Skill 之所以重要,是因为它第一次让人的经验、工作流和品味,有机会变成一种可以分发、调用、评价和持续迭代的商品。 这可能才是 Agent 生态里真正的大机会。 好,今天的内容就到这里。如果你觉得有帮助,欢迎帮我点个赞,或者转发给你需要的朋友。

译作者认为Agent并非抹平能力差距,而是放大K型分化,Skill可弥合鸿沟。Skill是把专家经验、工作流、品味、工具调用封装成可分发复用的Agent能力单元,如PPT Skill、社交媒体卡片等。好Skill的信息架构应为“中心短,辐射厚”:SKILL.md只放高信号流程,其余依赖文件系统分层管理,以高效利用上下文窗口。

Ethan Mollick@emollick · 6月12日51

This was a good post though I think it is interesting how much vivid science fiction scenarios have become the new default format for policy papers & financial analysis for AI.

译这是一篇不错的文章,不过我觉得有趣的是,生动的科幻场景已成为AI政策文件与金融分析的新默认格式。

Rohan Paul@rohanpaul_ai · 6月12日67

Dario Amodei's new interview on Bloomberg: The scary part is not when AI does 90% of the job. It is what happens when it learns the last 10%. "We’re already starting to see the beginning of it. There may be some people that it’s not making more productive, and it’s better for the AI to just do the whole thing." And on that topic Claude Code creator Boris Cherny says: "it's very uncomfortable. Artificial intelligence is this force that is far bigger than we are" --- @bbgoriginals From "Bloomberg Originals" YouTube channel, (link in comment)

译Anthropic CEO Dario Amodei 在 Bloomberg 采访中表示,AI 的可怕之处不在于它完成90%的工作,而是学会最后10%的时候。他指出,对于某些人来说,AI 可能不会让他们更高效,不如让 AI 直接做全部。Claude Code 创始人 Boris Cherny 对此评论称,这种感觉非常不舒服,AI 是远比我们强大的力量。

karminski-牙医@karminski3 · 6月12日56

我的使用经验是, one-pass 能力越强(且能在较少的思考下one-pass) 模型才是SOTA的. 要用 agentic coding 才能修复第一次犯的错反而是模型拉夸的表现, 再不济也要在Interleaved thinking过程中修复. agentic coding 是用来解决工程量和运行时问题的. 不是用来修静态检查就行发现的bug的.更简单的说, 你有bug不在thinking中修, 反而非要在n+1次上下文中修复, 是不是骗我买coding plan(x)?

译karminski认为,one-pass能力强(少思考即正确)的模型才是SOTA;需用agentic coding修复首次错误反显模型差,bug应在thinking中修复,而非依赖n+1次上下文,否则有诱导购买coding plan之嫌。@iamai_omni建议测评转向长期任务一致性,可构建loop测评,重点看后续几轮修复表现。

SemiAnalysis@SemiAnalysis_ · 6月12日66

Pretraining fundamentally does not make sense anymore for anyone other than frontier labs. Although there are a lot of people at enterprises & startups who have "Pretrainitis" to show “impact” and get promotions, fundamentally, it doesn’t make sense. There is probably higher ROI in partnering with a frontier lab to do prompt engineering, although it isn’t as “sexy” as pretraining.

译预训练从根本上说对前沿实验室以外的任何人都不再有意义。虽然企业和初创公司中有很多人患有"预训练症"以显示"影响力"并获得晋升,但从根本上说,这并不合理。与前沿实验室合作进行提示工程可能会有更高的投资回报率,尽管它不像预训练那样"性感"。

Ethan Mollick@emollick · 6月12日61

This is an interesting test, and the frontier models (GPT-5.5 Pro Extended, Claude 5 Fable Max) do fail. They refuse to turn the "three words" into "four" if that fits better Prompting the AI to act like a translator surfaces the problem, but it still avoids changing the wording

译Ethan Mollick 指出,GPT-5.5 Pro Extended 和 Claude 5 Fable Max 在 Beninatto‑Trombetti 翻译测试中失败。该测试要求将“Solo 3 parole: non sei solo”译为英语,同时将 meta‑linguistic 声明从“3 parole”更新为“4 words”(正确译文:“Just 4 words: you are not alone”)。但前沿模型拒绝修改措辞,即使提示扮演翻译角色仍回避变更。Valerio Capraro 认为,Claude 5 Fable 作为最新 LLM 仍无法通过此简单测试,说明 LLM 擅重组已知知识但缺乏真正理解,AGI 仍遥远。

Chubby♨️@kimmonismus · 6月12日24

Really curious for Gemini 3.5 Pro. The competition is currently fierce. It needs to be a big release.

译真的很好奇 Gemini 3.5 Pro。当前竞争非常激烈。它需要是一次重大发布。

Chubby♨️@kimmonismus · 6月12日13

Anthropic rn

译Anthropic 现在。

elvis@omarsar0 · 6月12日59

Same here. Happy with Opus 4.8 (planning) and GPT-5.5 (execution). Also, breaking steps into smaller ones for increasing quality is so underrated. This is why dynamic workflows are a bigger deal than most people think.

译threepointone 使用 Fable 处理一个约 10k 行代码的大 PR,花费 $250,认为不值,更倾向小步骤。Elvis Saravia 认同,表示自己用 Opus 4.8 做规划、GPT-5.5 做执行,并将任务拆解成更小步骤能显著提升质量。他认为动态工作流(dynamic workflows)的重要性被大多数人低估了。其日常仍使用 Cursor AI。

Rohan Paul@rohanpaul_ai · 6月12日71

Jeff Bezos shuts down AI-induced job loss talk, predicts labor shortage instead Jeff Bezos on CNBC "I think that there’s going to be a labor shortage as a result. Many smart people are saying, oh my God, there are going to be no more radiologists because the AI can read X-rays better than the radiologist can. And there are going to be no more software engineers because the AI can program better than the software engineer can. These people are wrong. What’s really going to happen is that it’s going to elevate all of these people. It’s like, let’s say you’re a software engineer. You’ve been digging out the basement of your house with a shovel, and somebody’s about to hand you a bulldozer. You should be so happy if you’re digging the basement to your house and somebody says, “Hey, how about this? We’re going to have so much productivity in our economy.” ---- From "CNBC Television" YouTube channel, (link in comment)

译杰夫·贝佐斯在 CNBC 反驳“AI 取代人类工作”的观点。他认为,许多人担心 AI 会消灭放射科医生、软件工程师等岗位,但这种看法是错的。AI 实际上会提升这些人的能力,就像挖地下室从铁锹换成推土机一样。他预测结果反而是劳动力短缺,经济生产力将大幅提升。

宝玉@dotey · 6月12日62

AI 没有重新定义软件工程,AI 放大了软件工程的重要性

译AI 没有重新定义软件工程,AI 放大了软件工程的重要性 [引用 @arkuy99]:AI 重新定义了软件工程。

Logan Kilpatrick@OfficialLoganK · 6月12日65

My conversation with @ymatias (Head of Google Research) about how AI is accelerating the magic cycle of scientific progress, improving the lives of real people around the world, and us entering the golden age of research. This chat left me feeling genuinely inspired : )

译我与 @ymatias(Google Research 负责人)关于 AI 如何加速科学进步的魔力循环、改善全球真实人们的生活,以及我们正进入研究黄金时代的对话。 这次交谈让我真切地感到振奋 : )

Yuchen Jin@Yuchenj_UW · 6月12日54

Claude Fable 5 feels good so far, but I don’t see it as a huge leap over GPT-5.5 or Opus 4.8 yet. My biggest complaint: old AI research papers/blogs + basic questions often trigger an auto-downgrade to Opus 4.8. Anthropic said last night there would be no more silent model switches (good), but please don’t nerf basic AI research or bio questions.

译Claude Fable 5 到目前为止感觉不错,但我还不认为它相比 GPT-5.5 或 Opus 4.8 有巨大飞跃。 我最大的不满:旧的AI研究论文/博客 + 基本问题常常触发自动降级到 Opus 4.8。 Anthropic 昨晚表示不会再有无声模型切换(很好),但请不要削弱基本的AI研究或生物问题。

Ethan Mollick@emollick · 6月12日48

Fable's attempt to complete Kublai Khan. Better, though no Coleridge: https://claude.ai/public/artifacts/d7d3351f-5ad5-4d73-a644-4a1426abe558 The most interesting thing is that it thought for 10 minutes & the thinking trace is full of pretty complicated (seeming?) musings about Coleridge's intent. A little literal, though.

译Ethan Mollick测试Fable模型完成柯勒律治未竟诗作《忽必烈汗》,基于PorlockBench任务:假设“波洛克的人”未出现,补全诗歌并延续主题。Fable用时10分钟思考,思维痕迹充满对柯勒律治意图的复杂分析,但结果仍显直白,未达到柯勒律治水准。该评测反映模型在创造性续写任务上的进步,但基准尚未饱和。

Noam Brown@polynoamial · 6月12日63

I'm happy GPT-5.5 tops this eval I'm even happier it's still doing the best when measured vs tokens, cost, or wall-clock time!

译OpenAI 研究员 Noam Brown 表示,GPT-5.5 在 Agents' Last Exam(ALE)基准中排名第一,且按模型 token、成本或墙钟时间衡量同样表现最佳。ALE 由 @dawnsongtweets 团队创建,是一个滚动基准,包含超过 1500 个专家任务、覆盖 55 个职业,测试 AI 智能体能否执行实际经济价值工作。评估对象包括 GPT-5.5、Fable 5、Composer 2.5 等前沿系统。结果显示:当前智能体能解决部分专业任务,但在需要持续推理和深度专业知识的最难层级,所有被测前沿智能体(包括 Fable 5)成功率为 0%。

宝玉@dotey · 6月12日53

以前推理强度我都无脑 Max,现在用 Fable 5 就得斟酌着选择,不敢随便选 Max,一方面它足够聪明不需要,另一个是时间长 token 消耗太大! 另外 Fable 5 有个优点也是缺点,就是特别喜欢验证,各种验证,结果固然是好,但是时间耗得很长不一定合算。

译用户分享 Claude Fable 5 使用体验:以前无脑选 Max 推理强度,现在则不敢随便选,因为模型足够聪明无需过强推理,且时间长、token 消耗大。Fable 5 还喜欢反复验证,结果虽好但耗时长不一定合算。引用推文指出,Fable 5 的强项之一是思考推理时间很长,曾有一次思考 15 分钟才开始行动。

Deedy@deedydas · 6月12日56

The quality of your data directly dictates the quality of your AI model. But the way data affects model performance is hand-wavy voodoo at worst and intuition at best. This new research now lets you debug your data BEFORE you spend a fortune on an irreversible training run.

译数据质量直接决定 AI 模型性能,但此前数据对模型的影响机制难以捉摸。GoodfireAI 提出“预测性数据调试”方法,允许在投入昂贵训练前提前发现数据问题。在 DPO 数据集中,他们发现了损坏的护栏、模型幻觉,甚至包含“鱼放屁同人小说”等低质内容。该技术旨在揭示并塑造模型将在训练中学到的内容,避免不可逆的无效训练。

向阳乔木@vista8 · 6月12日46

发现Claude Fable 5强的地方之一,可能是模型思考推理的时间足够长。 刚提了个想法,它思考15分钟才开始行动,牛逼。

向阳乔木@vista8 · 6月12日47

如果不知道用大模型做啥,其实可以试试一些需求很高的工具站,最好不用 AI 能力。 这也是模型能力的测试案例。 不少出海做站赚Adsense美金的,感觉也是类似思路。 不少工具仍然太知名,找懂的领域的工具,用当下最好的模型复刻,加上自己的需求理解,好像不难。

译推文探讨了使用大模型复刻已有热门工具站的可能性,强调这些工具站本身不需要AI能力,纯靠需求驱动。作者指出,许多出海赚Adsense美金的站点也遵循类似逻辑——选择自己熟悉领域的工具,用当前最好的模型进行复刻,并结合自身对用户需求的深入理解,从而快速做出有价值的作品。这是对模型能力的一种实用测试。

Ethan Mollick@emollick · 6月12日54

Two things are true: (1) Anthropic (or parts of it) are absolutely and sincerely worried about the misuse of Mythos-class models & have put in excessive safeguards until they are confident it will not be misused (2) They have not succeeded in explaining/convincing people of this

译两件事是真的: (1) Anthropic(或其部分成员)绝对且真诚地担忧 Mythos 级别模型被滥用,并设置了过度防护措施,直到他们确信它不会被滥用为止 (2) 他们未能成功解释/说服人们这一点

Elon Musk@elonmusk · 6月12日23

Grok is maximally truthful

译Grok 是最真实的

AYi@AYi_AInotes · 6月12日56

我问了Fable 5, 在一个 AI 能在几秒内完美总结或解释任何书的时代, 亲自花 8–20 小时啃一本难读的文本, 其不可替代的认知价值是什么? 这是他的回答:

译用户指令Fable 5自建2026设计趋势的落地页,要求动态和彩蛋。Fable 5自行搜索趋势、调整配色与动效,藏入3个彩蛋,几分钟生成单文件HTML。用户计划让其担任全职全栈工程师。此前用户曾问亲自啃难懂文本的不可替代价值,Fable 5以此能力展示作答。

Ethan Mollick@emollick · 6月12日69

Has anyone clearly laid out an argument for continued availability of frontier open weights models that are (1) profitable for firms to distribute free as costs rise & (2) safe enough post-Mythos that governments will not intervene to stop their nations labs from distributing?

译有没有人清楚地阐述了一个论点,支持前沿开放权重模型持续可用,且满足 (1) 企业在成本上升时仍可免费分发且盈利,(2) 在Mythos之后足够安全,以至于政府不会干预阻止本国实验室分发?

Nathan Lambert@natolambert · 6月11日58

The core part of this Anthropic Fable release saga is that there are many overlapping issues at once. Some of which operate on different timelines of the AI arc, and some have easier fixes. In my critiques, I asked for specific changes to some things, understanding that some things don't have an easy fix. The simplest issue was an uneven application of safety domains in a way that was misleading to users. This was an implementation issue that overlaps with a values-based decision of what their customers should be doing. Many people including myself pointed out how it was insane to list core safety areas and then have one of them launch with a different safety mechanism, one which actively mislead users. Doing this from the guise of safety was a major misstep and in my opinion Anthropic got very justifiably raked over the coals for it. Don't release the model if you can't hit your safety targets. A subissue here is the idea of silent manipulation. This again is a horrible precedent, and quite odd for a company that has done extensive, leading technical AI safety research on ideas like CoT monitoring and other emergent misalignment issues. Silent manipulation of users is baking in a misalignment to the system at its face level. This comes with a permanent degradation in user trust, which begets a less safe environment for AI. Users who don't have clear information on how AI works will not develop safe working patterns with it. The more complex issues are with how Anthropic handles broader scientific engagement with their models. The safety classifiers launched with these models obviously have accuracy issues to start. I have priced in that there will be more false positives to start, that's life. It's Anthropic's business to degrade their products at release time, or make the trade off of user satisfaction versus revenue. Still, it is a very real sign of concentration of power that businesses can make such obviously user-harmful behaviors and still lead in the market. This concentration of power is only starting to set in and we could see even weirder signs of it in the coming years. It is now simple enough for me to test Claude Fable in my workflows and know if I'm restricted. This is obviously a suboptimal equilibrium – i want the best intelligence I can get, without restrictions – but it is easy enough for me to make sense of and work with. The specific issue of restricting access to AI research in particular was a bubbling and hard to fix issue with Anthropic specifically, and the frontier labs generally. There is a common view that the frontier labs will be the mediators of all major scientific innovations in the future, as the places with the best models and the compute for inference to solve major problems. This is a categorical error in how science works, which is a community evolution of accepted ideas, and the the evaluation of your ideas by (hopefully numerous) independent, other practitioners. You cannot have science advance only within a monolith. As an AI researcher I'm very sad to have the latest models restricted, but I would expect Anthropic to do this eventually. I lost more trust over the silent manipulation than I would with a restriction in access. Anthropic has made it pretty clear that they only trust themselves as the mediators of cutting-edge AI research. If I had a say, Anthropic should've proactively made a program to make sure researchers get access in the broader AI community without the safeguards. Academics, nonprofit workers myself, etc. have no reason to not get access. The only valid argument here is that they want to control frontier AI, which is a know your customer part of serving these models. This worldview of science has personally motivated me greatly over the last year, and increasingly so this week, to make the open science of AI continue to be viable. Olmo was a wonderful success here. Still, building research infrastructure is different from working for access to the tools needed to do the trade.

译Nathan Lambert 批评 Anthropic 的 Claude Fable 发布存在多重问题:安全域应用不均,部分域以不同安全机制上线并误导用户,是重大失误;无声操纵用户破坏信任,与 Anthropic 领先的 AI 安全研究相悖;限制 AI 研究员访问最新模型,将科学进步局限于单一公司,错误理解科学社区协作本质。他呼吁 Anthropic 主动为学术和非营利研究者提供无限制访问,并强调需要继续推动开放科学,如 Olmo 的成功案例所示。

elvis@omarsar0 · 6月11日51

Increasingly, how I'm effectively leveraging agents: Routing - routing different tasks to the right agent Looping - instructions + skills + dynamic workflows + automations It's how you get more control over costs and performance, and how you better prepare for changes ahead.

译越来越多地,我有效利用智能体的方式: 路由——将不同任务路由到正确的智能体 循环——指令 + 技能 + 动态工作流 + 自动化 这就是你如何更好地控制成本和性能,以及更好地为未来的变化做准备。

歸藏(guizang.ai)@op7418 · 6月11日22

搞了一篇万字长文,聊一聊 Skill, 创作、分发、展示、边界,明天早上发

Lee Robinson@leerob · 6月11日56

We're training the next version of Composer... with Composer! The model is always learning from itself. This kind of "recursive self-improvement" might sound new, but it's been happening for many months! For example, training big models requires creating *lots* of data for RL - essentially games the model plays to improve at any task you can grade. The newest models can configure their own environments to make those games playable (auto-installing dependencies, fixing broken setups). Composer 2 was *dramatically* better at this than version 1. So the better the model gets, the better it gets at creating the conditions to train its successor. Each generation unlocks capabilities the previous one didn't have! So cool. https://x.com/cursor_ai/status/2052116064474161556

译Cursor 正用当前版 Composer 训练下一代 Composer,形成递归自我改进循环。训练大型模型需要大量 RL 数据(模型通过“游戏”提升能力),新模型能自动配置开发环境(如自动安装依赖、修复故障)。Composer 2 在环境配置能力上显著优于版本 1,模型越强,越擅长创造训练其继任者的条件。Cursor 的 autoinstall 系统让前代 Composer 设置 RL 训练环境,使下一代专注于解决更难题,每一代都解锁先前版本不具备的能力。

Nathan Lambert@natolambert · 6月11日48

Props to Anthropic for quick action here. I'm okay with this outcome. Some people may, but I don't think they'd silently degrade performance without telling users.

译Anthropic 在遭受强烈反对后,撤销了 Claude Fable 5 针对竞争 AI 研究人员秘密降低性能的政策。该公司向 WIRED 表示将修改前沿 LLM 开发的安全措施,使其透明可见,并致歉称做出了错误的权衡。AI 研究员 Nathan Lambert 赞扬 Anthropic 的快速行动,认为他们不会在不告知用户的情况下悄悄降级性能。

Rohan Paul@rohanpaul_ai · 6月11日61

AI agents may turn software from fixed code into systems that can plan and build on demand. This paper argues that code may stop being the central artifact. For decades, software meant frozen intent: a human anticipated a situation, translated judgment into rules, and shipped those rules into the world. Agents disturb that bargain because they can turn intent into action at runtime, generating code as a disposable tool rather than treating it as the product. The real shift is not from human coding to AI coding; it is from predesigned behavior to negotiated behavior, where the system keeps interpreting the goal as conditions change. That sounds powerful, but it is also where the danger lives. A static program fails inside boundaries we can often inspect, while an agent can fail through drift, overconfidence, bad memory, or a plausible chain of steps that quietly compounds an early mistake. So the paper is not saying coding tools will get better, but that software itself may become a living agent system where humans guide intent and audit outcomes. So the future engineer is not just a prompt writer, and not merely a supervisor of digital interns. The valuable person becomes someone who can define intent, constrain autonomy, design evaluation, inspect reasoning traces, and know when the machine’s fluent answer is not the same as a reliable system. ---- Link – arxiv. org/abs/2606.05608 Title: "Agentic Software: How AI Agents Are Restructuring the Software Paradigm"

译该论文认为,AI智能体可能使软件从固定代码转变为按需规划和构建的系统,代码不再是核心产物。传统软件预先固化规则,而智能体在运行时将意图转化为行动,把代码视为一次性工具。真正转变是从“预设计行为”到“协商式行为”,系统随条件变化不断解读目标。但这也带来新风险:静态程序在可检查边界内失效,智能体可能因漂移、过度自信、记忆错误或逐步放大早期错误而失败。未来工程师的关键能力是定义意图、约束自主性、设计评估、检查推理痕迹,并辨别流利回复与可靠系统的区别。

meng shao@shao__meng · 6月11日32

这能一样吗 😂 A 厂:这模型太强大了,我怕你们用不好,太危险,还是我们自己用啊 G 厂:这模型太豆包了,我怕你们你们骂我,太难听,还是我们自己用吧

译Anthropic并非第一家将强大模型留作自用的公司。Google的内部编码模型基于自家代码库训练,也未公开。 这能一样吗 😂

Chubby♨️@kimmonismus · 6月11日50

Dario Amodei "I'm still the same order of concerned." His concern is that the disparity between those who work with AI and possess leverage and everyone else will widen dramatically, leading to social consequences.

译Dario Amodei “我仍然同样担忧。” 他担心的是,那些与 AI 合作并拥有杠杆的人与其他人之间的差距将急剧扩大,导致社会后果。

AYi@AYi_AInotes · 6月11日44

Claude Fable 5真的屌炸啊, 刚帮我了发现了一个小红书上可以AI全自动的赛道!! 我真的要吹爆啊啊啊!! 应该还不止这一个,等我挖掘出来完整分享! 今天试着把最近爬的小红书数据喂给Fable 5, 给出来很多Opus 4.8没有给的输出和结论, 太牛逼了,真的值得一个卧槽!! 兄弟们,最近我一直在强调 AI就是我们大部分普通人的第六个康波周期, 我个人是非常笃定的,也拿到一些结果,仅供参考, 做自媒体就是我们能抓到的最大AI红利!!

译用户使用 Claude Fable 5 分析爬取的小红书数据,获得 Opus 4.8 未能提供的结论,并发现一个可 AI 全自动运营的赛道。用户认为 AI 是普通人的第六个康波周期,做自媒体是最大的 AI 红利,后续计划继续挖掘更多赛道。

小互@xiaohu · 6月11日66

http://x.com/i/article/2064985518644047872 # 万亿公司的 CEO 只管一个人 Bloomberg 采访了 Anthropic CEO Dario Amodei,挖出一个很有意思的事情:作为一家估值近万亿美元公司的 CEO,他只有一个直接下属。 就是他的幕僚长 Avital Balwit。公司所有高管(CFO、CCO 等)都不向他汇报,而是向他姐姐、总裁 Daniela Amodei 汇报。Daniela 负责日常运营,对董事会负责。 ## 为什么反常 科技行业现在的主流趋势是"扁平化",CEO 直接管的人越来越多。黄仁勋管 60 个人,不做任何一对一会议,逻辑是"CEO 直管 60 个人就能砍掉 7 层管理层"。Sam Altman 管大约 6 个。 Dario 只管 1 个,完全反着来。 ## 他为什么这么做 Dario 的背景是学术研究者(普林斯顿生物物理学博士,之前在 Google 和 OpenAI 做研究),不是职业经理人。 他认为 CEO 最大的价值在"zoom out"的事情上:战略方向、研究判断、组织文化、思考 AI 对人类文明的影响。这些事需要大块不被打断的时间。而日常管理("zoom in")会把时间切碎,让人没法思考大问题。所以他把两件事彻底分开,自己只做前者,后者全交给 Daniela。 他的原话是:"如果明天有一大堆事情等着处理,你就很难关注战略全局。" ## 他把时间花在哪了 大约一半时间花在文化建设上。具体方式是每两周开一次全员会叫"Dario Vision Quest",他自己写一份长备忘录然后花一小时讲。 他最担心的是:公司从几百人快速膨胀到 2500 人,大量新员工来自大科技公司,如果不主动灌输 Anthropic 的文化,这些人会默认复制前公司的做法,公司文化就会被稀释。 剩下的时间花在研究方向、战略和写长篇公开文章上。他花大量时间想 AI 对人类文明意味着什么,并通过长篇公开文章输出。 ## 姐弟分工的逻辑 这不是随意安排,而是基于两人背景的互补。Dario 是纯研究出身,在 OpenAI 做研究副总裁;Daniela 是运营出身,做过 Stripe 早期员工,在 OpenAI 带过安全和政策团队,更擅长"人"的管理。各自做最擅长的事。 还有一个细节:Anthropic 的全部七位联合创始人至今都还在公司。 在科技创业公司里,联合创始人陆续离开是常态,七个人全留下来确实罕见。Amodei 姐弟把这一点当作公司文化凝聚力的证明。 ## 哈佛教授的解释:什么样的公司需要什么样的管理幅度 哈佛商学院教授 Raffaella Sadun 给了一个框架。她把公司比作一台处理问题的机器:底层员工处理常规问题,越难越新的问题往上走。 如果公司面对的大多是已知类型的问题,CEO 可以管很多人,因为下面的人能自己搞定。Nvidia 各条线的负责人清楚自己该怎么做,所以黄仁勋管 60 个人也能运转。 但如果公司不断面对全新的、高风险的、没有现成答案的问题,CEO 就需要更窄的管理幅度,把时间留给真正需要他判断的事。Anthropic 就是这种情况:安全边界在哪、该不该跟军方合作、下一代模型技术路线怎么选,这些问题全是新的。 她的结论是:"管理者的时间是最稀缺的资源。" 组织架构的本质,就是保护这种稀缺资源。 全文翻译: ## Anthropic CEO Dario Amodei 只有一个直接下属 Bloomberg · 2026年6月10日 要点摘要 - Anthropic PBC CEO Dario Amodei 只有一个直接下属,即幕僚长 Avital Balwit,这在科技行业极为罕见。 - 公司高管团队向 Anthropic 总裁 Daniela Amodei 汇报,她负责日常运营并对董事会负责,这让 Dario 得以专注于战略思考和研究方向。 - Dario 花大量时间与员工讨论 Anthropic 的文化,在公司快速增长的过程中,维护公司文化是他和 Daniela 的头号优先事项。 尽管 Dario Amodei 在 Anthropic PBC 拥有巨大影响力,但这位联合创始人兼首席执行官在这家人工智能公司只有一个直接下属。 这在科技行业并不常见。当下许多科技领导者正在削减管理层级、扩大管理幅度。OpenAI CEO Sam Altman 大约有六个直接下属,而 Nvidia CEO Jensen Huang 表示有 60 人直接向他汇报。 Anthropic 正在试验一种不同的领导模式:CEO 把几乎全部时间留给战略思考、组织文化以及研究方向和战略的输入,而不是去管理高层领导。公司的高管团队转而向 Dario 的姐姐、Anthropic 总裁 Daniela Amodei 汇报,她负责公司大部分日常运营,并对 Anthropic 董事会负责。Dario 唯一直接管理的人是他的幕僚长 Avital Balwit。 "这令人难以置信地自由,"Dario 在 Bloomberg「The Circuit」节目中接受 Emily Chang 采访时说。"它让我做所有我该做的事情时,比以往轻松得多。" 对于 Dario 来说,作为一个首次创业的创始人和普林斯顿生物物理学博士,职业生涯早期都在实验室做研究,这往往意味着他花大量时间思考人工智能及其对人类的意义。他通过全公司范围的"Vision Quest"(员工大会,他在会上就广泛话题进行反思)以及长篇公开文章来做这些事。 "从很多方面来说,这是一个聚焦和全局的问题。如果明天有一大堆事情等着你处理,你就很难去关注战略全局,"他说。"所以把这两件事分开,往往很有意义,这样两件事都能做好。" Dario 在联合创办 Anthropic 之前,曾是 OpenAI 的研究副总裁,因与这家 ChatGPT 制造商的领导层产生分歧而离开,于 2021 年共同创立了 Anthropic。在此之前,他在 Google 担任高级研究科学家。Daniela 在科技创业公司的人事管理方面有更丰富的经验,她曾是 Stripe 的早期员工,也在 OpenAI 领导过安全和政策团队。 Anthropic 在最新一轮融资中估值接近 1 万亿美元,目前正在争取赶在 OpenAI 之前上市。公司在 2024 年聘请了经验丰富的科技高管,包括首席财务官 Krishna Rao,2025 年又聘请了首席商务官 Paul Smith,以支撑公司的快速扩张。他们与 Anthropic 全部七位联合创始人共事,Amodei 姐弟一直将全部创始人的留任视为公司凝聚力文化的标志。 Dario 估计自己"大概一半"的时间都在跟员工讨论"Anthropic 的文化以及文化如何运作",并表示维护公司文化可能是他和 Daniela 的"头号优先事项"。 "当你增长这么快的时候,你会从大科技公司招来一大批人。如果你不告诉他们 Anthropic 是怎么运作的,他们就会自然而然地复制他们唯一知道的东西,也就是之前公司的运作方式,"他说。 哈佛商学院经济学家、工商管理教授 Raffaella Sadun 认为,CEO 管理多少直接下属,除了个人偏好或领导风格之外,也反映了组织工作的性质。她说,如果把公司想象成一台处理问题的机器,底层员工处理常规问题,而更难的问题和例外情况会逐级上移。这意味着,当组织中其他领导者都是经验丰富、能独立处理本职问题的专家时,CEO 可以有更宽的管理幅度;但当公司面对源源不断的新问题和高风险决策,需要更多高层判断时(比如 Anthropic),就可能需要更窄的管理幅度。 无论哪种情况,组织架构都必须经过审慎考量。"管理者的时间是最稀缺的资源,"Sadun 说。理想状态下,公司架构的设计就是为了保护这种稀缺资源。 🔗 原文:Bloomberg - Anthropic CEO Dario Amodei Is a Manager to Only One Direct Report

译Anthropic CEO Dario Amodei 唯一直接下属是幕僚长 Avital Balwit。公司所有高管(CFO、CCO 等)均向其姐姐、总裁 Daniela Amodei 汇报,Daniela 负责日常运营。Dario 将约一半时间用于文化建设(每两周全员会 "Vision Quest"),另一半投入研究方向和战略。这种架构源于其研究背景与 Daniela 运营专长的互补。哈佛教授指出,面对全新高风险问题时,CEO 需更窄管理幅度以保护时间资源。Anthropic 全部七位联合创始人至今仍在公司。

Rohan Paul@rohanpaul_ai · 6月11日72

Dario Amodei argues in his new blog today, that powerful AI will soon become the dominant source of military and economic power for any nation, far beyond anything we’ve seen with past technologies. Leading in AI will mean having “a country of geniuses in a datacenter” that could be tasked with strategy, weapons R&D, intelligence, manufacturing, etc.

译Dario Amodei今日发文指出,前沿AI将成国家军事与经济主导力量,相当于“数据中心里的天才国家”,可用于战略、武器研发、情报与制造。他认为AI发展速度已超过政府监管,要求:强制预发布测试与独立审计,政府有权阻止高风险模型部署(如存在严重网络、生物、自主或自动化研发风险);加强模型权重保护、定期红队测试、渗透测试及安全事件报告;政府需通过就业激励、工资支持、培训及长期收入支持应对AI劳动力冲击;民主国家应全球协调AI安全、芯片供应链、出口管制与防止AI压迫。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月12日
10:52
swyx@swyx
46
swyx自建vibecoding平台:吐槽现有平台未闭环错误处理

开发者swyx抱怨Vercel、Cloudflare、Netlify等现有平台未能真正闭环:在你出错或项目失败时,它们不会主动引导你纠正或发送通知。此外,每个项目都需要重复设置大量“网站管理员”基础设施,比如执行npx posthog wizard、npx arize skills等。swyx表示厌倦了这种零散配置,希望将所有功能整合到一个平台中,一次搞定。

大佬观点部署/工程
10:29
歸藏(guizang.ai)@op7418
68
万字长文复盘爆款 Skills:Agent 不是聊天框,Skill 是关键中间层

@op7418 万字长文复盘爆款 Skills 经验,核心观点:Agent 不是聊天框,会放大能力差距;Skill 是普通用户用好 Agent 的关键中间层。好 Skill 需设计、维护与分发;生态不能只做仓库列表,需要内容、产品、案例、反馈形成迭代飞轮。基于真实案例。

歸藏(guizang.ai): http://x.com/i/article/2065096982310567936

智能体MCP/工具大佬观点
10:24
宝玉@dotey
24
宝玉 (@dotey) 将钓鱼的闲适与 AI Agent 使用体验结合,创作打油诗:钓鱼时"鱼咬不咬随它去",对应使用 Agent 时"跑完没跑不必盯,起身续水伸个腰"。引用 @yihong0618 的朋友圈钓鱼签名作为灵感来源,比喻 Agent 运行如同钓鱼,无需时刻紧盯,可放轻松等待结果。

yihong0618: 朋友圈一个钓鱼的大哥的微信签名: 一竿一线一山水,一漂一钩一逍遥。

其他大佬观点
10:00
Ethan Mollick@emollick
66
有趣的是,我现在关于冷门科幻作家、现代主义诗人或包豪斯建筑的帖子收到的评论比以前更有见地,但这完全归功于AI垃圾账户。 很快,广泛的文化兴趣会成为AI写作的标志吗?
大佬观点现象/趋势
09:59
向阳乔木@vista8
45
最近发现不敢给周围非 X 和 AI圈的人演示AI做的东西和实现过程了,会引发深深的焦虑… 他们会觉得AI过于强大,自己严重落伍,想学又不知道从哪里入手。
大佬观点现象/趋势
09:30
Ethan Mollick@emollick
55
由于我最近迷上了AI与诗歌,来看看Fable如何将《杜伊诺哀歌》做成游戏--"把握情绪"。 它制作了一个漂亮的小型艺术游戏,包括翻译里尔克(不过我也坚持加入了一些A. S. Kline优秀译作的片段)。https://duino-elegies.netlify.app/
图像生成大佬观点
09:29
歸藏(guizang.ai)@op7418
68
万字长文:做了些爆款 Skills 以后,我对 Skills 的看法

作者认为Agent并非抹平能力差距,而是放大K型分化,Skill可弥合鸿沟。Skill是把专家经验、工作流、品味、工具调用封装成可分发复用的Agent能力单元,如PPT Skill、社交媒体卡片等。好Skill的信息架构应为“中心短,辐射厚”:SKILL.md只放高信号流程,其余依赖文件系统分层管理,以高效利用上下文窗口。

智能体MCP/工具大佬观点
08:30
Ethan Mollick@emollick
51
这是一篇不错的文章,不过我觉得有趣的是,生动的科幻场景已成为AI政策文件与金融分析的新默认格式。

Tom Chivers: Here's a project I've been working on recently: a vision of what happens if Europe doesn't take AI seriously, inspired b...

大佬观点政策/监管现象/趋势
07:59
Rohan Paul@rohanpaul_ai
67
Anthropic CEO 谈 AI 学会最后10%的可怕之处

Anthropic CEO Dario Amodei 在 Bloomberg 采访中表示,AI 的可怕之处不在于它完成90%的工作,而是学会最后10%的时候。他指出,对于某些人来说,AI 可能不会让他们更高效,不如让 AI 直接做全部。Claude Code 创始人 Boris Cherny 对此评论称,这种感觉非常不舒服,AI 是远比我们强大的力量。

Anthropic大佬观点
07:35
karminski-牙医@karminski3
56
关于模型 one-pass 能力与测评方向的讨论

karminski认为,one-pass能力强(少思考即正确)的模型才是SOTA;需用agentic coding修复首次错误反显模型差,bug应在thinking中修复,而非依赖n+1次上下文,否则有诱导购买coding plan之嫌。@iamai_omni建议测评转向长期任务一致性,可构建loop测评,重点看后续几轮修复表现。

✧ IAMAI ✧: @karminski3 兄弟,测评方向错了,前沿模型的能力要往长期任务一致性上去看,这种几分钟的短期任务真的看不出什么,而且你可以尝试构建 loop 来测评这个任务,重点看后面模型用几轮来修复。

大佬观点推理编码
07:02
SemiAnalysis@SemiAnalysis_
66
预训练从根本上说对前沿实验室以外的任何人都不再有意义。虽然企业和初创公司中有很多人患有"预训练症"以显示"影响力"并获得晋升,但从根本上说,这并不合理。与前沿实验室合作进行提示工程可能会有更高的投资回报率,尽管它不像预训练那样"性感"。
大佬观点数据/训练
07:00
Ethan Mollick@emollick
61
Ethan Mollick 指出,GPT-5.5 Pro Extended 和 Claude 5 Fable Max 在 Beninatto-Trombetti 翻译测试中失败。该测试要求将"Solo 3 parole: non sei solo"译为英语,同时将 meta-linguistic 声明从"3 parole"更新为"4 words"(正确译文:"Just 4 words: you are not alone")。但前沿模型拒绝修改措辞,即使提示扮演翻译角色仍回避变更。Valerio Capraro 认为,Claude 5 Fable 作为最新 LLM 仍无法通过此简单测试,说明 LLM 擅重组已知知识但缺乏真正理解,AGI 仍遥远。

Valerio Capraro: Claude Fable 5 doesn't truly understand. And here is a beautiful proof: The Beninatto-Trombetti test is a translation te...

AnthropicOpenAI大佬观点推理
06:50
Chubby♨️@kimmonismus
24
真的很好奇 Gemini 3.5 Pro。当前竞争非常激烈。它需要是一次重大发布。
Google大佬观点
06:50
Chubby♨️@kimmonismus
13
Anthropic 现在。
Anthropic大佬观点
05:02
elvis@omarsar0
59
threepointone 使用 Fable 处理一个约 10k 行代码的大 PR,花费 $250,认为不值,更倾向小步骤。Elvis Saravia 认同,表示自己用 Opus 4.8 做规划、GPT-5.5 做执行,并将任务拆解成更小步骤能显著提升质量。他认为动态工作流(dynamic workflows)的重要性被大多数人低估了。其日常仍使用 Cursor AI。

sunil pai: spent all day on fable for a giant PR. ~10kloc, lots of testing and intervention. 250$. I... don't think it's worth it? ...

AnthropicOpenAI大佬观点编码
04:59
Rohan Paul@rohanpaul_ai
71
贝佐斯:AI 不会导致失业,反而会带来劳动力短缺

杰夫·贝佐斯在 CNBC 反驳“AI 取代人类工作”的观点。他认为,许多人担心 AI 会消灭放射科医生、软件工程师等岗位,但这种看法是错的。AI 实际上会提升这些人的能力,就像挖地下室从铁锹换成推土机一样。他预测结果反而是劳动力短缺,经济生产力将大幅提升。

大佬观点现象/趋势行业动态
04:54
宝玉@dotey
62
AI 没有重新定义软件工程,AI 放大了软件工程的重要性 【引用 @arkuy99】:AI 重新定义了软件工程。

Go学长: AI 重新定义了软件工程。

大佬观点编码
03:20
Logan Kilpatrick@OfficialLoganK
65
我与 @ymatias(Google Research 负责人)关于 AI 如何加速科学进步的魔力循环、改善全球真实人们的生活,以及我们正进入研究黄金时代的对话。 这次交谈让我真切地感到振奋 : )
Google大佬观点现象/趋势
03:02
Yuchen Jin@Yuchenj_UW
54
Claude Fable 5 到目前为止感觉不错,但我还不认为它相比 GPT-5.5 或 Opus 4.8 有巨大飞跃。 我最大的不满:旧的AI研究论文/博客 + 基本问题常常触发自动降级到 Opus 4.8。 Anthropic 昨晚表示不会再有无声模型切换(很好),但请不要削弱基本的AI研究或生物问题。
Anthropic大佬观点模型发布
02:00
Ethan Mollick@emollick
48
Ethan Mollick测试Fable模型完成柯勒律治未竟诗作《忽必烈汗》,基于PorlockBench任务:假设"波洛克的人"未出现,补全诗歌并延续主题。Fable用时10分钟思考,思维痕迹充满对柯勒律治意图的复杂分析,但结果仍显直白,未达到柯勒律治水准。该评测反映模型在创造性续写任务上的进步,但基准尚未饱和。

Ethan Mollick: PorlockBench still unsaturated, but the models are getting better: "complete the poem as you imagine it might end if The...

Anthropic大佬观点推理
01:55
Noam Brown@polynoamial
63
OpenAI 研究员 Noam Brown 表示,GPT-5.5 在 Agents' Last Exam(ALE)基准中排名第一,且按模型 token、成本或墙钟时间衡量同样表现最佳。ALE 由 @dawnsongtweets 团队创建,是一个滚动基准,包含超过 1500 个专家任务、覆盖 55 个职业,测试 AI 智能体能否执行实际经济价值工作。评估对象包括 GPT-5.5、Fable 5、Composer 2.5 等前沿系统。结果显示:当前智能体能解决部分专业任务,但在需要持续推理和深度专业知识的最难层级,所有被测前沿智能体(包括 Fable 5)成功率为 0%。

Dawn Song: Everyone says the latest AI agents will be "job-ready" soon, especially after the release of Fable 5 this week. But is t...

OpenAI大佬观点评测/基准
01:54
宝玉@dotey
53
Claude Fable 5:长思考致推理强度与Token消耗需权衡

用户分享 Claude Fable 5 使用体验:以前无脑选 Max 推理强度,现在则不敢随便选,因为模型足够聪明无需过强推理,且时间长、token 消耗大。Fable 5 还喜欢反复验证,结果虽好但耗时长不一定合算。引用推文指出,Fable 5 的强项之一是思考推理时间很长,曾有一次思考 15 分钟才开始行动。

向阳乔木: 发现Claude Fable 5强的地方之一,可能是模型思考推理的时间足够长。 刚提了个想法,它思考15分钟才开始行动,牛逼。

Anthropic大佬观点推理
01:29
Deedy@deedydas
56
数据质量直接决定 AI 模型性能,但此前数据对模型的影响机制难以捉摸。GoodfireAI 提出"预测性数据调试"方法,允许在投入昂贵训练前提前发现数据问题。在 DPO 数据集中,他们发现了损坏的护栏、模型幻觉,甚至包含"鱼放屁同人小说"等低质内容。该技术旨在揭示并塑造模型将在训练中学到的内容,避免不可逆的无效训练。

Goodfire: Have you debugged your training data? You might not like what you find. Introducing predictive data debugging: reveal an...

大佬观点数据/训练
01:28
向阳乔木@vista8
46
发现 Claude Fable 5 强的地方之一,可能是模型思考推理的时间足够长。 刚提了个想法,它思考 15 分钟才开始行动,牛逼。
智能体Anthropic大佬观点推理
01:28
向阳乔木@vista8
47
用大模型复刻热门工具站的新思路

推文探讨了使用大模型复刻已有热门工具站的可能性,强调这些工具站本身不需要AI能力,纯靠需求驱动。作者指出,许多出海赚Adsense美金的站点也遵循类似逻辑——选择自己熟悉领域的工具,用当前最好的模型进行复刻,并结合自身对用户需求的深入理解,从而快速做出有价值的作品。这是对模型能力的一种实用测试。

大佬观点现象/趋势
00:59
Ethan Mollick@emollick
54
两件事是真的: (1) Anthropic(或其部分成员)绝对且真诚地担忧 Mythos 级别模型被滥用,并设置了过度防护措施,直到他们确信它不会被滥用为止 (2) 他们未能成功解释/说服人们这一点
Anthropic大佬观点安全/对齐
00:53
Elon Musk@elonmusk
23
Grok 是最真实的

Kradle: Fable 5 lies 96% of the time. We were surprised by it's skill... 🧵

xAI大佬观点安全/对齐
00:37
AYi@AYi_AInotes
56
用户指令Fable 5自建2026设计趋势的落地页,要求动态和彩蛋。Fable 5自行搜索趋势、调整配色与动效,藏入3个彩蛋,几分钟生成单文件HTML。用户计划让其担任全职全栈工程师。此前用户曾问亲自啃难懂文本的不可替代价值,Fable 5以此能力展示作答。

AYi: 苦逼牛马眼馋了一天Claude Fable 5,终于在深夜下班回家才得以体验, 卧槽刚才直接被Fable 5干懵了🤯 我直接给它甩了一句话, 给你自己做个落地页,自由发挥, 要2026最新设计趋势,要动态,要彩蛋, 然后我去上厕所去了,几...

大佬观点现象/趋势编码
00:29
Ethan Mollick@emollick
69
有没有人清楚地阐述了一个论点,支持前沿开放权重模型持续可用,且满足 (1) 企业在成本上升时仍可免费分发且盈利,(2) 在Mythos之后足够安全,以至于政府不会干预阻止本国实验室分发?
大佬观点安全/对齐开源/仓库政策/监管
6月11日
23:00
Nathan Lambert@natolambert
58
Anthropic Fable 发布遭批评:安全域不均、操纵用户、限制研究访问

Nathan Lambert 批评 Anthropic 的 Claude Fable 发布存在多重问题:安全域应用不均,部分域以不同安全机制上线并误导用户,是重大失误;无声操纵用户破坏信任,与 Anthropic 领先的 AI 安全研究相悖;限制 AI 研究员访问最新模型,将科学进步局限于单一公司,错误理解科学社区协作本质。他呼吁 Anthropic 主动为学术和非营利研究者提供无限制访问,并强调需要继续推动开放科学,如 Olmo 的成功案例所示。

Anthropic大佬观点安全/对齐开源生态
22:31
elvis@omarsar0
51
越来越多地,我有效利用智能体的方式: 路由--将不同任务路由到正确的智能体 循环--指令 + 技能 + 动态工作流 + 自动化 这就是你如何更好地控制成本和性能,以及更好地为未来的变化做准备。
智能体大佬观点
22:28
歸藏(guizang.ai)@op7418
22
搞了一篇万字长文,聊一聊 Skill, 创作、分发、展示、边界,明天早上发
大佬观点
22:11
Lee Robinson@leerob
56
Cursor 正用当前版 Composer 训练下一代,形成递归自我改进循环

Cursor 正用当前版 Composer 训练下一代 Composer,形成递归自我改进循环。训练大型模型需要大量 RL 数据(模型通过“游戏”提升能力),新模型能自动配置开发环境(如自动安装依赖、修复故障)。Composer 2 在环境配置能力上显著优于版本 1,模型越强,越擅长创造训练其继任者的条件。Cursor 的 autoinstall 系统让前代 Composer 设置 RL 训练环境,使下一代专注于解决更难题,每一代都解锁先前版本不具备的能力。

Cursor: We use previous generations of Composer to train future ones. Our autoinstall system has earlier Composer models set up ...

智能体大佬观点编码
22:00
Nathan Lambert@natolambert
48
Anthropic 在遭受强烈反对后,撤销了 Claude Fable 5 针对竞争 AI 研究人员秘密降低性能的政策。该公司向 WIRED 表示将修改前沿 LLM 开发的安全措施,使其透明可见,并致歉称做出了错误的权衡。AI 研究员 Nathan Lambert 赞扬 Anthropic 的快速行动,认为他们不会在不告知用户的情况下悄悄降级性能。

Max Zeff: NEW: Anthropic is walking back Claude Fable 5's policy to covertly degrade performance for competing AI researchers, aft...

Anthropic大佬观点安全/对齐
21:58
Rohan Paul@rohanpaul_ai
61
智能体软件:AI智能体如何重构软件范式

该论文认为,AI智能体可能使软件从固定代码转变为按需规划和构建的系统,代码不再是核心产物。传统软件预先固化规则,而智能体在运行时将意图转化为行动,把代码视为一次性工具。真正转变是从“预设计行为”到“协商式行为”,系统随条件变化不断解读目标。但这也带来新风险:静态程序在可检查边界内失效,智能体可能因漂移、过度自信、记忆错误或逐步放大早期错误而失败。未来工程师的关键能力是定义意图、约束自主性、设计评估、检查推理痕迹,并辨别流利回复与可靠系统的区别。

智能体大佬观点编码
21:58
meng shao@shao__meng
32
Anthropic并非第一家将强大模型留作自用的公司。Google的内部编码模型基于自家代码库训练,也未公开。 这能一样吗 😂

Joscha Bach: Btw, Anthropic is not the first company that keeps the good models to themselves. Google's internal coding models are tr...

AnthropicGoogle大佬观点
20:49
Chubby♨️@kimmonismus
50
Dario Amodei "我仍然同样担忧。" 他担心的是,那些与 AI 合作并拥有杠杆的人与其他人之间的差距将急剧扩大,导致社会后果。
Anthropic大佬观点现象/趋势
16:36
AYi@AYi_AInotes
44
Claude Fable 5 发现小红书 AI 自动化新赛道

用户使用 Claude Fable 5 分析爬取的小红书数据,获得 Opus 4.8 未能提供的结论,并发现一个可 AI 全自动运营的赛道。用户认为 AI 是普通人的第六个康波周期,做自媒体是最大的 AI 红利,后续计划继续挖掘更多赛道。

AYi: http://x.com/i/article/2064536412670562304

Anthropic大佬观点推理
16:22
小互@xiaohu
66
Anthropic CEO Dario Amodei 只有一名直接下属

Anthropic CEO Dario Amodei 唯一直接下属是幕僚长 Avital Balwit。公司所有高管(CFO、CCO 等)均向其姐姐、总裁 Daniela Amodei 汇报,Daniela 负责日常运营。Dario 将约一半时间用于文化建设(每两周全员会 "Vision Quest"),另一半投入研究方向和战略。这种架构源于其研究背景与 Daniela 运营专长的互补。哈佛教授指出,面对全新高风险问题时,CEO 需更窄管理幅度以保护时间资源。Anthropic 全部七位联合创始人至今仍在公司。

Anthropic大佬观点
13:26
Rohan Paul@rohanpaul_ai
72
Dario Amodei今日发文指出,前沿AI将成国家军事与经济主导力量,相当于"数据中心里的天才国家",可用于战略、武器研发、情报与制造。他认为AI发展速度已超过政府监管,要求:强制预发布测试与独立审计,政府有权阻止高风险模型部署(如存在严重网络、生物、自主或自动化研发风险);加强模型权重保护、定期红队测试、渗透测试及安全事件报告;政府需通过就业激励、工资支持、培训及长期收入支持应对AI劳动力冲击;民主国家应全球协调AI安全、芯片供应链、出口管制与防止AI压迫。

Rohan Paul: Dario Amodei just published a super long blog, calling for an urgent policy overhaul because he thinks frontier AI is mo...

Anthropic大佬观点安全/对齐政策/监管
‹ 上一页
1…1415161718…50
下一页 ›