AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 2410 条
全部一手资讯X论文
标签「大佬观点」清除
ginobefun@hongming731 · 5月28日50

过去四十年,写文档是在整理已经想清楚的事; 现在写 Spec、Rule、project.md,是在被一个永不疲倦的读者逼着把自己从未想清楚过的事想清楚。 这不是效率升级,而是认知事件。

elvis@omarsar0 · 5月28日38

And if we improve AI in the right direction, I suspect it can happen in all sciences as well.

译如果我们以正确的方向改进AI,我怀疑它也能在所有科学领域实现类似效果。

Berryxia.AI@berryxia · 5月28日6

原来Jade 如此的秀儿了.. 果然被Dario 看上的女人都不简单啊。。。

译推文提及Anthropic首席执行官Dario Amodei与中国用户的互动历史,并讨论其对中国用户的态度。内容主要围绕个人经历与看法,未包含具体模型、参数或评测数据。

AYi@AYi_AInotes · 5月28日58

上周 Cursor 送了我 1 万美金额度, 我以为往死里造 7 天怎么也得花到 3000 美金, 结果实际一看, 300 多美金都没花到。 7这几天我用 Claude Opus 4.7 thinking xhigh MAX 跑了几十次, 单次最高烧到 672 万 tokens, GPT-5.3 Codex high fast MAX 也几乎天天用。 账单只占了 3%, 为啥会这样? 我觉得是因为大多数人对 AI 编程成本的算法是错的。 你以为按 token 单价算, MAX 模型一次比 mini 贵 10 倍, 所以肯定烧钱。 但实际上 MAX 模型能一次就把事想清楚, 而 mini / Sonnet 来回试错的 token 加起来, 往往是 MAX 一次的 3-5 倍。 所以贵的反而便宜, 便宜的反而贵。 Boris Cherny(Claude Code 之父)有一句话其实讲透了这件事: 计划做得好,代码自然好。 换句话说, 省钱的终极方式不是切便宜模型, 因该让最聪明的模型一次就把活干完。 Cursor 送1 万额度也不是怕你不够用, 我理解估计是怕你不敢用。 如果大家还在切 MAX 模型时心疼, 切完之后试着算一下总账单, 你会发现, 其实你一直在用看似便宜的方式偷偷烧钱。 所以放手用就完事了铁铁们! #Cursor #ClaudeCode #AICoding

译用户获赠Cursor 1万美金额度,高强度使用7天(包括Claude Opus 4.7 thinking xhigh MAX和GPT-5.3 Codex high fast MAX,单次最高达672万 tokens)后,实际账单仅约300多美金。核心观点是:许多人按 token 单价估算成本是错误的,MAX 等高端模型往往能一次完成任务,而便宜模型需多次试错,总 token 消耗反而达3-5倍,导致“贵的反而便宜”。引用Claude Code之父Boris Cherny的观点强调“计划做得好,代码自然好”,指出省钱关键是让强模型一次做对。结合引用推文背景,Cursor在被收购后能力显著增强,不仅能写代码,更能直接交付可用的产品成品(如10秒生成可交互雷达图),更像“全职执行助理”,进一步支持了“放手使用高效工具”的结论。

Chubby♨️@kimmonismus · 5月28日46

Bloomberg leaked Apple's full iOS 27 Siri redesign. Two years of delays, biggest update in Siri's history, etc. So what's the actual architecture? It runs on Google Gemini. And the new interface has a dropdown menu where you pick ChatGPT or Claude instead. Apple rebuilt Siri from scratch and the conclusion was apparently "let users choose someone else's model." Apple is also shipping: AI-powered web search that competes with Perplexity, natural language Shortcuts creation, and AI photo editing

译Bloomberg泄露了苹果iOS 27中Siri的全面改版方案。核心架构是Siri将基于Google Gemini构建,界面新增下拉菜单,允许用户直接切换至ChatGPT或Claude。这表明苹果在重建Siri后,选择整合外部大模型。此外,苹果还将推出与Perplexity竞争的AI网络搜索功能、自然语言创建Shortcuts的能力以及AI照片编辑工具。此次更新是Siri历史上规模最大的一次。

Berryxia.AI@berryxia · 5月28日16

Anthropic 的老板Dario 看来当年没少在中国花啊~ 不知道遭遇了啥如此的痛很国人……

Noam Brown@polynoamial · 5月28日62

After AlphaGo, the skill of human Go players noticeably improved. I suspect we will see a similar pattern in math.

译AlphaGo之后,人类围棋选手的水平显著提升。我怀疑我们将在数学领域看到类似的模式。

ginobefun@hongming731 · 5月28日62

Agent 这几年变化很快,但如果只盯着 Claude Code、Codex、OpenClaw、Hermes 这些新名字,很容易越看越乱。 更好的理解方式,是回到 Agent 的几个基本模块:Prompt、Planning、Memory、Tools、Workflow、Environment。名字看起来没变,但里面的实现方式已经变了很多。 1. Prompt:从写一大段提示词,到按需加载上下文 早期做 Agent,很多精力都花在写 System Prompt 上。一个任务一个 Agent,一个 Agent 一大段提示词,里面塞满角色、目标、规则、示例和注意事项。 现在的趋势是把 System Prompt 变轻,只保留稳定的底层规则。真正会变化的内容,比如任务流程、领域知识、用户偏好、工具说明,会拆到 SKILL.md、AGENTS.md、USER.md 这类文件里。 Agent 需要什么,就读什么。这其实是从 Prompt Engineering 走向 Context Engineering。 2. Planning:从一步步想,到能拆解长任务 早期 Planning 很多时候只是让模型「一步一步思考」。简单问题还可以,任务一长就容易断。 现在的 Agent 已经更像一个会做任务管理的执行者。它可以把一个模糊的大目标拆成多个子任务,生成 Todo List,按步骤执行,遇到问题再调整计划。 这背后不是提示词技巧变神了,而是模型的推理能力、长上下文能力和指令遵循能力都变强了。 3. Memory:从向量检索,到文件系统 + 检索混合 早期谈 Memory,常见做法是把资料放进向量数据库,用 RAG 检索出来再交给模型。 现在的方向更务实。短期记忆要做压缩和摘要,不再把所有对话都塞进上下文。长期记忆则越来越多地回到文件系统,比如用 Markdown 记录用户偏好、任务日志、项目知识、经验总结。 文件的好处是可读、可改、可组织。复杂场景再配合 SQLite、向量检索或企业级搜索,这样既保留召回能力,也让知识沉淀更可控。 4. Tools:从 Function Call,到 CLI 和 Script 这是很关键的变化。 以前让 Agent 调工具,通常要把能力封装成 API,再写 Function Call 的 Schema。工具一多,开发和维护成本会很高。 现在越来越多 Agent 开始直接使用 CLI 和 Script。比如 git、grep、curl、npm、python 这些命令,对人来说有门槛,但对模型反而很自然,因为它在训练中见过大量类似内容。 Script 则可以把复杂流程封装起来。Agent 不需要理解所有接口细节,只要知道调用哪个脚本、传入什么参数就行。 这代表工具层正在从「人类适配模型」,变成「模型使用已有计算机能力」。 5. Workflow:从固定流程,到 Skill 和 Workflow 混合 Workflow 曾经是 Agent 落地的主流方式。因为模型不够稳定,所以用固定流程限制它,保证第一步、第二步、第三步都按规则执行。 现在很多流程可以沉淀成 Skill。任务说明、执行步骤、边界条件写在 Markdown 里,关键动作交给 Script 执行。这样更灵活,也更容易复用。 但 Workflow 还没有过时。对稳定性要求高的场景,尤其是企业流程、审批、交易、生产系统,固定流程仍然很重要。更现实的做法是:Skill 负责灵活,Workflow 负责兜底。 6. Environment:从无状态问答,到有运行环境 早期 Agent 更像聊天工具,问完答完就结束了,不需要太多运行环境。 现在不同了。Agent 要读写文件、执行命令、生成中间结果、保存 Memory、调用工具,就需要一个 Workspace,也需要 Runtime。 个人场景可以跑在本地电脑上,灵活但风险更高。企业场景更适合放进 Sandbox 或云端容器里,限制权限,隔离文件系统,避免误操作影响真实服务。 这一步很重要。Agent 能力越强,越不能只看效果,还要看权限、安全、审计和回滚。 总体来看,Agent 的变化不是某个单点技术升级,而是整个工程范式在变化。 过去我们更关心「怎么写好 Prompt」。现在更关键的是:怎么组织上下文,怎么拆任务,怎么沉淀记忆,怎么调用工具,怎么保留流程确定性,怎么给 Agent 一个安全的运行环境。 也就是说,好的 Agent 不是靠模型硬扛一切,而是用工程系统承载模型的不确定性。模型负责推理和执行,系统负责边界和秩序。Agent 真正成熟,大概就是从这里开始的。

译AI智能体(Agent)的发展正经历工程范式转变,核心是从Prompt Engineering转向更系统的工程构建。这体现在六大模块的演进:1)提示词按需加载上下文;2)规划能力可拆解复杂任务;3)记忆采用文件系统与检索混合模式;4)工具层直接使用CLI和Script;5)工作流与灵活的Skill模块混合;6)环境需要安全的Workspace与Runtime。总体而言,好的智能体是用工程系统来承载模型的不确定性,模型负责推理,系统负责边界。

Chubby♨️@kimmonismus · 5月28日30

Hold on, Anthropic and OpenAI releases incoming? No way

译等等,Anthropic和OpenAI都要发布新东西了?不可能吧

Orange AI@oran_ge · 5月28日55

在飞机上尝试把最近认知的变化写出来,希望早十年能懂这些道理。 北京飞上海太快了,纯手打字不如 AI 快,还被 obsidian 卡了半天,难受。 所以来不及做更多打磨,也没写 hook 纯意识流随便写。 前面看着有点不够吸引人,但后面应该对得起大家的时间。

译作者在从北京飞往上海的航班上,以意识流的方式记录近期认知变化,坦诚文章缺乏打磨和吸引人的开头,但认为后半部分内容有价值。行文过程中,作者提到手动打字效率不如 AI,并因使用 Obsidian 卡顿而感到困扰。

Tibo@thsottiaux · 5月28日11

I am having fever dreams about the future of ChatGPT and Codex. But it it will be beautiful.

译我正发着高烧,梦到ChatGPT和Codex的未来。但它将会是美好的。

数字生命卡兹克@Khazix0918 · 5月28日59

http://x.com/i/article/2059853024466731008 # 飞书终于支持Markdown了,这个最弱的格式却赢下了整个AI时代。 这两天看到飞书的一个很有意思的更新。 很小,但是我觉得意义非常的大。 就是飞书的云文档,可以直接下载为Markdown格式了。 这个小功能,如果飞书和AI用的多的朋友,都知道它带来的体验会有多好。 社区喊了无数遍了,飞书终于加上了。 之前想把飞书文档导出成Markdown格式的.md文件,要么手搓一个插件,要么用第三方开源工具,折腾半天。 现在官方直接给加在菜单里了,甚至文档里的图片都能被正确读取,因为飞书把文档里的图片,保存在了自己的服务器上,然后给了你一个公网链接,可以让任何AI都读取到MD文件里面的图片。 体验极佳,比我自己开发的插件好用多了,因为那个解决的是纯文本问题,图片直接全被我丢了。 这个点是真的还挺牛逼的。 可能有些朋友看到这,还不太清楚Markdown是什么,有点一头雾水,说不就是支持了一个新格式了吗,这玩意有啥用。 但是,其实你只要用AI,大概率已经每天都在看它了,只是不知道它叫这个名字。 比如说,Claude里面渲染的文本,它回复你的那些内容,有加粗的、有标题的、有代码块的、有列表的,看起来排版很整齐对吧。 这个层级的背后,其实就是Markdown。 AI输出的原始内容其实就是一堆纯文本加上一些简单的符号,两个星号包裹就是加粗,井号开头就是标题,三个反引号包裹就是代码块。然后你的浏览器或者App把这些符号渲染成了你看到的样子。 包括现在各种AI产品里的结构化输出、Deep Research的报告等等,底层几乎全是Markdown格式,你看到的那些层次分明的长报告,拉到底层看,几乎全部也都是一个.md文件。 所以Markdown不是什么高深的技术,它就是一套特别简单的纯文本标记规则,让你不用学HTML也不用开Word,靠几个符号就能把文章写得有结构。 我自己也做了给Chrome的小插件,其实干的就是这件事,强行把各种文档保存成MD格式。 说实话,我已经想不起来到底是从什么时候开始,我就再也不用PDF了,也不用Word了,我电脑里存的所有的文本文件,几乎全部都是MD。 我身边很多很多玩AI的朋友也都是这样。 好像你AI用的越多,你电脑里的md文件就会占比越多,甚至变成了可以区分你AI浓度的一个指标,真的是一个有趣的现象。 Markdown这玩意,好像在不知不觉中,就成了整个数字世界的通用语言。 而这个正在逐渐渗透数字世界的Markdown,背后的诞生故事,我觉得也挺有趣的。 想了解它,我觉得得从2004年说起。 那一年,一个叫John Gruber的博主遇到了一个很抓狂的问题,就是他想在自己的博客上写东西,要能有结构的,但是又不想写HTML。 那时候的博客,还是需要自己写样式结构的。 然后你为了排版,就得用HTML,这玩意拿来写内容太离谱了,因为它的代码长这样。 即使是最简单的,写个加粗要打<strong>,写个标题要打<h1>,一篇文章写下来,一半时间花在标签上,那还写个屁的内容,思路全断了。 但如果用Word来写呢,又没办法直接在网页的博客上渲染出来,还是得转成HTML文件,但是导出来的HTML代码又脏得一塌糊涂,全是多余的标签和样式。 Gruber就想,有没有一种办法,让我用纯文本写作,但写出来的东西看起来也是有结构的,同时还能方便地转成HTML。 他当时观察到了一个很有意思的现象。 就是2004年的时候,大家在写邮件的时候,已经自发地形成了一套排版习惯。 比如想强调一个词,就在两边加星号,想列几个要点,就用短横线开头。想写标题,就在前面加几个井号。 这个东西,变成了一个心照不宣的很多人默认遵守的纯文本自然习惯。 那个时候,Gruber灵机一动,就把这些散落在邮件里的民间约定,整理成了一套统一的语法,然后写了一个Perl脚本,能把这种语法自动转成HTML。 他把这个东西叫做,Markdown。 名字本身就挺有意思的。 HTML的全称是HyperText Markup Language,标记语言。 然后Gruber给自己的东西取了个反义词,Mark-down,也就是把标记放下来的意思,很抽象。。。 大概意思就是说,我一点都不想标记,我只想好好写字。 2004年3月,Gruber在他的博客Daring Fireball上发布了Markdown的第一版规范。 但这里有一个很多人不知道的细节。 Markdown不是Gruber一个人做的,他有一个合作者,一个当时只有17岁的天才少年,叫Aaron Swartz。 这是一个超级大神。 Aaron Swartz这个名字,如果你对互联网的历史感兴趣看过一点,应该不会陌生。 14岁的时候,他就参与了RSS 1.0的开发。后来他参与创建了Creative Commons,也就是知识共享协议。 再后来,他联合创办了Reddit,是Reddit的联合创始人。 对,就是这个reddit。 在Markdown这个项目里,Swartz负责了语法设计中很核心的部分。 比如我们今天用的井号标题语法,#、##、###,这个设计来自Swartz之前做的另一个标记语言atx,Gruber自己也说过,Markdown因为Aaron的想法、反馈和测试,变得好了太多。 一个科技博主,一个17岁的天才少年。 背后甚至任何人都没有,也没有商业模式,就是单纯的觉得,写HTML太烦了,就想让写作这件事,更纯粹一点,不需要那么在乎格式和样式,只要聚焦于内容。 然后Markdown这个东西,就这么安安静静地长了二十年。 Markdown刚出来的时候,用的人很少,就是一小圈博客作者。 真正的转折点是2008年,那一年,GitHub上线了。 GitHub选择了Markdown作为README、Issue、Pull Request、Wiki的默认格式。 这一下子,全世界的开发者,每天都开始在读和写Markdown,而且大多数人甚至没把它当成一种标记语言,就觉得这是在GitHub上很正常的写字的方式。 然后是Reddit、Slack、Discord。 再然后是Notion、Obsidian、Typora等等。 Markdown开始逐渐的从一个小小的脚本,开始变成了基础设施。 但真正让Markdown封神的,是可能它自己都没想到的一件事。 AI来了。 它是纯文本,所以大模型容易生成。 它有结构,所以人类容易阅读。 它能被渲染,所以界面看起来像富文本。 它足够宽松,所以模型输出偶尔少一个空格、漏一个标签,也不会整体崩掉。 因为它很弱,弱到没有字体,没有颜色,没有排版,没有分栏,没有页眉页脚,没有批注修订,没有宏,没有嵌入对象。 弱到任何平台都可以兼容。 Markdown直接成了跟大模型交互的天选语言。 大模型不断的输出Markdown格式的内容。 人类也发现,我给大模型的Prompt,用结构化的语言来去写,好像效果会更好。 这就产生了一个非常有趣的闭环。 而到了Agent时代,各个Agent产品也更是用脚投票,你的所有的规范文档、约束文档、记忆啥的,全都是.md文件。 这些东西,你们一定超级熟,对吧。 人类与AI之间,最棒的那个链接,居然成了Markdown。 而且Markdown对AI来说,还有一个特别实际的好处,就是省token。 同样的内容,用HTML表达需要的token数,比用Markdown多得多。 <h2>标题</h2>和##标题,信息量完全一样,但后者的token消耗少了一大截。 在大模型时代,token就是钱。 前阵子有一场很有意思的争论。 Claude Code的Thariq,写了一篇文章叫《The Unreasonable Effectiveness of HTML》,大意是说,Markdown已经过时了,在AI时代应该全面转向HTML。 因为HTML能承载更丰富的信息,能嵌入样式、交互、可视化,AI生成HTML之后人类可以直接在浏览器里看到最终效果,不需要再渲染一遍。 这篇文章直接炸了,评论区也吵翻了天。 坦率的讲,他说的有没有道理,我说实话,有。 HTML确实比Markdown能表达的东西多太多了,这个没什么好争的。你用Markdown画不出一个交互式的diff对比视图,也做不了一个带颜色标注的代码审查报告。 但从我的角度,我觉得这个观点混淆了两件事。 也就是信息的展示和流转,特别是信息在AI与人之间的展示和流转。 HTML是一个特别好的展示格式。 它的核心能力是这个东西在屏幕上长什么样,你想做一个漂亮的报告、一个可交互的mockup、一个带配色的设计稿,那不用说,HTML无疑是最强的。 但Markdown是一个更好的流转格式。它的核心能力我觉得一直都是,这段信息的结构是什么样的。 在人和AI协作的过程中,信息大部分时间我都是觉得是在流转的,不是在展示的。 你写一个需求文档丢给AI,AI读完之后生成代码,代码又丢给另一个Agent做review,review结果再丢回给你。 这整个过程里,信息在不同的主体之间流动,每个主体需要的是快速理解内容的结构和含义。 在这个场景下,HTML的丰富性反而变成了负担。 一个<div class="flex items-center justify-between p-4 bg-gray-50 rounded-lg">,里面真正有用的信息可能就是一句话。 但AI要花大量的token去解析那一堆CSS类名和嵌套标签,这些对理解内容的语义毫无帮助。 Markdown就完全不一样,##标题,三个字符,AI立刻知道这是一个二级标题。 没有噪音,没有冗余,信息密度拉满。 所以我的看法是,HTML和Markdown从来也不是替代关系,是分工关系。 Markdown是信息的底层载体,负责在人和AI之间高效流转。 HTML是信息的最终呈现层,负责给人看的时候好看。 用另一种表达来说,Markdown是数据层,HTML是视图层。 你不会用视图层来存储数据的,对吧。 这就是Markdown的力量。 而且最好玩的是,虽然在上文中,Thariq大力宣传HTML,可它的那篇文章,确是用Markdown写的。 无他,因为Markdown的流通性,太高了。 不依赖任何软件,不依赖任何公司,不依赖任何平台,你的内容就是你的内容,永远可读,永远可迁移。 这个哲学其实跟Aaron Swartz一辈子在追求的东西是一样的,信息的自由流动。 Swartz帮着做了RSS,让信息可以自由地在不同平台间流动。 Swartz帮着做了Creative Commons,让创作者可以自由地选择如何分享自己的作品。 Swartz帮着做了Markdown,让写作可以自由地不被任何格式绑架。 2013年1月,Aaron Swartz在纽约的公寓里自杀身亡。 那时候的他,只有26岁。 在他去世后的这十几年里,他参与创造的这些东西,RSS、Creative Commons、Markdown、Reddit,全都长成了互联网的基础设施。 在AI时代里,我觉得已经可以完全抛弃Word、PDF之流了。 因为Word和PDF是面向打印时代的格式。 而Markdown和HTML一起,是面向屏幕时代的格式。 一个负责存储与流转,一个负责展示。 所以,如果有人问我,AI时代应该用什么格式保存文件。 我的回答也只有两个字。 .md。 说真的,如果你现在还在用Word写日常文档,不妨试试把它换成Markdown。 找一个顺手的编辑器,Obsidian也好,飞书云文档也好,都可以。 你会发现,当你的文件变成纯文本的那一刻,你获得了一种很奇妙的自由感。 你的文字,就是你的文字。 纯粹的,干净的,自由的。 就像2004年,那个博主和那个少年。 最初想要的那样。

译飞书云文档新增直接下载为 Markdown(.md)格式的功能。Markdown 是一种极简的纯文本标记语言,因其结构清晰、易于大模型生成和解析,并能显著节省 token 消耗,已成为人与 AI 交互的主流格式,广泛应用于 AI 产品的结构化输出和 Agent 框架的文档中。此次飞书更新极大便利了用户在 AI 协作流程中的文本流转。

Ethan Mollick@emollick · 5月28日34

Lem &amp; Douglas Adams got AI right Presciently Golem XIV (from 1981) has an illustration of the jagged frontier as explained by an AI, Golem (GENERAL OPERATOR, LONG-RANGE, ETHICALLY STABILIZED, MULTIMODELING), discussing itself and a smarter AI (Honest Annie) compared to people

译勒姆与道格拉斯·亚当斯早已预见AI 1981年的《哥莱姆十四》中,有一幅插图描绘了AI所解释的“锯齿状前沿”:哥莱姆(通用操作者、远程、伦理稳定、多模型)讨论自身与更聪明的AI(诚实安妮)相比人类的局限

Orange AI@oran_ge · 5月28日52

http://x.com/i/article/2059839164837982208 # 顿悟 最近我的大脑有种顿悟之感。 感觉连起来了,一切都连起来了。 一切连成了一个圆环,每一件事都在在圆环之中。 但要讲明白,却一时不知从何说起。 但我写这篇文章的野心有点大。 我希望看完的人也能跟我一样获得顿悟。 这很难,让我们试一试。 先从一条基本的原理开始说吧: 实践是获得真理的唯一方法。 注意,不是一种方法,是唯一的方法。 可读书不也能学会真理吗? 不,读书不能让你学会任何真理。 读书只能印证你已经学会的真理。 所以如果你已经懂了,你看下面的内容会非常舒服,通畅无比。 如果你还没有懂,那你看完第一反应是反驳我的观点。但这正好可以印证我的观点。 也就是说这是一篇自证的文章,也就是说这篇文章无法被证伪,也就说这篇文章可能不属于科学范畴。 但这一点关系都没有,因为科学在此时此刻的此篇文章里一点都不重要。 科学只是人类对宇宙的一种解释。 注意,只是一种,不是唯一。 科学也不是真理,只是解释。 本文不想进行任何解释,如果你需要解释可以参看本文 《无穷的开始》:人类最伟大的Loop,世界进步的本源 为什么要先给出上面的暴论? 因为我们一生下来就活在一个系统里。 但是人要看到真理,必须先跳出系统。 在康德看来,批判理性是进行真正思考的第一步! 具体原因也不做解释,参考本文 本文也介绍了自我意识是什么,下面也会用到 从烧脑神书 GEB 到 Agent 的自我意识 跳出系统之后,我们再来看一个当下热门的问题: Agent 是都可以取代人? 问题的背后是另一个问题: 人的独特性在哪里? 我先说答案: 人是由激素驱动行为但喜欢用理性思考伪装自己的生物。 第一个关键词:激素 塔勒布的非对称风险这本书有一段话 人只有在真实的环境里才能做出正确的决定。 人类学研究表明,人类的决策过程主要是由激素推动的,知识,经验,理智在这个过程中所起的作用并不大。 我们往往是做出决定之后,再用智慧去寻找证据以便证明自己的决定是正确的。 如果决策者本人不承担决策失误的风险和损失,就不能身临其境地在压力下产生这些激素,也就不能做出正确的决定。 —— skin in the game 李笑来在戒烟的时候也发现了这个现象,在你意识到自己想抽烟之前的0.5秒你的潜意识已经决定了要抽烟。 所以戒烟的核心不是在意识上戒烟,而是在潜意识上戒烟,也就是用一句话给自己洗脑。 具体可以听这期播客 第二个关键词,理性 为什么人类喜欢争吵?喜欢争夺个“我对你错”? 《正义之心》这本书里已经给出了答案, 我们自以为的推理,并不是为了探求真理,而是为了找理由支持我们的直觉的情感反应。 具体的文章参考这篇,解释的非常完美了 理性 其实在无穷的开始和GEB里已经隐隐提到了这个观点: 人类是喜欢解释的生物,为了追求更好的解释,人类发明了科学,但解释只是意识的一个习惯。 意识并非真理本身,意识只是基于身体激素基于无数神经元的复杂化学反应之后的对这些复杂信号的解释! 那这么说,意识就是解释本身? 对,没错,意识本身就是一种解释! 也无怪乎我们的意识喜欢解释! 你明白了吗? 如果你已经明白,或许你已经顿悟。 如果你还未明白,那再看一些解释。 在意识到人类是激素的直觉的,而理性和推理都只是一种解释之后,你会发现很多事情突然就想通了。 我们通过直觉产生决策,然后再通过理性找理由来证明自己,其实证明的部分毫无意义。 尼采的书之所以晦涩难懂,就是因为他省略了一切推理过程,只写了最后一步,因为他知道证明不重要。 有些朋友从来不善于表达,吵架永远吵不赢,但这根本不重要,完全不影响他们的决策很好。 有些人会拒绝你,说你不适合某个工作,或者不适合他们投资,然后给你一系列的理由,理由的部分也很可笑,因为一样毫无必要。 有些老板根本啥技术都不懂,看起来像个sx,就每天说想要这想要那,也根本不重要,因为他还没学会解释,需要你教会他。 俗话说,伟大无需多言,屁股决定脑袋。竟然就是真理。 辩论家的理论再完美,也无法创造出伟大的作品。 正在创造伟大的人根本无法解释自己,甚至会被世人冠以疯子的名号! 看到这里,不知道你是否已经明白这些问题的答案: 你是否已经明白,Agent 永远无法取代人类,因为它没有激素! 你是否已经明白,人类的工具性并非人的本质,人类的意志力才是人的本质! 你是否已经明白,人类是如此特别,相比动物他可以用意识欺骗自己,相比机器他可以用动物的激素来控制自己。 人类就是如此独一无二。 算法是大概率,你是异常值。 每个人要活出自己的独一无二。 尼采说,人有精神三变。 从负重的骆驼,到反抗的狮子,再到天真的孩子。 只有活成孩子,只考虑我要什么的时候,人才终于成为完整的人。 看到这里不知道你已经顿悟还是已经迷失。 希望是前者。 但正如我所说 实践是获得真理的唯一方法。 看完这篇文章只是一个印证。 如果你还没有顿悟, 继续实践是你唯一的法门。

译推文阐述其关于人类独特性的核心观点:人类决策本质上由激素等生理反应驱动,而理性思考常是对这些决策的事后解释。基于此,作者认为AI智能体(Agent)因缺乏激素驱动机制,永远无法真正取代人类。人的本质在于意志力而非工具性,其独特性体现在能通过意识自我解释,并利用激素控制自身,这使得每个人都是算法中的“异常值”。文章强调实践是认识真理的唯一方法,阅读只能印证已有认知。

宝玉@dotey · 5月28日60

Agent 生成的结果要不要人工审查,取决于验证方法是不是可靠,以及模型能力是否够强,能理解任务并做好验证工作。 就写代码这种事来说,中间结果确实不需要太多人工检查了,不过开头的 Plan/Design 和最终的审查,人还是过关一下比较好。

译推文探讨AI智能体生成结果是否需要人工审查,关键在于验证方法的可靠性及模型理解与执行验证的能力。以编写代码为例,中间结果可减少检查,但初始规划与最终审查仍需人工把关。人工更适合定义总目标,而智能体的思路可能更优。

向阳乔木@vista8 · 5月28日67

http://x.com/i/article/2059821245093560320 # AI越强,人越忙:一个住在未来的人说了什么 著名PM人Lenny访谈了Every公司的CEO,很多观点犀利且反共识,让AI写一篇总结。 > 原始视频:https://www.youtube.com/watch?v=4D3hDmGhFhA 一家 30 人的公司,全员 AI 重度用户,人人用 Codex 和 Claude Code 干活。 按理说,这种公司应该越来越精简才对。 但过去一年,他们的员工人数翻了一倍。 这家公司叫 Every,CEO 叫 Dan Shipper。 他不是在硅谷的实验室里预测未来,他是真的住在未来。 工程师、编辑、销售、客服,所有人都在用最新的AI工具干活,然后 Dan 会把他们实战的经验和观察写出来。 去年他说 Claude Code 被严重低估,没人信,后来 Anthropic 围绕这个方向建了整个产品线。 所以当他说"AI 越强,人反而越忙",值得认真听一听。 ## 自动化是个谎言 Dan 说这不是在抱怨,他是在描述一个他亲身经历的悖论。 他自己做了一个Benchmark,叫"高级工程师基准测试"。 起因很狼狈:他把自己的写作工具 Proof 用 vibe coding 做出来,上线第二天服务器每隔 10 分钟就崩一次。 他让 Codex 修,Codex 说修好了,然后又冒出四个新 bug,循环往复,一晚上没睡着。 后来他请了两位真正的高级工程师,分别独立重写了这个代码库。 于是他有了这个"高级工程师基准测试":让 AI 接手同一个烂摊子,从头重写。 结果:几乎所有模型得分在 30 分左右。人类高级工程师能到 85 到 90 分。 GPT-5.5 是唯一的异类,跳到了 62 分。 而且它是唯一一个真的敢推倒重来的模型,其他模型接到"去修这些 bug"的指令,就真的去一个一个修 bug 了。 人类高级工程师会怎么做? 他会先扫一眼代码库,然后说:"这玩意儿是坨屎,我们得重写,我知道你不想听,但就是这样。" 他自己判断出来的。 模型能解决被定义清楚的问题,但"发现这个问题需要被重新定义"这件事,模型还不会主动做。 基准测试的分数在涨,但它永远只能测量人类已经想清楚、能打分的那部分工作。 剩下那部分,没法打分,因为你得先想到要问这个问题。 这就是为什么 Every 的人越招越多。 每一个 Agent 背后,都需要一个真正关心它在做什么的人。 自动化没有消灭工作,它创造了新的工作:管理自动化本身。 Dan 把这叫做"每个 Agent 都需要一个人"。 ## 工作会分裂成两种形态 Dan 的预测是:未来一年内,大多数人的工作方式会朝两个方向同时演化。 第一种:公司共用一个超级 Agent。 不是每个人一个私人助理,而是整个公司共用一个 Agent,挂在 Slack 里,所有人都能调用。 Shopify 已经有了,Ramp 也有了。 Dan 最初以为每个人都会有自己的私人 Agent,像《黄金罗盘》里每个人肩上的精灵,是灵魂的一部分。 > 黄金罗盘一口气解读版 https://www.bilibili.com/video/BV156421c74o/ 他对这个图景着迷了很久,然后彻底改变了看法。 原因很简单:Agent 需要有人照料它。 OpenClaw 刚出来的时候,Every 所有人都兴冲冲地设置了自己的 Agent,然后一个个放弃了。 因为它会坏,要 SSH 进服务器,要不停地调整,大多数人坚持不了多久。 一旦没人关心它在做什么,它就会悄悄变得没用。 所以现实的路径是:先有一个公司级别的通用 Agent,由专人负责维护,再随着模型变得更可靠,逐渐向下分裂出团队级别、个人级别的 Agent。 这个专门负责维护 Agent 的人,Dan 叫他"前沿部署工程师",Every 内部已经有这样的岗位了。 > 前沿部署工程师模式(Forward Deployed Engineer,FDE)起源于Palantir,其核心在于通过“驻场工程师+业务专家”的协同模式,将技术能力与业务需求深度融合. 第二种:Codex 或 Claude Code 成为新的工作操作系统。 这是 Dan 更兴奋的部分,也是更难一句话说清楚的部分。 他现在处理邮件的方式是:让 Codex 打开内置浏览器,把所有邮件聚合到一个页面,然后他对着屏幕说话。 "这封律师的问题,去把过去四年的文件整理成报告发过去。" Codex 就去做了。 他已经连续 10 天保持收件箱清零,这对他来说是从没有过的事。 写文章也一样。 他在 Codex 的内置浏览器里打开 Proof,Codex 能看到他在写什么,他也能看到 Codex 在做什么,两者实时协作。 招人也是,他想找一个在 General Assembly 做过技术教育、现在又对 AI 感兴趣的人,直接跟 Codex 说。 然后他就做别的事了,回来发现 Codex 找到了一个完全符合条件的人,还在 Twitter 上关注了他。 Dan 直接发了私信,约了顿饭。 过去我们把 AI 嵌进 SaaS 工具,未来是把 SaaS 工具放进 AI Agent 里跑。 他在 Codex 里用 Proof,用的是他自己的 token,不是 Proof 这个产品的 token。 SaaS 厂商不需要烧钱堆 AI 功能,用户把 AI 带过来,SaaS 只需要让自己对人和 Agent 都友好就够了。 利润率反而可能回升。 ## CLI 时代已经结束了 Dan 说得很直接:CLI 的时代过去了,我们把它速通了。 Claude Code 火起来的时候,很多人以为是终端命令行的魔力让它好用。 Dan 认为这个判断是错的。 真正的原因是 Agent 在本地机器上有完整的访问权限,以及网上有大量关于如何使用终端的内容,让模型学得很好。这和 CLI 本身没什么关系。 Every 内部,大多数技术人员已经不把终端当主要工作界面了。 偶尔还会切进去,但主战场是 Codex、Claude Code、Cursor 这些有真正界面的工具。 GUI 本来就是为了让人更舒服而发明的,这个逻辑没有变过。 ## SaaS 不会死,Agent 会给它带来更多用户 Dan 说他现在会买 SaaS 股票。 大家都在说 Agent 会让人绕过 SaaS,直接用 AI 干活。 但 Dan 的观察是反过来的:Agent 不会替代 SaaS 的用户,它会成为 SaaS 新的用户。 Every 内部人人都用 Codex 和 Claude Code,但他们的 SaaS 支出比去年还高。 因为 Agent 在用 SaaS,大量的 Agent,高频次地调用。 需求在爆炸,不是萎缩。 他还提到一个细节:Every 的 Proof 是开源的,用户遇到问题,不是自己发邮件给客服,而是他们的 Agent 直接发一份 bug 报告,里面有精确的复现步骤,有对代码库的分析,直接变成 GitHub issue,然后 Every 的 Agent 去修。 这个闭环,比任何人工客服流程都快。 对 SaaS 公司来说,真正需要做的事情变了:不是把 AI 塞进自己的产品,而是让产品同时对人和 Agent 友好,两者能在同一个界面上协作,各自看到对方在做什么。 ## PM 和设计师,迎来最好的时代 Dan 对这两个角色极度看好。 Marcus,PM 出身,之前在 Axios 负责写作产品,带大团队做到了几千万 ARR。 后来他休息了一年,专门学会了用 Cursor。 现在他在 Every 负责写作应用 Spiral,是团队里出货最快的人之一。 Dan 说,哪怕一年前,他们也没办法安排 Marcus 做这个工作,因为那时候模型还不够好。 但现在,Marcus 的产品感和用户洞察,配上足够好的编程模型,变成了一种超强组合。 他不需要组织一整个团队来实现自己的想法,他直接去做。 设计师也一样。 以前最大的痛苦是:想到了一个绝妙的交互,工程师不想做,或者做出来不是那个味。 现在他们可以自己发 Pull Request,自己把想法变成现实。 而且,当所有人都在用 vibe coding 批量生产千篇一律的界面时,真正懂审美、懂交互的设计师反而更值钱。 能让东西看起来不像 AI 做的,本身就是一种稀缺能力。 ## AI 不会让你失业,但不用 AI 会 Dan 的判断是:大规模失业不会发生。 那些被归因于 AI 的裁员,大多数是过度招聘的修正,AI 只是一个方便的借口。 但这不意味着可以躺平。 他给出的建议只有一条,叫"骑上(驾驭)模型"。 不是因为 FOMO,不是因为害怕,而是因为好奇。 每次有新模型出来,把它用在你真正在乎的事情上。 哪怕上次试过不行,这次再试一次看看。 他自己就是这么做的,GPT-5.5 出来,他把高级工程师基准重新跑了一遍,从 30 分跳到了 62 分。 他还说了一件让人意外的事:AI 的真正前沿不在旧金山,而在每一个把 AI 用在真实工作场景里的人那里。 硅谷的人在造它,但不一定知道怎么用好它。 每次新模型出来,你是世界上最早一批发现它能做什么的人之一。 Every 在布鲁克林,不在硅谷。 但 Dan 觉得他们比大多数硅谷公司都更靠近未来,原因只有一个:他们把所有工具都真的用在真实的工作上。 这是他给出的最后一个建议:别争论 AI 会不会改变世界,去找一件你真正头疼的事,试着用 AI 解决它。 当你第一次感受到"这也行?"的那一刻,你就不需要别人再来说服你了。

译Every公司CEO Dan Shipper指出,全员使用Codex和Claude Code的公司员工数反而翻倍,揭示了AI增强工作而非替代人力的悖论。他设计的“高级工程师基准测试”显示,人类得分85-90分,而AI模型平均仅约30分,GPT-5.5最高也仅达62分。核心问题在于AI能解决已定义的问题,却无法主动识别问题需要被重新定义。他预测未来工作将分裂为两种形态:一是公司共用由专人维护的超级AI智能体;二是Codex或Claude Code等AI工具成为新的工作操作系统。他认为这不会导致大规模失业,而是要求每个人都学会“驾驭模型”,将AI用在真实工作场景中。

向阳乔木@vista8 · 5月28日61

这个访谈太好了,身边很多朋友的想法被验证。 1. AI越强,人越忙,Every过去一年员工翻倍。 2. AI 自动化创造了新工作:管理自动化。 3. 每个Agent都需要一个人照料。 4. 真正跑起来的模式是全公司共用一个Agent,专人维护,以后再分化个人Agent。 5. CLI时代已经结束了,GUI才是主战场。 6. SaaS不会死,Agent会给它带来更多用户,Dan现在会买SaaS股票。 7. AI嵌进SaaS是错误方向,应该反过来 8. . PM和全栈设计师迎来最好的时代 9. AI只是裁员借口,是过度招聘的修正。 大规模失业不会来,但不用AI的人会被用AI的人替代,这两件事不矛盾。

译观点认为,AI越强,人的工作量反而越大(如Every公司员工翻倍)。AI自动化创造了管理自动化这一新工作,且每个智能体都需要专人照料。实践中,更可行的模式是公司共用一个智能体,由专人维护。CLI时代结束,GUI是主战场。SaaS不会消亡,反而会因智能体获得更多用户。将AI嵌入SaaS是错误方向,应反向进行。产品经理和全栈设计师将迎来最好时代。AI只是裁员借口,是过度招聘的修正。大规模失业不会发生,但不会使用AI的人将被使用AI的人替代。

向阳乔木@vista8 · 5月28日58

好久没听到MCP了,据说新的版本7.28号发布。 有几个Feature还挺关键: ① 服务器能下发 HTML 界面让用户交互了 ② 长任务有了正式的管理机制 ③ 授权更严,安全性更好
 现在你还在用的刚需 MCP 是啥?我感觉几乎没有了

译MCP协议新版本将于7月28日发布,包含几个关键特性:服务器可向用户下发HTML界面进行交互、为长任务提供了正式的管理机制,以及更严格的授权以提升安全性。作者在推文中询问社区目前仍在使用的“刚需”MCP是什么,并表示自己感觉几乎没有了。

Berryxia.AI@berryxia · 5月28日41

AI Native的公司竟然都已经完全Agent化了? 是夸大还是真实如此? 50百万人在用自然语言造软件,却一行代码都没写过。 这就是Replit + Claude正在发生的真实故事。 Michele Catasta 16岁时就立志要让每个人都能轻松创建软件,今天Replit已经让5000多万人通过自然语言在平台上构建真实应用。 他们和Claude的合作紧密到新模型一发布,当天就能上线新版Replit Agent。 编程的门槛彻底消失了,普通人只要用对话,就能把脑子里的想法变成能跑的网站、App和工具。 这才是AI真正改变世界的样子:不再是取代程序员,更像是让“不会写代码”的人也能成为创造者。

译Replit平台与Claude深度合作,新模型发布当天即可上线新版Replit Agent。该平台已让超过5000万人通过自然语言构建真实应用,实现了用对话代替编码。Replit总裁Michele Catasta早在16岁时就立志让软件开发对所有人开放。这一合作模式展示了AI Native公司完全Agent化的趋势,让非程序员也能成为软件创造者。

Chubby♨️@kimmonismus · 5月28日70

There is a striking tension between Chris Olah’s remarks and Dario Amodei’s recent framing. Olah says frontier AI labs operate under incentives that can conflict with doing the right thing and therefore need serious external moral scrutiny. Amodei, meanwhile, seems to be moving from “AI may wipe out large parts of white-collar work” toward a more market-friendly story about productivity gains, job transformation, and Jevons-style optimism - a narrative that also happens to sound much better on the road to an IPO.

译文本指出AI领域存在核心张力。Anthropic联合创始人Chris Olah主张前沿AI实验室需要严肃的外部道德审查,因其激励可能与“做正确的事”冲突。与此同时,Anthropic CEO Dario Amodei的叙事正从“AI可能消灭大量白领工作”转向更市场友好的生产力提升与工作转型论述(如杰文斯悖论)。然而,Yale Budget Lab的跟踪数据显示,自ChatGPT发布以来,美国劳动力市场职业构成无明显变化,AI暴露岗位的失业并未加速。因此,当前AI能力曲线与实际就业数据之间的差距可能比以往更大,这构成了讨论的起点。

meng shao@shao__meng · 5月28日68

2026 年面向生产环境 AI Agent 的评估指南 Agent 评估 ≠ 实验室 benchmark Agent 评估 ≠ chatbot / RAG 评估 https://www.howtoeval.com/ 看两个关键概念:Benchmark-maxxer vs. Floor-raiser Benchmark-maxxer(刷能力上限) · 让专家用户更强 · 用于 Cursor、Claude Code、Codex 等场景 · 抽象测试集、能力分数 Floor-raiser(抬可靠性下限) · 让普通用户敢用、敢信 · 用于客服、银行、医疗等自主 Agent · 读真实 trace、找致命失败模式 完整工作流(作者主张的闭环) 上线前摸底 → 离线 code-aware eval → 上线后读日志 → 分类/修复 → 回归测试 → 再上线 值得重视的洞见(与业界共识一致的部分) 1. Floor raising = Hamel Husain 式的 error analysis:先读真实交互,找「最后成功一步」和「第一次真失败」,再修模式而非个案。 2. Agent eval ≈ E2E 测试:和 OpenAI macro evals、Sentry vitest-evals 方向一致。 3. Eval 套件应是「拒绝复发的记忆」,不是覆盖想象的巨型测试集。 4. 轨迹可观测性在模型越来越「黑箱 agentic」时会更重要;未来 harness 可能坍缩进模型,端到端 + 生产监控会更主导。 5.「我不知道」是 floor-raising 的低成本杠杆——对替代人类的产品,信任 > 炫技。 值得提炼的五个观点和经验 · 先选目标:刷上限还是抬下限——多数产品 Agent 该选后者。 · 抬下限 = 读真实失败,AI 可帮忙聚类 trace,但分类逻辑要人定。 · 离线 eval 必须 code-aware、跑真路径,像单元/E2E 测试,不像 prompt 打分。 · 上线后按流量升级:stumble → issue → signal → experiment,别跳步。 · 闭环:真实失败 → 少量高信号回归 → 修 → 在线验证;别让 eval 套件变成没人看的博物馆。

译本文指出,评估面向生产环境的 AI 智能体,应与实验室 benchmark 及聊天机器人/RAG 评估严格区分。核心是确定评估方向:针对 Cursor、Claude Code 等工具的 Benchmark-maxxer,旨在刷能力上限;针对客服、银行等自主智能体的 Floor-raiser,旨在抬高可靠性下限。指南推荐一个工作闭环:上线前摸底、离线代码感知评估、上线后日志分析与修复。总结的五个关键经验包括:多数产品应优先抬下限、评估需基于真实失败案例、离线评估需代码感知、按流量分阶段升级,以及让评估套件成为防止问题复发的“记忆”。

meng shao@shao__meng · 5月28日28

Lenny 发起的「梦想加入的公司 Top3 调查」 Anthropic、OpenAI、SpaceX 很符合 Lenny 的科技和 AI 用户画像,这三个公司也是未上市的科技和 AI 领域最头部的三个公司了,他们有可能今年内都上市,并且都达到万亿市值吗?

译Lenny发起的“梦想加入的公司Top3”调查显示,Anthropic和OpenAI位列其中,与SpaceX一同成为最受向往的雇主。这反映了科技与AI领域顶尖公司的吸引力。推文进一步讨论,这三家未上市的头部公司是否有可能在今年内上市,并均达到万亿美元市值。引用推文提供了该调查的原始问题,即询问人们当前最向往的三家工作公司。

meng shao@shao__meng · 5月28日60

AI 应用层还没死,但要避开「Yellow Brick Road」! @joeschmidtiv (a16z) 这篇文章指出:AI 应用层仍有巨大机会,但机会不在模型实验室正在全力押注的「通用智能体」路径上,而在垂直、复杂、系统级的「工作流深处」。 创始人、求职者普遍焦虑:OpenAI、Anthropic 会不会把应用层全部吃掉? Schmidt 认为这种焦虑「对了一半」: · 对的部分:实验室确实会吞掉大量横向、通用、低复杂度的应用表面 · 错的部分:「应用层」不是铁板一块,不能一概而论 他用《绿野仙踪》做比喻: · 黄砖路(Yellow Brick Road) = 实验室正在走的路 · Oz 的其他地方 = 创业公司该去的地方 什么是「黄砖路」?为什么危险? 黄砖路指:拿最强模型 + 现成连接器(Slack、Salesforce、GitHub 等)+ 简单 Agent 编排 → 做一个通用 AI 同事。 问题在于,这正是 Cowork、Codex、Claude Code 在做的事。 如果你做的是同样的连接器、同样的浅层编排、没有子 Agent 和深度配置、也没有分发——你是在跟实验室正面竞争,大概率是死路。 黄砖路上的问题(代码生成、写作、图像等)有一个共同特征:产品质量随模型 raw capability 线性提升,每多投一美元预训练/后训练,产品就更好。这类问题天然适合实验室。 「Oz 其他地方」的机会在哪里? 机会在复杂、垂直、多步骤、多角色的问题上,价值不只来自模型能力,更来自让输出可信、合规、可运营的一整套脚手架。 典型特征: · 跨系统 Gather context,再经多个人类审批节点 · 涉及 legacy 系统 · 需要确定性结果,不能容忍模糊 · 与真实商业结果绑定(成交、核保、合规审查) 实验室自己也承认搞不定全部——所以才会砸重金做 forward-deployed joint ventures(派驻式联合项目),帮企业定制配置。如果「下一个模型版本就能解决」,他们不会投这笔钱。 为什么实验室最终也「吞不掉」Oz 其他地方? 1. 数据与学习飞轮 · 大量行业知识不在训练集里:未写下的规范、潜规则、从业者脑中的经验 · 两层飞轮: · 跨客户:同类问题的模式识别 · 单客户:该机构特有的例外与决策逻辑 · 横向工具难以设计合适的 UX 来捕获这些知识;垂直玩家可以围绕工作流定制界面 2. 模型变异性管理 · 实验室只能推自家模型;应用公司可以跨厂商选模型——不同子任务用最合适的(开源微调、竞品 API 等) · 还替客户做脏活:每次模型升级重跑 eval、针对 edge case 重调 prompt、平滑迁移 · 客户得到的是「全市场最优智能 + 升级连续性」,而非「请自行迁移到我们的新模型」 3. 成本优化 · 全走 Opus 4.7 = 负毛利 · 垂直公司按子任务路由:前沿模型做难题、中端做 bulk、自研/微调小模型做窄任务 · 实验室定的是「$X 能买到的最低智能」;应用公司卖的是「完成该工作流所需的最低 dollar cost」 4. 治理(Governance) · 成为客户在该垂直领域跑 AI 的控制平面:权限、审计、agent 能做什么、实际做了什么 · 吸收监管复杂度(HIPAA、SEC/FINRA、律师协会规则等) · 横向玩家无法同时成为「一百个垂直领域」的合规伙伴 核心 trade-off:实验室必须 everywhere for everyone → 无法 great at one thing。 三个自检框架:你在不在「Oz 其他地方」? 测试 | 黄砖路(危险)| Oz 其他地方(机会) · 工具与步骤测试 | 一步、一个工具、结果可容错(如搜 Google Drive) | 多步、多工具、输出需过 partner/法庭/监管 · 系统 vs 工具测试 | 客户已有工作流上的「智能插件」;实验室出竞品客户可换掉你 | 客户通过你的系统跑工作;你是 orchestration layer · 对冲基金/P&L 测试 | 客户为 generic capability 付费(Claude seat 可替代)| 客户为 workflow-specific outcome 付费(成交、核保、合规) 最终判断:两条路都会出大赢家 · 黄砖路:实验室赢——拥有模型 + 横向工具的分发 · Oz 其他地方:应用公司赢——若拥有 system of work(工作执行面、数据捕获、治理) 模型层是可替换的(fungible);工作系统不可替代。 新一代 enterprise software 会建在路上之外——应用公司成为整合并交付各类新模型的层,而客户依赖的是那套系统。

译a16z 合伙人指出,AI应用层仍有巨大机会,但机会不在模型实验室押注的“黄砖路”上。这条路径指用最强模型加简单编排做通用AI工具,与实验室正面竞争胜算极低。真正的机会在“Oz的其他地方”——复杂、垂直、多步骤的工作流。其价值不仅来自模型,更来自确保输出可信、合规、可运营的系统脚手架。应用公司相比实验室的优势在于:能构建专属的数据学习飞轮、跨模型管理与优化成本,并吸收监管复杂度。核心结论:模型层可替换,但深度集成的工作系统不可替代。

DogeDesigner@cb_doge · 5月28日29

Elon Musk has no time zone. We were at Neuralink filming something for a movie and were there until 1AM. Then he went straight from there back to xAI. Then I had a friend who met with him at 4AM. He lives life constantly like that. — Ashlee Vance

译埃隆·马斯克没有时区概念。我们在Neuralink为电影拍摄内容,一直待到凌晨1点。然后他直接从那里回了xAI。接着我有个朋友凌晨4点和他见了面。他一直过着这样的生活。

Ethan Mollick@emollick · 5月28日60

Google has the only true Omni model, but the elements aren't hooked up. It appears it can take in &amp; output audio, images. video, songs, text, code, etc. But right now each type of output is separate. When you can access the model directly, blending modes, a lot becomes possible.

译Google拥有唯一真正的全模态模型,但各元素尚未连接。它似乎能接收和输出音频、图像、视频、歌曲、文本、代码等。但目前每种输出类型都是分离的。当你能直接访问模型,混合模式,很多事情就变得可能了。

Ethan Mollick@emollick · 5月28日48

When they write fiction, AIs are obsessed by things that take or give memories, contracts with sentient inanimate objects, sets of secretive rules that govern conduct &amp; which no one can acknowledge out loud... All very on-the-nose. I suspect a lot is hyperstition at this point.

译当AI写小说时,它们痴迷于那些夺取或赋予记忆的事物、与有感知的无生命物体签订的契约、以及一套无人能公开承认的隐秘行为准则…… 这一切都过于直白。我怀疑此时已有很多是超虚构。

Greg Brockman@gdb · 5月28日63

Underappreciated how capable GPT-5.5 is at cybersecurity:

译低估了GPT-5.5在网络安全方面的能力: GPT 5.5发现了一个引入于1999年4月、已有27年历史的远程代码执行漏洞。我已反复检查流程和提交历史,确认属实。 迫不及待要负责任地披露了!

Orange AI@oran_ge · 5月28日57

AI 行业发展到了新阶段 最近海内外都开始有一些反思的声音出现了: 1. model+harness才是产品(而不会吃掉一切) 2. 完全自动化就是在骗自己,珍贵的东西都无法完全自动化,离不开人的参与 3. 慢工出细活的耐心,是AI时代的新奢侈品,欲速则不达,慢就是快 4. AI 的成本支出很大,算 ROI 有时候不如人

译推文指出AI行业发展进入新阶段,出现对过往技术路线的反思。核心观点包括:1. 单纯的大语言模型本身不足以成为完整产品,必须结合工具框架(harness);2. 完全自动化脱离人的参与是不切实际的;3. 慢工出细活的耐心变得尤为重要;4. AI部署成本高昂,考量投资回报率时有时不如人力划算。这标志着行业从追求技术突破转向更务实的产品构建与价值评估。

Chubby♨️@kimmonismus · 5月28日35

I just watched the clip @arrakis_ai created and I'm really impressed with Google's Omni. You can pause the clip at any frame and the text on the Pokémon card remains perfectly legible and unaltered. The consistency and continuity are next level.

译我刚看了@arrakis_ai制作的片段,对Google的Omni印象深刻。 你可以在任意帧暂停,宝可梦卡牌上的文字都保持完美清晰且未改变。这种一致性和连续性是顶级水平。

elvis@omarsar0 · 5月28日61

It's crazy that this is even possible today. It inspired me to build my own self-improving coding agent with simple read, write, bash,... I already used the coding agent to build an entire production-grade application in 24 hrs. I don't know, man. This feels so strange.

译真不敢相信这在今天竟然成为可能。 这激发了我构建自己的自改进编程智能体,使用简单的读、写、bash等工具。 我已经用这个编程智能体在24小时内构建了一个完整的生产级应用。 我不知道,伙计。这感觉太奇怪了。

Emad@EMostaque · 5月28日59

Train with autoregression &amp; convert weights to diffusion for inference.

译训练时使用自回归,推理时将权重转换为扩散模型。

SemiAnalysis@SemiAnalysis_ · 5月28日36

there's a really important lesson here, but some of yall aren't ready for that conversation yet

译这里有一个非常重要的教训,但你们中的一些人还没准备好进行这场对话。

Ethan Mollick@emollick · 5月28日46

Decent chance that, not even taking into account GenAI, this will be viewed as a decade of incredible progress against the problems that were, ironically, caused by modernity: metabolic syndrome, auto deaths, carbon emissions...

译推文认为,未来十年将是人类历史上最伟大的十年之一,即使不考虑生成式AI,也将在解决由现代性引发的问题上取得巨大突破,包括代谢综合症、汽车相关死亡、碳排放、绿色能源和癌症治疗等领域。这些进展将与重返月球和AI发展共同构成一个进步的时代。

宝玉@dotey · 5月28日62

哈哈,严重赞同,去设定一堆角色来聊天没什么价值,纯浪费 Token。就跟早年想给人装上翅膀飞上天一样。 人类之所以这么分工是因为能力有限,无法精通所有工种,不代表 AI 也要这么做。 也不能说完全没用,还是能收获情绪价值,整个三省六部给自己汇报工作圆个帝王梦。

译推文强烈批评在AI智能体设计中,模仿人类组织架构、设定不同角色并通过聊天传递上下文的做法,认为这纯属浪费Token。其观点认为,人类分工是因能力有限,但AI不应受此限制。尽管承认此方式或能提供情绪价值,但用“三省六部”的比喻将其归结为满足用户幻想。

Rohan Paul@rohanpaul_ai · 5月28日35

"In colleges graduation speeches, if they mention AI, everybody boos. We're not going to stop it, so let's be honest. We're going to have AGI in less than 3 years. We're going to have super intelligence in 5 or 6." ~ @TonyRobbins

译在大学毕业典礼演讲中,如果提到AI,大家都会喝倒彩。我们无法阻止它,所以让我们诚实面对。 我们将在不到3年内实现AGI。我们将在5或6年内实现超级智能。

swyx@swyx · 5月28日42

insanely good company to keep

译Railway推出“代理原生云”,宣称拥有3M用户、每周10万注册量,其编码智能体上的支出超20万美元。创始人阐述了AI智能体为何需要新型云环境:Railway已将大部分工作负载迁移至自有的裸机数据中心,智能体使得CLI(命令行界面)比仪表盘更重要,而传统的Git/PR/CI/CD循环开始失效。文章还介绍了如何通过生产分支和功能开关使AI SRE更安全,并引用其观点:“如果你还在手动写代码,那你就是做错了。”

Chubby♨️@kimmonismus · 5月28日80

I sat down with Robby Stein (@rmstein), Google’s VP of Product for Search, at @Google I/O. Robby is one of the most interesting product leaders in tech: he helped build Instagram Stories, Reels and Close Friends, and now leads core Google Search products including AI Overviews, AI Mode, Lens and ranking. We talked about one of the biggest shifts in the history of the web: Google Search becoming AI-native. Topics we covered: • AI Mode and whether it is an evolution of Search or a reinvention of it • how Google breaks complex questions into multiple searches behind the scenes • why AI search is much more expensive to run than traditional search • whether Google’s TPUs and infrastructure give it an advantage no one else can match • why Search volume is growing instead of being cannibalized by AI • the tension between great AI answers and traffic for publishers • how Google decides which sources and links to show • what a better internet could look like if AI Search works as intended The big question behind the whole conversation: If Google gives you the answer directly, what happens to the link-based web? A small caveat: sadly the microphones didnt work properly. Therefore the audio quality in this episode isn't perfect due to a recording issue - we appreciate your understanding.

译本文记录了与Google搜索产品副总裁Robby Stein在Google I/O的访谈,核心探讨Google Search向“AI原生”模式的重大转变。讨论话题包括AI Mode是进化还是重塑、如何将复杂问题拆解为多轮搜索、AI搜索的高运行成本、Google TPU及基础设施的优势、AI时代搜索量不减反增的原因,以及优质AI回答与出版商流量之间的张力。访谈还涉及Google决定展示哪些信息源与链接的逻辑,并围绕一个核心问题展开:如果Google直接给出答案,传统的基于链接的网页生态将走向何方?

宝玉@dotey · 5月28日63

Agent 产品的设计,要看定位是以 Agent 为主还是以人为主 Agent 为辅。 如果 Agent 只是辅助,那么工作区在中间,Agent 干活区就在右侧。毕竟主要的场景都是人操作工具区,偶尔让 AI 在右侧辅助。 如果以Agent为主,那Agent干活区在中间,其他在右边。因为大部分时候你都在指挥 Agent,所以并不需要直接去操作工作区。 你看主流的 Agent:Codex App、Claude Desktop、Cursor Agent,都是 Agent 对话区在中间,其他都在右边 典型场景就是写 PPT: 如果主要都是你自己在写 Slides,那么打开 Google Slides,自己编辑,右侧随时和 Agent 对话,辅助帮你做一些事情 如果是让 Agent 帮你写 Slides,打开 Codex,告诉你的想法,让它生成,生成好了你在右边看看,不满意告诉 Agent 去帮你调整。

译Agent产品的设计需首先明确定位:若以人为主、Agent为辅,则人的工作区居中,AI智能体对话区在右侧辅助;若以AI智能体为主,则AI智能体对话区居中,其他界面在右侧,因为用户主要通过指令与Agent交互。Codex App、Claude Desktop、Cursor Agent等主流产品均采用了后者布局。文中以写PPT为例对比:前者是用户亲自编辑幻灯片,右侧与Agent对话辅助;后者是用户下达指令,由Agent生成并调整。这一界面设计被认为是所有ToB AI软件的最终形态,并推荐使用Mastra框架实现业务AI化。

elvis@omarsar0 · 5月27日47

For future-proof, build AI that's composable. Regardless of what you use, all these should be composable, iterative, and customizable: - LLMs - Evals - Automations - MCP/CLI tools - Skills/Memory/Context - Agent Harness (Codex, CC, Pi,...) The compounding effects are insane.

译为了面向未来,构建可组合的AI。 无论你使用什么,所有这些都应该是可组合、可迭代和可定制的: - LLMs - Evals - Automations - MCP/CLI tools - Skills/Memory/Context - Agent Harness (Codex, CC, Pi,...) 复利效应是惊人的。

Berryxia.AI@berryxia · 5月27日33

这种GPT&amp;Seedance 2.0 打斗的视频一直可以火。 这恰巧是SD2.0 最擅长的,视觉效果也拉满。 做游戏Demo展示太好了!

译这种GPT&Seedance 2.0打斗的视频一直可以火。 这恰巧是SD2.0最擅长的,视觉效果也拉满。 做游戏Demo展示太好了!

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月28日
21:39
ginobefun@hongming731
50
过去四十年,写文档是在整理已经想清楚的事; 现在写 Spec、Rule、project.md,是在被一个永不疲倦的读者逼着把自己从未想清楚过的事想清楚。 这不是效率升级,而是认知事件。
大佬观点现象/趋势
21:37
elvis@omarsar0
38
如果我们以正确的方向改进AI,我怀疑它也能在所有科学领域实现类似效果。

Noam Brown: After AlphaGo, the skill of human Go players noticeably improved. I suspect we will see a similar pattern in math.

大佬观点现象/趋势
21:31
Berryxia.AI@berryxia
6
推文提及Anthropic首席执行官Dario Amodei与中国用户的互动历史,并讨论其对中国用户的态度。内容主要围绕个人经历与看法,未包含具体模型、参数或评测数据。

Berryxia.AI: Anthropic 的老板Dario 看来当年没少在中国花啊~ 不知道遭遇了啥如此的痛很国人......

Anthropic大佬观点
21:31
AYi@AYi_AInotes
58
Cursor高额额度实测:高效使用为何反而省钱

用户获赠Cursor 1万美金额度,高强度使用7天(包括Claude Opus 4.7 thinking xhigh MAX和GPT-5.3 Codex high fast MAX,单次最高达672万 tokens)后,实际账单仅约300多美金。核心观点是:许多人按 token 单价估算成本是错误的,MAX 等高端模型往往能一次完成任务,而便宜模型需多次试错,总 token 消耗反而达3-5倍,导致“贵的反而便宜”。引用Claude Code之父Boris Cherny的观点强调“计划做得好,代码自然好”,指出省钱关键是让强模型一次做对。结合引用推文背景,Cursor在被收购后能力显著增强,不仅能写代码,更能直接交付可用的产品成品(如10秒生成可交互雷达图),更像“全职执行助理”,进一步支持了“放手使用高效工具”的结论。

AYi: Damn,@Cursor被老马收购以后是进化了吗? 现在真的强到离谱,这波必须吹爆, 我现在已经不用 Cursor 写代码了,用它做产品很香啊, 随口一句 帮我做个六维协作雷达图, 10 秒直接交付,Excel 可编辑模板 + HTML 可...

大佬观点编码
21:12
Chubby♨️@kimmonismus
46
Bloomberg泄露iOS 27 Siri重大改版方案

Bloomberg泄露了苹果iOS 27中Siri的全面改版方案。核心架构是Siri将基于Google Gemini构建,界面新增下拉菜单,允许用户直接切换至ChatGPT或Claude。这表明苹果在重建Siri后,选择整合外部大模型。此外,苹果还将推出与Perplexity竞争的AI网络搜索功能、自然语言创建Shortcuts的能力以及AI照片编辑工具。此次更新是Siri历史上规模最大的一次。

Mark Gurman: BREAKING: A first look with renders at Apple's upcoming iOS 27, completely revamped Siri, major new AI features, enhance...

Google大佬观点语音
19:31
Berryxia.AI@berryxia
16
Anthropic 的老板 Dario 看来当年没少在中国花啊~ 不知道遭遇了啥如此的痛很国人……
Anthropic大佬观点
18:04
Noam Brown@polynoamial
62
AlphaGo之后,人类围棋选手的水平显著提升。我怀疑我们将在数学领域看到类似的模式。

Timothy Gowers @wtgowers: Another major problem, this time in additive combinatorics, has fallen, this time to humans rather than AI, but using me...

OpenAI大佬观点推理
17:39
ginobefun@hongming731
62
AI Agent 演进:从提示工程到系统工程

AI智能体(Agent)的发展正经历工程范式转变,核心是从Prompt Engineering转向更系统的工程构建。这体现在六大模块的演进:1)提示词按需加载上下文;2)规划能力可拆解复杂任务;3)记忆采用文件系统与检索混合模式;4)工具层直接使用CLI和Script;5)工作流与灵活的Skill模块混合;6)环境需要安全的Workspace与Runtime。总体而言,好的智能体是用工程系统来承载模型的不确定性,模型负责推理,系统负责边界。

智能体大佬观点现象/趋势
17:10
Chubby♨️@kimmonismus
30
等等,Anthropic和OpenAI都要发布新东西了?不可能吧

Riley Brown: It will be a big day from both teams...

AnthropicOpenAI大佬观点
15:44
Orange AI@oran_ge
55
作者飞机上随笔分享认知感悟

作者在从北京飞往上海的航班上,以意识流的方式记录近期认知变化,坦诚文章缺乏打磨和吸引人的开头,但认为后半部分内容有价值。行文过程中,作者提到手动打字效率不如 AI,并因使用 Obsidian 卡顿而感到困扰。

Orange AI: http://x.com/i/article/2059839164837982208

大佬观点现象/趋势
13:34
Tibo@thsottiaux
11
我正发着高烧,梦到ChatGPT和Codex的未来。但它将会是美好的。
OpenAI大佬观点
12:40
数字生命卡兹克@Khazix0918
59
Markdown 成为 AI 时代的"通用语言",飞书云文档新增导出支持

飞书云文档新增直接下载为 Markdown(.md)格式的功能。Markdown 是一种极简的纯文本标记语言,因其结构清晰、易于大模型生成和解析,并能显著节省 token 消耗,已成为人与 AI 交互的主流格式,广泛应用于 AI 产品的结构化输出和 Agent 框架的文档中。此次飞书更新极大便利了用户在 AI 协作流程中的文本流转。

大佬观点开源生态
12:06
Ethan Mollick@emollick
34
勒姆与道格拉斯·亚当斯早已预见AI 1981年的《哥莱姆十四》中,有一幅插图描绘了AI所解释的"锯齿状前沿":哥莱姆(通用操作者、远程、伦理稳定、多模型)讨论自身与更聪明的AI(诚实安妮)相比人类的局限

bryan: @UnderwaterBepis @Lari_island yeah, Golem XIV feels very prescient

大佬观点现象/趋势
11:44
Orange AI@oran_ge
52
人类与AI的本质区别:激素、意识与独特性

推文阐述其关于人类独特性的核心观点:人类决策本质上由激素等生理反应驱动,而理性思考常是对这些决策的事后解释。基于此,作者认为AI智能体(Agent)因缺乏激素驱动机制,永远无法真正取代人类。人的本质在于意志力而非工具性,其独特性体现在能通过意识自我解释,并利用激素控制自身,这使得每个人都是算法中的“异常值”。文章强调实践是认识真理的唯一方法,阅读只能印证已有认知。

大佬观点现象/趋势
11:03
宝玉@dotey
60
AI智能体生成结果的人工审查边界

推文探讨AI智能体生成结果是否需要人工审查,关键在于验证方法的可靠性及模型理解与执行验证的能力。以编写代码为例,中间结果可减少检查,但初始规划与最终审查仍需人工把关。人工更适合定义总目标,而智能体的思路可能更优。

CHEN CHEN: @dotey 每一步完全人工审核。问题是,进场能力那么强,人工可能都跟不上。对非专业架构师来说,人工是不是反而可能把项目带偏。 我的意思是,人工可以定义总目标、总需求。但是这个过程,Agent给的思路应该更好吧

智能体大佬观点
10:34
向阳乔木@vista8
67
AI越强,人越忙:一个住在未来的人说了什么

Every公司CEO Dan Shipper指出,全员使用Codex和Claude Code的公司员工数反而翻倍,揭示了AI增强工作而非替代人力的悖论。他设计的“高级工程师基准测试”显示,人类得分85-90分,而AI模型平均仅约30分,GPT-5.5最高也仅达62分。核心问题在于AI能解决已定义的问题,却无法主动识别问题需要被重新定义。他预测未来工作将分裂为两种形态:一是公司共用由专人维护的超级AI智能体;二是Codex或Claude Code等AI工具成为新的工作操作系统。他认为这不会导致大规模失业,而是要求每个人都学会“驾驭模型”,将AI用在真实工作场景中。

智能体OpenAI大佬观点
10:34
向阳乔木@vista8
61
AI影响观察:工作、管理与趋势

观点认为,AI越强,人的工作量反而越大(如Every公司员工翻倍)。AI自动化创造了管理自动化这一新工作,且每个智能体都需要专人照料。实践中,更可行的模式是公司共用一个智能体,由专人维护。CLI时代结束,GUI是主战场。SaaS不会消亡,反而会因智能体获得更多用户。将AI嵌入SaaS是错误方向,应反向进行。产品经理和全栈设计师将迎来最好时代。AI只是裁员借口,是过度招聘的修正。大规模失业不会发生,但不会使用AI的人将被使用AI的人替代。

向阳乔木: http://x.com/i/article/2059821245093560320

智能体大佬观点行业动态
10:03
向阳乔木@vista8
58
MCP新版本发布在即,但使用需求存疑

MCP协议新版本将于7月28日发布,包含几个关键特性:服务器可向用户下发HTML界面进行交互、为长任务提供了正式的管理机制,以及更严格的授权以提升安全性。作者在推文中询问社区目前仍在使用的“刚需”MCP是什么,并表示自己感觉几乎没有了。

MCP/工具大佬观点
09:27
Berryxia.AI@berryxia
41
Replit与Claude合作,5000万人用自然语言编程

Replit平台与Claude深度合作,新模型发布当天即可上线新版Replit Agent。该平台已让超过5000万人通过自然语言构建真实应用,实现了用对话代替编码。Replit总裁Michele Catasta早在16岁时就立志让软件开发对所有人开放。这一合作模式展示了AI Native公司完全Agent化的趋势,让非程序员也能成为软件创造者。

Claude: Michele Catasta (@pirroh) is President and Head of AI @replit, the platform where anyone can build software in natural l...

智能体大佬观点编码
09:07
Chubby♨️@kimmonismus
70
AI领域的叙事张力与数据缺口

文本指出AI领域存在核心张力。Anthropic联合创始人Chris Olah主张前沿AI实验室需要严肃的外部道德审查,因其激励可能与“做正确的事”冲突。与此同时,Anthropic CEO Dario Amodei的叙事正从“AI可能消灭大量白领工作”转向更市场友好的生产力提升与工作转型论述(如杰文斯悖论)。然而,Yale Budget Lab的跟踪数据显示,自ChatGPT发布以来,美国劳动力市场职业构成无明显变化,AI暴露岗位的失业并未加速。因此,当前AI能力曲线与实际就业数据之间的差距可能比以往更大,这构成了讨论的起点。

Chubby♨️: Dario Amodei predicted last year that AI would eliminate 50% of entry-level white-collar jobs within years. Unemployment...

AnthropicOpenAI大佬观点
09:02
meng shao@shao__meng
68
2026 年面向生产环境 AI Agent 的评估指南

本文指出,评估面向生产环境的 AI 智能体,应与实验室 benchmark 及聊天机器人/RAG 评估严格区分。核心是确定评估方向:针对 Cursor、Claude Code 等工具的 Benchmark-maxxer,旨在刷能力上限;针对客服、银行等自主智能体的 Floor-raiser,旨在抬高可靠性下限。指南推荐一个工作闭环:上线前摸底、离线代码感知评估、上线后日志分析与修复。总结的五个关键经验包括:多数产品应优先抬下限、评估需基于真实失败案例、离线评估需代码感知、按流量分阶段升级,以及让评估套件成为防止问题复发的“记忆”。

ben hylak: introducing howtoeval dot com. the no-bullshit guide to eval'ing AI agents. from personal experience, and from working w...

智能体大佬观点
08:32
meng shao@shao__meng
28
Lenny调查:AI公司主导"梦想雇主"榜单

Lenny发起的“梦想加入的公司Top3”调查显示,Anthropic和OpenAI位列其中,与SpaceX一同成为最受向往的雇主。这反映了科技与AI领域顶尖公司的吸引力。推文进一步讨论,这三家未上市的头部公司是否有可能在今年内上市,并均达到万亿美元市值。引用推文提供了该调查的原始问题,即询问人们当前最向往的三家工作公司。

Lenny Rachitsky: What are your top 3 dream companies to work for right now?

AnthropicOpenAI大佬观点
08:32
meng shao@shao__meng
60
AI应用层的机会不在「通用智能体」,而在「工作流深处」

a16z 合伙人指出,AI应用层仍有巨大机会,但机会不在模型实验室押注的“黄砖路”上。这条路径指用最强模型加简单编排做通用AI工具,与实验室正面竞争胜算极低。真正的机会在“Oz的其他地方”——复杂、垂直、多步骤的工作流。其价值不仅来自模型,更来自确保输出可信、合规、可运营的系统脚手架。应用公司相比实验室的优势在于:能构建专属的数据学习飞轮、跨模型管理与优化成本,并吸收监管复杂度。核心结论:模型层可替换,但深度集成的工作系统不可替代。

Joe Schmidt IV: http://x.com/i/article/2059491657683443712

智能体大佬观点数据/训练
08:14
DogeDesigner@cb_doge
29
埃隆·马斯克没有时区概念。我们在Neuralink为电影拍摄内容,一直待到凌晨1点。然后他直接从那里回了xAI。接着我有个朋友凌晨4点和他见了面。他一直过着这样的生活。
xAI大佬观点
07:35
Ethan Mollick@emollick
60
Google拥有唯一真正的全模态模型,但各元素尚未连接。它似乎能接收和输出音频、图像、视频、歌曲、文本、代码等。但目前每种输出类型都是分离的。当你能直接访问模型,混合模式,很多事情就变得可能了。
Google多模态大佬观点
07:35
Ethan Mollick@emollick
48
当AI写小说时,它们痴迷于那些夺取或赋予记忆的事物、与有感知的无生命物体签订的契约、以及一套无人能公开承认的隐秘行为准则…… 这一切都过于直白。我怀疑此时已有很多是超虚构。
大佬观点
07:11
Greg Brockman@gdb
63
低估了GPT-5.5在网络安全方面的能力: GPT 5.5发现了一个引入于1999年4月、已有27年历史的远程代码执行漏洞。我已反复检查流程和提交历史,确认属实。 迫不及待要负责任地披露了!

Philo Groves: GPT 5.5 found a 27-year-old RCE introduced in April of 1999. I've triple-checked the flow and commit history, it's real....

OpenAI大佬观点安全/对齐
06:14
Orange AI@oran_ge
57
AI行业进入务实反思期:模型不是万能解药

推文指出AI行业发展进入新阶段,出现对过往技术路线的反思。核心观点包括:1. 单纯的大语言模型本身不足以成为完整产品,必须结合工具框架(harness);2. 完全自动化脱离人的参与是不切实际的;3. 慢工出细活的耐心变得尤为重要;4. AI部署成本高昂,考量投资回报率时有时不如人力划算。这标志着行业从追求技术突破转向更务实的产品构建与价值评估。

大佬观点现象/趋势
06:07
Chubby♨️@kimmonismus
35
我刚看了@arrakis_ai制作的片段,对Google的Omni印象深刻。 你可以在任意帧暂停,宝可梦卡牌上的文字都保持完美清晰且未改变。这种一致性和连续性是顶级水平。
Google大佬观点视频
06:02
elvis@omarsar0
61
真不敢相信这在今天竟然成为可能。 这激发了我构建自己的自改进编程智能体,使用简单的读、写、bash等工具。 我已经用这个编程智能体在24小时内构建了一个完整的生产级应用。 我不知道,伙计。这感觉太奇怪了。
智能体大佬观点编码
05:27
Emad@EMostaque
59
训练时使用自回归,推理时将权重转换为扩散模型。

David: Most researchers agree that autoregression is best when memory bandwidth is cheap and diffusion is best when FLOPS are c...

大佬观点开源生态数据/训练
03:08
SemiAnalysis@SemiAnalysis_
36
这里有一个非常重要的教训,但你们中的一些人还没准备好进行这场对话。

Serena Ge (Datacurve): Today we're releasing DeepSWE, a new standard for agentic coding benchmarks. On public leaderboards, top models often lo...

大佬观点编码评测/基准
03:05
Ethan Mollick@emollick
46
推文认为,未来十年将是人类历史上最伟大的十年之一,即使不考虑生成式AI,也将在解决由现代性引发的问题上取得巨大突破,包括代谢综合症、汽车相关死亡、碳排放、绿色能源和癌症治疗等领域。这些进展将与重返月球和AI发展共同构成一个进步的时代。

Kevin A. Bryan: One reason I started teaching my "progress" class is the vibes vs reality gap. Coming into the greatest decade in human ...

大佬观点现象/趋势
03:00
宝玉@dotey
62
批"AI模仿人类角色分工":纯浪费Token

推文强烈批评在AI智能体设计中,模仿人类组织架构、设定不同角色并通过聊天传递上下文的做法,认为这纯属浪费Token。其观点认为,人类分工是因能力有限,但AI不应受此限制。尽管承认此方式或能提供情绪价值,但用“三省六部”的比喻将其归结为满足用户幻想。

大罗SEO: 不要用传统的人员组织框架来限制AI组织,设计什么不同的agent角色互相通过聊天来传递上下文,这都是愚蠢的做法

智能体大佬观点
02:37
Rohan Paul@rohanpaul_ai
35
在大学毕业典礼演讲中,如果提到AI,大家都会喝倒彩。我们无法阻止它,所以让我们诚实面对。 我们将在不到3年内实现AGI。我们将在5或6年内实现超级智能。
大佬观点现象/趋势
01:53
swyx@swyx
42
Railway推出"代理原生云",宣称拥有3M用户、每周10万注册量,其编码智能体上的支出超20万美元。创始人阐述了AI智能体为何需要新型云环境:Railway已将大部分工作负载迁移至自有的裸机数据中心,智能体使得CLI(命令行界面)比仪表盘更重要,而传统的Git/PR/CI/CD循环开始失效。文章还介绍了如何通过生产分支和功能开关使AI SRE更安全,并引用其观点:"如果你还在手动写代码,那你就是做错了。"

Latent.Space: 🆕Railway's Agent-Native Cloud: 3M users, 100K signups/week, $200K+ coding agent spend, production forks, & the death of...

智能体大佬观点部署/工程
00:35
Chubby♨️@kimmonismus
同事件精选80
与Google搜索产品副总裁Robby Stein的访谈:AI原生搜索时代

本文记录了与Google搜索产品副总裁Robby Stein在Google I/O的访谈,核心探讨Google Search向“AI原生”模式的重大转变。讨论话题包括AI Mode是进化还是重塑、如何将复杂问题拆解为多轮搜索、AI搜索的高运行成本、Google TPU及基础设施的优势、AI时代搜索量不减反增的原因,以及优质AI回答与出版商流量之间的张力。访谈还涉及Google决定展示哪些信息源与链接的逻辑,并围绕一个核心问题展开:如果Google直接给出答案,传统的基于链接的网页生态将走向何方?

Google大佬观点搜索
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Google 搜索 VP 首次拆解 AI Mode 背后的成本逻辑、流量分配和 TPU 优势,比 I/O 演讲深得多,做搜索和内容生态的都值得听。
00:30
宝玉@dotey
63
Agent 产品的设计核心:定位是以 Agent 为主还是以人为主

Agent产品的设计需首先明确定位:若以人为主、Agent为辅,则人的工作区居中,AI智能体对话区在右侧辅助;若以AI智能体为主,则AI智能体对话区居中,其他界面在右侧,因为用户主要通过指令与Agent交互。Codex App、Claude Desktop、Cursor Agent等主流产品均采用了后者布局。文中以写PPT为例对比:前者是用户亲自编辑幻灯片,右侧与Agent对话辅助;后者是用户下达指令,由Agent生成并调整。这一界面设计被认为是所有ToB AI软件的最终形态,并推荐使用Mastra框架实现业务AI化。

赵纯想: 这就是所有 ToB AI 软件的最终形态,只要不是这样,就肯定设计错了。我说的。如果你会搞点儿VibeCoding,拿起我推荐的 Mastra 框架,上山下乡,走到小公司去,走到一切尚未正确拥抱AI的公司去,帮助他们把业务抽象成工具调用,让...

智能体大佬观点
5月27日
23:31
elvis@omarsar0
47
为了面向未来,构建可组合的AI。 无论你使用什么,所有这些都应该是可组合、可迭代和可定制的: - LLMs - Evals - Automations - MCP/CLI tools - Skills/Memory/Context - Agent Harness (Codex, CC, Pi,…) 复利效应是惊人的。
智能体MCP/工具大佬观点
23:27
Berryxia.AI@berryxia
33
这种GPT&Seedance 2.0打斗的视频一直可以火。 这恰巧是SD2.0最擅长的,视觉效果也拉满。 做游戏Demo展示太好了!
图像生成大佬观点视频
‹ 上一页
1…2627282930…50
下一页 ›