AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 2407 条
全部一手资讯X论文
标签「大佬观点」清除
DogeDesigner@cb_doge · 5月18日44

ELON MUSK: "My prediction is that there'll be far more robots, like intelligent robots, in the world than there will be people, and I think this is most likely to be a good thing, we always want to be a little paranoid, or certainly not complacent about the safety of robots, but I think it will usher in an age of not universal basic income, but universal high income."

译埃隆·马斯克:“我的预测是,世界上智能机器人的数量将远超人类,我认为这很可能是一件好事。我们总是希望对机器人安全保持一点警惕,或者至少不能掉以轻心,但我认为这将开启一个不是全民基本收入,而是全民高收入的时代。”

Chubby♨️@kimmonismus · 5月18日61

Former Microsoft VP says Microsoft missed the AI wave like the internet and mobile, as Copilot scales back in Windows 11 Microsoft spent $37.5B per quarter on AI. Less than 3.3% of Microsoft 365 users pay for Copilot. OEMs stuffed NPUs into every laptop, and not a single k1ller use case materialized in Windows or Office. That's a distribution-first company learning that distribution doesn't work when the product doesn't pull. However: The same former VP who calls this a failure also says Microsoft's enterprise moat is unbreakable. Both things are true simultaneously and that tension is exactly why the next 18 months matter more than the last 18.

译前微软高管指出,尽管微软每季度投入巨额资金于AI,但其Copilot等产品的实际用户付费率极低,未能有效激发市场热情。硬件厂商在笔记本电脑中内置NPU芯片,却未能催生出具有吸引力的杀手级应用,这反映出即使是擅长分发的巨头,若产品本身缺乏足够的拉动力,也难以取得成功。与此同时,该高管也强调微软在企业市场拥有的强大护城河依然稳固。这种矛盾的现状,使得未来18个月对微软AI战略的走向至关重要。

Chubby♨️@kimmonismus · 5月18日23

Back at the airport, on my way to the US for Google I/O. I’m really hoping we’ll also see some announcements around the Siri-Gemini update, because that’s the one I’ve been waiting for. See you in a few hours!

译回到机场,正在前往美国参加Google I/O。 我真的希望我们也能看到一些关于Siri-Gemini更新的公告,因为这是我一直在等待的。 几小时后见!

向阳乔木@vista8 · 5月18日68

Anthropic CFO最近接受了访谈,虽然有一个多小时,但信息增量不大,简单列几条,大家不用看视频了。 1. 今年第一季度,Anthropic 的年化营收从 90 亿美元涨到了 300 亿美元出头。 2. Anthropic 的算力同时服务三件事:训练新模型、加速内部研发、服务外部客户。 同一块芯片,早上跑推理,下午做强化学习,晚上切回训练。 3. CFO 会把 30% 到 40% 的时间花在算力相关的决策上。 4. 人类天生是线性思维,思维定势打破很难打破,不做估算做,做情景规划。(还是在讲采购算力的想象力问题) 5. 更好的模型让内部研发更快,更快的研发产出更好的模型,同时对外服务的成本也在下降。 所以Anthropic会留不少算力给内部研发提效用。 6. Anthropic 内部超过 90% 的代码由 Claude Code 完成。财务团队有70个skill的技能库,准确率90% 到 95% 7. Anthropic 在可解释性研究和对齐研究上的投入,额外带来的收货,对模型工作理解更好,大客户更信任。 AI总结文章:https://blog.qiaomu.ai/anthropic-cfo-on-compute-as-mission-critical https://www.youtube.com/watch?v=wEEZPpx8qow

译Anthropic CFO在访谈中透露,公司今年一季度年化营收从90亿美元猛增至300亿美元以上。算力被高效复用以同步支持模型训练、内部研发和客户服务,CFO近半时间投入算力决策,强调需超越线性思维进行情景规划。内部研发形成“更好模型驱动更快研发,进而产出更优模型”的飞轮效应,同时降低对外服务成本。公司超90%代码由Claude Code完成,显著提升效率;在可解释性与对齐研究上的投入,则增强了客户信任,形成差异化优势。

宝玉@dotey · 5月18日59

http://x.com/i/article/2056234281895088128 # 为什么我不“凭感觉编程” 作者:Jacob Harris 标题:Why I Don’t Vibe Code(https://jacobharr.is/personal/i-dont-vibe-code) 最近网上关于“凭感觉编程”(Vibe Coding)以及大语言模型(LLM)将如何颠覆软件开发的讨论铺天盖地。据说,每一个新模型的发布都会把我们带入纯粹生产力的天堂,让我们能以光速发布软件,彻底消除产品开发中的所有摩擦和内耗。 或许吧,我姑且信之。但我自己,是不“凭感觉编程”的。 如果你觉得这套好用,那太棒了!我写这篇文章并不是为了探讨 LLM 的优劣,只是这玩意儿对我个人来说,从来没对过胃口。这篇文章,算是我简单盘点一下其中的种种原因。 我是个守财奴 我不是个原教旨主义者。我试过用集成在 IDE 里的 LLM。对于那些描述起来很简单、但自己动手又嫌烦的任务,它们确实挺好用的,比如把网格里的一堆方形图片缩小。我本可以去查查图像处理软件 ImageMagick 的命令行参数,但这种事交给 AI 去干再合适不过了。接着,我又试着用某个 AI 工具分析了我项目里的一段代码,还做了几件小事,然后一切戛然而止。系统通知我:额度用光了。如果想继续,请绑定信用卡购买更多 Token。 你得知道,我祖上两边都是出了名的铁公鸡。几个世纪以来,无论是在大西洋的这头还是那头,我们家族一直精打细算、锱铢必较。举个极端的例子:我的一位远房祖先在 17 世纪的菲利普国王之战中丧生,原因竟然是他在撤离房子时落下了点奶酪,非要跑出安全的堡垒去捡。 所以你一定要相信我:当我发现为了让自己能“思考”,居然还要无休止地给一个服务交钱时,我浑身不自在,以至于连信用卡的影子都不想给他们看。我合上笔记本电脑,卸载了那个 IDE,甚至乖乖用回了极其硬核的纯文本编辑器 Emacs。然后我发现,我压根儿就没觉得少了 AI 有什么不习惯的。 我年纪大了 年纪大确实有点帮助。我写代码已经很多年了,尤其是在这个把只有 5 年经验的开发者就称为“高级工程师”的行业里。有时候,经验是缓解焦虑的一剂良药(前提是,你焦虑的不是在这个 5 年就能称“高级”的行业里遇到的年龄歧视)。这波 AI 热潮确实让我想起了早年那些“低代码”或“无代码”工具所吹嘘的重大突破。我不怀疑 AI 可以成为开发者手中的利器,我知道在很多任务上它能提供更好的工具支持。但这些争论,总是让我回想起关于“偶然复杂性”(accidental complexity)和“本质复杂性”(essential complexity)的经典理论。 即使在我还是个年轻码农的时候,弗雷德·布鲁克斯(Fred Brooks)也算得上是老前辈了。作为 IBM System 360 系列大型机(及配套操作系统)的项目经理,他曾在第一线亲眼目睹了如今软件项目中那些司空见惯的烂摊子。他将这些观察整理成了《人月神话》一书,至今仍应是软件工程课程的必读经典。我手头的那本是后来重印的新版,里面收录了他后期的一篇著名文章《没有银弹》。在这篇文章中,布鲁克斯探讨了新工具对开发者生产力的实际影响。要想像程序员一样思考,你必须明白现实世界是极其复杂的。编程最好被理解为:在混乱的现实之上强加一种简化的模型,我们称之为“抽象”(abstractions),通过降低复杂性来让世界变得可理解。 这让我们能够将特定的情况泛化成一个个可以层层叠加的结构。例如,“把花生酱抹到面包上”这个具体动作,可以泛化成一个 spread(substance)(涂抹物质)的方法,这个方法既可以接受“花生酱”作为参数,也可以接受“奶油奶酪”。接着,我们可以用这些基础方法构建出更高级的函数,比如 create_pbj()(制作花生酱果冻三明治)等等。在现代高级编程语言中写代码,就像是站在一座由抽象概念堆砌而成的金字塔顶端:只需一行代码,就能在多个系统上触发数以百万计的底层操作。 那么,如果我们继续往下走,把“编程”这个行为本身也抽象掉呢?这就是 AI 智能体的终极梦想:成群结队的智能体接受任务,然后在无人监督的情况下自动实现它们。听起来棒极了!但这解决的仅仅是布鲁克斯所说的偶然复杂性,也就是编写代码本身那些繁琐、笨重的地方。自从那篇文章发表以来,软件开发在应对偶然复杂性方面已经取得了巨大的进步。我们不用再写底层的机器码,而是使用现代的动态解释型语言;我不需要再从头记住如何手写一个快速排序,只需调用标准库里的排序方法即可;我也不用再从零开始搭建整个 Web 应用,而是直接使用现成的框架。如果我想重命名或者重构某段代码,我的编辑器可以代劳。 AI 似乎只是这一进程的最新迭代,一些编辑器已经用不可预测的 AI 智能体,取代了过去那些可预测的老式重命名和重构工具。诚然,这听起来像是在掷骰子碰运气,但在实际开发中,那种灾难性的大翻车又能有多常见呢? 然而,即便更好的工具削弱了偶然复杂性,本质复杂性还在那儿。设计出正确、优雅、清晰且易于维护的抽象架构和系统,依然是一项无比艰巨的工作,这种复杂性哪儿也去不了。这项工作需要技能、经验,以及从过去系统崩溃的血泪史中艰难汲取的智慧。LLM 那种花哨的“高级自动补全”,面对这种很难直接找到标准答案的复杂性,到底能发挥多大作用?也许通过精心设计提示词,你可以引导它走向你心仪的方案,但到了那个地步,负责引导的人还不如自己干脆把方案设计出来算了,因为 LLM 根本无法向你解释它为什么选择了某条特定的路径。本质复杂性往往是怪异、罕见且混乱的。也许我错了,也许模型在处理这些混乱情况方面正变得越来越好,但我发现这通常需要一种非常特定的人类思维模式和方法。幸运的是,我超爱这种乱糟糟的东西。 我爱死这些混乱了 前面我一直在谈论软件如何抽象流程,但其实我们也利用抽象的“简化”特性,作为理解世界的一种工具。在经典名著《国家的视角》中,詹姆斯·斯科特(James Scott)描述了后启蒙时代的一个核心动机:通过抽象和分类,让人口和财产变得清晰可辨。能量化的东西,就能被改造。例如,一个国家在看待其森林时,可能不再将其视为复杂的生态系统,而是仅仅通过“能用于造船的木材比例”来评估。这种视角随之促使国家采取行动,比如用单一树种的林场取代原生森林。于是,一片森林被抽象成了一个“种植船桅的系统”。 这种方法催生了官僚机构和纸质表格,进而演变成了今天的网页表单和数据库。作为程序员,为了对世界采取行动,我们必须减少现实数据中的混乱。我们期望日期必须是精确的,期望人的名字相对简单规范,期望数据在输入时是完整的且随着时间推移保持一致。每一个程序员和每一次系统设计,都在做出一种削足适履的强制妥协:我们决定系统应该反映现实的哪些方面,又该丢弃哪些方面。我这么说并非为了批评,因为要想构建出不被无数特殊情况(我们称之为“边缘用例”,因为它们本应是处于边缘的罕见情况)所拖垮的系统,这是唯一的方法。 但是,这个过程如此根深蒂固,以至于我们有时会忘记它同时也是一种人为的造作,尤其是在用它来描述人的时候。强制性别字段只接受“男”或“女”,并不能迫使性别的本质变得非黑即白;我们对种族的定义是一种不断变化的社会建构。我们简化的模型可能会给我们提供洞见(过去 20 年自闭症诊断率猛增了 300%!),但却无法捕捉到这些洞见背后的潜在因素(这很可能只是因为我们对自闭症定义的改变以及筛查力度的加大)。退一步去审视任何模型是如何构建的,以及它遗漏了哪种类型的知识,这非常重要。每一次抽象,同样也是一次遮蔽。 作为一名前数据记者,我学会了如何“审问”数据,并且严谨地防范我得出的答案可能会在哪些方面产生误导。如果你想避免发布令人尴尬的更正声明,“迫害妄想症”绝对是数据记者最好的朋友。你不仅要能思考数据说了什么,还要能思考它没有包含什么。 不幸的是,这种试图跳出来审视系统本身的元认知,是 LLM 永远无法做到的。对它们来说,模型本身就是现实。正如 Robin Sloan 在其引人入胜的文章《语言模型是在地狱里吗?》中精辟指出的那样:AI 模型的构建基础和它们看待世界的方式,都被极度剥离了细节。当你我看着一段文字时,我们能看到它的上下文(比如文本格式、标题、作者简介、提供链接的网站等),而 LLM 仅仅在一个纯粹由字母构成的世界里运转(严格来说,它们接收的是子词标记,这就是为什么早期的模型数不清单词 'strawberry' 里有几个字母 'r')。要求 LLM 去认识到它所看到的现实是有局限性的,就像是问金鱼水温怎么样一样,对牛弹琴。 写到这一节时,我满脑子都是 DOGE(政府效率部)在社会保障局(SSA)试图揪出欺诈行为时的那些拙劣表演。举个例子,DOGE 审查了 SSA 的数据库,发现里面有超过 900 万条记录的出生日期在 120 多年前,却没有记录死亡日期。马斯克断言,唯一的解释就是数以百万计的人在欺诈性地领取福利。但他对问题的起因和严重程度都判断错了。DOGE 本可以质疑数据质量,本可以去查查实际是否有钱打进了这些账户,甚至本可以随便找个 SSA 的专家给他们解释一下。但他们没有,他们直接照单全收了字面数据,并草率地得出了错误的结论。 这个套路他们玩了一遍又一遍。在另一个关于付款的欺诈指控中: > 据查阅相关文件及知情人士向《纽约时报》透露,在随后的广泛分析中,政府机构专家仔细记录了 DOGE 工作中的逻辑谬误。 代理副局长肖恩·布伦在一份审查其中一个问题的备忘录中写道:“这些付款是合法有效的。”(财政部发言人拒绝置评。) 但据熟悉鲁索先生言论的人士称(鲁索未回应置评请求),他表示 DOGE 不会信任这些职业公务员。相反,他坚持让阿卡什·博巴,一名 21 岁、曾在帕兰提尔实习并成为 DOGE 核心程序员的年轻人,来进行他自己的分析。 以他们自己狂野的方式,DOGE 团队正在重演导致 LLM 走偏的同款逻辑。他们拒绝考虑任何在数据字面意思之外的替代解释,拒绝与自己圈子之外的任何人交流,死死咬住一个极其简化的解释,仅仅因为这太合他们胃口了:这完美印证了他们“政府员工全都是蠢货、欺诈行为无处不在”的世界观。 我本人因为极其害怕让自己看起来像个白痴,绝不希望把数据分析工作外包给 LLM。但有大把的人愿意这么干。我担心这个问题只会越来越糟。 摩擦是上天的恩赐 大语言模型驱动开发的魅力在于,它标榜能消除一切摩擦。吹鼓手们编织出美好的神话:开发团队一天就能发布几十个新功能,在越来越奇葩的网络拓扑结构下,指挥着好几个 AI 智能体团队自主运转。我懂,软件开发有时候确实枯燥又让人抓狂。能够以不可思议的速度疯狂产出代码,把玩着打磨精美的产品而不是半成品原型,那种感觉一定超级刺激。 但我需要这种摩擦。 刚开始学习一门新语言或新框架时,我连做最基础的事情都要和摩擦搏斗,这感觉糟透了。而当我在处理一个陌生的代码库或数据源时,我需要预留出几个小时的时间去仔细审视它。我经常会做一些逐字逐句的深度死磕,打开特定的文件,一行一行地看,直到我完全理解它们的上下文,以及开发者做出这些选择的原因。我知道,我大可以叫 LLM 帮我总结一下整个项目,省下这大把时间,但我真的需要这个在代码里“泡着入味”的过程。我需要的不仅是知道开发者做了什么选择,我还需要知道他们为什么这么选,以及这些选择是如何反映出这门语言的局限性或编程习惯的。我在失败中学习,如果 LLM 把这部分苦差事替我干了,我将永远无法真正理解我到底在做什么。 即使是在熟悉的语言环境里写我自己的代码,我依然严重依赖摩擦作为重要的线索。当写代码变得非常困难时,这说明在当前的架构下我正走向一条歧路。它在提醒我,应该认真考虑重新设计,以便未来的扩展能更顺畅。 遇到这种情况,我通常会出去散个长步(或者直接打卡下班),给大脑留点空间,退一步换个角度思考问题。这招真的管用。我发现这种停顿极其有效,以至于即便思路清晰,我也会强迫自己停下来。在开发大型软件项目时,在开始为一个新功能写代码之前,我会先强制自己写一份架构决策记录(Architectural Decision Record,ADR),描述我想做什么。这些文档逼着我记录下这一刻我的想法、我对问题的假设,以及我这套方案可能带来的后果。有时候,写着写着我就意识到,我对自己最初的直觉太盲目自信了,以至于都没发现它会把项目带进沟里;同时,对于未来接手我工作的继任者来说,这也永远是记录“当年那帮家伙到底在想什么?”的绝佳途径。 而 LLM 驱动开发对待摩擦的态度,就是不管三七二十一,闭着眼睛直接写过去。LLM 会极其配合。它大概率能写出能跑通的代码,性能指标可能不错,测试也能通过(尤其是如果测试也是 LLM 写的话)。但它根本不知道自己为什么选择了那条路,它感受不到摩擦,也无法向你解释一种架构方案是否感觉比另一种更清晰优雅。如果负责写提示词的工程师本身缺乏洞察力,不知道好坏方案的差别,他们就会陷入一种死循环:一遍又一遍地让 AI 强行穿越重重摩擦写代码。最终生成一堆奇形怪状的抽象逻辑,而留给未来团队的唯一设计文档,就是几年前一个用来指示 AI 模型的 Markdown 孤本文件。祝你从那玩意儿里重构出当年的架构决策好运吧! 不难看出,我所见到的大多数凭感觉编程的成功案例,要么是开发者本身已经是该领域的专家(因此能够驾驭 AI 的工作),要么是那些哪怕搞砸了也无伤大雅的小项目。至于其他情况,我们只能想办法自己判断那著名的“如何画猫头鹰”梗图中剩下没画完的部分到底画得好不好、安不安全了。 还有一个让我耿耿于怀的点:当 LLM 的推销员们将“摩擦”视为眼中钉时,他们实际上在暗示什么。在广告、现场演示和 LinkedIn 帖子里,大多数 LLM 营销都在刻画一位孤胆英雄般的工程师(或者一个单兵团队),英勇地利用 LLM 驱动编程,以迅雷不及掩耳之势喷射出一堆应用或网站并火速上线。但是,行业真正想要的是开发者在日常工作中使用 LLM,而在实际工作中,所谓的“摩擦”通常是指那些旨在防止缺陷或糟糕创意流入生产环境的既定流程和规范。 不可避免地,对“LLM 驱动速度”的狂热追求,最终会把矛头指向人本身,包括其他工程师、产品经理、项目经理、测试人员、合规审查员或者设计师。因为这些职位,现在也被视为了“摩擦”。既然我们能捏出 AI 用户画像,还要什么用户调研?既然 AI 工具能直接吐出网页排版,还要什么设计师?既然我们自己就是统帅 AI 智能体大军的经理,还要什么项目经理?如果我们不再需要等另一个开发者来审查我们的代码,只要通过了测试和扫描就自动合并,那该多爽?如果我们再也不用把工作时间浪费在跟别人沟通上,而是直接飞升到一个只剩纯粹编码的境界里,那该多美? 但是,软件开发是一项协作的过程,团队里的每一个成员都在为打造优秀产品贡献力量。砍掉这些角色,或者用沾染着 LLM 气息的代码幽灵去替代他们,肯定能让团队跑得更快,但这绝不意味着他们交付的产品会更好。而且,这个过程绝对会变得无比孤独。 我极其在乎 我不使用 LLM 的最简单的理由,或许就是我太热爱编程了,以至于我一点也不想把它拱手让给机器。就像如果我是个画家或音乐家就不会求助于 AI 一样,编程是我表达创造力的一种方式,我绝不让出这份纯粹的快乐。尽管有时候它能把人逼疯,但把一个朦胧的想法一点点塑造变成真实的系统,特别是如果其中还包含着优雅的实现或有趣的挑战,这其中蕴含着巨大的喜悦。有些晚上,我会合上工作用的电脑,打开私人的笔记本,一头扎进我想做的某个好玩的新玩意儿里。而在工作中,作为团队的一员去构建软件,那种感觉甚至更棒!我热爱团队协作,热爱一起打磨软件的过程,尤其是看到大家挺身而出、主动承担解决问题的责任时。当团队只是在“承担提示词的责任”,而由 LLM 助手在干活时,我不认为这种动力还能维持原样;或者更糟,当 LLM 助手直接取代了团队的部分成员时。 责任感太关键了。在过去的几十年里,我在不同的岗位上培养出了强烈的个人责任感。作为一名前数据记者,代码里的一个 Bug 可能会导致极其难堪的报纸更正,或者引来灭顶之灾般的诉讼。在公共科技领域,错误可能意味着为公众提供服务和福利的系统彻底崩溃,无论是波及全体弱势群体,还是仅仅影响到一个普通人。我不敢说我从未犯错,但我真的极其在乎把事情做对,因为我在乎这份工作的使命。我有幸曾与许多同样在乎、同样想尽全力为人民服务的同事并肩作战。 而 LLM 是不可能“在乎”的。当然,它可以装得非常逼真,但它依然只是一个试图模仿人类心智的赝品,所做的只是把那些在统计学上更容易同时出现的词组串在一起罢了。它不会因为犯错而感到懊恼,也不会努力试图改进,因为它没有内在的意识,更别提什么道德良知了。它永远无法被追责,因此,我永远也不能把我的道德责任外包给它。 当 LLM 表现良好时,它是即将取代所有程序员的天才;而当 LLM 删除了你所有的基础设施,或者在测试结果上“撒谎”时,错的却是你。毕竟,谁叫你没把提示词和工作流精确地配置好,没能“哄”着 LLM 给出正确输出呢?哎呀,再试一次吧,再试一次。我读过的大量 LLM 教程都在反复强调:你必须在一开始就把所有必要的指令、修正条款和附加说明统统喂给它,否则系统就会把事情搞砸。这种思维模式和敏捷开发完全背道而驰,敏捷开发讲究的是频繁修正方向、及时拿到反馈、信任团队能做出正确的选择。我们似乎正在倒退回一种类似于 1950 年代早期计算机的分时共享模式。只不过这一次,孤单的程序员不再是抱着一沓打孔纸带排队上机,而是拿着厚厚的“法律合同”指望机器把它变成程序。 我开个玩笑;这里其实不涉及什么法律责任。考虑到两者受众群体的相似度,这也许不足为奇,但 LLM 供应商正在重演特斯拉的套路。他们在没有进行安全测试的情况下就把新功能推送给用户,而且诡异的是,就像特斯拉的狂热死忠粉一样,LLM 的鼓吹者们在面对灾难性后果时,往往会责怪自己和他人,声称这是因为用户的提示词写得不够好。我实在不知道该怎么评价这种现象,但科技界正在将一种极端的资本主义标准化,让消费者承担更多的风险,因为企业和政府双双放弃了他们的监管责任,这让我感到极度不安。当初仅仅因为砸死了一个孩子,我们就全面封杀了容易误伤致命的草地飞镖游戏,但逼得用户自杀或精神失常的 AI 聊天机器人,却被视为了 AI 创新必须付出的合理代价。是不是非得等到凭感觉编程引发系统崩溃导致人员伤亡,而不是仅仅死于尴尬时,情况才会有所改变? 在艰难的时刻,写代码也一直是我的慰藉。有研究表明,玩俄罗斯方块是预防创伤后应激障碍(PTSD)的有效方法。这个理论认为,让大脑中负责排列和旋转图形的部分保持活跃,能阻碍创伤记忆的形成。如今,我很幸运没有患上 PTSD(我绝不是在拿患者开玩笑),但我对这个概念深有共鸣。编程就像是在解一个复杂的谜题,在黑暗的时期,它常常是我的避风港。正像前面提到的例子所暗示的,我对 DOGE 非常了解,因为在过去的一年里,我一直在构建和维护一个追踪他们疯狂行径的系统。与工作项目不同,这完全是一场收集并拼凑数据集的练习,目的是让一个拼命想要隐藏自己的组织暴露在阳光下。这是一个极其充实的过程,也是我将绝望转化为希望能有些用的东西的途径。这已经不是我第一次用代码作为化解悲伤的手段了,它之所以管用,正是因为它是一项需要投入精力的工作。如果我只盯着最终的结果,这个疗愈的过程就会大打折扣。 其他几个可笑的理由 这篇小文的长度已经远远超出了我的预期,毕竟它最初只是我想发在 Bluesky 上的几段简短牢骚。在结束之前,再快速补充几个理由。 首先,我极度反感 AI 聊天机器人默认的那种油腔滑调的语气。作为一个在美国东海岸城市长大的人,当一个我不认识的人突然对我表现得热情过头、客气得有些诡异时,我就会本能地警觉起来,因为这通常意味着他们要么准备骗我的钱,要么准备向我传教。读 LLM 的聊天记录会让我起鸡皮疙瘩。是的,我知道我可以通过设定让 LLM 换一种语气,但不知为何,这只会让整个事儿感觉更糟。 和许多开发者一样,我也存了整整一个文件夹的草稿,里面全是那些永远没填完坑的业余项目。比如,我曾经打算用 Clojurescript 写一个拼字游戏的克隆版,因为这样我就可以利用 Blabrecs 里的代码生成一堆根本不存在的假词,故意把游戏搞得让人抓狂。好吧,我承认这可能只是我个人的恶趣味,你得设身处地才能 get 到笑点。从 LLM 的角度来看,这些都是装满失败的文件夹,我确实可以用 LLM 来搞个“一天做一个 App”之类的挑战。然而,过程远比结果重要。不是每一个突发奇想的脑洞都必须变成现实产品,通常情况下,我从头脑风暴的乐趣中,以及为了证明“我没必要把这玩意做完”而学习新知识的过程中,获得的收获要多得多。 我原本不打算在这篇文章里讨论在工作中使用 LLM 的道德问题。不是因为我不在乎,而是因为已经有太多比我聪明的人,极其深刻地论述过这项技术所带来的令人忧虑的隐患。在当下这个 LLM 正在向带有儿童的学校发送炸弹威胁,或者按需生成儿童色情内容的时代,我真的不放心使用它们。如果我连提都不提这方面,我心里也会过意不去。在资本主义的框架下,也许确实不存在绝对道德的消费,但就算见鬼,我也至少要努力去尝试一下。我们不可能用一种让如此多的人陷入悲惨境地的工具,来建设一个更美好的世界。 说来也怪,似乎没有谁比这帮 LLM 的吹鼓手们活得更苦大仇深了。如果开发者们利用他们新获得的“生产力暴涨”,终于过上了 10 年前这帮极客们假装膜拜的每周工作 4 小时的乌托邦生活,我可能还真会被打动。但病态的是,硅谷的许多人似乎把工作外包给了 AI 智能体之后,反而利用节省下来的业余时间去接了更多的工作。他们没有把时间用来休息、搞艺术或享受生活,而是拥抱了 996 工作制,以及一个高度量化的工作环境,这甚至会让以极度压榨著称的科学管理学派祖师爷弗雷德里克·泰勒看了都直冒冷汗。也许 LLM 革命最终会席卷我和我的饭碗,但在那之前,我可不想先把自己卷进坟墓里。 未来路在何方? 我不会假装自己能预知未来。也许这项技术真的会发展到不可思议的地步,以至于我会后悔当初没有积累足够的经验去熟悉它。又或者,它也许会陷入停滞,整个建立在炒作之上的金融纸牌屋轰然倒塌。如果那一天真的到来,我希望我们能把软件开发重新建设成一种充满人性关怀的实践。

译本文作者以资深工程师的视角,阐述了其不采用“凭感觉编程”(Vibe Coding)的原因。核心论点是:AI工具主要缓解了软件开发中编写代码等“偶然复杂性”,但无法触及设计健壮、可维护系统架构这一“本质复杂性”,后者仍需依赖深厚的人类经验与判断。作者进一步指出,大语言模型(LLM)仅在符号层面运作,缺乏人类对上下文、社会现实及模型自身局限性的“元认知”能力,无法审问和反思数据与抽象背后的简化与遮蔽。因此,他认为构建清晰系统的关键仍在于人类的专业判断与反思。

Ethan Mollick@emollick · 5月18日55

Most prophetic tweet of all time (2 months post ChatGPT release). And you can safely repost it every day and it will still be prophetic for the future. This is the least the world will care about AI.

译史上最具预言性的推文(发布于ChatGPT推出两个月后)。你可以每天安全地转发它,它仍将预言未来。这至少是世界对AI关注度的底线。 [引用 @tszzl]:如果你认为现在关于AI的讨论已经达到了烦人的程度,那你可要做好准备。很快,这将成为每个人心中唯一思考的事情。

meng shao@shao__meng · 5月18日13

Figure AI 这个 PR 视频,槽点太多,感觉甚至不如去跑马拉松 😂

Elon Musk@elonmusk · 5月18日25

Where will AI be in 1, 2 or 3 years?

译AI在1年、2年或3年后将发展到什么程度?

Lilian Weng@lilianweng · 5月18日24

I only recently read more about the concept of system accidents by Charles Perrow, very insightful and relatable.

译我最近才深入阅读了查尔斯·佩罗的系统事故概念,非常有见地且令人感同身受。

meng shao@shao__meng · 5月18日62

给 AI 时代工程师们的警示:不要把你的学习外包给 AI 随着 LLM 和 Agent 能力增强,作为工程师,咱们 “接受 AI 建议” 的概率在不断增加,甚至会默认跳过确认环节直接接受。@addyosmani 自己也是 AI 重度用户,但不会把学习和判断让 AI 来做。 几乎所有人都陷入一个工作模式: 粘贴报错 → 模型给出修复 → 症状消失 → 提交代码 → 进入下一个任务 在这个循环中消失的,是 "问题与解法之间那段混乱的挣扎",而这段挣扎,恰恰是认知能力生长的唯一土壤。 Addy 把这称作"单人版的认知投降":模型更快,于是你放弃在"理解深度"上与它竞争。每次妥协都微小到不构成事件,但成千上万次叠加后,离开 AI 你还能独立构建什么——这个能力每周都在缩水。 三项研究的趋同结论 1. Anthropic (2026) Python 库学习实验 AI 组与对照组完成速度相同,但理解测验得分 50% vs 67%;调试题差距更大 2. MIT《Your Brain on ChatGPT》 EEG 测量显示 LLM 用户脑区耦合最弱;83% 的人写完文章后无法引用自己刚写的任何一句 3. CHI 2026 锚定效应研究 任务开头使用 LLM 会框定整个问题空间,即使后续靠自己完成,决策质量也明显下降 为什么工具本身不会帮你? Addy 点破了一个产品逻辑层面的真相: · 产品团队的 KPI 是"合并的 PR 数"和"更短的周期时间",不是"让你变成更强的工程师" · 工具刻意把摩擦力打磨干净——而摩擦力正是学习发生的地方 · Claude Learning Mode、OpenAI/Google 的同类功能确实存在,但被集体归类为"学生用的"——这是严重误判 什么时候纯委托 AI 会崩塌? Addy 还是认为:样板代码、胶水代码、一次性脚本——该委托就委托。但在五种场景下,纯委托必然失败: · 出 bug 时——"代码是 agent 写的"不能帮你 debug · AI 自信地错了时——对抗"看起来合理的错误答案"的唯一防线是足够的专业知识 · 底层变化时——框架升级、安全审计发现结构问题,无法靠 re-prompt 解决 · 偏离中位数时——AI 擅长 GitHub 上被解过一百万次的问题,越独特越无能 · 市场重新定价时——只能"带 AI 才能交付"的工程师,正进入一个正在重估专业价值的劳动力市场 最后一句尤其锋利: "如果你用 AI 跳过学习,你是在用未来的相关性,换一个稍微轻松点的周二。" # 可执行的姿势调整(核心方法论)# 1. 先形成假设,再提问 请求修复前,先写两三句你认为问题是什么。用模型的答案验证你的理论,而不是替代它。 2. 先要解释,再要代码 进入陌生领域时,第一条 prompt 应该是:"解释它如何运作、有哪些替代方案、各自的权衡是什么"。理解了概念,再要代码。 3. 在能力之外时打开 Learning Mode 是的,会更慢。这正是重点。 4. 把 AI 的输出当作 junior 的 PR 来审 "测试过了"就足以合并吗?如果不是,这里也不行。 5. 偶尔徒手重写一遍 拿一段 AI 写过的代码,从零复现。这是校准检查,告诉你已经悄悄丢了多少。 6. 让模型反过来教你 代码生成后再加一条 prompt:"你用了哪些概念?我需要读什么才能理解这个设计选择?"——一条额外的 prompt 就能改变这次会话的留存。 # 两个独立的指标 # 一个极简但深刻的自检框架: 每次写完代码问自己:"我今天学到了什么,还是只是关闭了 issue?" · 偶尔答案是"只关了 issue"——没问题 · 连续几个月都是这个答案——认知债务正在背景里累积 "Ship" 和 "Learn" 是两个独立的指标。 · 你的 manager 和客户只会问第一个 · 第二个,只能你自己问自己

译Addy Osmani 警示工程师过度依赖AI生成代码会导致“认知投降”,即牺牲深度理解换取效率。研究显示,依赖AI会削弱问题理解、脑部活动和决策质量。产品设计追求效率,但学习恰恰发生在“摩擦力”中。AI委托在样板代码中有效,但在调试、AI犯错、底层变化、处理独特问题及面对市场价值重估时必然失败。作者建议应形成假设再提问、先要解释再要代码、开启学习模式、审阅AI输出如PR、徒手重写代码,并区分“交付”与“学习”指标,避免用未来能力换取短期轻松。

François Chollet@fchollet · 5月18日60

Decision making was the bottleneck all along. Productivity is the rate at which you make open-ended decisions, the rate at which you reduce future paths.

译决策始终是瓶颈所在。 生产力就是你做出开放式决策的速率, 也就是你减少未来路径的速率。

Berryxia.AI@berryxia · 5月18日54

大佬永远比普通人站的更高,看的更远! Yann LeCun最近又放出重磅预测。 这位Meta AI首席科学家、图灵奖得主、现代计算机视觉之父,直接说:12到18个月内,我们就会有通用方法来训练分层世界模型。 这些模型会直接从视频和真实世界数据里学习。 学完就能帮机器人规划动作、帮医疗系统做决策、帮更多领域解决物理世界里的实际问题。 最后一步,是把它扩展成一个通用的世界模型。 大家还在拼命卷LLM的参数和上下文长度,LeCun却把目光放在了真正能理解物理因果、能规划真实行动的世界模型上。 这可能是从“会聊天”走向“会做事”的关键一步。

译Meta AI首席科学家Yann LeCun预测,未来12到18个月内将出现训练分层世界模型的通用方法。这些模型将从视频和真实世界数据中学习,具备理解物理因果和规划行动的能力,可应用于机器人、医疗等多个领域解决实际问题。最终目标是将其扩展为通用的世界模型。这标志着AI研究重点可能从当前以LLM为代表的“会聊天”模型,转向能够理解并作用于物理世界的“会做事”模型。

Berryxia.AI@berryxia · 5月18日18

我要的是Gemini App UI 升级吗? 我是想让Google 大善人早一点推出新模型啊! 我看我的Pro会员也马上到期了……

Orange AI@oran_ge · 5月18日45

互联网时代就是叔本华,AI 时代就是尼采。 叔本华说生命是盲目的欲望驱动,人在痛苦和无聊之间摆动。 尼采说不对,生命的本质是权力意志,是自我超越,是你主动选一个方向然后赌上去。 互联网时代的底层逻辑是喂欲望。所有产品都在缩短"欲望→满足→空虚→下一个欲望"的循环。用户被推着走,以为自己在选择。 AI 时代则是人把执行力交出去了,人被迫面对一个新问题:你到底要什么?当能力不再是瓶颈,瓶颈就变成了方向、判断、承担。 互联网时代造末人,AI 时代造超人。

译推文以哲学比喻对比互联网与AI时代。互联网时代的底层逻辑是不断缩短“欲望-满足”的循环,产品旨在喂养用户欲望,人被推着走,最终造就“末人”。AI时代则不同,当AI接管大量执行力后,能力不再是瓶颈,人被推向核心问题:你到底要什么?瓶颈变成了方向、判断和承担。这迫使个体进行自我超越,主动选择并承担风险,其本质更接近尼采的“权力意志”,旨在造就“超人”。

Ethan Mollick@emollick · 5月18日61

And, yes, our experiments used a mix of GPT-4 & GPT-4o (publishing takes awhile). I think we would see much larger results with more recent models, let alone recent agentic tools.

译一项名为“赛博队友”的实地实验发现,AI可以通过在员工技能薄弱任务上提供高于平均水平的性能来提升生产力,其作用方式类似于人类团队协作。实验表明,配备AI的个体工作者能达到未配备AI的人类团队的工作绩效,并能弥补个人单独工作时解决方案过度依赖自身专长导致的“不平衡”缺陷。研究进一步预测,AI的生产力增益在以下条件下更显著:人类专业分工更细、AI能力与人类技能呈负相关(即擅长人类不擅长的任务),且双方整体能力相当。实验使用了GPT-4系列模型,研究者认为采用更新的模型和智能体工具效果会更大。

Ethan Mollick@emollick · 5月18日61

So the two most obvious barriers to some sort of true AI takeoff are robust RSI (AI acting as an independent AI researcher, rather than “merely” a multiplier of human effort) and continual learning. Either would represent a major change in trajectory for AI development.

译因此,实现真正AI腾飞的两个最明显障碍是: 强大的RSI(AI作为独立的AI研究者,而“不仅仅”是人类工作的倍增器) 以及持续学习能力。 其中任何一项都将代表AI发展轨迹的重大转变。

Greg Brockman@gdb · 5月18日22

so much joy in asking codex for random questions at work (such as finding some specific spreadsheet i'd been looking at a while ago), much more fun than searching around for context by hand

译工作中向Codex随意提问带来许多快乐(比如查找之前看过的某个具体电子表格),远比手动搜索上下文有趣得多。

Chubby♨️@kimmonismus · 5月18日20

What are some of the must-read books you'd recommend for staying informed and gaining a deep understanding of AI, chips, and energy? Right now, "The NVIDIA Way" by @firstadopter and "Chip War" by Chris Miller come to mind, but I mainly read Substacks. I'd like to read more books again, though. Any recommendations?

译为保持前沿认知并深入理解人工智能、芯片和能源领域,有哪些必读书目值得推荐? 目前我想到的是@firstadopter的《The NVIDIA Way》和Chris Miller的《芯片战争》,不过主要还是读Substack上的内容。 但我想重新开始多读些书。有什么推荐吗?

Nathan Lambert@natolambert · 5月18日59

Being out of SF has lowered my information proximity but with the big upside of giving me space to cultivate my own beliefs and values around ai. We need more people zagging in AI, the monoculture just helps the incumbents win at this point.

译离开旧金山降低了我的信息密度,但最大的好处是让我有空间培养自己关于AI的信念和价值观。 我们需要更多人在AI领域另辟蹊径,目前单一的文化氛围只会让现有巨头获胜。

Rohan Paul@rohanpaul_ai · 5月18日63

Just a few days back, Thinking Machines Lab (TML), showcased a way of making AI interaction continuous instead of turn-based, a Full-Duplex Time-aligned micro-turn. It's a preview of the future of a near-realtime AI voice and video conversation with new 'interaction models' And MiniCPM-o 4.5 already shipped the same core idea through OpenBMB’s Omni-Flow framework: time-aligned perception and response instead of old turn-based chat. A 9B Full-Duplex omnimodal model that can see, hear, and speak at the same time. Omni-Flow also treats interaction as a continuous stream on a shared temporal axis, aligning visual input, audio input, and output speech/text into time chunks so the model can perceive while responding. That breaks the old walkie-talkie UX of AI: user talks, model waits, model replies. And this is not just a demo concept. It is a 9B open model with code, weights, a report, and edge deployment under 12GB RAM. It also surpasses Qwen3-Omni-30B-A3B in omni-modal capabilities and speech generation quality. This feels like the interaction layer AI was missing. OpenBMB already shipped this as a real Full-Duplex omni-modal architecture, with video tokens, audio tokens, LLM hidden states, speech tokens, and waveform generation all synced to one shared timeline.

译Thinking Machines Lab与OpenBMB团队正推动AI交互从传统的“对讲机”式轮转模式,向全双工、时间对齐的微轮转模式演进。其核心是通过Omni-Flow等框架,将视觉、听觉输入与语音、文本输出对齐到统一时间轴,实现感知与响应的同步。作为实践,开源的90亿参数多模态模型MiniCPM-o 4.5已能同时看、听、说,并在多模态能力和语音生成质量上超越了更大规模的模型。这标志着AI交互层的重要突破,使实时、自然的类人对话成为可能,且已具备代码、权重及边缘部署方案。

Ethan Mollick@emollick · 5月18日60

GPT-5.5 Pro faces its hardest academic challenge: to apply the technique from a paper analyzing which word pairs were funny & why to come up with its own It came up with scrotum snorkel, tuba subpoena, waffle coffin, toad commode, diarrhea tiara, banana tribunal & muffin ruffian

译GPT-5.5 Pro面临一项学术挑战,要求其应用一篇研究幽默的论文技术,该论文通过分析发现,含义对比强烈的词对最引人发笑。模型据此生成了一系列荒诞的词组组合,如“scrotum snorkel”和“diarrhea tiara”等,以测试其对幽默原理的理解和创造性应用能力。

Yann LeCun@ylecun · 5月18日64

The salvation is Project Tapestry https://thealliance.ai/projects/tapestry

译推文警告,若西方无法尽快出现可信的开源前沿AI参与者,后果将迅速扩散。这与早期互联网格局相反:过去西方科技巨头主导全球,而中国自建生态;AI时代可能逆转这一态势。若无西方开源力量,能够支撑整个经济体的开源模型将仅由中国提供。若美国以国家安全为由进一步限制获取中国开源模型,其国内市场将仅由两三个封闭系统服务,而全球约60亿人口可能选择免费、强大、可自托管且不受禁运的中国AI技术栈。到2030年,中国开源模型或成为全球默认选择,导致美国在技术上自我孤立于世界大多数AI用户。

Berryxia.AI@berryxia · 5月18日26

现在就是老登被小登不断颠覆和干服的过程! 哪个行业都不例外! 人工智能企业记忆架构大翻盘! Tanka 用图谱+稀疏注意力,$299/月干翻 Slack 和 Notion!

译当前各行业正经历年轻一代对传统模式的颠覆。人工智能领域的企业记忆架构出现重大变革,Tanka公司结合知识图谱与稀疏注意力机制,以每月299美元的定价,旨在挑战并超越Slack和Notion等现有协作平台。其技术路径代表了AI基础设施的一种新方向。

Berryxia.AI@berryxia · 5月17日44

xAI 算法开源后,解读内容铺天盖地。 我敢说一句颠覆多数人认知的实话: 市面上 95% 的分析,是 AI 批量生产的同质化废话, 连源码文件名都没翻过一次。 「多互动」「多发帖」「账号要垂直」 这种谁都会说的话,说了等于没说。 真正藏在 xAI 算法深处的机制, 大多数人连名字都没听过, 却在教别人怎么运营 X。 你见过哪篇解读,是真的牛逼有价值,欢迎推荐! 如果没有我就来个收费的文章😁 绝对牛逼! 开玩笑,我也是每天在一点点的啃~~ 但是真的惊喜不断!

译作者指出,xAI开源后,市面上95%的解读内容是由AI批量生产的同质化废话,分析者甚至没有查看过源码文件。这些内容充斥着“多互动”“账号要垂直”等泛泛而谈的建议,缺乏实际价值。真正隐藏在xAI算法深处的关键机制,大多数讨论者连名字都未曾提及,却在指导他人如何运营X平台。作者呼吁推荐真正有价值的深度解读,并暗示自己通过仔细研读源码获得了不断惊喜的发现。

Ethan Mollick@emollick · 5月17日51

In the original von Neumann sense of a singularity as the point "beyond which human affairs, as we know them, could not continue," it seems true By definition, we can't know what that means in advance (it was also true of the Industrial Revolution, which reordered human affairs)

译主推文认为,按照冯·诺依曼对“奇点”的定义——人类事务将发生不可延续的根本性变革——我们已身处其中。这种变革如同工业革命,其具体形态无法提前预知。引用推文指出,社会各层面对此的认知存在显著差异:旧金山和部分X平台用户相信奇点迫近;企业高管与政府刚意识到AI的快速发展;数亿职场人士已将其视为日常工具;而公众认知仍停留在“AI是会产生幻觉的随机鹦鹉”阶段,对从GPT-3.5至今的能力飞跃未有更新。

凡人小北@frxiaobei · 5月17日66

Ken Griffin 这段最值得看的不是他说了什么,而是他变得有多快。 去年 10 月:生成式 AI 还没法帮对冲基金挖 alpha 今年 1 月达沃斯:很多 AI 投资是炒作 一个月前斯坦福:Citadel 就用了一点点AI,谈不上 game-changing 这周斯坦福:我看着博士几个月的活被 agent 几天干完,那个周五回家挺沮丧的 怀疑论者的转向,通常比信徒的预测更说明问题。

译Citadel创始人兼CEO Ken Griffin对AI的看法在短时间内发生剧烈转变。他从去年质疑生成式AI无法挖掘超额收益,到近期在斯坦福坦言,AI代理如今能在几天内完成金融硕士和博士需耗时数周甚至数月的高技能工作。这种生产力飞跃已超越炒作,对高技能岗位的自动化影响令他感到震撼与沮丧,并预见到其将对社会产生巨大冲击。这一从怀疑论者到亲历者的快速转变,凸显了AI技术近期发展的颠覆性力量。

Rohan Paul@rohanpaul_ai · 5月17日63

Is Grep All You Need? The surprising result is not that grep is powerful, but that agent design makes it powerful. The paper says not that grep beats vectors, but that agents fail or win through their harness. That sounds like a small distinction until you look at what was actually tested. The authors compare grep-style search and vector retrieval across LongMemEval tasks, where agents must recover facts from long conversation histories full of distractors. Inline grep beats inline vector across every harness-model pair in their main experiment, sometimes by wide margins. The tempting headline is that vector databases are overbuilt for coding agents. The better reading is sharper: when the answer is anchored in literal evidence, names, dates, file paths, function names, error strings, user preferences, grep gives the model a clean mechanical advantage. Embeddings are built to tolerate paraphrase, but tolerance has a cost. They can pull in semantically nearby clutter, especially when a short agent query is vague. Grep has the opposite failure mode. It is dumb, cheap, and narrow, but when the agent knows the right string to hunt for, dumb becomes a feature. The deeper finding is that retrieval is not a component you can benchmark in isolation. The same search method behaves differently depending on whether results are injected inline, written to files, routed through a CLI, or wrapped in a custom agent loop. So the question is not “Do we still need vector databases?” The question is whether your agent is solving a semantic discovery problem or an evidence-location problem. For coding agents, a surprising amount of work is evidence-location: find the symbol, trace the call, inspect the diff, read the failing test, recover the exact line. Vectors still matter at scale and for fuzzy conceptual search, but this paper weakens the lazy default that every serious agent stack begins with embeddings. Sometimes the upgrade is not a smarter index. Sometimes it is giving the model primitive tools, clean files, disciplined context, and a harness that lets exact search do exact work. ---- Paper Link – arxiv. org/abs/2605.15184 Paper Title: "Is Grep All You Need? How Agent Harnesses Reshape Agentic Search"

译研究指出,在编码智能体需精确定位证据(如符号、函数名、错误信息)的任务中,基于grep的精确字符串搜索比向量检索更具优势。关键在于,检索性能高度依赖智能体的设计框架——结果呈现方式(内联、文件或CLI)会极大影响搜索效果。论文挑战了“智能体栈必须始于嵌入”的默认假设,强调应区分任务类型:是语义发现问题,还是证据定位问题。对于后者,为模型提供原始工具、清晰上下文和精确搜索的框架,往往比构建复杂索引更有效。向量数据库在模糊语义搜索和大规模场景中仍有价值。

Rohan Paul@rohanpaul_ai · 5月17日62

Better search may come less from smarter indexes than from giving agents a richer way to touch text. Shows that AI agents using basic terminal tools like grep, file reads, and shell commands to search raw data perform far better than conventional retrieval systems on multiple benchmarks. On BrowseComp-Plus, swapping semantic retrieval for terminal search raised accuracy from 69% to 80% while lowering cost. The deeper point is not that grep is magically smarter than embeddings. It is that retrieval is usually treated as a model problem, when it is also an interface problem. A conventional retriever turns the corpus into a narrow ritual: ask once, receive a ranked list, reason over whatever survived. That works when the question is close to a document’s semantic center, but it breaks when the answer depends on exact phrases, faint clues, document structure, or a chain of small discoveries. Direct Corpus Interaction changes the shape of the task. The agent can search an exact string, inspect nearby context, notice a new entity, constrain the search again, and keep testing its hypothesis against the raw files. Here’s the part most people miss: the gain was not mainly from finding more gold documents, but from extracting more usable evidence once a promising document was reached. That makes DCI less like a better search engine and more like giving the model fingers. The limitation is real: as the corpus grows, the cost of finding the first useful anchor rises quickly, and blunt terminal search will not replace indexes for every large, static collection. But the paper’s lesson still lands cleanly. For capable agents, the bottleneck may no longer be only what they know, or even how they reason, but how much of the world their tools allow them to touch. ---- Paper Link – arxiv. org/abs/2605.05242 Paper Title: "Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction"

译研究表明,AI代理使用grep、文件读取等基础终端工具直接搜索原始数据,在多项基准测试中表现远超传统语义检索系统。例如,在BrowseComp-Plus基准上,终端搜索将准确率从69%提升至80%,同时降低成本。核心观点在于,检索不仅是模型问题,更是交互界面问题。直接语料交互允许代理进行精确字符串搜索、检查上下文并持续验证假设,从而从已定位文档中提取更多有效证据,其增益主要来自更充分地利用已发现文档,而非找到更多相关文档。局限性在于,随着语料库规模扩大,定位初始锚点的成本迅速增加,因此终端搜索无法完全替代大型索引。但对于强大AI代理,性能瓶颈可能在于工具允许其“触及”数据的深度。

Rohan Paul@rohanpaul_ai · 5月17日63

Marc Benioff, co-founder & CEO of Salesforce: SaaS CEOs hurt by AI-driven valuation resets should stop whining. Public markets rationalize; private valuations are fantasy until paid. Focus on revenue, customers, cash flow, profit, innovation, and value.

译Salesforce联合创始人兼CEO马克·贝尼奥夫: 受AI驱动估值重置影响的SaaS企业CEO们应当停止抱怨。 公开市场正在理性调整;私有估值在变现前只是幻想。 请聚焦于收入、客户、现金流、利润、创新与价值创造。

AYi@AYi_AInotes · 5月17日66

铁汁们,那个说AI是炒作的Citadel创始人,现在自己先抑郁了🤣我做了中英双语字幕,大家可以自己看视频。 Ken Griffin在最新访谈里公开承认, 他说过去几个月AI出现了真正的阶跃式进步, 现在Citadel内部,以前需要硕士和PhD花几周到几个月才能完成的高端金融研究,AI代理几天就能搞定。 认为这是人类最昂贵最稀缺的顶尖认知劳动,第一次被大规模自动化了, 他说某个周五回家后自己挺沮丧的, 因为亲眼看到人年级别的工作量,被几天就干完了, 他意识到这会对整个社会产生戏剧性的冲击。 2026年5月的今天,华尔街确实在发生这样的的事, 金融是AI第一个真正落地的杀手级场景,比如昨天 ChatGPT 推出的理财的子功能,至少要干掉几百家公司, 接下来半年到一年,法律医疗咨询这些行业肯定会依次跟上, 给我们大部分普通人最实用的3个建议: 1️⃣立刻上手agentic AI,别再用单次聊天了 2️⃣把设计多代理工作流当成你的核心竞争力 3️⃣让AI干80%的重活,你专注20%的判断和洞察 我们大家必须反应过来,AI已经不是未来了,我们已经身处这个新时代的其中,早点拥抱,早点受益~ #AI #金融 #agenticAI

译Citadel创始人Ken Griffin承认,过去几个月AI工具出现阶跃式进步,生产力大幅提升。其公司内部原本需高级金融专家耗时数周至数月完成的高端研究工作,现可由AI代理在数天內完成。Griffin强调这自动化的是极高技能的顶尖认知劳动,非普通白领工作,他对此深感震撼与忧虑,认为将对社会产生戏剧性冲击。金融已成为AI首个杀手级应用场景,法律、医疗等行业将紧随其后。建议普通人立刻转向使用智能体AI、掌握设计多代理工作流,并让AI承担大部分重活,自身专注于判断与洞察。

Chubby♨️@kimmonismus · 5月17日75

Mustafa Suleyman says 18 months until AI automates all white-collar work. Microsoft AI CEO Mustafa Suleyman predicts "human-level performance on most professional tasks" within 18 months. Accounting, legal, marketing, project management, all fully automated. "Suleyman predicted “human-level performance on most, if not all professional tasks” being done by AI. Most tasks that involve “sitting down at a computer” will be fully automated by AI within the next year or 18 months, he said, naming accounting, legal, marketing, and even project management as vulnerable." (Fortune) Suleyman says his mission is building "superintelligence" and that creating a new AI model will soon be "like creating a podcast or writing a blog." Via Fortune

译微软AI CEO Mustafa Suleyman预测,AI将在18个月内实现人类水平的性能,自动化大多数专业任务,包括会计、法律、营销和项目管理。他在Fortune采访中指出,所有涉及“坐在电脑前”的白领工作都将被AI完全取代。Suleyman透露自己的使命是构建“超级智能”,并展望未来创建新AI模型将像制作播客或写博客一样便捷。

Rohan Paul@rohanpaul_ai · 5月17日49

Yann LeCun says LLMs aren’t a bubble in value or investment—they’ll drive many real-world applications and justify current infrastructure spend. The actual bubble lies in assuming LLMs can become human-level thinkers.

译杨立昆表示,大语言模型在价值或投资上并非泡沫——它们将推动许多实际应用并证明当前基础设施支出的合理性。 真正的泡沫在于假设大语言模型能成为人类水平的思考者。

Rohan Paul@rohanpaul_ai · 5月17日57

New Stanford paper argues that, under equal reasoning budgets, one LLM usually solves multi-hop problems better than many coordinated ones. The core point is almost embarrassingly simple. A single agent keeps the whole problem in one internal chain of thought, while a multi-agent system has to slice that chain into messages, summaries, and handoffs. Every handoff is a compression step. And once reasoning is compressed, some information is easier to drop than to recover, which is why the paper leans on the Data Processing Inequality as a formal explanation rather than just an empirical hunch. The experiments back that up across Qwen, DeepSeek, and Gemini on FRAMES and MuSiQue: when thinking-token budgets are matched, single-agent systems usually match or beat sequential, debate, role-based, and ensemble setups. Here’s the part most people miss. Many celebrated multi-agent gains may not be architectural gains at all. They often come from spending more test-time compute, surfacing more visible reasoning, or benefiting from evaluation quirks that make the pipeline look smarter than it is. The paper is especially sharp when it looks for the boundary case instead of pretending the rule is universal. When the single agent’s effective context is degraded by masking, substitution, or misleading distractors, multi-agent pipelines become more competitive and sometimes win, not because message passing is magical, but because structure can partially stabilize corrupted reasoning. That is a much narrower and more useful claim than “more agents is better.” It suggests the real trade-off is not single versus multi so much as latent reasoning versus external coordination, with context quality and compute accounting deciding which side looks stronger. For multi-hop reasoning, the default should now be clear: start with one strong model, and treat extra agents as a repair strategy, not an upgrade. ---- Paper Link – arxiv. org/abs/2604.02460 Paper Title: "Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets"

译斯坦福论文论证,在相等推理令牌预算下,单个LLM解决多跳问题通常比多代理系统更有效。核心在于单代理能保持完整的内部思维链,而多代理需将思维分割为消息传递与交接,每次交接都压缩信息并导致丢失,这以数据处理不等式为形式化解释。实验在多个模型和数据集上验证,预算匹配时单代理表现等同或优于多种多代理设置。多代理的常见增益可能源于额外计算或评估偏差,而非架构优势。论文建议,多跳推理应默认从强单代理开始,仅当单代理上下文受干扰退化时,才将多代理结构作为修复策略使用。

Rohan Paul@rohanpaul_ai · 5月17日58

Google CEO Sundar Pichai on current frontier model's ability to break the security of almost all current software. "These models are definitely, like really gonna break pretty much all software out there, maybe already, we don't know."

译谷歌CEO Sundar Pichai谈当前前沿模型破解几乎所有现有软件安全的能力。 "这些模型几乎肯定会破解现有的所有软件,也许已经做到了,我们还不确定。"

Rohan Paul@rohanpaul_ai · 5月17日36

Great founders may begin as tech specialists, but building a company requires becoming a generalist and staying that way. ~ Sam Altman.

译杰出的创始人可能起步于技术专家,但创立公司需要成为通才并始终保持这一特质。 ~ Sam Altman

凡人小北@frxiaobei · 5月17日46

微信读书的 skill,唯一有用的就是笔记和划线导出。

Rohan Paul@rohanpaul_ai · 5月17日27

ASML is the invisible backbone of AI and semiconductor revolution. Without ASML: 🚫 No NVIDIA H100 🚫 No AI supercomputers 🚫 No GPT-3/4/5, or Claude 🚫 No scalable data centers They make this $400M machines that basically sit behind all advanced chips

译ASML是人工智能和半导体革命的无形支柱。 没有ASML: 🚫 就没有英伟达H100 🚫 就没有AI超级计算机 🚫 就没有GPT-3/4/5或Claude 🚫 就没有可扩展的数据中心 他们制造这些价值4亿美元的机器,基本上支撑着所有先进芯片的生产。

宝玉@dotey · 5月17日57

Writing -> Opus 4.6 is the best Translation -> Gemini 3.1 Pro is the best

译写作 -> Opus 4.6 是最佳的 翻译 -> Gemini 3.1 Pro 是最佳的

Rohan Paul@rohanpaul_ai · 5月17日77

Anthropic CEO Dario Amodei : "Software is going to become cheap, maybe essentially free. The premise that you need to amortize a piece of software you build across millions of users, that may start to be false. But at the same time, there are whole jobs, whole careers that we've built for decades that may not be present. And, you know, I think we can deal with it. I think we can adjust to it. But I don't, I don't think there's an awareness at all of what, of what is coming here and the magnitude of it." --- From "The Wall Street Journal" YT channel (link in comment)

译Anthropic CEO Dario Amodei在《华尔街日报》YouTube频道采访中表示,软件成本将急剧下降,可能基本免费,传统软件需百万用户分摊成本的前提将不再成立。同时,数十年来建立的许多工作和职业可能消失。Amodei认为社会能够应对并适应这种变化,但他警告人们目前完全未意识到即将到来的变革及其巨大规模。

Rohan Paul@rohanpaul_ai · 5月17日72

Anthropic CEO Dario Amodei: "AI will take us to a world where we have very high GDP growth and potentially also very high unemployment and inequality. We've never had a technology that's this disruptive. So the idea that we could have 5% or 10% GDP growth, but also, 10% unemployment, it's not logically inconsistent at all. It's just never happened that way before. And I'm really quite, for those both reasons, excited and worried. I have some engineering leads within Anthropic who have basically said to me, I don't write any code anymore. I just let Opus do the work and I edit it. There are still things for the software engineers to do, right? It's like, even if the software engineers are only doing 10% of it, they still have a job to do or they can take a level up. That's not going to last forever. The models are going to do more and more. " --- From "The Wall Street Journal" YT channel (link in comment)

译Anthropic CEO Dario Amodei 指出,AI将引领一个前所未有的颠覆性时代:经济可能实现5%-10%的高GDP增长,但同时伴随高失业率与不平等加剧。他举例称,软件成本将大幅下降甚至近乎免费,传统软件商业模式的前提或将瓦解。尽管目前工程师可转向编辑或升级工作,但AI模型将持续承担更多任务,导致许多延续数十年的职业逐渐消失。他强调,社会尚未充分意识到这场变革的巨大规模与冲击,对此他既感到兴奋又深表担忧。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月18日
16:19
DogeDesigner@cb_doge
44
埃隆·马斯克:"我的预测是,世界上智能机器人的数量将远超人类,我认为这很可能是一件好事。我们总是希望对机器人安全保持一点警惕,或者至少不能掉以轻心,但我认为这将开启一个不是全民基本收入,而是全民高收入的时代。"
具身智能大佬观点
16:05
Chubby♨️@kimmonismus
61
前微软高管:AI战略面临困境,企业优势与产品力矛盾并存

前微软高管指出,尽管微软每季度投入巨额资金于AI,但其Copilot等产品的实际用户付费率极低,未能有效激发市场热情。硬件厂商在笔记本电脑中内置NPU芯片,却未能催生出具有吸引力的杀手级应用,这反映出即使是擅长分发的巨头,若产品本身缺乏足够的拉动力,也难以取得成功。与此同时,该高管也强调微软在企业市场拥有的强大护城河依然稳固。这种矛盾的现状,使得未来18个月对微软AI战略的走向至关重要。

Microsoft大佬观点
14:05
Chubby♨️@kimmonismus
23
回到机场,正在前往美国参加Google I/O。 我真的希望我们也能看到一些关于Siri-Gemini更新的公告,因为这是我一直在等待的。 几小时后见!
Google大佬观点行业动态
14:02
向阳乔木@vista8
68
Anthropic年化营收飙升,揭秘算力管理与研发飞轮

Anthropic CFO在访谈中透露,公司今年一季度年化营收从90亿美元猛增至300亿美元以上。算力被高效复用以同步支持模型训练、内部研发和客户服务,CFO近半时间投入算力决策,强调需超越线性思维进行情景规划。内部研发形成“更好模型驱动更快研发,进而产出更优模型”的飞轮效应,同时降低对外服务成本。公司超90%代码由Claude Code完成,显著提升效率;在可解释性与对齐研究上的投入,则增强了客户信任,形成差异化优势。

Anthropic大佬观点编码
13:50
宝玉@dotey
59
为什么我不"凭感觉编程"

本文作者以资深工程师的视角,阐述了其不采用“凭感觉编程”(Vibe Coding)的原因。核心论点是:AI工具主要缓解了软件开发中编写代码等“偶然复杂性”,但无法触及设计健壮、可维护系统架构这一“本质复杂性”,后者仍需依赖深厚的人类经验与判断。作者进一步指出,大语言模型(LLM)仅在符号层面运作,缺乏人类对上下文、社会现实及模型自身局限性的“元认知”能力,无法审问和反思数据与抽象背后的简化与遮蔽。因此,他认为构建清晰系统的关键仍在于人类的专业判断与反思。

大佬观点编码
10:09
Ethan Mollick@emollick
55
史上最具预言性的推文(发布于ChatGPT推出两个月后)。你可以每天安全地转发它,它仍将预言未来。这至少是世界对AI关注度的底线。 【引用 @tszzl】:如果你认为现在关于AI的讨论已经达到了烦人的程度,那你可要做好准备。很快,这将成为每个人心中唯一思考的事情。

roon: if you think AI chatter has reached an annoying level right now you're in for something else. it's going to be the only ...

大佬观点现象/趋势
09:23
meng shao@shao__meng
13
Figure AI 这个 PR 视频,槽点太多,感觉甚至不如去跑马拉松 😂

Brett Adcock: We got bored. Time for Man vs. Machine https://x.com/i/broadcasts/1qGvvkQMgNgGB

具身智能大佬观点
09:19
Elon Musk@elonmusk
25
AI在1年、2年或3年后将发展到什么程度?
xAI大佬观点
09:07
Lilian Weng@lilianweng
24
我最近才深入阅读了查尔斯·佩罗的系统事故概念,非常有见地且令人感同身受。
大佬观点安全/对齐
08:53
meng shao@shao__meng
62
给 AI 时代工程师们的警示:不要把你的学习外包给 AI

Addy Osmani 警示工程师过度依赖AI生成代码会导致“认知投降”,即牺牲深度理解换取效率。研究显示,依赖AI会削弱问题理解、脑部活动和决策质量。产品设计追求效率,但学习恰恰发生在“摩擦力”中。AI委托在样板代码中有效,但在调试、AI犯错、底层变化、处理独特问题及面对市场价值重估时必然失败。作者建议应形成假设再提问、先要解释再要代码、开启学习模式、审阅AI输出如PR、徒手重写代码,并区分“交付”与“学习”指标,避免用未来能力换取短期轻松。

Addy Osmani: http://x.com/i/article/2055936913211899904

智能体大佬观点编码
08:07
François Chollet@fchollet
60
决策始终是瓶颈所在。 生产力就是你做出开放式决策的速率, 也就是你减少未来路径的速率。
大佬观点现象/趋势
07:54
Berryxia.AI@berryxia
54
Yann LeCun预测12-18个月内将出现分层世界模型通用训练方法

Meta AI首席科学家Yann LeCun预测,未来12到18个月内将出现训练分层世界模型的通用方法。这些模型将从视频和真实世界数据中学习,具备理解物理因果和规划行动的能力,可应用于机器人、医疗等多个领域解决实际问题。最终目标是将其扩展为通用的世界模型。这标志着AI研究重点可能从当前以LLM为代表的“会聊天”模型,转向能够理解并作用于物理世界的“会做事”模型。

Haider.: Yann LeCun says that within a year to 18 months, we'll have a general method for training hierarchical world models Thes...

Meta具身智能大佬观点
07:54
Berryxia.AI@berryxia
18
我要的是Gemini App UI 升级吗? 我是想让Google 大善人早一点推出新模型啊! 我看我的Pro会员也马上到期了……

Chetaslua: 🚨 New Gemini App UI Update This looks so cool 🤩 like I love it , btw use Gemini flash it's routing to Gemini 3.2 Every...

Google大佬观点
06:41
Orange AI@oran_ge
45
互联网时代喂养欲望,AI时代逼问方向

推文以哲学比喻对比互联网与AI时代。互联网时代的底层逻辑是不断缩短“欲望-满足”的循环,产品旨在喂养用户欲望,人被推着走,最终造就“末人”。AI时代则不同,当AI接管大量执行力后,能力不再是瓶颈,人被推向核心问题:你到底要什么?瓶颈变成了方向、判断和承担。这迫使个体进行自我超越,主动选择并承担风险,其本质更接近尼采的“权力意志”,旨在造就“超人”。

大佬观点现象/趋势
06:39
Ethan Mollick@emollick
61
一项名为"赛博队友"的实地实验发现,AI可以通过在员工技能薄弱任务上提供高于平均水平的性能来提升生产力,其作用方式类似于人类团队协作。实验表明,配备AI的个体工作者能达到未配备AI的人类团队的工作绩效,并能弥补个人单独工作时解决方案过度依赖自身专长导致的"不平衡"缺陷。研究进一步预测,AI的生产力增益在以下条件下更显著:人类专业分工更细、AI能力与人类技能呈负相关(即擅长人类不擅长的任务),且双方整体能力相当。实验使用了GPT-4系列模型,研究者认为采用更新的模型和智能体工具效果会更大。

Lukas Freund: "The Cybernetic Teammate" is a fascinating field experiment by a superstar team of researchers, including @raffasadun @e...

智能体大佬观点
06:39
Ethan Mollick@emollick
61
因此,实现真正AI腾飞的两个最明显障碍是: 强大的RSI(AI作为独立的AI研究者,而"不仅仅"是人类工作的倍增器) 以及持续学习能力。 其中任何一项都将代表AI发展轨迹的重大转变。
智能体大佬观点数据/训练
06:37
Greg Brockman@gdb
22
工作中向Codex随意提问带来许多快乐(比如查找之前看过的某个具体电子表格),远比手动搜索上下文有趣得多。
OpenAI大佬观点编码
04:35
Chubby♨️@kimmonismus
20
为保持前沿认知并深入理解人工智能、芯片和能源领域,有哪些必读书目值得推荐? 目前我想到的是@firstadopter的《The NVIDIA Way》和Chris Miller的《芯片战争》,不过主要还是读Substack上的内容。 但我想重新开始多读些书。有什么推荐吗?
其他大佬观点
02:54
Nathan Lambert@natolambert
59
离开旧金山降低了我的信息密度,但最大的好处是让我有空间培养自己关于AI的信念和价值观。 我们需要更多人在AI领域另辟蹊径,目前单一的文化氛围只会让现有巨头获胜。

Sriram Krishnan: too many SF AI discussions reduce to whether you a) believe we are in the singularity b) what part of the takeoff curve ...

大佬观点现象/趋势
02:40
Rohan Paul@rohanpaul_ai
63
AI交互新突破:全双工时间对齐微轮转实现类人实时对话

Thinking Machines Lab与OpenBMB团队正推动AI交互从传统的“对讲机”式轮转模式,向全双工、时间对齐的微轮转模式演进。其核心是通过Omni-Flow等框架,将视觉、听觉输入与语音、文本输出对齐到统一时间轴,实现感知与响应的同步。作为实践,开源的90亿参数多模态模型MiniCPM-o 4.5已能同时看、听、说,并在多模态能力和语音生成质量上超越了更大规模的模型。这标志着AI交互层的重要突破,使实时、自然的类人对话成为可能,且已具备代码、权重及边缘部署方案。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

多模态大佬观点语音
02:09
Ethan Mollick@emollick
60
GPT-5.5 Pro面临一项学术挑战,要求其应用一篇研究幽默的论文技术,该论文通过分析发现,含义对比强烈的词对最引人发笑。模型据此生成了一系列荒诞的词组组合,如"scrotum snorkel"和"diarrhea tiara"等,以测试其对幽默原理的理解和创造性应用能力。

Ethan Mollick: May I present to you the best chart ever published in an academic paper 👇 It comes from a study of humor designed to te...

OpenAI大佬观点论文/研究
02:01
Yann LeCun@ylecun
64
推文警告,若西方无法尽快出现可信的开源前沿AI参与者,后果将迅速扩散。这与早期互联网格局相反:过去西方科技巨头主导全球,而中国自建生态;AI时代可能逆转这一态势。若无西方开源力量,能够支撑整个经济体的开源模型将仅由中国提供。若美国以国家安全为由进一步限制获取中国开源模型,其国内市场将仅由两三个封闭系统服务,而全球约60亿人口可能选择免费、强大、可自托管且不受禁运的中国AI技术栈。到2030年,中国开源模型或成为全球默认选择,导致美国在技术上自我孤立于世界大多数AI用户。

Daniel Jeffries: I don't think people understand just how bad it will be if an American open source champion doesn't emerge soon and the ...

Meta大佬观点开源生态
00:54
Berryxia.AI@berryxia
26
当前各行业正经历年轻一代对传统模式的颠覆。人工智能领域的企业记忆架构出现重大变革,Tanka公司结合知识图谱与稀疏注意力机制,以每月299美元的定价,旨在挑战并超越Slack和Notion等现有协作平台。其技术路径代表了AI基础设施的一种新方向。

Berryxia.AI: http://x.com/i/article/2054904722663133186

大佬观点
5月17日
23:54
Berryxia.AI@berryxia
44
xAI算法开源引泛滥解读,多数分析未触源码

作者指出,xAI开源后,市面上95%的解读内容是由AI批量生产的同质化废话,分析者甚至没有查看过源码文件。这些内容充斥着“多互动”“账号要垂直”等泛泛而谈的建议,缺乏实际价值。真正隐藏在xAI算法深处的关键机制,大多数讨论者连名字都未曾提及,却在指导他人如何运营X平台。作者呼吁推荐真正有价值的深度解读,并暗示自己通过仔细研读源码获得了不断惊喜的发现。

xAI大佬观点
23:39
Ethan Mollick@emollick
51
主推文认为,按照冯·诺依曼对"奇点"的定义--人类事务将发生不可延续的根本性变革--我们已身处其中。这种变革如同工业革命,其具体形态无法提前预知。引用推文指出,社会各层面对此的认知存在显著差异:旧金山和部分X平台用户相信奇点迫近;企业高管与政府刚意识到AI的快速发展;数亿职场人士已将其视为日常工具;而公众认知仍停留在"AI是会产生幻觉的随机鹦鹉"阶段,对从GPT-3.5至今的能力飞跃未有更新。

prinz: We are, indeed, living through the singularity - and it has been fascinating to watch this realization slowly permeate t...

大佬观点现象/趋势
22:12
凡人小北@frxiaobei
66
从怀疑到震撼:Citadel CEO见证AI颠覆高技能金融工作

Citadel创始人兼CEO Ken Griffin对AI的看法在短时间内发生剧烈转变。他从去年质疑生成式AI无法挖掘超额收益,到近期在斯坦福坦言,AI代理如今能在几天内完成金融硕士和博士需耗时数周甚至数月的高技能工作。这种生产力飞跃已超越炒作,对高技能岗位的自动化影响令他感到震撼与沮丧,并预见到其将对社会产生巨大冲击。这一从怀疑论者到亲历者的快速转变,凸显了AI技术近期发展的颠覆性力量。

金融汪: CItadel的CEO和创始人肯·格里芬对AI的看法发生了重大转变: "首先,在过去的几个月里,人工智能工具包的生产力发生了飞跃式的变化。它比九个月前强大得多。对我们 Citadel 来说,这使我们能够开发出更广泛的人工智能应用场景。 坦白...

智能体大佬观点行业动态
21:10
Rohan Paul@rohanpaul_ai
63
智能体设计中,精确搜索(grep)是否优于向量检索?

研究指出,在编码智能体需精确定位证据(如符号、函数名、错误信息)的任务中,基于grep的精确字符串搜索比向量检索更具优势。关键在于,检索性能高度依赖智能体的设计框架——结果呈现方式(内联、文件或CLI)会极大影响搜索效果。论文挑战了“智能体栈必须始于嵌入”的默认假设,强调应区分任务类型:是语义发现问题,还是证据定位问题。对于后者,为模型提供原始工具、清晰上下文和精确搜索的框架,往往比构建复杂索引更有效。向量数据库在模糊语义搜索和大规模场景中仍有价值。

智能体arXiv大佬观点搜索
19:40
Rohan Paul@rohanpaul_ai
62
超越语义相似性:通过直接语料交互重新思考代理搜索的检索

研究表明,AI代理使用grep、文件读取等基础终端工具直接搜索原始数据,在多项基准测试中表现远超传统语义检索系统。例如,在BrowseComp-Plus基准上,终端搜索将准确率从69%提升至80%,同时降低成本。核心观点在于,检索不仅是模型问题,更是交互界面问题。直接语料交互允许代理进行精确字符串搜索、检查上下文并持续验证假设,从而从已定位文档中提取更多有效证据,其增益主要来自更充分地利用已发现文档,而非找到更多相关文档。局限性在于,随着语料库规模扩大,定位初始锚点的成本迅速增加,因此终端搜索无法完全替代大型索引。但对于强大AI代理,性能瓶颈可能在于工具允许其“触及”数据的深度。

智能体MCP/工具大佬观点搜索
19:10
Rohan Paul@rohanpaul_ai
63
Salesforce联合创始人兼CEO马克·贝尼奥夫: 受AI驱动估值重置影响的SaaS企业CEO们应当停止抱怨。 公开市场正在理性调整;私有估值在变现前只是幻想。 请聚焦于收入、客户、现金流、利润、创新与价值创造。
大佬观点
18:44
AYi@AYi_AInotes
66
Citadel创始人震撼于AI阶跃进步,高端金融研究被自动化

Citadel创始人Ken Griffin承认,过去几个月AI工具出现阶跃式进步,生产力大幅提升。其公司内部原本需高级金融专家耗时数周至数月完成的高端研究工作,现可由AI代理在数天內完成。Griffin强调这自动化的是极高技能的顶尖认知劳动,非普通白领工作,他对此深感震撼与忧虑,认为将对社会产生戏剧性冲击。金融已成为AI首个杀手级应用场景,法律、医疗等行业将紧随其后。建议普通人立刻转向使用智能体AI、掌握设计多代理工作流,并让AI承担大部分重活,自身专注于判断与洞察。

Brett Caughran: A big pivot from Ken Griffin on AI: "Number one is, in the last few months, there has been a step change in the producti...

智能体大佬观点
18:34
Chubby♨️@kimmonismus
精选75
微软AI CEO预测18个月内AI自动化所有白领工作

微软AI CEO Mustafa Suleyman预测,AI将在18个月内实现人类水平的性能,自动化大多数专业任务,包括会计、法律、营销和项目管理。他在Fortune采访中指出,所有涉及“坐在电脑前”的白领工作都将被AI完全取代。Suleyman透露自己的使命是构建“超级智能”,并展望未来创建新AI模型将像制作播客或写博客一样便捷。

Microsoft大佬观点现象/趋势

推荐理由:Microsoft AI 老大亲口说 18 个月内所有“坐电脑前的工作”都会被 AI 干掉,不是普通预测,是直接给全球白领贴了倒计时标签。虽然听着像吹牛,但他说这话的位置让我们不得不认真掂量。
17:10
Rohan Paul@rohanpaul_ai
49
杨立昆表示,大语言模型在价值或投资上并非泡沫--它们将推动许多实际应用并证明当前基础设施支出的合理性。 真正的泡沫在于假设大语言模型能成为人类水平的思考者。
Meta大佬观点现象/趋势
17:10
Rohan Paul@rohanpaul_ai
57
斯坦福研究:在同等推理预算下,单智能体LLM通常优于多智能体系统处理多跳问题

斯坦福论文论证,在相等推理令牌预算下,单个LLM解决多跳问题通常比多代理系统更有效。核心在于单代理能保持完整的内部思维链,而多代理需将思维分割为消息传递与交接,每次交接都压缩信息并导致丢失,这以数据处理不等式为形式化解释。实验在多个模型和数据集上验证,预算匹配时单代理表现等同或优于多种多代理设置。多代理的常见增益可能源于额外计算或评估偏差,而非架构优势。论文建议,多跳推理应默认从强单代理开始,仅当单代理上下文受干扰退化时,才将多代理结构作为修复策略使用。

智能体大佬观点推理
16:40
Rohan Paul@rohanpaul_ai
58
谷歌CEO Sundar Pichai谈当前前沿模型破解几乎所有现有软件安全的能力。 "这些模型几乎肯定会破解现有的所有软件,也许已经做到了,我们还不确定。"
Google大佬观点安全/对齐
16:40
Rohan Paul@rohanpaul_ai
36
杰出的创始人可能起步于技术专家,但创立公司需要成为通才并始终保持这一特质。 ~ Sam Altman
OpenAI大佬观点
16:12
凡人小北@frxiaobei
46
微信读书的 skill,唯一有用的就是笔记和划线导出。
产品更新大佬观点
16:10
Rohan Paul@rohanpaul_ai
27
ASML是人工智能和半导体革命的无形支柱。 没有ASML: 🚫 就没有英伟达H100 🚫 就没有AI超级计算机 🚫 就没有GPT-3/4/5或Claude 🚫 就没有可扩展的数据中心 他们制造这些价值4亿美元的机器,基本上支撑着所有先进芯片的生产。
大佬观点部署/工程
12:16
宝玉@dotey
57
写作 -> Opus 4.6 是最佳的 翻译 -> Gemini 3.1 Pro 是最佳的

jason: When do you reach for other models instead of Codex? What can we do better? Hit me with all of your frustrations. dms op...

AnthropicGoogle大佬观点
11:10
Rohan Paul@rohanpaul_ai
精选77
Anthropic CEO预言软件免费化与职业结构巨变

Anthropic CEO Dario Amodei在《华尔街日报》YouTube频道采访中表示,软件成本将急剧下降,可能基本免费,传统软件需百万用户分摊成本的前提将不再成立。同时,数十年来建立的许多工作和职业可能消失。Amodei认为社会能够应对并适应这种变化,但他警告人们目前完全未意识到即将到来的变革及其巨大规模。

Anthropic大佬观点现象/趋势

推荐理由:Dario 这段 WSJ 访谈把软件免费化说得明明白白,但真正值得警惕的是后半句——整个行业对即将到来的职业冲击几乎没有意识,这种认知差才是风险。
11:10
Rohan Paul@rohanpaul_ai
72
Anthropic CEO谈AI双重影响:高增长与高失业并存

Anthropic CEO Dario Amodei 指出,AI将引领一个前所未有的颠覆性时代:经济可能实现5%-10%的高GDP增长,但同时伴随高失业率与不平等加剧。他举例称,软件成本将大幅下降甚至近乎免费,传统软件商业模式的前提或将瓦解。尽管目前工程师可转向编辑或升级工作,但AI模型将持续承担更多任务,导致许多延续数十年的职业逐渐消失。他强调,社会尚未充分意识到这场变革的巨大规模与冲击,对此他既感到兴奋又深表担忧。

Rohan Paul: Anthropic CEO Dario Amodei : "Software is going to become cheap, maybe essentially free. The premise that you need to am...

Anthropic大佬观点现象/趋势
‹ 上一页
1…3435363738…50
下一页 ›