AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 2401 条
全部一手资讯X论文
标签「大佬观点」清除
Yuchen Jin@Yuchenj_UW · 5月13日61

AI will solve coding and math first, because the outputs are verifiable. AI won’t “solve” art, because art has no unit test. There is no single definition of good or bad. And by art, I don’t just mean paintings or music. I mean designing a great product, building a great company, and anything where taste is the moat.

译AI将首先解决编程和数学问题,因为其输出是可验证的。 AI不会“解决”艺术,因为艺术没有单元测试。好坏没有单一标准。 我说的艺术不仅指绘画或音乐。还包括设计伟大产品、建立伟大公司,以及任何以品味为护城河的领域。

凡人小北@frxiaobei · 5月13日74

AI会不会取代人这个话题,每个角色其实都在讲对自己有利的版本。 AI公司说能替代员工,能带来更高估值。 企业说用AI精简了团队,比承认疫情招多了更体面。 教育者说别慌来报课学习,刚好让你焦虑到付费。 媒体说末日来了,因为流量最大。 这里面没人撒谎,大家说的可能都对。 但当所有人都在用同一个话题服务自己的叙事时,也许该问的问题就不是AI到底会不会取代人了。 包括我自己在内,身边太多朋友都在经历各种巨变,聚会聊天大家都很焦虑。 所以我的疑问其实很简单, 转型期到底多快多痛,来不及转身的人怎么办? 只是这个问题对谁来说都没什么好处,所以没人有动力认真回答。

译关于AI是否取代人类的讨论,实为不同利益方的叙事塑造:AI公司为高估值渲染替代能力,企业借AI解释裁员,教育机构制造焦虑,媒体追逐流量。吴恩达指出“AI导致大规模失业”是夸大其词,实际净增岗位远超替代,并以软件工程师招聘强劲、美国低失业率为证。他强调AI改变工作性质而非摧毁就业,揭露夸大叙事背后的商业动机——AI公司可通过对标员工薪资提高定价,企业则借AI掩饰疫情期间过度招聘。核心问题在于技术转型中个体如何应对,但这缺乏利益驱动力被认真探讨。

Ethan Mollick@emollick · 5月13日64

Had an interesting exchange with roon of OpenAI last night over whether super intelligent AI would actually be able to navigate organizational challenges.

译昨晚与OpenAI的roon进行了一次有趣的交流,关于超级智能AI是否真的能够应对组织挑战。

Chubby♨️@kimmonismus · 5月13日40

Maybe its just me, but i love that excitement for thursdays. hope they keep it that way. thursday = release day

译可能只是我,但我喜欢星期四的那种兴奋。希望他们保持这种方式。星期四 = 发布日

Nathan Lambert@natolambert · 5月13日52

Open software lowered deployment cost. Open AI lowers development cost. E.g. developing a bespoke model for an enterprise use case. We’re early in companies figuring out how to leverage this successfully.

译开源软件降低了部署成本。 Open AI降低了开发成本。例如为企业用例开发定制模型。 企业尚在探索如何有效利用这一优势的早期阶段。

François Chollet@fchollet · 5月12日55

Symbolic learning is not a replacement for coding agents, it's a replacement for gradient descent & NNs: a low-level, completely general, extremely scalable new learning substrate.

译符号学习不是编码代理的替代品,而是梯度下降和神经网络的替代品:一种低层级、完全通用、极具扩展性的全新学习基础。

Tibo@thsottiaux · 5月12日45

For Codex, we’ve been thinking about keeping a stable release cadence and have a larger release each week on Thursday. That does make the start of the week and bit less exciting. Thoughts?

译对于Codex,我们一直在考虑保持稳定的发布节奏,每周四进行一次较大规模的发布。这确实会让周初显得不那么令人兴奋。大家有什么想法?

Ethan Mollick@emollick · 5月12日53

Expect your feed to look more and more like this in the coming weeks and months.

译预计在接下来的几周和几个月里,你的信息流会越来越像这样。

凡人小北@frxiaobei · 5月12日40

今天接到保险公司专员的电话,让我更加确信,有些岗位迟早要被 AI 替代。 事情是这样的:5月8号去医院就诊,医生为了方便我复诊,顺手把6月2号的挂号也开好了。报销的时候,我不小心把6月2号的挂号费发票一起扫了进去。 系统多次提醒我补交6月2号的处方和病历,我跟客服反馈说提交有误,客服上报之后,今天就有专员来电跟进了。 结果这位专员上来就反复强调:您需要提交6月2号的病历。 我说,大姐,今天才5月12号,6月2号还没到呢,你是在跟我开玩笑吗? 大姐愣了一下:哦对哦……那我去帮你反馈一下。 所以这通电话的意义是什么?她做的事情,和之前系统自动催我提交材料,有任何区别吗?如果人工只是把系统提示念一遍,不做任何判断,那这个岗位存在的价值到底在哪里? 类似的岗位还有多少?多少人的日常工作,就是机械地转述系统的指令、复读流程里的话术,从不思考内容本身是否合理? 很多人把自己活成了机器,又担心被机器取代 这是什么心理。

译作者因误提交未来日期的医疗发票,收到系统自动催收材料提示。在向客服反馈后,保险专员致电跟进,却只是机械重复系统要求提交6月2日病历的指令,完全未意识到该日期尚未到来。这通电话与系统自动提示无异,未能提供任何人工判断价值。此事引发对一类岗位的思考:许多工作仅是机械转述系统指令、复读流程话术,而不思考内容本身的合理性。这类缺乏判断与思考的岗位,正是面临被AI替代风险的高危领域。

Chubby♨️@kimmonismus · 5月12日39

OpenAI fired Leopold Aschenbrenner. Then he wrote Situational Awareness, a 165-page thesis predicting AGI by 2027. Then he reportedly turned $225M into $5.5B in 12 months. Not by buying Nvidia, Microsoft, Google, or Amazon. But by buying what AI actually runs on: Energy. Bandwidth. Storage. Compute. Bloom Energy. Lumentum. Sandisk. CoreWeave. Iris Energy. Everyone bought the AI companies. He bought the bottlenecks underneath them. Genius.

译OpenAI解雇了Leopold Aschenbrenner。 随后他撰写了165页的《情境感知》论文,预测2027年实现AGI。 据报道,他在12个月内将2.25亿美元转化为55亿美元。 并非通过投资英伟达、微软、谷歌或亚马逊。 而是投资AI实际运行的基础: 能源。带宽。存储。算力。Bloom Energy。Lumentum。Sandisk。CoreWeave。Iris Energy。 众人追逐AI公司,他买断了它们底层的瓶颈。 天才之举。

歸藏(guizang.ai)@op7418 · 5月12日41

移动端的语音输入法必须带全键盘,但是桌面端的语音输入法最好跟输入法本身解耦。 Typeless 犯了前一个错误,豆包犯了后一个。

Tibo@thsottiaux · 5月12日48

The master becomes the mentee. At last, Claude is now copying Codex. But you cannot out-accelerate GPT-5.5.

译导师变成了学徒。Claude终于开始模仿Codex了。 但你无法超越GPT-5.5的加速能力。

宝玉@dotey · 5月12日66

http://x.com/i/article/2054083068839796737 # AI 时代到底该怎么管一个工程团队 Fiona Fung 在 Anthropic 大会上讲了 28 分钟,聊了聊 AI 时代到底该怎么管一个工程团队。 她做这套幻灯片时,Anthropic 还没有推出 Routines 功能。 三周后,Routines 上线了。这是一个让 Claude Code 在云端按计划自动跑任务的功能,不需要在本地一直开着终端。等到她真正站上 Code with Claude 2026 大会的讲台时,幻灯片里好几张就已经过时了。 Fiona Fung 是 Anthropic 旗下 Claude Code 和 Cowork 两条产品线的工程与产品负责人。她之前在微软干了十二年(从 Visual Studio 做起),后来去 Meta 带过 Facebook Marketplace 和 Instagram 的工程团队,在 2025 年 9 月加入了 Anthropic。这次演讲不到三十分钟,主题听起来很普通:“AI 时代怎么管一个工程团队”,但她讲的全是这一年来在 Claude Code 团队踩过的坑、砸碎的旧规则,以及还没想明白的现实挑战,一点也不讲抽象的空话。 视频原链接:https://www.youtube.com/watch?v=igO8iyca2_g ## 要点速览 - 软件工程的瓶颈过去是“写代码慢”,现在则转移到了验证、评审、跨职能协作和安全性上。 过去的各种流程都是基于“写代码很贵”这个假设设计的,现在既然“写代码几乎免费”,流程就必须全部重构。 - 流程极少会自然消亡,组织只会一层层地往上叠加 SLA、规章制度和评审。用 AI 改造工程团队的第一步,其实就是明确允许大家砍掉陈旧流程。 - 技术辩论的方式变了。过去是把人拉到白板房里画架构图,现在是让 Claude 同时搓出三个 PR,连着对 API 的实际影响范围一起对着代码讨论。 - 在 Claude Code 团队,所有的 PR 都有 Claude 的参与。“这段代码到底是谁写的?”这个问题已经渐渐失去意义。 - 经理必须从一线 IC (个人贡献者) 做起。Fiona 在招人时死死咬住这一条,负责招聘的同事一开始甚至不能理解:“现在哪有经理愿意倒回去先写代码的”。她的回应很干脆:“不愿意就趁早好聚好散”。 - 组织尽量扁平、所有小组共享一个团队目标(mission)。理由很简单:目标一变,层级越多越容易产生对齐损耗,扁平意味着灵活。 - 代码就是唯一的“事实来源”(source of truth),而不是设计文档。 如果非要保留 spec,就把 spec 提交进代码库,让 Claude 去校验代码与文档是否一致。 - 衡量效果看三个指标:新人上手时间、PR 的生命周期、Claude 辅助提交的比例。但她也警告,别死盯着“有多少代码是 AI 写的”,那只是虚荣指标,关键要看产品质量和可靠性。 ## 【1】二十年里,行业被重塑了两次 演讲一开始,Fiona 把时间线拉回了 2000 年代初。她当时在微软做 Visual Studio 2005——全球主流的开发工具之一。那会儿软件还是靠 CD 发行的(再早点是软盘)。因为软件要送到流水线上刻盘、装盒、铺货到店里,每个版本都有雷打不动的发布主线。 后来互联网来了,把发行方式从 CD 变成了在线分发,工程节奏随之被颠覆。现在轮到 AI,但这次变的不只是发行节奏,而是“写代码”这件事本身。 > 过去管用的老经验,现在未必行得通了。 (“What served you prior may not serve you any longer.”) 她在演讲里反复回到这一句。多年来工程节奏围绕一个假设搭建:写代码贵、写测试贵、重构贵。从瀑布到敏捷,每一种方法论都是在分配这块稀缺资源。 去年她还在抱怨 vibe coding(凭感觉编程,由 OpenAI 联合创始人 Andrej Karpathy 在 2025 年初提出):“为什么到处用常量,工程实践不好。”一年之后,模型变得能干太多。这种突破已经远超单纯的“提速”范畴,而是整体的吞吐量直接跃升了一个数量级。 ## 【2】当编码不再是瓶颈,新的卡点出现在哪里 Claude Code 团队现在的瓶颈是验证、评审、跨职能协作、安全。 代码量提升后,她被其他工程负责人问得最多的问题是:“这些代码人怎么审得过来?”她也想知道维护成本怎么算。生成代码的成本几乎为零,但维护成本不会跟着归零。 > 注: 演讲提到的“用 Claude Code 构建 Claude Code”是 Anthropic 公司层面的公开做法。Boris Cherny 此前在多次访谈中讲过,自己用 Claude Code 在 10 天内构建了 Cowork 这个面向非技术用户的桌面 Agent。这是工程现实,不是修辞。 她列出了一份“正在悄然失效”的旧流程清单:长达半年的产品路线图、繁琐的排期会议、对代码的所有权划分、马拉松式的代码评审会议、按部就班的传统团队结构、知识库分享、以及漫长的新人入职培训(onboarding)。这些统统都是因为当初“开发成本太高”而被现实倒逼出来的历史产物。 > 流程极少会自然消亡。我们习惯的做法是不断地往上叠加新流程。 (“Rarely do processes kill themselves, we tend to just layer more and more and more processes on.”) 她举了个痛点例子:之前在某个团队,SLA(服务级承诺)多到需要拉个大表格强制排序,工程师才能弄清楚哪条需要优先响应。她早就觉得这种过度堆砌该清理了,但真正下决心动手,还是到了 Anthropic 之后。 ## 【3】少做什么:六个月路线图、设计文档、产品评审 刚加入 Claude Code 时她还在问:“不需要做六个月路线图吗?” 写出来了,前三个月还能用,过完新年再看,已经变了大半。她现在用一个词:jit planning(即时规划),借编程概念里的 just-in-time 编译,意思是什么时候需要再做什么,因为原型成本已经趋零,“提前规划”的杠杆消失了。 设计文档也大量减少。Claude Code 团队的默认讨论媒介从“先写一份 doc”换成了“先发一个 PR”,有想法直接做出来。产品评审会同样开得少,因为产品形态变化太快,与其评审 mock,不如把内部版本推给 Anthropic 全员(她管这个叫 ant-fooding,因为公司名 Anthropic 含“ant”),再推给外部用户,听他们怎么用。 ## 【4】多做什么:验证,把质量保障往源头推 她希望团队在验证上加倍投入,叫 shift left(左移)。传统软件流水线左是源头右是交付,把质量保障从靠近交付端的人工测试,往靠近源头的自动化推。 为什么这件事变重要?因为角色边界正在模糊。她的设计师同事现在也在提交代码。Fiona 顺带讲了一个真实的小焦虑:她有次修了个跟求职简历相关的 bug,第二天扫了一眼 Boris 的消息流,看到有人在群里 @ 他报新 bug。她形容自己当时的感触是“心跳都漏了半拍”,生怕是自己捅的娄子。 每个人都不希望因为自己的提交把服务搞挂。在这个高吞吐量的环境下,这是非常真实的心理负担。传统的人工 QA 根本接不住这么高的代码产出率,所以质量保障必须更早地依赖自动化机制。 ## 【5】技术辩论的方式变了:从白板到三个 PR 刚加入 Claude Code 团队时她想做一次重构,借机熟悉代码库。和 Boris 在技术方案上有分歧,她差点习惯性地拍肩膀说“走,去白板房画一下”。 下一秒她马上意识到,其实完全可以让 Claude 同时搓出三个版本的 PR,直接对比完整的代码实现,甚至能拉出对所有调用方的影响。白板上可画不出这么直观的全局视角,但代码可以。 > 当写代码变得轻而易举,无休止的争论就显得极其昂贵。 (“When building is cheap, arguing is expensive.”) 抛出这个判断时,她的语气尤为严肃。她随即提醒听众:正因为生成代码的成本趋于零,团队文化和底线共识反而变得越发关键。 决不能沦为“谁最后一个 commit 谁赢”。比如有人熬夜到凌晨三点偷偷交代码,或者设个定时任务抢在上线前压哨操作,这绝对不行。恰恰是因为代码不值钱了,团队横向对齐反而更需要明确的底线。 ## 【6】代码评审:Claude 接什么,人保留什么 Cat Wu 在大会上午的 keynote 已经讲了 Claude 自动评审 PR 的能力。Fiona 这里的视角更具体:什么交给 Claude,什么继续留给人。 > 注: Cat Wu 是 Claude Code 的产品负责人,与 Boris Cherny 同台主理 Claude Code 产品方向。 交给 Claude 去做的:风格检查、lint 去重、回应代码评审意见、抓常规 bug,以及补全单元测试。她说 Claude 现在非常擅长“打理”PR,通常在人工接手之前就把大部分脏活累活干完了。 依然需要人工介入的有三类:法律和合规层面的审核,因为涉及风险口径;安全敏感代码的边界确认,因为出漏洞的代价太高;针对产品体验的 sense(直觉)和品味,这也是当前大模型相当难跨越的一道门槛。 第三类她讲了个轻松的例子。她有个小爱好:按节日装饰 Claude 的终端形象。圣诞节那次她想把 Claude 变成雪人,让 Claude 用 ASCII 字符画。她把结果发给设计师同事征求意见,对方一句话:“你把它画成了 Mr. Peanut。” > 注: Mr. Peanut 是美国知名零食品牌 Planters 的吉祥物,戴礼帽和单片眼镜,长得跟雪人在轮廓上有点像。 她最终采用了简单方案:冰蓝色 + 雪花。这个故事她拿来说明产品 sense 的意义:抽象判断很难自动化。 ## 【7】代码边界日渐模糊,角色分工也在重新洗牌 在 Claude Code 团队,几乎所有的 PR 都有 Claude 参与。“这段代码到底是谁写的?”这个问题正在变得荒诞甚至没有意义。 Fiona 建议不要纠结于这种表象,而是深挖你真正想搞懂的是什么:是谁的修改引爆了 bug?谁有足够的背景上下文去跟客户解释技术细节?谁对这块代码模块的来龙去脉更清楚?如果你问的是后面细分的这几个问题,就会发现往往有更好的自动化路径来回答。比如她原来有个习惯:每天早上泡一杯咖啡,用 Claude Code 对接客户反馈频道去跑一遍信息汇总摘要;现在这个动作已经被编排进了 Routines 自动化任务里,连手动敲命令都省了。 > 注: Routines 是 Claude Code 的一项功能,可以设置定时或触发式的自动化任务。Fiona 在准备这个演讲的一个月期间,这个功能才刚上线,连她自己的幻灯片内容都因此需要更新。 这种角色的模糊化是双向发生的。一面是非技术出身的人员也开始卷起袖子写代码,Claude Code 团队里的 PM 就在实打实地提交 PR。另一面则是让工程师跳出自己的一亩三分地,去抢传统上属于其他岗位的活儿。Fiona 拿自己举了个例子:她原本想优化一下 Claude Code 的用户问卷调查,又找不到内容设计师。过去她可能要拉着内容团队的人反复抠文案字眼,现在她直接用 Claude 作为文案搭档。她自嘲作为一个典型的工程师,“在把文案写得精炼这件事情上可谓是一塌糊涂”。 在招聘上,Claude Code 团队重点看两类人。一类是有产品感觉的创意建造者:好奇心强,看到问题就想做产品来解决,会反复打磨体验。另一类是深度系统专家:团队搭建 Claude Code Remote 时发现缺少有分布式系统经验的人。她不再看重的是原始编码吞吐量,模型已经把这部分拉平了。 ## 【8】组织形态:尽量扁平,经理从 IC 做起 Anthropic 招她进 Claude Code 时,对方默认按“10 个 IC 配 1 个经理,再向下嵌套”的结构来招人。Fiona 不要这种。 她想要的是尽量扁平。Claude Code 和 Cowork 两条线只共用一个团队 mission,不让每个小组各自定 mission。理由很实在:mission 一变,多层级要花很多时间向下对齐,扁平等于灵活。 她还坚持一条:Claude Code 团队里所有经理都要先做 IC(individual contributor,一线工程师)。 招聘官最初的反应是“你疯了”,意思是没有经理愿意先做 IC。 > 我希望 Claude Code 团队的每个经理都从 IC 起步,这是我对团队的期望,不接受就早点分开。 (“This is what dogfooding on the Claude Code team's about, this is what I expect and if someone's not interested it's better for us to do earlier separation.”) 这一条对她自己也是。她的上一次 push 代码到生产环境是 2017 年,加入 Anthropic 之后才重新写起代码。她说自己在 Meta 时每年还试着提交一次 PR,但内部工具变得太快,一年学一个命令第二年就过期了。 > 现在我连 git 命令都不记得了,全靠 Claude 帮我搞定。 (“Nowadays I don't even remember git commands, I just always ask Claude to help me out with all of that.”) ## 【9】从文档退位,让代码成为“唯一事实来源” Claude Code 团队现在把代码视作最终的 source of truth(唯一事实来源)。比如 Fiona 现在是怎么答复技术客诉的?她会直接启动桌面版 Claude Code,挂载本地 repo 后让大模型直接从代码找逻辑去回答。这种做法彻底干掉了软件行业的一个千年遗留问题:开发文档总是不和代码同步。 但她特意补充说明:这条经验并不是放之四海而皆准的。如果你们团队业务要求必须有完备的需求文档,那就顺理成章把 spec 也提到代码库里,让 Claude 交叉校验一下最后跑出来的代码跟文档写的是否吻合。 在推行这些变化时,Fiona 区分了“必须统一”和“交给小组”两层。必须统一的几条核心准则:每个团队成员都要用 Claude Code(包括跨职能伙伴,Cowork 也是);尽可能把能自动化的工作 Claude 化(团队内部叫“claudify everything”);明确允许杀掉已经不服务于人的旧流程。 最后一条她给了个具体例子。Claude Code 团队曾经搞过站会,团队变大后改成在共享表格里填周进度。某天她看着这张大表觉得索然无味:因为信息明明都在 Claude 能读到的地方,其实让 Claude 写个总结脚本丢在那里,任何人随时去拉一下其他人的状态摘要,这不比催人填表高到不知道哪里去了。 不过给小组自行拿捏的空间也非常清晰:诸如 bug 的 triage(分诊)机制、排期的节奏、谁值班怎么值,乃至哪些工作流优先级较高需要率先上 Claude,统统放权让小组自己说了算。 ## 【10】三个可观察的指标,和一个警告 她没透露具体数字,但点了三个方向: 新人爬坡时间显著下降。工程师、设计师、PM 在新团队产生有效产出的速度明显更快。 PR 所需的周期明显变短了。她顺带一提,这其实是个值得深挖的指标,因为它的变化折射出的不仅仅是你这团队对 AI 工具的接受度,有时也会暴露下游基建拉胯的弊端,比如 CI(持续集成)管线或产品基础设施环境根本吃不消工程师当前暴增的提交速率。 Claude 介入提交的覆盖比例越来越高。在 Claude Code 团队的氛围里,每一次 commit 带上 Claude 才是被默认的常规操作: > 我已经差不多四个月没看到一次非 Claude 辅助的提交了。 (“I don't think I've seen a non-Cloud assisted commit probably in the last four months or so.”) 但她在指标这一段明确加了警告:不要只看“代码有多少由 AI 生成”。各家公司新闻稿里这个比例越说越高,但吞吐量本身不是目的,要回头看你究竟在解决什么问题、产品质量和可靠性还守不守得住。 ## 【11】她自己也没想清楚的三件事 Fiona 在演讲最后承认,有三个问题她还没答案: 第一,工程师能跨平台流转之后,传统的“iOS 团队 + Android 团队”分队还有没有意义。 第二,自动化评审要推到多远。“信任但验证”的边界在哪儿,会随模型升级再次移动。她提到当天稍早一场关于模型能力的演讲,意思是评审托管给 Claude 多少,不是一个一次定下来的决定。 第三,角色模糊之后,怎样让所有人感觉同样有产出感。当工程师能做内容、PM 能写代码、设计师能修 bug,传统的产出归属变模糊了,公平感的设计是新课题。 她给听众的最后建议其实非常朴素直接: > 挑出极其折腾人、尤为啰嗦的那条工作流,重新审视一下它到底还在为谁干活。 (“Pick your noisiest workflow … is it still really serving, what's the purpose of there.”) 她拿自己的亲身经历当了反例。以前在带某个团队时有个雷打不动的周例会,五十多号人挤在一个大屋子里。但 Fiona 细看发现,除了被点到名字起来汇报状态的人会假装抬一下头,其他人全都不约而同在低头敲键盘。后来她只问了一句“我们到底图什么还在开这破会”,瞬间全票通过顺带原地解散了。 视频原链接:https://www.youtube.com/watch?v=igO8iyca2_g

译Anthropic的Fiona Fung指出,AI使代码生成成本趋近于零,工程瓶颈已从“写代码慢”转向验证、评审与协作。基于“写代码贵”假设的旧流程(如冗长路线图、繁琐评审)必须重构。技术辩论应从白板讨论转为让AI生成多个PR进行对比;代码成为唯一事实来源。经理需从一线工程师做起,组织应扁平化。质量保障需“左移”,依赖自动化。代码评审中,AI处理风格检查等常规任务,人类则专注于合规、安全及产品体验等关键决策。

Berryxia.AI@berryxia · 5月12日53

大家说Google 最近疯狂降智的时候,是不是要有大的要来了。 依稀的记得当时Gemini3.1 还没有来之前的鬼佬的疯狂吹捧,但是过了后,似乎都没有多少人真正使用。 这一波我觉得时候也要搞点东西出来了吧~~~

译大家说Google 最近疯狂降智的时候,是不是要有大的要来了。 依稀记得Gemini3.1 发布前海外疯狂吹捧,但过后似乎没多少人真正使用。 这一波我觉得也该搞点东西出来了吧~~~ [引用 @testingcatalog]:Google keeps preparing its upcoming Gemini Omni models for the release. > Gemini Omni model will be available on APIs as well > The model will be considered as Agent, similarly to Deep Research on AI Studio Soon? 👀 P. S. Just a reminder that Nano Banana 1 wasn’t better than Imagen v4

Rohan Paul@rohanpaul_ai · 5月12日56

“High IQ experts work for mid IQ generalists”. In fields where intelligence is central (like science, tech, academia), people tend to overvalue it and assume it’s the most important trait—sometimes ignoring other key factors ~ Marc Andreessen

译“高智商专家为中智商通才工作”。 在智力至关重要的领域(如科学、技术、学术界),人们往往高估其价值,并认为这是最重要的特质——有时忽略了其他关键因素 ~ Marc Andreessen

歸藏(guizang.ai)@op7418 · 5月12日54

在拿了真格的 Token Grant 之后,跟他们聊了一下最近的一些思考,希望对大家有帮助。 https://mp.weixin.qq.com/s/KAv6l934Vkwiiu8Ufl_AiQ

Ethan Mollick@emollick · 5月12日67

You will know that the AI labs believe in ASI when they disband their newly formed consulting (sorry “forward deployed engineering”) groups. As long as people are required to figure out how AI is useful & do organizational change & systems integration, jobs seem to be pretty safe

译当AI实验室解散他们新成立的咨询(抱歉,是“前沿部署工程”)团队时,你才会知道他们真正相信ASI。只要还需要人们去思考AI如何发挥作用、进行组织变革和系统集成,工作似乎就相当安全。

SiliconFlow@SiliconFlowAI · 5月12日74

Sometimes it’s not just about the answer itself. How information is structured and presented is becoming part of the intelligence layer🧐

译信息的结构与呈现方式本身正成为AI智能层的关键。当前,让大语言模型以HTML格式输出,能提供比默认Markdown更丰富的视觉布局与交互性,是值得尝试的技巧。长远来看,人类虽偏好用音频输入,但视觉(图像/动画/视频)才是更理想的AI输出形式,因为大脑约三分之一皮层专司视觉处理。AI输出形态将沿“原始文本→Markdown→HTML→交互式神经视频/模拟”的路径演进,最终可能由扩散神经网络直接生成交互视频。同时,输入方式也需融合音频、文本、视频及手势等多模态交互。在人机输入输出深度融合方面,仍有巨大发展空间。

ginobefun@hongming731 · 5月12日59

推荐一期姚顺宇 4 小时的访谈播客 这期节目来自张小珺对 AI 研究员姚顺宇长达 4 小时的深度访谈。姚顺宇毕业于清华和斯坦福,博士方向是理论物理,博士毕业后转行进入 AI,先后在 Anthropic 和 Google DeepMind 担任研究科学家,参与了 Claude 3.7、Claude 4.5 和 Gemini 3 等模型的开发。 他在访谈里说了一句容易让人误解的话:AI 这件事,本来也不太需要脑子,这个行业最重要的特质是靠谱、做事细、对自己做的事情负责任。 他并不是在说 AI 研究简单。他想说的是:AI 行业的核心竞争力,已经从难以复制的天才洞察变成了工程执行力。在预训练规模已经证明有效、主要技术路线基本确立的今天,能把事情做踏实、不出岔子、持续迭代,才是真正稀缺的能力。 他还做了一个比喻:现在大家都是冲浪的人,但本质上是那个浪在驱动一切。模型能力的演进就是那个浪,研究员只是借着浪在推进工作。过度崇拜个体天赋,是一种认知偏差。 核心判断:AI 个人英雄主义时代已经过去了。2020 年前后,确实有一段个人英雄主义色彩浓厚的时期,一篇论文、一个算法可以显著推动整个领域进步。但在今天,前沿模型的训练是需要数百人协作、跨越漫长时间线、依赖海量算力的工程行动。继续用英雄主义叙事来理解这个行业,只会把注意力放错地方。 技术判断方面:他认为预训练远没有到头,只是训练方式变了,从依赖堆数据和算力的硬蒸,变成需要在训练方法上更精明的路径。Coding 领域的爆发速度快于其他方向,背后有数据质量和评估机制上的结构性原因。

译AI研究员姚顺宇在访谈中指出,行业核心竞争力已从天才洞察转向工程执行力。在技术路线确立的当下,靠谱、细心和负责任的态度比个人天赋更稀缺。他认为AI个人英雄主义时代已结束,前沿模型开发是数百人协作、依赖海量算力的系统工程。技术层面,预训练未止步但需更精明的训练方法;Coding领域因数据与评估优势而进展更快。

Tibo@thsottiaux · 5月12日15

Now that the Codex app is close to being the super app. What should the super duper app do?

译既然Codex应用已接近成为超级应用。 那么超级加强版应用又该做什么呢?

Ethan Mollick@emollick · 5月12日65

gpt-realtime-2 is a great voice model (with a typically bad OpenAI name). Voice models are natively processing speech, not transcribing it, so the intelligence of the model matters. The old voice model was GPT-4o level, this is much smarter (how smart? OpenAI gave no benchmarks)

译gpt-realtime-2 是一个出色的语音模型(名字却沿袭了OpenAI一贯的糟糕风格)。 语音模型本质上是处理语音,而非转录语音,因此模型的智能程度至关重要。 旧版语音模型是 GPT-4o 级别,而新版则智能得多(有多智能?OpenAI未提供基准测试数据)。

Ethan Mollick@emollick · 5月12日51

I think frontier model writing is good! It often has a sense of style & tone, variations in sentence structure & length, some great phrasing, etc But it also has some weak spots (fiction!) & clear tics. Mostly there is just far too much of it online which makes it all so cliche

译前沿模型(如GPT、Claude等)的文本生成在风格、句式和措辞上具有优势,但其写作存在明显缺陷与固定模式,尤其在虚构内容方面。更关键的是,网络上同类内容过量导致其产出趋于陈词滥调。尽管其文本因可识别性强、缺乏独特气场而价值受限,但认为模型写作缺乏分析或信息价值的观点并不准确。

Berryxia.AI@berryxia · 5月12日41

讲真!越来越卷了!😂 这个教学场景大有可为了!

Chubby♨️@kimmonismus · 5月12日34

Nice release. But looks like now it's just about releasing *something* every day.

译发布不错。但现在看来,似乎只是为了每天发布*点东西*。

Ethan Mollick@emollick · 5月12日52

Haven’t tried this but it seems very neat… Yet all of the demos (except maybe one) are the model being fun and/or annoying by correcting or reminding in real time. There are obvious uses for this sort of model in meetings, education, training, etc. Why not demo valuable cases?

译当前多数AI实时交互演示侧重于模型的趣味性纠正功能,但评论指出此类模型在会议、教育和培训等领域具有明确实用价值。被引用的研究团队强调其AI设计能像人类一样同步实现交谈、倾听、观察、思考与协作,这种多模态实时交互能力正是支撑会议记录、协作培训等核心应用场景的技术基础。

Berryxia.AI@berryxia · 5月12日34

这个产品的一个idea还不错。 其实有点类似将PPT美化一个意思。 这个是将PDF 美化变成可视化的图文报表的PDF。 感兴趣的自己可以Vibe Coding一下,应该也不难。

Sam Altman@sama · 5月12日30

would you call it a superapp?

译你会称它为 超级应用吗?

Sam Altman@sama · 5月12日32

speaking of things that have gotten over a threshold for me, the combo of the new ChatGPT model, personality, and personalization feels like a new thing

译说到那些对我来说已跨越阈值的事物,新版ChatGPT模型、个性化和定制功能的结合,感觉像一种全新存在。

Chubby♨️@kimmonismus · 5月12日64

I think this is bigger than it sounds at first glance. Thinking Machines hasn't just unveiled "ChatGPT, but better." Instead, they've introduced something that addresses a much deeper issue: the very way we interact with AI. So far, AI often feels like email with very clever replies. I say something. Then the model waits. Then it replies. Then I wait. Thinking Machines' new Interaction Model attempts to break down precisely this barrier. It can simultaneously listen, see, speak, interrupt, react, think in the background, and use tools. Not as a cobbled-together pipeline of speech-to-text, turn detection, and agent hacks, but as a native model capability! Good collaboration doesn't happen because someone gives a perfect answer in the end. It happens because someone is present in the moment. If this works, AI shifts from "prompt in, answer out" to something that feels more like collaborative work. A model that notices when you hesitate. That jumps in when it sees something. That anticipates your next move while you speak. That not only gets smarter, but also better at maintaining a flow of conversation with people. ngl really impressed by their examples.

译Thinking Machines公司发布的新型交互模型,旨在从根本上改变人机协作模式。该模型能够原生地同时实现聆听、观看、说话、打断、反应、后台思考和使用工具,而非依赖语音转文本等拼接技术。其目标是将AI从被动的“一问一答”工具,转变为能感知用户犹豫、主动介入、预测下一步并维持流畅对话的实时协作伙伴。这标志着AI交互范式从提供最终答案,转向在协作过程中保持“在场”的根本性转变。

DogeDesigner@cb_doge · 5月12日27

This is exactly why Grok will win. It is built to be maximally truth-seeking. No political correctness. No agenda. Just the truth. Power without truth means nothing. The future belongs to the truthful.

译这正是Grok将获胜的原因。 它旨在最大限度地寻求真相。 没有政治正确。 没有隐藏议程。 只有真相。 没有真相的权力毫无意义。 未来属于追求真相者。

阿绎 AYi@AYi_AInotes · 5月12日71

Damn,Karpathy这条帖子直接把我过去半年的AI工作流全推翻了🤯 大家都在死等更强的模型, 死等更大的上下文窗口, 但Karpathy说,你们全搞错方向了, 现在AI最大的瓶颈,根本不是模型不够聪明, 是我们还在用文本这种最低带宽的方式,跟它沟通。 他推荐了一个所有人今天就能用的trick, 在任何query的最后加一句: "structure your response as HTML" 然后让Claude直接帮你打开, 出来的效果好到离谱, 不仅仅是多了点颜色和排版, 更像是你终于给AI打开了大脑里那片10车道的视觉超级高速公路, 同样的内容,HTML的阅读效率和理解深度,是Markdown的10倍以上, 这简直就是人机交互的真正下一代范式,因为人类的输入和输出偏好,天生就是完全不对称的, 输入最自然的是音频,说话比打字快4倍,思考也更连贯, 输出最擅长的是视觉,我们大脑1/3的皮层,全用来处理视觉信息, 而我们现在,却在用文本这种单车道的土路,双向跑所有的流量, Karpathy画了一条清晰的演进路线: 原始文本 → Markdown → HTML → 交互式神经视频, 我们现在正站在Markdown到HTML的转折点上, 最令人兴奋的是,很多人说HTML费token,生成慢, 但你算一笔账就懂了, 多花2倍的token,换你10倍的阅读速度和理解深度, 这是全世界最划算的交易了吧哈哈, 可惜我们早就被省token的思维绑架了,却忘了人类的时间才是真正的稀缺资源, 还有一个更扎心的认知, Markdown是给AI看的格式, HTML是给人用的格式, AI代理之间沟通,用Markdown甚至JSON都没问题, 但所有最终要给人类消费的东西,都应该切成HTML, 这才是最优的分工, 现在我已经把所有prompt的结尾,都加上了那行字, 做对比用并排表格,做分析用彩色标注,做原型用交互式滑块, AI不再是给我甩一大段干巴巴的文字让我啃, 它直接给我造了一个可交互的视觉思考空间, Karpathy说,人机的心智融合才刚刚开始, 我们根本不用等Neuralink那种脑机接口, 先把HTML用起来,就是当下能摘到的最大最甜的低垂果实🍒 #AI #Karpathy

译Andrej Karpathy指出,当前AI发展的核心瓶颈并非模型能力,而是低带宽的文本交互方式。他建议在向大模型提问时要求“以HTML格式构建回答”,并在浏览器中查看结果。由于人类大脑约三分之一皮层专司视觉处理,HTML提供的丰富视觉呈现能带来远超Markdown的阅读效率与理解深度。他认为人机交互正从Markdown向HTML演进,虽然后者消耗更多token,但用少量成本换取人类时间效率是值得的交易。最终,给人消费的内容应优先采用HTML格式,而AI代理间则可用Markdown或JSON沟通。

阿绎 AYi@AYi_AInotes · 5月12日53

今天是我来X心情最复杂的一天。 一边是YC总裁 Garry Tan转发了我的个人AI帖子,受宠若惊,备受鼓舞, 一边是游戏圈大佬Dash哥的这条批评,字字扎心,我失眠到现在。 真心感谢两位大哥@DashHuang 和@Fenng 以及几位批评指正我的粉丝的当头一棒。 没有任何辩解,你们说的全对。 我用了4个多月0-1涨粉到4万, 陆续有越来越多的推友研究我的账号,以及复刻模仿, 以至于最近中推圈很多推友蒸馏我,到处都是“ayi skill”风格的推文, 我不止一次公开和私下表达过,X还是一篇蓝海,真心希望中推圈都能好好的创作推文, 输出自己的思考,想法,分享经验心得,然后逐渐找到自己的风格, 而不是一味抄框架, 或者只想走捷径抄袭和无脑搬运, 看到很多推友用我的推文框架和风格写出来的内容流量变好,开始涨粉,说实话我真的很开心, 我性格底层的特质就是利他的,能帮到别人对我来讲成就感是最强的,所以我选择了组织和人才发展这个职业和工作, 但随着影响力变大,却渐渐忽略了自己内容创作的初心, 卧槽开头写推文是我屡试不爽的一个 但我自己先跑偏了, 为了流量,把“卧槽开头”做成了屡试不爽的套路。 直到今天才意识到,这种套路已经让人烦了,也让我自己变成了别人眼里只会喊炸裂的gai溜子。 还有这个游戏工作室项目, 我只是作为玩家觉得很酷,没自己跑通就发出来吹,确实不专业。 我自己做内容的底线,就是不能把自己没验证过的东西推给别人。 痛定思痛, 从今天起,我再也不用“卧槽”开头写推文了, 也建议所有模仿我的朋友,把这个套路彻底删掉。 做内容流量不是终局啊各位, 是为了输出有价值的思考, 以后我会更慢一点,更扎实一点,每一条推文都先过自己这一关。 感谢所有认可我的人, 也感谢所有敢说真话批评我的人。 我们慢慢来。

译一位AI内容创作者在获得业界关注的同时,因受到严厉批评而深刻反思。他承认自己为追求流量,将“卧槽”开头等技巧变成了令人反感的套路,并违背了不分享未经验证项目的原则。他宣布即刻停止使用此类套路,并呼吁模仿者一同摒弃。核心反思在于,内容创作不应以流量为终局,而应专注于输出有价值的思考。引用的批评指出,其分享的AI游戏工作室项目思路存在根本缺陷,仍以人类岗位划分限制AI Agent的全局能力,同时尖锐批评了其浮夸文风。

Ethan Mollick@emollick · 5月12日61

One of the most important properties of LLMs that we take for granted is that newer, bigger models are just better at everything. The AI Labs are pouring effort into economically valuable fields like coding, but bigger models are also better at negotiation, alignment, poetry, etc

译大语言模型(LLM)的一个重要特性是,更新、更大的模型在所有方面都表现更优。AI实验室正将大量资源投入编程等经济价值高的领域,但更大的模型在谈判、对齐、诗歌创作等广泛任务上同样更具优势。例如,在PACT基准测试的数千场模拟谈判中,GPT-5.5在买卖双方多轮议价游戏中取得了最佳成绩,这印证了模型规模与综合能力提升的正相关关系。

Rohan Paul@rohanpaul_ai · 5月12日62

OpenClaw creator Peter Steinberger talks about how China is going all-in for AI agents and OpenClaw. "In China, installing OpenClaw is called raising lobsters. Thousands of people were lining up at the Tencent office in Shenzhen to get their lobster installed. Shenzhen even gives out subsidies for people running businesses on OpenClaw. Now, if you install OpenAIClaw on your work machine (in many other parts of the world), at least with the default settings, you might get fired. And then I met an entrepreneur in China who showed me a spreadsheet. Every employee, every day, one task automated by OpenClaw. If you miss too many days, you're fired. So, fired for using it, fired for not using it." --- From official 'TED' YT channel (link in comment)

译OpenClaw创始人Peter Steinberger指出,中国正全力投入AI智能体发展。在深圳,人们曾排队在腾讯办公室安装OpenClaw,当地政府还为基于该平台开展业务提供补贴。与此形成鲜明对比的是,在世界其他许多地区,在工作设备上安装同类AI工具可能导致被解雇。然而在中国,有企业要求员工每日需用OpenClaw自动化一项任务,未达标者也会被解雇。这凸显了不同地区对AI工具截然不同的接受度与应用文化。

Ethan Mollick@emollick · 5月12日62

This seems like a critical reason to open up about AI use in academia. Scholars are using old AI models, badly, and not talking about it. New models hallucinate very few citations, and good agentic harnesses drop that further. Being open about use would help us make new norms.

译学者们使用旧AI模型时不公开讨论,导致滥用问题。新AI模型产生虚假引用较少,良好代理工具能进一步降低。公开AI使用有助于建立新规范。引用推文关键信息显示,《柳叶刀》论文指出自2023年以来生物医学论文中虚假引用率增加了12倍以上,凸显了AI使用不透明的负面影响。

阿绎 AYi@AYi_AInotes · 5月12日49

我靠我直接原地起飞了! 晚上群里小北@frxiaobei 提醒, Garry Tan转发了我的推文! 忙完洗漱躺进被窝, 发现Garry用一句话把我想说的所有东西都讲透了! 他说: "别再骑别人发明的无马马车了。 该造自己的法拉利了。 个人AI时代已经到来。" 这句话真的戳中了AI最本质的东西。 现在90%以上的人用AI, 还停留在和ChatGPT聊天、纠结哪个模型更好、到处抄Prompt, 这就像汽车刚发明的时候, 大多数人还在研究怎么把马养得更壮、跑得更快。 到了今天, 普通人追求今天快10%, 聪明人追求系统每个月强10倍。 Garry说他不思考生产力, 只思考复利。 咱们算笔账, 假设你每天多写10封邮件, 一年下来也只是多写了几千封。 但如果你每个月把自己的AI系统变强10倍, 一年后你拥有的就是一个24/7永不疲倦、还能自主进化的第二神经系统。 虽然前6个月可能看不出任何区别, 但到了第12个月, 差距会大到你无法想象。 所以,别再租别人的法拉利开一天就还了。 从今天开始, 搭你的第一个AI雪球, 一年后,你一定会感谢今天的自己!

译Garry Tan指出,当前多数人使用AI仍停留在聊天、比较模型或复制Prompt的层面,这如同汽车发明初期人们仍专注于养马。他强调应停止依赖他人工具,转而构建属于自己的“法拉利”——即个人AI系统。关键在于不追求短期效率提升,而专注于系统能力的复利增长:每月强化系统10倍,一年后便可获得一个持续自主进化的“第二神经系统”。虽然前期进展不明显,但长期累积的差距将超乎想象。

Ethan Mollick@emollick · 5月12日56

This is going to get even worse as people realize that careful tuning in their prompts can make AI writing seem not like AI writing to readers. We expect word counts to align, in some way, with thinking & value. Writing took effort. We are not mentally ready for the alternative.

译随着用户通过精细调整提示词使AI生成内容越来越难以被读者识别,人们将面临更严峻的信息质量挑战。社会习惯性地将文本长度与思考深度挂钩,但AI正在打破这种认知关联。此前低质量AI内容多局限于发展中国家的互动农场账号,而现在科技行业高影响力人士也开始发布长达3000字却空洞的“AI垃圾文章”,这些内容甚至能获得超百万浏览量,且发布者毫无自省意识。这种现象暴露了当前社会对AI内容泛滥的心理准备不足。

凡人小北@frxiaobei · 5月12日54

Karpathy 说视觉是 AI 输出的首选通道,所以未来 HTML 会取代 markdown,再往后是神经视频。 一半同意吧,HTML 在做仪表盘、做对比和一些小交互这类东西上确实是质变,markdown 给不了。 但视觉是首选输出,这个说的有点太满了。 看文字本身就是视觉处理啊,不是只有图形界面才用上眼睛。 并且带宽不等于高效,视觉皮层是宽,但读文本走的是高度优化过的符号通路,未必比解析复杂的布局慢。 一些代码、推理过程,还有需要精确表达的东西,纯文本反而最舒服。HTML 是有隐性成本的,很重也很难二次编辑。 至于终点是扩散模型直出交互视频,技术上不是科幻。 但我有点怀疑它该不该成为通用输出形态,可交互神经世界作为体验是加分,作为默认 I/O 可能丢的比换来的多。

译Karpathy认为视觉是AI输出的首选通道,预测人机交互将从纯文本、markdown向HTML演进,最终达到扩散模型生成的交互式神经视频。他建议用户尝试让LLM以HTML格式输出内容。反对观点部分同意HTML在仪表盘、对比和小交互上的优势,但质疑“视觉为首选输出”的绝对性,指出阅读文字同样是视觉处理,且文本在带宽和精确表达上可能更高效。同时,虽然神经视频在技术上可行,但作为通用I/O形态可能得不偿失,纯文本在某些场景下仍不可替代。

Rohan Paul@rohanpaul_ai · 5月12日54

The team context thing is the actual unlock. every other AI tool is single-player and we just pretended that was fine.

译团队协作功能才是真正的关键突破。其他所有AI工具都是单机模式,而我们之前竟假装这样没问题。

阿绎 AYi@AYi_AInotes · 5月12日63

Damn,Anthropic这波操作,直接把我看傻了🤯 我看评论区很多人拍马屁说恭喜Claude上架AWS这个大云厂商。 哪跟哪啊,其实根本不是一回事。 我直接说, 本质上就是Anthropic直接把自己的直营店, 开进了AWS的大本营。 以前的Bedrock模式, Anthropic把模型批发给AWS, 功能迭代永远慢半拍, 产品节奏AWS说了算, 现在的Platform模式, Anthropic自己运营服务, 所有新特性和原生Claude同日上线, 连Managed Agents这些beta能力, 今天就能直接用。 最狠的是计费和身份全打通, 不用额外开户, 也不用换密钥, 甚至不用谈新合同, 你已经付给AWS的承诺额度, 直接就能抵Claude的消费, 等于钱已经在账户里,当然是不用白不用。 这个双轨制更是杀招, 敏感项目走Bedrock,数据不出AWS边界。 创新项目走Platform, 用最快最新的能力, 最保守和最激进的两拨企业客户, 一次性全吃下来。 就好像以前是云厂商卖模型, 现在是模型厂商用云厂商卖自己。 企业换模型的迁移成本, 这波直接被拉到了前所未有的高度, 以后谁再想从Claude切去别的模型,等于要把整个AWS的IAM、账单、权限体系全推翻重来。 屌炸天的操作啊哈哈, 这他喵才是真正的云锁-in升级版啊, 放个暴论在这, 今天就开始在AWS里跑Managed Agents的团队, 半年后会把同行甩得连尾灯都看不见, 不信咱们半年后再来看。

译Anthropic在AWS正式推出Claude Platform,从通过Bedrock批发模型转变为直接运营。新平台使企业客户能使用与原生Claude完全同步的最新功能,包括测试版能力,并实现了与AWS的计费、身份认证和承诺消费额度无缝打通。此举提供了双轨选择:敏感数据项目可通过Bedrock留在AWS边界内,而追求创新的项目则可使用Platform获取最快最新的能力。这种深度集成大幅提高了企业更换AI模型的迁移成本,因为切换意味着要重构整个AWS的IAM、账单和权限体系,被视作强大的“云锁定”策略升级。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月13日
01:22
Yuchen Jin@Yuchenj_UW
61
AI将首先解决编程和数学问题,因为其输出是可验证的。 AI不会"解决"艺术,因为艺术没有单元测试。好坏没有单一标准。 我说的艺术不仅指绘画或音乐。还包括设计伟大产品、建立伟大公司,以及任何以品味为护城河的领域。
大佬观点编码
01:04
凡人小北@frxiaobei
74
AI取代人类?各方叙事背后的利益驱动

关于AI是否取代人类的讨论,实为不同利益方的叙事塑造:AI公司为高估值渲染替代能力,企业借AI解释裁员,教育机构制造焦虑,媒体追逐流量。吴恩达指出“AI导致大规模失业”是夸大其词,实际净增岗位远超替代,并以软件工程师招聘强劲、美国低失业率为证。他强调AI改变工作性质而非摧毁就业,揭露夸大叙事背后的商业动机——AI公司可通过对标员工薪资提高定价,企业则借AI掩饰疫情期间过度招聘。核心问题在于技术转型中个体如何应对,但这缺乏利益驱动力被认真探讨。

Andrew Ng: There will be no AI jobpocalypse. The story that AI will lead to massive unemployment is stoking unnecessary fear. AI - ...

大佬观点现象/趋势
00:31
Ethan Mollick@emollick
64
昨晚与OpenAI的roon进行了一次有趣的交流,关于超级智能AI是否真的能够应对组织挑战。

Ethan Mollick: @tszzl I think it is a reasonable argument to say "curing cancer will be easier than replacing Accenture," but the gener...

大佬观点现象/趋势
00:27
Chubby♨️@kimmonismus
40
可能只是我,但我喜欢星期四的那种兴奋。希望他们保持这种方式。星期四 = 发布日

Tibo: For Codex, we've been thinking about keeping a stable release cadence and have a larger release each week on Thursday. T...

OpenAI大佬观点
00:11
Nathan Lambert@natolambert
52
开源软件降低了部署成本。 Open AI降低了开发成本。例如为企业用例开发定制模型。 企业尚在探索如何有效利用这一优势的早期阶段。

Interconnects: How open model ecosystems compound Further reflections on China's high-participation, open-first AI ecosystem. https://w...

大佬观点开源生态
5月12日
23:58
François Chollet@fchollet
55
符号学习不是编码代理的替代品,而是梯度下降和神经网络的替代品:一种低层级、完全通用、极具扩展性的全新学习基础。
大佬观点数据/训练
23:42
Tibo@thsottiaux
45
对于Codex,我们一直在考虑保持稳定的发布节奏,每周四进行一次较大规模的发布。这确实会让周初显得不那么令人兴奋。大家有什么想法?
OpenAI大佬观点编码
23:01
Ethan Mollick@emollick
53
预计在接下来的几周和几个月里,你的信息流会越来越像这样。
大佬观点现象/趋势
22:04
凡人小北@frxiaobei
40
保险专员机械复读系统指令,凸显岗位被AI替代风险

作者因误提交未来日期的医疗发票,收到系统自动催收材料提示。在向客服反馈后,保险专员致电跟进,却只是机械重复系统要求提交6月2日病历的指令,完全未意识到该日期尚未到来。这通电话与系统自动提示无异,未能提供任何人工判断价值。此事引发对一类岗位的思考:许多工作仅是机械转述系统指令、复读流程话术,而不思考内容本身的合理性。这类缺乏判断与思考的岗位,正是面临被AI替代风险的高危领域。

大佬观点现象/趋势
21:26
Chubby♨️@kimmonismus
39
OpenAI解雇了Leopold Aschenbrenner。 随后他撰写了165页的《情境感知》论文,预测2027年实现AGI。 据报道,他在12个月内将2.25亿美元转化为55亿美元。 并非通过投资英伟达、微软、谷歌或亚马逊。 而是投资AI实际运行的基础: 能源。带宽。存储。算力。Bloom Energy。Lumentum。Sandisk。CoreWeave。Iris Energy。 众人追逐AI公司,他买断了它们底层的瓶颈。 天才之举。
OpenAI大佬观点行业动态
16:49
歸藏(guizang.ai)@op7418
41
移动端的语音输入法必须带全键盘,但是桌面端的语音输入法最好跟输入法本身解耦。 Typeless 犯了前一个错误,豆包犯了后一个。
大佬观点语音
14:42
Tibo@thsottiaux
48
导师变成了学徒。Claude终于开始模仿Codex了。 但你无法超越GPT-5.5的加速能力。

Daniel San: Claude Code 2.1.139 added /goal You set a completion condition and Claude keeps working across turns until it's met Work...

Anthropic大佬观点编码
14:34
宝玉@dotey
66
AI时代如何重塑工程团队管理

Anthropic的Fiona Fung指出,AI使代码生成成本趋近于零,工程瓶颈已从“写代码慢”转向验证、评审与协作。基于“写代码贵”假设的旧流程(如冗长路线图、繁琐评审)必须重构。技术辩论应从白板讨论转为让AI生成多个PR进行对比;代码成为唯一事实来源。经理需从一线工程师做起,组织应扁平化。质量保障需“左移”,依赖自动化。代码评审中,AI处理风格检查等常规任务,人类则专注于合规、安全及产品体验等关键决策。

智能体Anthropic大佬观点编码
13:49
Berryxia.AI@berryxia
53
Google Gemini Omni模型发布在即

大家说Google 最近疯狂降智的时候,是不是要有大的要来了。 依稀记得Gemini3.1 发布前海外疯狂吹捧,但过后似乎没多少人真正使用。 这一波我觉得也该搞点东西出来了吧~~~ [引用 @testingcatalog]:Google keeps preparing its upcoming Gemini Omni models for the release. > Gemini Omni model will be available on APIs as well > The model will be considered as Agent, similarly to Deep Research on AI Studio Soon? 👀 P. S. Just a reminder that Nano Banana 1 wasn’t better than Imagen v4

🚨 AI News | TestingCatalog: Google keeps preparing its upcoming Gemini Omni models for the release. > Gemini Omni model will be available on APIs as...

Google多模态大佬观点
12:01
Rohan Paul@rohanpaul_ai
56
"高智商专家为中智商通才工作"。 在智力至关重要的领域(如科学、技术、学术界),人们往往高估其价值,并认为这是最重要的特质--有时忽略了其他关键因素 ~ Marc Andreessen
其他大佬观点
11:49
歸藏(guizang.ai)@op7418
54
在拿了真格的 Token Grant 之后,跟他们聊了一下最近的一些思考,希望对大家有帮助。 https://mp.weixin.qq.com/s/KAv6l934Vkwiiu8Ufl_AiQ
智能体大佬观点
11:29
Ethan Mollick@emollick
67
当AI实验室解散他们新成立的咨询(抱歉,是"前沿部署工程")团队时,你才会知道他们真正相信ASI。只要还需要人们去思考AI如何发挥作用、进行组织变革和系统集成,工作似乎就相当安全。
大佬观点现象/趋势
11:12
SiliconFlow@SiliconFlowAI
精选74
信息的结构与呈现方式本身正成为AI智能层的关键。当前,让大语言模型以HTML格式输出,能提供比默认Markdown更丰富的视觉布局与交互性,是值得尝试的技巧。长远来看,人类虽偏好用音频输入,但视觉(图像/动画/视频)才是更理想的AI输出形式,因为大脑约三分之一皮层专司视觉处理。AI输出形态将沿"原始文本→Markdown→HTML→交互式神经视频/模拟"的路径演进,最终可能由扩散神经网络直接生成交互视频。同时,输入方式也需融合音频、文本、视频及手势等多模态交互。在人机输入输出深度融合方面,仍有巨大发展空间。

Andrej Karpathy: This works really well btw, at the end of your query ask your LLM to "structure your response as HTML", then view the ge...

OpenAI多模态大佬观点

推荐理由:Karpathy 给的路线图从文本到 HTML 再到神经视频,其中第一步的‘让 LLM 输出 HTML’你今晚就能用上。未来交互形态的思考,值得产品经理细读。
09:49
ginobefun@hongming731
59
推荐一期姚顺宇 4 小时的访谈播客

AI研究员姚顺宇在访谈中指出,行业核心竞争力已从天才洞察转向工程执行力。在技术路线确立的当下,靠谱、细心和负责任的态度比个人天赋更稀缺。他认为AI个人英雄主义时代已结束,前沿模型开发是数百人协作、依赖海量算力的系统工程。技术层面,预训练未止步但需更精明的训练方法;Coding领域因数据与评估优势而进展更快。

Anthropic大佬观点现象/趋势
09:42
Tibo@thsottiaux
15
既然Codex应用已接近成为超级应用。 那么超级加强版应用又该做什么呢?
OpenAI大佬观点编码
08:59
Ethan Mollick@emollick
65
gpt-realtime-2 是一个出色的语音模型(名字却沿袭了OpenAI一贯的糟糕风格)。 语音模型本质上是处理语音,而非转录语音,因此模型的智能程度至关重要。 旧版语音模型是 GPT-4o 级别,而新版则智能得多(有多智能?OpenAI未提供基准测试数据)。
OpenAI多模态大佬观点语音
08:59
Ethan Mollick@emollick
51
前沿模型(如GPT、Claude等)的文本生成在风格、句式和措辞上具有优势,但其写作存在明显缺陷与固定模式,尤其在虚构内容方面。更关键的是,网络上同类内容过量导致其产出趋于陈词滥调。尽管其文本因可识别性强、缺乏独特气场而价值受限,但认为模型写作缺乏分析或信息价值的观点并不准确。

roon: the frontier models tend to write pretty clearly. their writing is often recognizable and full of tics which voids a lot...

大佬观点现象/趋势
08:49
Berryxia.AI@berryxia
41
讲真!越来越卷了!😂 这个教学场景大有可为了!
大佬观点现象/趋势
08:25
Chubby♨️@kimmonismus
34
发布不错。但现在看来,似乎只是为了每天发布*点东西*。

Claude: New in Claude Code: agent view. One list of all your sessions, available today as a research preview.

智能体AnthropicMCP/工具大佬观点
07:59
Ethan Mollick@emollick
52
当前多数AI实时交互演示侧重于模型的趣味性纠正功能,但评论指出此类模型在会议、教育和培训等领域具有明确实用价值。被引用的研究团队强调其AI设计能像人类一样同步实现交谈、倾听、观察、思考与协作,这种多模态实时交互能力正是支撑会议记录、协作培训等核心应用场景的技术基础。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

多模态大佬观点
07:49
Berryxia.AI@berryxia
34
这个产品的一个idea还不错。 其实有点类似将PPT美化一个意思。 这个是将PDF 美化变成可视化的图文报表的PDF。 感兴趣的自己可以Vibe Coding一下,应该也不难。
大佬观点
07:10
Sam Altman@sama
30
你会称它为 超级应用吗?

Rex Sorgatz: After being a Claude Code devotee for a year, I finally tried Codex on a new project this weekend. Once again, in the ma...

OpenAI大佬观点编码
07:10
Sam Altman@sama
32
说到那些对我来说已跨越阈值的事物,新版ChatGPT模型、个性化和定制功能的结合,感觉像一种全新存在。
OpenAI大佬观点
05:55
Chubby♨️@kimmonismus
64
超越问答:Thinking Machines 推出原生实时交互AI模型

Thinking Machines公司发布的新型交互模型,旨在从根本上改变人机协作模式。该模型能够原生地同时实现聆听、观看、说话、打断、反应、后台思考和使用工具,而非依赖语音转文本等拼接技术。其目标是将AI从被动的“一问一答”工具,转变为能感知用户犹豫、主动介入、预测下一步并维持流畅对话的实时协作伙伴。这标志着AI交互范式从提供最终答案,转向在协作过程中保持“在场”的根本性转变。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

多模态大佬观点语音
04:31
DogeDesigner@cb_doge
27
这正是Grok将获胜的原因。 它旨在最大限度地寻求真相。 没有政治正确。 没有隐藏议程。 只有真相。 没有真相的权力毫无意义。 未来属于追求真相者。
xAI大佬观点
03:35
阿绎 AYi@AYi_AInotes
71
Karpathy提出AI交互新范式:以HTML输出提升人机沟通效率

Andrej Karpathy指出,当前AI发展的核心瓶颈并非模型能力,而是低带宽的文本交互方式。他建议在向大模型提问时要求“以HTML格式构建回答”,并在浏览器中查看结果。由于人类大脑约三分之一皮层专司视觉处理,HTML提供的丰富视觉呈现能带来远超Markdown的阅读效率与理解深度。他认为人机交互正从Markdown向HTML演进,虽然后者消耗更多token,但用少量成本换取人类时间效率是值得的交易。最终,给人消费的内容应优先采用HTML格式,而AI代理间则可用Markdown或JSON沟通。

Andrej Karpathy: This works really well btw, at the end of your query ask your LLM to "structure your response as HTML", then view the ge...

多模态大佬观点语音
02:35
阿绎 AYi@AYi_AInotes
53
反思与转变:一位AI创作者的流量套路自省与价值回归

一位AI内容创作者在获得业界关注的同时,因受到严厉批评而深刻反思。他承认自己为追求流量,将“卧槽”开头等技巧变成了令人反感的套路,并违背了不分享未经验证项目的原则。他宣布即刻停止使用此类套路,并呼吁模仿者一同摒弃。核心反思在于,内容创作不应以流量为终局,而应专注于输出有价值的思考。引用的批评指出,其分享的AI游戏工作室项目思路存在根本缺陷,仍以人类岗位划分限制AI Agent的全局能力,同时尖锐批评了其浮夸文风。

Dash: 这东西很蠢,还在以传统人类的认知局限来安排 AI Agent 的工作。游戏工作室要那么多岗位是因为大部分人太弱鸡,能力太有限了。AI 明明有更全面的能力,可以纵览全局,却还要用人类的职业习惯困住他们手脚,把他限制成螺丝钉。可笑! 另外烦透了...

大佬观点现象/趋势
02:29
Ethan Mollick@emollick
61
大语言模型(LLM)的一个重要特性是,更新、更大的模型在所有方面都表现更优。AI实验室正将大量资源投入编程等经济价值高的领域,但更大的模型在谈判、对齐、诗歌创作等广泛任务上同样更具优势。例如,在PACT基准测试的数千场模拟谈判中,GPT-5.5在买卖双方多轮议价游戏中取得了最佳成绩,这印证了模型规模与综合能力提升的正相关关系。

Lech Mazur: First update to PACT, my head-to-head LLM negotiation benchmark! 20-round buyer-seller bargaining game: each round the A...

OpenAI大佬观点推理现象/趋势
02:01
Rohan Paul@rohanpaul_ai
62
OpenClaw创始人谈中国全力投入AI智能体发展的文化差异

OpenClaw创始人Peter Steinberger指出,中国正全力投入AI智能体发展。在深圳,人们曾排队在腾讯办公室安装OpenClaw,当地政府还为基于该平台开展业务提供补贴。与此形成鲜明对比的是,在世界其他许多地区,在工作设备上安装同类AI工具可能导致被解雇。然而在中国,有企业要求员工每日需用OpenClaw自动化一项任务,未达标者也会被解雇。这凸显了不同地区对AI工具截然不同的接受度与应用文化。

智能体大佬观点开源生态
01:59
Ethan Mollick@emollick
62
学者们使用旧AI模型时不公开讨论,导致滥用问题。新AI模型产生虚假引用较少,良好代理工具能进一步降低。公开AI使用有助于建立新规范。引用推文关键信息显示,《柳叶刀》论文指出自2023年以来生物医学论文中虚假引用率增加了12倍以上,凸显了AI使用不透明的负面影响。

nxthompson: Oy. According to a new paper in The Lancet, the rate of made-up citations in biomedical papers has increased by more tha...

大佬观点现象/趋势
01:35
阿绎 AYi@AYi_AInotes
49
构建个人AI系统:从"无马马车"到自主进化的"法拉利"

Garry Tan指出,当前多数人使用AI仍停留在聊天、比较模型或复制Prompt的层面,这如同汽车发明初期人们仍专注于养马。他强调应停止依赖他人工具,转而构建属于自己的“法拉利”——即个人AI系统。关键在于不追求短期效率提升,而专注于系统能力的复利增长:每月强化系统10倍,一年后便可获得一个持续自主进化的“第二神经系统”。虽然前期进展不明显,但长期累积的差距将超乎想象。

Garry Tan: Don't ride someone else's horseless carriage Time to build your own Ferrari Personal AI is here

大佬观点现象/趋势
01:29
Ethan Mollick@emollick
56
随着用户通过精细调整提示词使AI生成内容越来越难以被读者识别,人们将面临更严峻的信息质量挑战。社会习惯性地将文本长度与思考深度挂钩,但AI正在打破这种认知关联。此前低质量AI内容多局限于发展中国家的互动农场账号,而现在科技行业高影响力人士也开始发布长达3000字却空洞的"AI垃圾文章",这些内容甚至能获得超百万浏览量,且发布者毫无自省意识。这种现象暴露了当前社会对AI内容泛滥的心理准备不足。

Alec Stapp: Until recently, AI slop on here has been ~mostly limited to engagement farming accounts in developing countries. But now...

大佬观点现象/趋势
01:02
凡人小北@frxiaobei
54
视觉是否为AI首选输出?HTML与神经视频的未来之争

Karpathy认为视觉是AI输出的首选通道,预测人机交互将从纯文本、markdown向HTML演进,最终达到扩散模型生成的交互式神经视频。他建议用户尝试让LLM以HTML格式输出内容。反对观点部分同意HTML在仪表盘、对比和小交互上的优势,但质疑“视觉为首选输出”的绝对性,指出阅读文字同样是视觉处理,且文本在带宽和精确表达上可能更高效。同时,虽然神经视频在技术上可行,但作为通用I/O形态可能得不偿失,纯文本在某些场景下仍不可替代。

Andrej Karpathy: This works really well btw, at the end of your query ask your LLM to "structure your response as HTML", then view the ge...

大佬观点现象/趋势
01:01
Rohan Paul@rohanpaul_ai
54
团队协作功能才是真正的关键突破。其他所有AI工具都是单机模式,而我们之前竟假装这样没问题。

Amitay Gilboa: It's time to make work feel like play again: https://play.fast/

智能体大佬观点
00:35
阿绎 AYi@AYi_AInotes
63
Anthropic在AWS推出直营平台,云锁定策略升级引关注

Anthropic在AWS正式推出Claude Platform,从通过Bedrock批发模型转变为直接运营。新平台使企业客户能使用与原生Claude完全同步的最新功能,包括测试版能力,并实现了与AWS的计费、身份认证和承诺消费额度无缝打通。此举提供了双轨选择:敏感数据项目可通过Bedrock留在AWS边界内,而追求创新的项目则可使用Platform获取最快最新的能力。这种深度集成大幅提高了企业更换AI模型的迁移成本,因为切换意味着要重构整个AWS的IAM、账单和权限体系,被视作强大的“云锁定”策略升级。

Claude: The Claude Platform on AWS is now generally available. AWS customers get the full set of Claude API features, with AWS a...

智能体Anthropic大佬观点部署/工程
‹ 上一页
1…3839404142…50
下一页 ›