5月27日

05:32

Hacker News 热门（buzzing.cc 中文翻译）

Stack Overflow 的论坛已死，但公司依然生机勃勃

搜索现象/趋势

04:50

Epoch AI@EpochAIResearch

推理数据/训练现象/趋势

04:02

Ethan Mollick@emollick

推文指出，尽管有报道称Uber和微软因AI代理成本过高而缩减AI订阅，但这不代表AI价值下降。核心论据是：当前GPU租赁价格仍比四个月前高出2倍，显示需求持续超越供给。作者以"纽约酒店价格翻倍"类比，认为算力价格高涨恰恰证明AI市场未出现泡沫破裂迹象，需求仍在显著增长。

Derek Thompson: We're getting another round of THE AI BUBBLE IS POPPING stories, with the news about Uber/Microsoft pulling back on AI s...

大佬观点现象/趋势

04:02

Ethan Mollick@emollick

精选75

我写了一篇新文章，探讨我们需要保留哪些人类特质，以及哪些可以交给AI，其中涉及教育、咨询领域的实验，以及最近关于文学奖的争议。

大佬观点现象/趋势

推荐理由：Ethan Mollick 把教育、咨询、文学奖三个领域的真实实验揉在一起，不是喊“AI 抢工作”，而是给出 keep human / hand over 的具体边界，每个带团队的人都该看看。

03:58

Elon Musk@elonmusk

推文展示了一次AI模型间的交互纠错。用户将一条关于比利时男子因仇恨言论被定罪的推文内容交给Gemini进行事实核查，Gemini最初判定该描述"严重不准确"。随后，用户将Gemini的回复转给Grok，Grok指出Gemini混淆了两个不同案件，并确认原推文描述准确。用户将Grok的回复反馈给Gemini后，Gemini承认错误并感谢纠正。推文者指出，这类AI模型之间相互纠错的情况时常发生。

i/o: Belgian man convicted of hate speech describes the judicial rationale for his latest conviction. I asked Gemini: Is this...

Google xAI 推理现象/趋势

03:20

swyx@swyx

每个人都在谈论中国追赶美国却很少有人谈论美国追赶中国干得好 @o_lacombe 等人，@robert_mchardy 等人！

Latent.Space: [AINews 3 Apr 2026] Gemma 4: The world's best small Multimodal Open Models, dramatically better than Gemma 3 in every wa...

Google 多模态大佬观点开源生态

02:04

Rohan Paul@rohanpaul_ai

Altman修正观点：AI白领岗位"末日"并未如期而至

OpenAI CEO Sam Altman承认，此前警告的AI冲击白领工作的情况并未如预期般快速发生。他之前曾警告常规办公工作，尤其是入门级任务，可能因AI受到重击。其新观点认为，由于企业在判断、信任、品味、情绪感知和依赖语境的复杂沟通等方面仍需依赖人类，工作模式正在发生弯曲而非断裂式崩溃。

OpenAI 大佬观点现象/趋势

02:02

Ethan Mollick@emollick

无限上下文窗口似乎给AI应用带来了巨大问题。当今的模型已经将太多旧信息泄露到当前回复中，这种干扰是它们使用起来令人认知疲劳的部分原因。我不想与博尔赫斯的"记忆者富内斯"共事。

大佬观点推理现象/趋势

01:04

Rohan Paul@rohanpaul_ai

AI效率增益幻觉研究：感知效率与实际收益的落差

MIT、斯坦福等机构的一项研究（2,691名参与者）揭示了“效率增益幻觉”：在基本计算、拼写等简单任务上，用户实际使用AI的比例高于自我预测，且预期节省时间（平均55.7秒）远高于实际测量值（仅7.5秒）。研究指出，隐性成本源于提示、等待、检查等“界面摩擦”。更关键的是，使用AI会形成依赖循环——仅两次使用后，即便独立完成更快，参与者也更倾向继续依赖AI，这种倾向源于对便捷感的错误认知，可能导致用户逐渐丧失对自身何时是更快工具的准确判断力。

现象/趋势论文/研究

00:32

Chubby♨️@kimmonismus

Claude Mythos 解决 Erdős 问题 #90

数学家测试了 Claude Mythos 模型解决开放数十年的 Erdős 问题 #90。值得注意的是，Mythos 未复制 OpenAI 已知解法（题号 #1196），而是反复采用了另一条论证路径，被评价为更“简洁”且无“分析复杂性”，且整个过程与网络隔离。此前，GPT-5.5 已解决过多道 Erdős 问题，深度求索的 Nexus 模型解决了 9 道。此次 Mythos 给出了比现有解法更简洁的证明，凸显了一个 80 年难题在数周内被接连攻破的趋势。

levent: over the weekend i checked the obvious thing, which is whether mythos is able to solve the erdos unit distance problem, ...

Anthropic 推理现象/趋势

00:29

宝玉@dotey

Markdown作为AI生成源码的局限性

推文指出，Markdown作为AI编程的“源代码”存在根本缺陷。首先，其结果缺乏确定性，同一份Markdown因使用模型、Agent Harness及操作者的不同，最终产品千差万别。其次，难以清晰描述UI交互，导致生成的界面质量仅为“凑合能用”，不足以达到商用标准。该观点引用了@jianshuo的相关讨论作为背景。

Jianshuo Wang: http://x.com/i/article/2059196541693562880

现象/趋势编码

00:01

Hacker News 热门（buzzing.cc 中文翻译）

与前沿实验室相比，外包加本地AI的方案很快将更具成本效益

一项分析指出，通过将任务外包给第三方并结合本地部署的大语言模型（LocalAI），企业或很快能在成本效益上超越仅依赖前沿实验室（如 OpenAI 或 Anthropic）的方案。该观点预测了 AI 服务交付模式的转变。

现象/趋势部署/工程

5月26日

23:32

Simon Willison 博客

引用Paul Graham

Paul Graham 指出，他收到的创业者邮件现在常采用一种强硬的新闻体风格，他确信这是 AI 代笔，因为以前没人这么写。他认为一旦知道内容是 AI 生成，就很难不对其产生反感。他将其视为一种欺骗，表示从未读完过这类署名人类但由 AI 撰写的邮件，并认为使用 AI 写作并不值得称赞，任何青少年都能做到。

大佬观点现象/趋势

23:27

Berryxia.AI@berryxia

大语言模型需要"睡眠"来巩固记忆

CMU与UMD的研究指出，当前长上下文大语言模型（如Mamba、Jet-Nemotron、Qwen3.5）的瓶颈并非记忆容量，而是“巩固计算”不足。论文《Language Models Need Sleep》提出，可模仿人类睡眠的海马回放机制，在清空前对模型的fast weights进行多次迭代更新（N次forward pass），以提升推理能力。实验表明，该机制在Rule 110元胞自动机及多跳图检索等任务上显著提升了模型性能，且不增加推理延迟。

推理现象/趋势

23:01

Ethan Mollick@emollick

AI不用反问号，所以也许我们应该一直用它来表明我们的写作是人类写的‽

大佬观点现象/趋势

22:58

meng shao@shao__meng

原来百度和腾讯，做了这么多面向 C 端的 Agent 啊？现在是不是基本全军覆没了？

智能体现象/趋势

22:34

Runway：News（网页）

精选68

Project Luxo：跨越AI媒体的恐怖谷

Runway通过Project Luxo研究发现，AI生成视频已跨越“恐怖谷”。他们向创意生态从业者展示了《The Rogue》等AI短片及广告样片，评估显示观众开始关注故事本身，而非技术瑕疵。所有作品均由单人团队制作，耗时从3周到4小时不等。Runway认为，这标志着AI媒体成熟——当技术足够好以至于“隐形”，观众沉浸于故事时，便实现了这一跨越。

多模态现象/趋势视频

关联讨论 1 条

推荐理由：Runway 用短片和一次百万播放广告测试宣称 AI 视频已越过恐怖谷，观众开始投入故事而非找瑕疵。这对内容生产的心理门槛是一次重塑，但一次推广式的成功不等于行业已稳定跨过。

22:31

Ethan Mollick@emollick

我发现这篇《连线》关于AI事实核查的文章令人沮丧。它本可以探讨为何我们仍然需要人类事实核查员（与人交谈、运用判断、解决冲突）。但它却充满了过时信息和关于免费模型的内容。 GPT-5.5 Pro核查了它（我也核查了GPT）。

大佬观点现象/趋势

22:03

Gary Marcus：The Road to AI We Can Trust（RSS）

精选60

Uber COO称未见AI投入产出成比例增长

Uber首席运营官Andrew Macdonald表示，公司并未看到在AI上投入更多成本后，生产力获得了相应的提升。

大佬观点现象/趋势

推荐理由：Gary Marcus借Uber、星巴克等最新案例，对AI的狂热投入发出清晰警告，他认为如果更多企业发现成本飙升却未见实效，那几万亿的估值泡沫可能破裂，这是近期最直白的风险提示。

21:29

向阳乔木@vista8

Twitter（X）上AI内容的传播规律与爆款特征

分析Twitter（X）近3年数据发现：工具发现、产品拆解、开发者资源类内容最能引发转发；书单、工具清单类内容天然适合收藏。Prompt、英语学习、知识管理类内容具有长期传播力。在爆款率上，资源入口型帖子最高，达51%；工具教程类为39%；观点类仅为9%。涨粉速度最快的时段临近年底，原因可能是该时段通常集中发布新的AI模型。

大佬观点现象/趋势

21:13

IT之家（RSS）

英伟达黄仁勋：AI 时代孩子学什么专业没那么重要，真正要紧的是会不会用 AI

英伟达创始人兼CEO黄仁勋表示，面对AI发展，家长和孩子不应只寻找不会被AI取代的学科，而应学会利用AI深化学习、提升技能。他指出，新闻学、艺术学、设计等领域仍有价值，人类独有的特质将更珍贵。黄仁勋认为，AI自动化了许多工作，但会推动人类承担更具判断力和创造性的高层次工作。他将AI发展与历次科技浪潮类比，并指出这并未削弱人类，反而让人们变得更忙、野心更大。

大佬观点现象/趋势

21:06

The Verge：AI（RSS）

没人愿意告诉我为什么他们只听自己生成的Suno垃圾

Suno 用户社区出现一种现象：部分用户不再使用 Spotify 等传统音乐流媒体，转而几乎只收听自己通过 Suno 生成的 AI 音乐。有用户在 Reddit 帖子中“自豪地宣称”并引发了共鸣，他们将此形容为一种“令人上瘾”的体验，沉迷于收听自己创作的、源源不断的“热门歌曲”。

现象/趋势语音

21:00

The Decoder：AI News（RSS）

研究者警告：AI幻觉引用正悄然渗透进制定临床指南的论文中

哥伦比亚大学等机构对250万篇生物医学论文的审计显示，自2023年以来，伪造参考文献的数量增加了超过12倍。研究人员认为，这与大语言模型的广泛使用有关——这些虚假引用匹配论文主题、格式规范且难以识别。98%的受影响论文至今未收到出版商的任何回复。该问题可能影响制定临床指南的学术文献基础。

安全/对齐现象/趋势

20:06

The Verge：AI（RSS）

AI战争已经来临

联合国《特定常规武器公约》论坛每年在日内瓦举办两次，聚焦致命自主系统。2017年11月，Branka Marijan与会时发现，这次会议与往常不同。尽管讨论仍围绕“杀人机器人”展开，且这项技术当时被认为可能永远不会发展或部署，但她意识到，那个遥远、想象中的未来已突然变得近在咫尺。

安全/对齐现象/趋势

19:59

向阳乔木@vista8

AI Coding 产出果然和Token消耗量直接相关。这才两天，已用了一半多，感觉也没干啥。

现象/趋势编码

19:30

The Decoder：AI News（RSS）

Y Combinator 创始人保罗·格雷厄姆表示，AI 撰写的创始人邮件让他感觉像被欺骗

Y Combinator 创始人、OpenAI 早期投资者保罗·格雷厄姆表示，他会忽略明显由 AI 撰写的邮件，因为这感觉“像被欺骗”。相关研究表明，他的这种反应十分普遍。

大佬观点现象/趋势

19:29

向阳乔木@vista8

模型迭代太快，AI创业公司生存艰难

推文指出，AI工具创业公司面临产品形态的快速彻底重构，两年间核心产品已几乎与过去不同，尽管底层能力仍有延续性，但本质上已是新产品，好在公司得以存续。引用曲凯观点强调，AI创业者是在压路机前捡钢镚，模型进步速度会淘汰众多创业公司，无法达到“逃逸速度”即意味着失败，行业竞争极其凶险。

大佬观点现象/趋势

19:19

AYi@AYi_AInotes

Cursor：从代码编辑器到AI代理平台的进化

推文强调，Cursor被收购后已从代码编辑器进化为能交付成品的AI代理平台。用户实例显示，其能快速生成可直接使用的六维雷达图Excel模板和HTML可视化版本，类似一个“全职执行助理”。引用指出，Cursor内部模式已变，工程师扮演“AI团队经理”角色，其内部30%的合并PR由异步云代理自动创建，单周运行2000+并发代理，生成300万行代码，消耗数十亿token。一个任务被自动拆分为规划、编码、测试、发PR四个角色并行处理，人类仅需定义范围和最终审核。

AYi: 拿到Cursor赠送的$10000额度之后,我专门研究下这家公司, 看到Cursor CEO这个演讲,我突然意识到, 我们对AI编程的理解,从根上就错了, 当大多数人还在纠结哪个模型写代码更快更准的时候, Cursor已经直接进入了下一个时...

智能体现象/趋势编码

19:00

The Decoder：AI News（RSS）

AI弥合司法鸿沟的解决方案，正逐渐演变成美国联邦法院的文书噩梦

MIT与南加州大学的研究表明，自ChatGPT普及以来，美国联邦法院无律师代理的诉讼案件数量已近乎翻倍。目前五分之一的诉状中包含AI生成的文本。面对海量涌入的材料，法官们正被迫采取严厉措施来应对这场由AI引发的文书处理危机。

OpenAI 现象/趋势

18:13

IT之家（RSS）

同事件精选73

四个月花光全年 AI 预算，Uber 总裁质疑 AI 投入合理性

现象/趋势行业动态

同一事件，精选展示《Uber COO称未见AI投入产出成比例增长》

推荐理由：Uber 四个月烧光全年 AI 预算，然后公开质疑 token 增长与产品价值不挂钩，这是大公司对 AI 投入性价比的首次公开反思，做企业 AI 应用的值得一字不落地看完。

18:06

Artificial Intelligence News（RSS）

自主AI系统测试物理环境中的治理

自主AI系统正从软件环境转向仓库、配送网络和公共空间等物理领域。这引发了对现有AI规则是否涵盖此类物理环境系统的关注，因为当前多数治理框架主要聚焦于在线伤害和模型输出，例如偏见、虚假信息及有害内容。

具身智能现象/趋势

17:13

IT之家（RSS）

微软正开发 Copilot 设计体系，让 AI 功能无感化融入日常操作

微软因此前Copilot植入引发负面舆论，正暂缓激进推广，转而开发一套Copilot设计体系，旨在让AI功能无感化融入日常操作。微软365首席设计官约翰・弗里德曼主导该体系研发，目标是打造统一、智能且人文的交互体验，使Copilot能读懂用户意图，自然融入流程。体系包含“动态操作按钮（DAB）”及“流转交互”等模式，强调功能入口无缝联动、用户主导，让AI仅作为思维的延伸。

Microsoft 现象/趋势

16:30

Chubby♨️@kimmonismus

全球已有超过200款AI设计的药物进入临床试验。但尚无一款获得FDA批准。 FDA刚刚启动了一项试点计划，以研究应如何评估药物申报中AI生成的证据，并选择了10家公司进行加速、互动的审评流程。药物研发跑在了监管框架前面。这才是AI制药领域的现状。

政策/监管现象/趋势

15:30

Rohan Paul@rohanpaul_ai

该推文认为人形机器人的实用性更依赖手部操作能力而非行走，真正有用的工作始于手指与外界的交互（如抓握、滑动、压力控制等）。引用推文以SharpaWave为例，指出其能实现每秒超过4次的快速手部循环，展示了工程上在力量与速度间取得的平衡。其Dynamic Tactile Array采用视觉触觉感知技术，指尖集成了摄像头与超过1000个触觉像素。

Rohan Paul: One engineering challenge in dexterous Robot hands is balancing strength and speed. Here a SharpaWave performing rapid h...

具身智能现象/趋势

14:27

Berryxia.AI@berryxia

扎克伯格批评苹果创新停滞

扎克伯格在播客中批评苹果自iPhone后创新停滞，称其只是在吃乔布斯留下的老本。他指出iPhone升级体验提升有限，用户换机周期延长；AirPods虽成功但苹果通过封闭生态限制第三方接入。苹果ATT政策导致Meta广告收入损失超100亿美元，双方在Vision Pro与Quest等领域存在竞争。扎克伯格正推动Meta在AI眼镜、开源大模型如Llama等方向发展。

dank: Mark Zuckerberg says Apple's lack of innovation since the iPhone will lead to its decline "They haven't really invented ...

Meta 现象/趋势

12:57

宝玉@dotey

Agent 应用和传统 App + AI 的最大差别，在于执行的主体不同。

文章核心指出，传统App+AI是人操作应用，AI辅助；而Agent应用是人指挥AI智能体自主操作应用或命令行。文中以微软Copilot（早期版本仅能回答问题）与Codex（能自主完成PPT制作修改）为例说明此差异。针对“在Agent上构建垂直应用是否等同于传统App+AI”的疑问，作者澄清，只要执行主体是AI智能体，即为以AI为主的应用。

Tiga: @dotey 其实我一直有个好奇点:在 agent 上构建应用其实就是特定赛道垂直应用,那这个应用岂不就是现在的传统 app+ai 了,那它还能是个 AI 为主的吗?