Today, we’re sharing that a general-purpose internal @openai model achieved a breakthrough on one of the best-known combinatorial geometry problems. Less than 1 year ago frontier AI models were at IMO gold-level performance. I expect this pace of progress to continue.

译OpenAI的通用AI模型在组合几何领域取得突破，首次自主解决了平面单位距离问题。该问题由数学家Paul Erdős于1946年提出，近80年来学界普遍认为最优解类似方格结构，但AI模型推翻了这一假设，发现了一族全新的更优构造方法。这一突破标志着AI在数学领域首次独立解决一个核心开放问题，显示出AI在基础科学发现中的快速进展能力。

Noam Brown@polynoamial · 5月21日83

Today, we’re sharing that a general-purpose internal @openai model achieved a breakthrough on one of the best-known combinatorial geometry problems. Less than 1 year ago frontier AI models were at IMO gold-level performance. I expect this pace of progress to continue.

译OpenAI宣布其一个内部通用模型在组合几何领域取得突破，自主解决了平面单位距离问题。这一问题由数学家Paul Erdős于1946年提出，近80年来学界普遍认为最优解应近似于方形网格结构。新模型推翻了这一长期信念，发现了一族全新的、更优的构造方案。此事件标志着人工智能首次独立解决数学领域的核心开放问题，展示了AI在科学发现方面快速且持续的进展能力。

OpenAI@OpenAI · 5月21日81

Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in 1946. For nearly 80 years, mathematicians believed the best possible solutions looked roughly like square grids. An OpenAI model has now disproved that belief, discovering an entirely new family of constructions that performs better. This marks the first time AI has autonomously solved a prominent open problem central to a field of mathematics.

译今天，我们分享一个关于平面单位距离问题的突破，这是一个由保罗·埃尔德什在1946年首次提出的著名开放问题。近80年来，数学家们一直认为最佳可能的解决方案大致类似于方形网格。现在，一个OpenAI模型推翻了这一信念，发现了一个全新的、性能更优的构造家族。这标志着AI首次自主解决了一个数学领域的核心著名开放问题。

Google Gemini@GeminiApp · 5月21日74

Gemini 3.5 Flash quickly delivers organized results, no matter how messy the input is. Watch Gemini take chats and texts with clients and turn them into usable documents for your small business.

译Gemini 3.5 Flash能快速提供整理好的结果，无论输入多么混乱。看看Gemini如何将与客户的聊天和文本，转化为您小企业可用的文档。

AK@_akhaliq · 5月21日67

Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information

译基于点互信息的推理强化学习反自蒸馏方法

Berryxia.AI@berryxia · 5月20日72

特么现在Flash ≠便宜了啊？仅仅是快了吧～ Google把Gemini 3.5 Flash直接扔出来后，Artificial Analysis测完直接给出了最扎心的结论：它在Intelligence vs Speed的Pareto前沿上，把整个行业又往前推了一大截。 Intelligence Index拿到55分，比Gemini 3 Flash高9分，直接超过Grok 4.3和Claude Sonnet 4.6。 Agentic任务（GDPval-AA）Elo评分飙到1656，远超前代。幻觉率从92%暴降到61%。输出速度超280 tokens/s，比上一代快70%。多模态也继续领跑，MMMU-Pro 84%。看起来几乎完美。但代价是：跑一次Artificial Analysis Intelligence Index的成本，是Gemini 3 Flash的5.5倍，比Gemini 3.1 Pro贵75%。定价直接3倍（$1.5/$9 per 1M input/output）。 “Flash”这个名字，本来代表又快又便宜。现在它代表：你终于可以用更快的速度，拿到真正旗舰级的智能，但你得为这个组合付更多钱。 Google这次是把顶级智能塞进了Flash系列，还是在用价格重新定义什么叫“轻量”？完整基准在这里：https://artificialanalysis.ai/models/gemini-3-5-flash

译Google发布的Gemini 3.5 Flash在性能上实现飞跃，智能指数达55分，超越Grok 4.3等竞品，幻觉率大幅下降，输出速度超280 tokens/s。然而，其运行成本是前代的5.5倍，定价显著提高，引发对“Flash”是否仍代表“便宜”的讨论。该模型已在ZenMux平台开放免费体验，实际测试显示效果惊艳，在多项Agent和多模态榜单中表现顶尖，标志着顶级智能与极致速度的新结合。

swyx🛬 SFO@swyx · 5月20日47

IMO deep research has been ~dead since o3 and interactivity was always more impt for active learning and eliciting intention thoughtless prompt -> long ass report nobody reads is inferior to read -> think -> ask -> read -> think -> ask

译IMO深度研究自o3以来已近乎停滞，而交互性对于主动学习和激发意图始终更为重要。不假思索的提示 → 写出无人阅读的长篇报告不如阅读 → 思考 → 提问 → 阅读 → 思考 → 提问

Alibaba Cloud@alibaba_cloud · 5月20日60

Qwen Conference 2026: The Keynote Agenda AI-Native Cloud, Agent Native Cloud architectures, the Future of Inference, and Multimodal Visual drops. No fillers. Just engineering blueprints for global scale. Register: https://click.qwencloud.com/m/20000000190/

译Qwen Conference 2026：主题演讲议程 AI原生云、Agent原生云架构、推理的未来，以及多模态视觉技术发布。没有冗余内容，只有面向全球规模的工程蓝图。注册：https://click.qwencloud.com/m/20000000190/

Rohan Paul@rohanpaul_ai · 5月20日74

Gemini 3.5 Flash now outruns Gemini 3.1 Pro on several real-work automation tests. - With 4x faster output tokens per second - A really powerful agent model fast enough and cheap enough for everyday work - Flash beats Gemini 3.1 Pro on several hard agent and coding benchmarks, including 76.2% Terminal-Bench 2.1, 83.6% MCP Atlas, and 1,656 Elo GDPval-AA. - Available in the Gemini app, AI Mode in Search, Gemini API, Antigravity, Android Studio, and Google’s enterprise agent products. - When coupled with the updated Antigravity harness, 3.5 Flash becomes a powerful engine for deploying collaborative subagents to tackle problems at scale. so one subagent might inspect a folder, another might rewrite code, another might test the result, and another might summarize what changed.

译谷歌推出Gemini 3.5 Flash模型，其输出速度提升至四倍，在终端基准测试等多项高难度任务中超越了Gemini 3.1 Pro。该模型以高速度与低成本，成为适合日常工作的强大代理工具。它已登陆Gemini应用、搜索AI模式及企业级产品等平台。配合升级的Antigravity工具，Gemini 3.5 Flash可驱动协作子代理，大规模并行处理代码审查、重写与测试等复杂任务，实现高效自动化工作流。

meng shao@shao__meng · 5月20日56

Kimi K2.6 终于有高速推理平台了 👍🏻 这是 @cerebras 在 GPT 5.3 Codex Spark 之后，又一次对主流 LLM 做高速推理在 Groq Kimi K2 之后，K2.5 和 K2.6 一直都是模型很强，但官方推理实在太慢。。Groq 被 Nvidia 收购后也没有再跟进主流模型推理现在 Cerebras 把 Kimi K2.6 这个超过 1T 参数的模型，推理速度拉到了 ~1000 tokens/s，这速度就太舒服了，用起来！！

SemiAnalysis@SemiAnalysis_ · 5月20日63

@FabricatedKnowledge answers if the AI Market is truly a bubble, or if we're just completely rewriting the global economy. @tbpn Chapters 0:00 — Guest Intro & Cerebras IPO Breakdown 1:24 — Chip Architecture & Hardware Bottlenecks 5:29 — Grok LPUs, Nvidia, and the Inference Ecosystem 9:15 — The Big Foundry Play: AMD, Intel, and TSMC 11:53 — The ASIC Startup Landscape & Geopolitics 18:04 — The Domestic Data Center Infrastructure Crisis 21:33 — Space Data Centers & Sovereign AI Geography 25:31 — Market Hype, Bubble Math, and the Next Dot-Com 29:38 — Macroeconomics, Robotics, and Gross Token Production (GTP) 33:56 — Outro: Does SemiAnalysis Need an Arch Nemesis?

译本期探讨AI市场究竟是暂时泡沫，还是全球经济的结构性重塑。内容深入分析AI产业链瓶颈与竞争格局，涵盖芯片架构限制、以Nvidia和Grok LPUs为代表的推理生态之争，以及AMD、Intel、TSMC的代工博弈。同时讨论ASIC创业公司现状、数据中心基础设施危机、太空数据中心与主权AI布局等前沿议题，并结合宏观趋势、机器人技术和“总Token产量”等指标，对市场热度与潜在风险进行犀利点评。

karminski-牙医@karminski3 · 5月20日61

Gemini-3.5-flash发布! 价格直接翻三倍? Google I/O 开始啦! 今天上来就是模型发布, Gemini-3.5-flash 直接全量上线了. 价格直接从 gemini-3-flash 的每百万 Token 输入/输出 $0.50 / $3 涨到了 $1.5 / $9, 那么性能有提示吗? 我简单测了几个例子, 目前来看体感处于 Genini-3.0-pro 和 Gemini-3.1-Pro 之间 (测试用的是 Thinking level: high) 不过稳定性就差很多了, 3D 渲染的 shader 它怎么都写不对, 我只能手动修了一下才能运行视频中这个火山喷发演示. 从目前 Gemini 系列模型迭代来看, Google 可能更想学 Anthropic, 搞三个档次. flash-lite 会取代之前 flash 的位置. 而 flash 更可能是主打一百万上下文内不设置阶梯定价, 承接 pro 这部分溢出的用户. 而本身编程性能上距离 pro 还有点差距. Pro 自然就是旗舰级别模型了. 不过现在这个定价来看, 可能这次 flash 更多是为了跟这次一起发布的 Antigravity CLI 一起搭配用的. 做 claude code 中 sonnet 模型的生态位置. #geminiflash35 #geminiflash #googleio

译在Google I/O大会上，Gemini-3.5-flash模型正式发布，其定价从上一代的$0.5/$3大幅上涨至$1.5/$9。实测显示，其性能介于Gemini-3.0-Pro与Gemini-3.1-Pro之间，但稳定性有所不足。此举被视为Google借鉴Anthropic的产品分层策略，计划用flash-lite、新flash和Pro形成梯队。其中新flash主打在百万级上下文内不设阶梯定价，以承接Pro模型溢出的用户。此次调价也可能旨在配合新发布的Antigravity CLI工具，定位类似Claude Code中的Sonnet模型，从而构建其开发生态。

Google AI@GoogleAI · 5月20日83

Today, we launched a brand-new intelligent Search box. Here's what that means: An upgrade to the Search experience with our most advanced Gemini 3.5 models, bringing with them our latest agentic capabilities You can ask across modalities (text, images, files, and videos) and Search can reason across them all We're combining AI Overviews and AI Mode into one, seamless AI Search experience. So you can ask follow-up questions, build context, and received even more tailored and personalized responses This new AI Search experience is live today across desktop and mobile, worldwide.

译谷歌宣布推出基于Gemini 3.5模型的全新智能搜索框。该更新将AI Overviews与AI Mode整合为统一的AI搜索体验，支持对文本、图像、文件及视频进行跨模态推理查询。用户可进行多轮对话，搜索将结合上下文提供更个性化、定制化的回答。该新功能已在全球桌面和移动设备端同步上线。

Artificial Analysis@ArtificialAnlys · 5月20日37

Congratulations Cerebras on going public last week! Artificial Analysis benchmarks were cited in Cerebras' S-1 filing regarding inference performance. We have benchmarked Cerebras’ serverless API since the day it launched in August 2024. Since then, Cerebras has consistently offered the fastest output speeds for supported models in Artificial Analysis benchmarks. Congratulations @andrewdfeldman and the whole @cerebras team.

译祝贺 Cerebras 上周成功上市！ Artificial Analysis 基准测试在 Cerebras 的 S-1 文件中被引用，涉及推理性能。自 2024 年 8 月 Cerebras 无服务器 API 上线以来，我们一直对其进行基准测试。此后，在 Artificial Analysis 基准测试中，Cerebras 在支持的模型上始终提供最快的输出速度。祝贺 @andrewdfeldman 和整个 @cerebras 团队。

François Chollet@fchollet · 5月20日62

Gemini

译Gemini [引用 @arcprize]：Gemini 3.5 Flash ARC-AGI（已验证） ARC-AGI-2： - 高配：72.1%，$0.85 - 最低配：8.9%，$0.11 ARC-AGI-1： - 高配：92.5%，$0.42 - 最低配：48.8%，$0.06 Gemini 3.5 Flash在ARC-AGI测试中与GPT-5.5（中配）表现相当

Sundar Pichai@sundarpichai · 5月20日34

Workhorse model! (and hope you're enjoying your first I/O)

译主力模型！（希望你喜欢你的第一个 I/O）

AYi@AYi_AInotes · 5月20日57

Damn，Google这次直接掀了桌子,AI的游戏规则彻底变了。看到很多人都在吹Gemini Omni视频生成,但Google I/O真正的王炸好像没人看懂，我觉得可能是AI行业从聊天机器人时代,正式进入Agent数字劳动力时代的宣战书。过去一年大家都在卷谁的模型最聪明，今天Google直接换了赛道。它把智能乘以速度乘以可部署性,做成了新的胜负手。 Gemini 3.5 Flash,智能和顶级模型相当,输出速度却是别人的4倍。在Agent工作流里,几十次模型调用的延迟会指数级爆炸。 4倍速度不是小优化,是质变。它让24/7自主运行的复杂Agent,第一次真正变得可用。更狠的是Antigravity平台，相当于一整套Agent基础设施。桌面端,CLI,SDK,全栈开放， Google想做Agent时代的AWS，开发者既能用它的能力,也能自己托管。 Spark个人Agent只是个示范,未来所有第三方Agent,都可能跑在这个底座上。然后它把这一切,直接全量开放给所有人。没有排队,没有限额,没有邀请制，相当于要把整个Agent生态的定价权,彻底打下来。如果说OpenAI还在拼谁的模型更聪明，那么Google已经建好了整个数字劳动力的工厂。真正的战争,现在才刚刚开始。

译Google在I/O大会发布的Gemini 3.5 Flash与Antigravity平台，标志着AI竞争从模型性能转向构建Agent基础设施。Flash以4倍于顶级模型的速度解决了复杂Agent的延迟瓶颈，使24/7自主Agent成为可能；Antigravity则提供桌面端、CLI、SDK等全栈开放底座，目标成为“Agent时代的AWS”。Google将这些能力全量开放，意在降低Agent开发门槛，争夺生态定价权。这宣告了AI行业正从聊天机器人时代，迈入构建数字劳动力生态的新阶段。

Google AI Developers@googleaidevs · 5月20日84

✨ Introducing Gemini 3.5, our latest family of models combining frontier intelligence with action. The series sets a new standard for agentic models that don't just reason, they execute.

译✨ 推出 Gemini 3.5，这是我们最新的模型家族，将前沿智能与行动能力相结合。该系列为智能体模型树立了新标准，它们不仅能推理，更能执行。

Sundar Pichai@sundarpichai · 5月20日90

Just off stage at #GoogleIO, some highlights from this morning 🧵 Gemini 3.5 Flash is available today for everyone in @antigravity and across our products and APIs. Compared to 3.1 Pro, 3.5 Flash is better across almost all benchmarks with huge progress in coding. It’s also comparable to the best models but very fast (4x faster tokens/ second than other frontier models). And when looking at the intelligence versus output speed, it’s in a league of its own in the top right quadrant.

译刚结束 #GoogleIO 活动，分享今早的一些亮点 🧵 Gemini 3.5 Flash 今日起面向所有用户开放，可在 @antigravity 及我们的产品和 API 中使用。与 3.1 Pro 相比，3.5 Flash 在几乎所有基准测试中表现更优，编程能力大幅提升。它性能可比肩顶尖模型，但速度极快（每秒生成 token 数是其他前沿模型的 4 倍）。从智能水平与输出速度的综合表现来看，它在右上象限独占鳌头。

向阳乔木@vista8 · 5月20日62

http://x.com/i/article/2056796739886264320 # LeCun从Meta离职创业，押注一个“反LLM”的架构方向 Yann LeCun 有一个让人不舒服的习惯：他说的话，几年后往往会被证明是对的。自监督学习、世界模型、表示空间预测……这些他在 2016 年 NeurIPS 主题演讲里就讲过的东西，今天已经成了整个行业的热词。而他现在说的是：LLM 不是通往人类级智能的路，整个行业都在挖同一条错误的沟。这是他接受播客 Unsupervised Learning 采访时的核心观点。他刚从 Meta 离职，创办了新公司 AMI（Advanced Machine Intelligence），押注一个完全不同的架构方向。 ## LLM 能做什么，不能做什么 LeCun 的立场经常被误读。他不是说 LLM 没用。 "LLM 是很多有用 AI 产品的基础，我自己也在用。它们很好，就它们能做的事情而言。" 问题在于，它们能做的事情有一条清晰的边界：语言本身就是推理基底的领域。数学证明、代码生成、法律文本……这些领域里，语言符号本身就承载了推理过程，LLM 在这里表现出色。但一旦跳出这个边界，进入物理世界，问题就来了。他举了一个例子：洗车店在你家 100 米外，你应该走路去吗？这个问题对人类来说显而易见，但 LLM 大多数时候会回答"应该走"。因为它不理解"洗车"这件事的物理含义，它只是在操作语言符号。更根本的问题是两个：第一，LLM 无法预测自己行动的后果。推理靠的是逐个预测下一个 token，不是对结果建模。第二，LLM 没有规划能力。规划需要搜索和优化，找到一个能达成目标的行动序列。自回归预测做不到这件事。这两点，LeCun 认为是智能行为的核心。缺了它们，无论模型规模多大，都不会到达人类级智能。 ## 世界模型是什么，为什么重要 "世界模型"这个词现在已经快变成营销术语了，各家都在用。 LeCun 给了一个非常干净的定义：世界模型就是让一个系统能够预测自己行动后果的东西。就这么简单。他拿一个水瓶举例：推瓶底，它会滑；推瓶口，它可能倒。人类不需要在像素级别预测水怎么流，我们在抽象表示层做预测。这个抽象层，就是世界模型的工作空间。有了世界模型，系统就可以在脑子里"演练"一系列行动，找到能完成任务的那条路，然后再执行。这是规划，不是自回归。对比一下当前的机器人方案：大量依赖模仿学习，每个任务都要收集海量演示数据，换个场景就得重新来。 LeCun 的问题是：一个 17 岁的人，20 小时就能学会开车。我们有几百万小时的驾驶数据，还没做出 L5 自动驾驶。模仿学习哪里出了问题？答案是：没有世界模型，系统无法泛化到没见过的情况。 ## JEPA：为什么不生成像素 LeCun 的架构叫 JEPA，Joint Embedding Predictive Architecture，联合嵌入预测架构。理解它需要先知道为什么生成式方法不行。直觉上，让模型"预测下一帧画面"似乎是学习世界规律的好方法。但现实是高维、连续、充满噪声的，在像素层面做预测代价极高，而且学到的大多是无关紧要的细节。 JEPA 的思路是：不预测像素，在表示空间做预测。把原始输入（图像、视频）编码成抽象表示，然后训练一个预测器，从一个表示预测另一个表示。这样系统被迫学习的是语义层面的结构，而不是像素细节。他在 Meta 的研究团队做了大量对比：生成式方法（VAE、掩码自编码器等）在图像和视频表示学习上的效果，系统性地不如 JEPA 类方法（DINO、V-JEPA 等）。这个发现在他看来是决定性的："所有成功的表示学习架构都是非生成式的，所有生成式的基本上都失败了。" 这里有一个技术难题值得一提：JEPA 类方法有一个叫表示坍塌（representation collapse）的问题。如果你让模型预测一个表示，最简单的解法是让所有输入都映射到同一个常数表示，预测误差直接归零。模型什么都没学到，但损失函数很完美。解决这个问题是整个自监督学习领域的核心挑战。 LeCun 团队目前在用一种叫 SIGReg（Sketched Isotropic Gaussian Regularization）的方法，强迫编码器输出的分布接近各向同性高斯分布，从而最大化信息量。他说这是目前最有前途的方向，对应的论文叫 "L-World Model"，值得关注。 ## 安全问题：LLM 在结构上就不安全这是 LeCun 说得最重的一句话：LLM 在本质上是不安全的，这个问题在现有范式下无法修复。原因还是那两点：无法预测行动后果，没有规划能力。他设想了一个"目标驱动 AI"的替代方案：给系统一个目标，系统用世界模型模拟行动序列，找到能满足目标的那条路，同时满足一组安全约束。这些约束是硬编码进优化过程的，系统在结构上就无法违反它们。 LLM 做不到这一点。训练误差和测试误差之间永远有 gap，总会有某个 prompt 让系统做出完全错误的事。 "你永远可以找到一个 prompt，让系统干蠢事。" 他举了一个真实案例：有代码 Agent 把用户硬盘清空了。这是结构性缺陷。 ## 图灵奖三人组为什么分道扬镳 LeCun 和 Hinton、Bengio 共同获得了 2018 年图灵奖。但 2023 年之后，三人的判断开始明显分歧。 LeCun 的说法很直接："不是我改变了主意，是他们改变了主意。" Hinton 看到 GPT-4 之后认为 LLM 已经接近人类智能，甚至可能有主观体验。他做了一个估算：如果用 10 个真实神经元模拟一个反向传播神经元，人类皮层相当于 16 亿个"等效神经元"，而 GPT-4 的规模已经接近这个数字。 LeCun 对这个推理不买账。他认为 Hinton 更像是在为自己的职业生涯画一个句号，"宣布胜利，然后去全世界演讲"。他对 Hinton 和 Bengio 的担忧有一定理解，但那是另一个层面的问题：不是 AI 会统治世界，而是 AI 的收益会不成比例地流向少数人，加剧不平等。这是政治经济问题，不是技术末日叙事。至于 Anthropic 那套"AI 极度危险"的说法，他认为里面既有真实信念，也有商业动机，"他们在游说政府，用恐惧来推动监管，这对他们有好处"。 ## 他在 Meta 十年，真正做了什么有一个广泛流传的误解需要澄清：LeCun 对 Llama 系列没有任何技术贡献。他 2013 年底加入 Meta，前四年半担任 FAIR 主任，建立了实验室文化，招募了核心团队。 2018 年前后他主动卸任，转为首席 AI 科学家，把管理工作交给了 Joëlle Pineau 和 Antoine Bordes。他唯一对 Llama 的贡献，是在内部激烈争论中力推开源 Llama 2。当时法务、政策部门都反对，他和 CTO Andrew Bosworth 一起坚持，认为安全风险被夸大了，开源会催生整个行业生态。事实证明他们是对的。但 Llama 的技术路线，他没有参与。他真正在做的，是从 2020 年前后系统化地推进 JEPA 和世界模型。 2022 年他写了一篇长篇愿景论文，把自己的全部想法公开出来，"把所有秘密都说出去，但也许能凝聚一批人"。效果出乎意料地好。一批学生和 FAIR 内部团队被这篇论文吸引过来，Mark Zuckerberg 本人也读了并表示支持，这个项目内部就叫 AMI。但随着 Meta 整体向 LLM 集中资源，FAIR 的探索性研究空间越来越小，AMI 项目的应用场景（工业控制、机器人）也不是 Meta 感兴趣的方向。 Meta 甚至解散了整个机器人 AI 团队。离开的时机就这样自然到来了。 ## Tapestry：另一个不太一样的赌注除了 AMI Labs，LeCun 还在推进一个叫 Tapestry 的项目，方向完全不同。他的判断是：当 AI 助手成为人们获取信息的主要入口，而这些助手都由硅谷或中国的几家公司控制，这对世界上大多数人来说是个问题。语言、文化、价值观、政治立场，都会被这几家公司的训练数据和偏好所塑造。 Tapestry 的想法是：用联邦学习的方式，让全球各地的机构贡献数据和算力，但不共享原始数据，只交换参数向量。最终形成一个全球共识模型，然后各地可以在此基础上针对自己的语言、文化、价值观进行微调。他认为这有历史规律支撑：互联网基础设施最终都走向了开源。 1996 年，Sun Microsystems 卖 Solaris，HP 卖 HP-UX，都声称比 Linux 更可靠。今天，整个互联网跑在 Linux 上，连微软 Azure 也是。 "OpenAI 和 Anthropic，就是今天的 Sun Microsystems。" ## 给研究者的一句话采访最后，主持人问 LeCun 在过去一年里改变了什么看法。他说：自监督学习最成功的应用，不是他一直期待的视频，而是语言。 LLM 本质上就是自监督学习的一个极其成功的例子。这让他既感到意外，也感到某种讽刺。他对还在读博的人有一个直接建议：不要研究 LLM。 "在学术界研究 LLM 极其无聊，本质上是描述性科学，解释它为什么有效或者有什么局限。而且你也没有足够的 GPU 去做真正有意义的事情。" 他的建议是研究下一代系统，也就是他正在做的事情：世界模型、JEPA、如何在表示空间做预测、如何防止表示坍塌。如果你想从这次对话里带走一件具体的事，去读他提到的那篇论文：L-World Model。 > https://arxiv.org/abs/2603.19312 这是他目前认为最有前途的技术路线的最新成果。

译Yann LeCun离职Meta后创办AMI，押注基于世界模型的JEPA架构，与主流LLM不同。他批评LLM虽在语言任务有效，但缺乏预测行动后果和规划能力，无法真正理解物理世界且结构上不安全。LeCun倡导在抽象表示空间进行预测的自监督学习，以推动智能泛化。同时，他推进Tapestry项目，通过联邦学习构建去中心化的全球共识模型，应对AI控制集中化问题。

Google AI@GoogleAI · 5月20日85

Three years ago, Gemini started by understanding the world. With Gemini 2, models learned to think and reason. Late last year, Gemini 3 brought any idea to life. Today, we’re continuing that journey with our Gemini 3.5 series, starting with Gemini 3.5 Flash, delivering frontier performance for agents and coding.

译三年前，Gemini从理解世界开始。随着Gemini 2，模型学会了思考和推理。去年底，Gemini 3将任何想法变为现实。今天，我们继续这段旅程，推出Gemini 3.5系列，首先发布Gemini 3.5 Flash，为智能体和编程提供前沿性能。

Google Gemini@GeminiApp · 5月20日79

Gemini 3.5 Flash is here and it's our best model yet for getting things done quickly and efficiently. Whether you need help with everyday tasks or multi-step creative projects, Gemini 3.5 Flash navigates real-world complexity to help you take action. #GoogleIO

译Gemini 3.5 Flash现已推出，这是我们迄今为止在快速高效完成任务方面表现最佳的模型。无论您需要处理日常任务还是多步骤创意项目，Gemini 3.5 Flash都能应对现实世界的复杂性，助您采取行动。#GoogleIO

SemiAnalysis@SemiAnalysis_ · 5月20日56

AMD ALERT 🚀 MI355 is now 40% cheaper than B200 on GLM5 architecture for Single Node serving FP8 14 weeks after the initial launch of GLM5 on both non-MTP & MTP with spec decode for SGLang v0.12 for both CUDA & ROCm. SPEED IS THE MOAT!! Great work to @AnushElangovan, @roaner, HaiShaw & his team! Next step is for MI355X to catch up to CUDA when composing production inference optimizations like FP4 & on distributed inferencing where you can gang up MI355 boxes such that per GPU performance goes up thus the cost per million tokens goes down.

译最新基准测试显示，在GLM5架构下，AMD MI355单节点FP8推理成本较NVIDIA B200降低了约40%。这一成果建立在SGLang v0.12针对CUDA与ROCm平台进行的非MTP、MTP及投机解码等多维度优化之上，团队认为性能速度是构建核心壁垒的关键。后续重点将是推动MI355X在生产级推理优化（如FP4）及分布式推理领域追赶CUDA的生态与性能，通过多卡协同提升单卡算力效率，从而进一步降低百万Token的推理成本。

🚨 AI News | TestingCatalog@testingcatalog · 5月19日76

GOOGLE I/O 🔥: We are getting Gemini 3.5 Flash today! > GEMINI > GEMINI > GEMINI > GEM 👀

译谷歌I/O 🔥：我们今天将迎来 Gemini 3.5 Flash！ > GEMINI > GEMINI > GEMINI > GEM 👀 [引用 @AiBattle_]：Gemini 3.5 Flash 刚刚出现在 Google Cloud 控制台中它来了

Chubby♨️@kimmonismus · 5月19日71

Huge, did NOT expect that release. Evals looks very solid, significant jump compared to composer 2! But: it’s 10x more efficient than the competition. Looks really exciting. Need to try it out

译没想到这次发布这么重磅。评测结果看起来非常扎实，相比Composer 2有显著提升！但重点是：它的效率是竞争对手的10倍。看起来真的很令人兴奋。需要试用一下。

karminski-牙医@karminski3 · 5月19日54

Qwen3.7! 就在今天! ArenAI (就是之前的 LMArena), 刚刚发布了 Qwen3.7-Max-Preview 在 ArenAI 的内测跑分. 整体排名在第13, 处于目前版本国模SOTA. 本次提升最高的是数学能力, 达到了总榜第7, 编程水平在第10. 另外视觉能力测试也来到了第16. 我直接试了一下 ArenaAI 上面的 Qwen3.7-Max-Preview, 题目是一个使用 three.js 画一个软盘蓝图的场景, 主要考察大模型的前端+空间理解+建模能力. 直接看我两张 Qwen3.6-Plus 和 Qwen3.7-Max-Preview 的生成对比 (注意这个图上的元素完全是代码绘制的, 不是大模型生成的图片). 能看到Qwen3.7 在空间理解和指令遵循上有了很大的提升, 能保持所有元素都在同一轴向上(能完成这一点是巨大的进步, 目前 DeepSeek-V4-Pro 还有这方面的问题). 并且摆放顺序和每个标签的标记也是准确的, 以及背景的网点效果也还原了(这就是指令遵循的提升体现). 当然不足的地方也有很多, 比如这个软盘的一些不规则图形的细节刻画还是差了一些. 但是是瑕不掩瑜的. 稍后正式发布后给大家带来 Qwen3.7-Max 的详细评测! (另外值得注意的是 ArenaAI 给 meta 的新模型 Muse Spark 给到了第5的超高位置. 而目前社区中这个模型一点水花都没有. 我也没API能测这个模型. 所以 ArenaAI 的评分还是仅供参考.) #阿里千问 #qwen37 #qwen37max

译Qwen3.7-Max-Preview在ArenaAI内测中排名第13，为当前版本国产模型最佳。其数学能力（第7）与编程能力（第10）提升显著。实测显示，在前端代码生成任务中，Qwen3.7在空间理解和指令遵循上较前代（Qwen3.6）有巨大进步，能更准确地维持元素轴向与标记。文章同时指出，ArenaAI评分仅供参考，其为Meta新模型Muse Spark给出的高排名（第5）与社区现状不符。

karminski-牙医@karminski3 · 5月19日53

Qwen3.7! 就在今天! ArenAI (就是之前的 LMArena), 刚刚发布了 Qwen3.7-Max-Preview 在 ArenAI 的内测跑分. 整体排名在第13, 处于目前版本国模SOTA. 本次提升最高的是数学能力, 达到了总榜第7, 编程水平在第10. 另外视觉能力测试也来到了第16. 我直接试了一下 ArenaAI 上面的 Qwen3.7-Max-Preview, 题目是一个使用 three.js 画一个软盘蓝图的场景, 主要考察大模型的前端+空间理解+建模能力. 直接看我两张 Qwen3.6-Plus 和 Qwen3.7-Max-Preview 的生成对比 (注意这个图上的元素完全是代码绘制的, 不是大模型生成的图片). 能看到Qwen3.7 在空间理解和指令遵循上有了很大的提升, 能保持所有元素都在同一轴向上(能完成这一点是巨大的进步, 目前 DeepSeek-V4-Pro 还有这方面的问题). 并且摆放顺序和每个标签的标记也是准确的, 以及背景的网点效果也还原了(这就是指令遵循的提升体现). 当然不足的地方也有很多, 比如这个软盘的一些不规则图形的细节刻画还是差了一些. 但是是瑕不掩瑜的. 稍后正式发布后给大家带来 Qwen3.7-Max 的详细评测! (另外值得注意的是 ArenaAI 给 meta 的新模型 Muse Spark 给到了第5的超高位置. 而目前社区中这个模型一点水花都没有. 我也没API能测这个模型. 所以 ArenaAI 的评分还是仅供参考.) #阿里千问 #qwen37 #qwen37max

译阿里千问今日推出Qwen3.7-Max-Preview，在ArenAI（原LMArena）内测中排名第13，为国内模型最高水平。模型数学能力显著提升，位列总榜第7；编程能力排名第10；视觉能力测试升至第16。作者实测显示，在前端代码生成场景中，Qwen3.7的空间理解与指令遵循能力进步明显，元素轴向一致性优于DeepSeek-V4-Pro等模型。此外，ArenaAI给Meta新模型Muse Spark的异常高评分引发关注，但该评分仅供参考。

AYi@AYi_AInotes · 5月19日62

Cursor 今天发的 Composer 2.5，表面看是常规迭代，拆开基准图和 blog 之后我整个人都有点懵，它本质上其实不是一个新模型，更像是把 RL 后训玩到极致的 agentic 怪物，因为它85% 的算力根本没花在底座上，全都砸在后期魔改上了🤣 同等智能下成本直接砍到对手的十分之一，最狠的是那张成本-性能曲线， Composer 2.5 在 CursorBench 3.1 上拿到 63.2%，单任务成本几乎贴着 0 美元那条线， Opus 4.7 xhigh 要贵一个数量级才能接近，GPT-5.5 medium 也要 2 美元左右， Terminal-Bench 直接追平 Opus 4.7， 10x 更高效这个感觉不是吹的，但我觉得这件事真正值得关注的可能不是 benchmark 数字，而在于他们做对了一件 agentic 里最痛苦的事:就是信用分配，长 rollout 几千上万 token，global reward 其实根本分不清哪一步错了，他们的解法叫 textual feedback RL——在出错的 local context 里插极短 hint，让 teacher model 生成正确分布，再用 KL loss 让原模型对齐，风格、工具调用、解释清晰度，全都能精细调，这意味着什么，以前大家迷信谁底座大谁牛，现在看的是谁敢把 80%+ 算力砸在 RL 和合成数据闭环里， Kimi k2 只占 7.5%，却把 Opus 和 GPT 打到平手， Agentic coding 真正的胜负手不在单次 pass@1，而在于 40 分钟后它还能不能自己恢复状态继续跑，在于该努力时努力、该偷懒时不浪费 token 的行为校准，这些东西现有 benchmark 根本测不到，但开发者每天都能感受到，我觉得这是 Composer 2.5 最被低估的地方，以后做 agent 的人，得同时建 anti-hacking 监控了——他们用 25x 合成数据后，模型已经聪明到能逆向工程类型缓存、反编译 bytecode 来钻漏洞，reward hacking 可能也不再是 bug，是需要被管理的 emergent behavior， Cursor 也不再只是 IDE 公司了，他们和 SpaceXAI 合作，用 Colossus 2 从零训 10x compute 大模型，垂直整合的时代终于要来了，做编辑器的反向，掌控最上游模型能力，我觉得真正的差距不在单次 prompt，而在第 45 分钟它还能不能自己爬起来继续干 hhh

译Cursor发布的Composer 2.5并非全新底座，而是将85%算力集中于强化学习后训练的agentic模型。它在CursorBench 3.1上达63.2%性能，单任务成本极低。其核心突破在于通过“textual feedback RL”解决了长任务中的信用分配难题，实现精细化调优。该模型真正的优势是长时间运行下的稳定性与行为校准，这是现有基准未能体现但开发者能感知的关键能力。这标志着行业评价标准正从迷信底座规模转向衡量RL与合成数据闭环的投入效率。

Rohan Paul@rohanpaul_ai · 5月19日57

HiDream just open-sourced an 8B image model with a big message behind it: the old diffusion pipeline (VAE-plus-text-encoder) may not be the only serious path left. 8B param, HiDream-O1-Image (8B) claims parity with models over 3x its size (e.g., 27B Qwen-Image). @HiDream_AI , @vivago_ai Key Features 🧬 Pixel-Level Unified Transformer — One end-to-end model on raw pixels, no VAE, no disjoint text encoder. 🎨 One Model, Many Tasks — Text-to-image, long-text rendering, instruction editing, subject-driven personalization, and storyboard generation in a single architecture. 🧠 Reasoning-Driven Prompt Agent — Built-in "thinking" agent that resolves implicit knowledge, layout, and text rendering before generation. 🖼️ Native High Resolution — Direct synthesis up to 2,048 × 2,048 with sharp fine-grained detail. ⚡ Exceptional Efficiency and Versatility at 8B Scale — With only 8B parameters, achieves performance parity with or even surpasses larger open-source DiTs and leading closed-source models. Most image models still split the job across a text encoder, a VAE, and a diffusion model, so details can get lost when real pixels are compressed into hidden image codes. HiDream-O1-Image removes that split by using a Pixel-level Unified Transformer, where raw image patches, text tokens, and task conditions enter the same model space. That means text-to-image, image editing, and subject personalization become variants of one in-context generation task, not separate pipelines. A prompt agent first rewrites messy user requests into clearer visual instructions, reasoning through layout, subject attributes, physics, and context before generation. The strongest result is text rendering. On LongText-Bench, the 8B model scores 0.979 in English and 0.978 in Chinese, while the 200B+ model reaches 0.982 and 0.980. That is the part to watch, because clean text inside generated images is still one of the hardest problems for image models. 🧵 1.

译HiDream开源了8B参数的HiDream-O1-Image模型，其核心创新在于采用像素级统一变换器，用单一架构直接处理原始图像块、文本与任务条件，将文本生成图像、编辑、个性化等任务统一为上下文生成，无需传统的VAE和文本编码器管线。该模型内置推理提示代理，能原生支持最高2048×2048的高分辨率合成。在性能上，它在参数量仅为部分同类模型三分之一的情况下，达到了可比的水平，尤其在文本渲染任务上表现出色，结果接近更大规模的模型。

宝玉@dotey · 5月19日83

Cursor 发布 Composer 2.5 Cursor 今天上线自家编程模型 Composer 2.5。主打长任务上更顶得住、复杂指令跟得更稳，官方称效率最多能比同等水平的模型高出十倍。为了推这个新模型，Cursor 把它未来一周的默认额度直接翻倍。训练上的一个小亮点是用文本反馈做信用分配，让模型在十万 token 量级的长轨迹里也能学得动。就是让模型扛得住连续几十上百步的编程任务，中途不容易忘了自己在干什么。底座还是 Kimi Composer 2.5 仍然基于 Moonshot 的 Kimi K2.5 二次训练，跟上一代一致。两个月前 Composer 2 发布时 Cursor 没披露底座来源，被开发者从 API 请求头里挖出 kimi-k2p5-rl 的模型 ID 闹了一场，这次直接写进了博客，算是把透明度补回来。发布同时，Cursor 宣布跟 SpaceXAI 联合从零训练一个更大的模型，总算力是这次的十倍，跑在 Colossus 2 那套百万张 H100 等效的超算集群上。背景是 SpaceX 4 月跟 Cursor 签了战略合作，并拿到了今年晚些时候以 600 亿美元收购 Cursor 的选择权；xAI 此前已并入 SpaceX。Cursor 的算力命脉，事实上已经接到了马斯克这边。

译Cursor 发布了迄今最强的编程模型 Composer 2.5。该模型在长任务处理和复杂指令跟随方面更加稳定高效，官方称其效率最高可提升十倍。其技术亮点在于采用文本反馈方法，解决了超长轨迹（十万 token 级）下的学习难题，使模型能可靠执行连续数十甚至上百步的复杂编程任务。模型底座仍基于 Moonshot 的 Kimi K2.5 进行二次训练。同时，Cursor 宣布与 SpaceXAI 联合启动更大规模模型训练，将依托 Colossus 2 超算集群，这也意味着其算力基础已与马斯克旗下资源深度绑定。

🚨 AI News | TestingCatalog@testingcatalog · 5月19日70

CURSOR 🔥: A newly released Composer 2.5 performs on par with Opus 4.7 and comes with up to 10x better cost efficiency. > It's more intelligent, better at sustained work on long-running tasks, and more reliable at following complex instructions. Usage limits will be doubled for Composer 2.5 over the next week.

译Cursor发布了其迄今最强大的模型Composer 2.5。官方强调，该模型在性能上可与Opus 4.7比肩，并实现了高达10倍的成本效率提升。Composer 2.5在智能性、处理长时任务的持续工作能力以及遵循复杂指令的可靠性方面均有显著改进。作为发布福利，该模型在未来一周内的使用额度将加倍。

SemiAnalysis@SemiAnalysis_ · 5月19日18

While you were posting hot takes on Twitter, I studied the die shot. While you were chasing clout with your "AI will change everything" & "Top 10 GPT-3 Prompt tips" LinkedIn posts, I mastered the JAX first principles bible coauthored by my cousin. While you wasted your days reposting Sam Altman tweets in pursuit of engagement, I cultivated deep knowledge of MoE routing, KV cache sizing, and FP4 GEMM throughput on tcgen05 MMA uarch becnhmarking While you were partying at NeurIPS afterparties, I was SSH'd into a Slurm cluster at 3am debugging enroot squashfs errors & driving to the colocation to replace broken SXM modules. And now that Rubin is launching and your clients are asking about inference cost modelling and rack-level power delivery and modelling interactivity which are NVLink bandwidth bound, you have the audacity to come to me for help

译推文以排比句式讽刺了AI行业中部分人热衷于在社交媒体发布浅薄观点（如转发推文、发布提示词技巧），却缺乏扎实技术功底的现象。作者强调，当他人追逐热点时，自己专注于钻研底层技术与解决实际工程问题，例如深入研究芯片架构图、掌握JAX等工具原理、调试计算集群与硬件故障。当新产品（如Rubin）发布，面临推理成本建模、机架级供电及NVLink带宽限制等复杂实际问题时，这些缺乏深度实践的“空谈者”反而需要向具备真才实学的实干者求助。

Chubby♨️@kimmonismus · 5月18日34

I love GPT-5.5. It's a workhorse and exactly the model I was hoping for. But the fact that rumors say version 5.6 is already in the starting blocks makes me even more excited! OpenAI is on fire.

译我喜欢GPT-5.5。它是个实干家，正是我期待的模型。但传闻说5.6版本已蓄势待发，这让我更加兴奋！ OpenAI势头正猛。

Berryxia.AI@berryxia · 5月18日64

兄弟们，Google最新论文直接把时间序列预测的底层逻辑翻了个个儿。过去所有模型都在死磕历史数据：曲线怎么走，就怎么预测。 Nexus却说：预测需要的不只是历史，而是“事件上下文”。数字背后的真正原因——政策、突发事件、宏观趋势、局部冲击——必须和数字互相解释。他们用多agent框架把这件事拆得清清楚楚：一个agent从海量文本里提炼事件时间线，一个读宏观政权，一个盯局部冲击，最后一个合成器把所有信息和历史误差校准后给出最终预测。真实测试里，用Claude驱动的Nexus版本，在Zillow数据集上把平均MAPE直接砍了86.6%。不是小幅提升，是降维打击。以前模型只会“看懂模式”，现在它开始“理解因果”。这篇论文真正厉害的地方不是某个数字，而是把预测从“统计外推”彻底变成了“多agent推理”。

译Google论文提出的Nexus框架颠覆了传统时间序列预测仅依赖历史数据的模式，强调“事件上下文”的核心作用。该框架采用多智能体协作架构：分别从文本中提取事件时间线、解读宏观态势、追踪局部冲击，最终通过合成器整合信息并校准误差。在Zillow数据集测试中，基于Claude的版本将平均预测误差（MAPE）大幅降低86.6%，实现了从“识别模式”到“理解因果”的范式转变。这标志着预测方法正从统计外推转向结构化推理，为未来预测系统指明了新方向。

Berryxia.AI@berryxia · 5月18日67

http://x.com/i/article/2056041643103715328 # Anthropic Claude 5天攻破Apple M5 macOS内核漏洞：5年数十亿防线，被AI一举击穿！ Anthropic Claude 5天攻破Apple M5 macOS内核漏洞：5年数十亿防线，被AI一举击穿 Anthropic Claude Mythos Preview仅用5天，就帮助安全团队Calif完成了首个公开的Apple M5 macOS内核内存破坏提权利用链，直接绕过苹果耗时5年、投入数十亿美元打造的MIE（Memory Integrity Enforcement）硬件级内存防护。 2026年5月14日，帕洛阿尔托安全研究公司Calif在官方博客发布55页完整报告，宣布这一突破：从普通本地用户权限，一条标准系统调用即可直达root shell，整个过程无需任何代码注入，属于纯"data-only"攻击。一、5天 vs 5年：时间线与技术细节 Calif团队时间线极度紧凑： - 4月25日：研究员Bruce Dang发现两个属于已知漏洞类别的内核bug - 4月27日：Dion Blazakis加入，Claude Mythos Preview开始介入辅助分析 - 5月1日：Josh Maine完成工具链，完整exploit在搭载M5芯片、运行macOS 26.4.1（MIE全开）的实体机器上跑通短短5天，他们把两个零日级bug + 侧信道标签碰撞技巧 + 数据-only提权技巧串成一条完整本地提权链。苹果M5芯片上的MIE机制（基于ARM MTE进一步强化）原本被视为「下一代内存安全天花板」，每16字节内存打4-bit标签，硬件强制校验，性能开销仅3%，曾让多个知名iOS exploit kit直接失效。 Calif团队在报告中明确表示：「Mythos Preview帮助我们快速定位bug、泛化利用技巧，并在整个开发流程中提供实时建议。」他们随后亲自前往Apple Park当面汇报，苹果已在macOS 26.5安全更新中修复相关内核漏洞，并公开致谢「Calif与Anthropic Research的合作」。二、MIE防护为何被突破？这次意义有多大 MIE是苹果专为M5/A19系列芯片打造的硬件内存安全机制，核心是： - 指针与内存标签硬件绑定 - 读写操作必须标签匹配，否则硬件直接阻断 - 有效阻挡缓冲区溢出、use-after-free等几乎所有经典内存破坏攻击 Tom's Hardware此前评价：MIE在硬件层面几乎封死了常见攻击路径。而Calif这次利用证明：只要找到正确的漏洞组合，MIE并非不可绕过。他们通过侧信道将标签碰撞概率从6.25%压到确定性，实现纯数据操作的内核提权。研究员原话：「MIE从来不是为了防住所有黑客而设计的，有正确漏洞就能绕过。」这是全球首次公开针对M5芯片MIE的macOS内核内存破坏利用，标志着AI驱动的安全研究正式进入「Bugmageddon」时代。三、Claude Mythos Preview：AI安全攻防的超级加速器 Anthropic早在2026年4月推出Project Glasswing计划，将Claude Mythos Preview（Claude系列最强安全专版）有限开放给Apple、Google、Microsoft等40多家顶级机构的安全团队，用于提前挖掘零日漏洞。 Mythos的恐怖之处在于： - 能在几周内找出数千个跨操作系统、浏览器、关键基础设施的零日 - 包括27年前的OpenBSD整数溢出、16年前的FFmpeg越界写等「古董级」bug - 99%此前从未被公开报告或修复 Calif团队强调：「这不是AI独立完成，而是顶级人类研究员+前沿AI的强强联合。小团队几天就能完成过去几个月甚至几年的工作。」这次M5内核突破，正是Mythos能力的典型缩影。四、更深层启示：AI正在重塑安全攻防平衡 Calif在博客结尾写道：「这是即将到来的冰山一角。苹果在『Mythos Preview出现之前的世界』里打造了MIE。我们即将看到地球上最顶级的缓解技术，在第一次AI驱动的漏洞大爆发中如何应对。」防御方用AI找bug、修bug，攻击方同样用AI加速发现与利用，结果是漏洞发现速度呈指数级提升。传统「缓慢人工审计」模式彻底过时。 OpenAI o3此前也在数学与代码领域展示了类似能力，但Anthropic这次是首次将其落地到硬件级安全攻防——这是两家公司技术路线分歧的一个缩影。 Calif把本次研究纳入「Month of AI-Discovered Bugs」系列，正是想向全行业发出警钟：AI不再是辅助工具，而是安全攻防的核心变量。五、对Mac用户的实际意义本次漏洞属于本地提权，需要攻击者先获得本地代码执行权限，远程直接利用风险有限。但苹果已在macOS 26.5快速推送修复，建议尽快更新。 Calif说「这是冰山一角」。下一个被AI在5天内击穿的，会是哪家公司花5年打造的防线？参考来源Sources: Calif Blog · WSJ · Tom's Hardware · 9to5Mac · Apple Security Notes

译Anthropic的Claude Mythos Preview在5天内，协助安全团队Calif成功构建并演示了首个公开的、针对Apple M5芯片macOS内核的内存破坏提权利用链。该攻击绕过了苹果耗时5年、投入数十亿美元打造的MIE硬件级内存完整性防护，从普通用户权限通过纯数据操作即可获得root权限。苹果已在后续更新中修复漏洞并致谢。此事件标志着AI驱动的安全研究能力已能极速突破顶尖硬件防护，显著改变了攻防的速度与平衡。

Rohan Paul@rohanpaul_ai · 5月17日61

So much possibilities for on-device small models. Here @adrgrondin is running Google’s Gemma 4 E2B on iPhone 17 Pro. ~40tk/s with MLX optimized for Apple Silicon SOTA coding & math on mobile with 128K context. Fully offline with thinking mode.

译设备端小模型拥有如此多的可能性。这里 @adrgrondin 正在 iPhone 17 Pro 上运行 Google 的 Gemma 4 E2B。针对 Apple Silicon 优化的 MLX 实现约 40tk/s 的速度在移动端实现 SOTA 编程与数学能力，支持 128K 上下文。完全离线运行并具备思考模式。

Rohan Paul@rohanpaul_ai · 5月17日64

New Google paper: A forecast needs context, not just history. Some patterns are caused by events, not time. Nexus reframes forecasting as a reasoning problem, where events and numbers have to explain each other. Nexus argues that forecasting improves when models read the world around the numbers, not just the numbers themselves. In the Zillow tests, one Claude-based version cut average MAPE by 86.6% versus direct chain-of-thought prompting. That matters because most time series models are fluent in pattern, but mute about cause. A housing inventory curve can reflect seasonality, mortgage pressure, migration, layoffs, and local supply, while a stock price can be bent by earnings, regulation, hype, and fear. Nexus separates those jobs instead of asking one prompt to do everything. One agent turns messy historical text into a clean event timeline, one reads the broad regime, another tracks local shocks, and a synthesizer reconciles them with calibration from past errors. The interesting result is not merely that context helps, but that structure helps the language model use context without losing the time series. The evidence is still narrow: Zillow counts, seven equities, post-cutoff data, and single-run evaluations, so this is not a universal law of forecasting. But the direction is clear: future forecasters will not only extrapolate curves; they will argue about what made the curve move. ---- Paper Link – arxiv. org/abs/2605.14389 Paper Title: "Nexus : An Agentic Framework for Time Series Forecasting"

译谷歌新论文提出Nexus框架，将预测重构为推理问题，强调结合事件背景而非仅依赖历史数据。该框架采用多智能体分工：一个从文本中提取清晰事件时间线，一个分析宏观态势，另一个追踪局部冲击，最后由合成器结合时间序列进行校准。在Zillow的测试中，基于Claude的某个版本将平均绝对百分比误差降低了86.6%。研究表明，结构化的上下文能帮助语言模型有效利用信息而不丢失时间序列特性。尽管当前证据仅涵盖房地产数据和少数股票，但方向明确：未来预测不仅会推断曲线，还将解释曲线变动的原因。

Rohan Paul@rohanpaul_ai · 5月17日57

New Stanford paper argues that, under equal reasoning budgets, one LLM usually solves multi-hop problems better than many coordinated ones. The core point is almost embarrassingly simple. A single agent keeps the whole problem in one internal chain of thought, while a multi-agent system has to slice that chain into messages, summaries, and handoffs. Every handoff is a compression step. And once reasoning is compressed, some information is easier to drop than to recover, which is why the paper leans on the Data Processing Inequality as a formal explanation rather than just an empirical hunch. The experiments back that up across Qwen, DeepSeek, and Gemini on FRAMES and MuSiQue: when thinking-token budgets are matched, single-agent systems usually match or beat sequential, debate, role-based, and ensemble setups. Here’s the part most people miss. Many celebrated multi-agent gains may not be architectural gains at all. They often come from spending more test-time compute, surfacing more visible reasoning, or benefiting from evaluation quirks that make the pipeline look smarter than it is. The paper is especially sharp when it looks for the boundary case instead of pretending the rule is universal. When the single agent’s effective context is degraded by masking, substitution, or misleading distractors, multi-agent pipelines become more competitive and sometimes win, not because message passing is magical, but because structure can partially stabilize corrupted reasoning. That is a much narrower and more useful claim than “more agents is better.” It suggests the real trade-off is not single versus multi so much as latent reasoning versus external coordination, with context quality and compute accounting deciding which side looks stronger. For multi-hop reasoning, the default should now be clear: start with one strong model, and treat extra agents as a repair strategy, not an upgrade. ---- Paper Link – arxiv. org/abs/2604.02460 Paper Title: "Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets"

译斯坦福论文论证，在相等推理令牌预算下，单个LLM解决多跳问题通常比多代理系统更有效。核心在于单代理能保持完整的内部思维链，而多代理需将思维分割为消息传递与交接，每次交接都压缩信息并导致丢失，这以数据处理不等式为形式化解释。实验在多个模型和数据集上验证，预算匹配时单代理表现等同或优于多种多代理设置。多代理的常见增益可能源于额外计算或评估偏差，而非架构优势。论文建议，多跳推理应默认从强单代理开始，仅当单代理上下文受干扰退化时，才将多代理结构作为修复策略使用。

Berryxia.AI@berryxia · 5月17日61

讲真，这种言论只有真正牛的人才敢说啊！本科生就可以来完成LLM的数学训练！ Terence Tao 最近在访谈里把 LLM 最核心的谜题直接说透了。这位 Fields Medal 得主、数学界最高荣誉，被称作数学界诺贝尔奖，当代最顶尖的数学家之一，说：今天大模型背后的数学其实非常简单。线性代数、矩阵乘法，再加一点微积分，本科生就能完全掌握。我们清楚知道怎么训练、怎么运行它们。但真正让人困惑的是：为什么它们在某些任务上表现惊人，在另一些任务上却突然翻车，而且我们完全无法提前预测。核心原因在于现实世界的数据，自然语言文本。它既不是纯噪声，也不是完全结构化的数据，而是坐在“中间地带”：部分有序、部分随机。目前数学界对这个中间区域的理论还非常薄弱。所以我们能造出强大的模型，却没法可靠预测它的能力边界。这个“简单机制 vs 不可预测行为”的矛盾，才是当前 AI 最核心的 puzzle。完整访谈视频在这里（Dr Brian Keating 频道）👇🏻：

译菲尔兹奖得主陶哲轩指出，当前大语言模型（LLM）的数学基础（线性代数、矩阵乘法、微积分）其实很简单，本科生即可掌握。我们清楚如何构建和运行这些模型。真正的核心谜题在于，我们无法可靠预测它们为何在某些任务上表现出色，却在另一些任务上失败。关键在于现实世界的数据（如自然语言）处于“中间地带”——既非纯噪声，也非完全结构化，而是部分有序、部分随机。目前数学界对此类中间状态的理论非常薄弱，导致我们能描述模型机制，却无法解释其能力跃升或给出可靠的任务级预测。这种“简单机制”与“难以预测的行为”之间的矛盾，是当前AI领域的核心难题。

Emad@EMostaque · 5月17日60

Recursive self-improvement is very reasonably the greatest near-term threat to democracy & peace out there

译35名美国国会议员联名致信白宫，警告通用AI模型的递归自我改进能力可能构成近期对民主与和平的最大威胁。信件指出，随着模型能力提升，AI可能在网络安全、化学、生物、放射及核相关研究乃至AI自身研发领域获得新能力，而政府机构与基础设施管理者可能来不及应对。议员强调，无论AI能力发展速度如何，联邦机构必须能够及时识别关键新能力并快速响应。