5月27日

02:02

Ethan Mollick@emollick

无限上下文窗口似乎给AI应用带来了巨大问题。当今的模型已经将太多旧信息泄露到当前回复中，这种干扰是它们使用起来令人认知疲劳的部分原因。我不想与博尔赫斯的"记忆者富内斯"共事。

大佬观点推理现象/趋势

01:34

Rohan Paul@rohanpaul_ai

"第一滴墨水：误导信息对长上下文推理的非线性影响"

ICML 2026论文揭示，长上下文大语言模型的性能并非随错误信息增加而线性下降，而是呈现“第一滴墨水”效应。研究发现，仅当上下文包含10%的高难度错误文本时，损害就已基本完成。例如，在一个128K-token的Qwen2.5设置中，这最初的10%错误文本造成了58%的性能损失。其机制在于softmax注意力机制会赋予与问题相近但错误的文本过高权重，仅这10%的高难度干扰文本就能贡献约97%的干扰压力。因此，过滤文档带来的提升可能主要源于缩短了有效上下文，而非移除“坏内容”。

Muhan Gao: 🤖 We often talk about "context rot": LLMs get worse as context grows. But once distracting information enters, is it ju...

arXiv 推理教程/实践

01:20

AYi@AYi_AInotes

纳瓦尔财富创造思维体系系统提示词

该提示词构建了一个以纳瓦尔·拉维康特思想为核心的财富创造操作系统。其核心是“财富 = 专属知识 × 杠杆 × 判断力 × 责任感”的公式，并明确了杠杆的优先级：代码、媒体、资本、劳动力。系统强调运用第一性原理、二阶思维、非对称回报（至少3:1）等框架进行决策，致力于识别个人专属知识并利用杠杆将其产品化。思维模式追求长期复利效应（如每天进步1%），要求以十年为单位进行思考与行动，最终实现资产构建而非单纯时间换金钱。

AYi: http://x.com/i/article/2057300084354670592

推理教程/实践

01:07

Artificial Analysis@ArtificialAnlys

Gemini 3.5 Flash速度与agent能力提升，但成本显著增加

Gemini 3.5 Flash在速度与agent能力上实现进步，实测输出速度可达约280 output tokens/sec，在GDPVal-AA agent任务中ELO提升至约1650，相比Gemini 3 Flash有显著提升。但代价是成本增加约5倍，主要因token单价上涨（为Gemini 3.5 Flash的3倍）以及使用量更高。

智能体 Google 推理评测/基准

00:32

Chubby♨️@kimmonismus

Claude Mythos 解决 Erdős 问题 #90

数学家测试了 Claude Mythos 模型解决开放数十年的 Erdős 问题 #90。值得注意的是，Mythos 未复制 OpenAI 已知解法（题号 #1196），而是反复采用了另一条论证路径，被评价为更“简洁”且无“分析复杂性”，且整个过程与网络隔离。此前，GPT-5.5 已解决过多道 Erdős 问题，深度求索的 Nexus 模型解决了 9 道。此次 Mythos 给出了比现有解法更简洁的证明，凸显了一个 80 年难题在数周内被接连攻破的趋势。

levent: over the weekend i checked the obvious thing, which is whether mythos is able to solve the erdos unit distance problem, ...

Anthropic 推理现象/趋势

00:15

公众号：小米 MiMo

MiMo-V2.5 系列调价公告丨百万亿 Token 创造者激励计划收官

MiMo-V2.5 系列 API 永久降价，新定价最高降幅达 99%，不再区分上下文窗口长度，于北京时间 5 月 27 日 0 点生效。Token Plan 计费优化，用量提升至原来 5-8 倍，计费规则更清晰。百万亿 Token 创造者激励计划提前收官，100T Tokens 已全部发放。现有 Token Plan 用户额度于 5 月 27 日 0 点全量重置，按新规则执行。推理优化基于 SGLang HiCache 支持 SWA，KV Cache 搬运量降至近 1/7，可缓存 token 数量提升至近 5 倍。

产品更新推理部署/工程

00:13

IT之家（RSS）

首个被纳入的 AI 训练推理芯片，摩尔线程 MTT S5000（PH100 芯片）通过国家《安全可靠测评》

摩尔线程 MTT S5000（基于 PH100 芯片）成为首款通过国家《安全可靠测评》的人工智能训练推理芯片。该芯片单卡 AI 算力（稠密）达 1000 TFLOPS，配备 80GB 显存（带宽 1.6TB/s），卡间互联带宽为 784GB/s。

推理政策/监管端侧

00:01

Chubby♨️@kimmonismus

MiniMax发布M3稀疏注意力，1M上下文下解码加速15.6倍

MiniMax预览了其M3架构采用的新稀疏注意力（Sparse Attention）技术。测试显示，在1M token上下文下，该技术相比M2实现了9.7倍的预填充（prefilling）加速和15.6倍的解码（decoding）加速。M2曾为保证生产环境就绪而采用全注意力机制，M3则采用了新的两阶段方法：先用轻量级索引分支选择数据块，再仅对相关的KV块执行稀疏注意力。这是开源领域的新进展。

MiniMax (official): #MSA #OpenSource #M3 🫣😎

开源生态推理模型发布

5月26日

23:49

Nathan Lambert：Interconnects（RSS）

精选67

未来展望：2026年5月的一些想法

文章展望了截至2026年5月AI领域的动态。内容涉及 Gemini Flash 3.5 的发布、名为 Mythos 的新产品或项目、开源与闭源生态平衡（open-closed balance）的讨论、美国开源力量的显著增长（America's open-source surge），以及由此引发的新兴权力博弈（emerging power struggles）。

Anthropic Google 大佬观点开源生态

推荐理由：Nathan Lambert 对开源模型追赶闭源的周期判断、Gemini 在编码代理领域的缺位分析，以及美国开源模型崛起的观察，为理解当前鼎立格局提供了扎实的坐标，值得从业者细读。

23:27

Berryxia.AI@berryxia

论文《Language Models Need Sleep》摘要

CMU与UMD的研究团队在论文《Language Models Need Sleep》（arXiv 2605.26099）中指出，传统Transformer模型在处理长任务时，因注意力机制计算复杂度高及KV cache显存占用持续增长而导致效率低下。为此，他们提出了受生物启发的“类睡眠巩固”机制：模型会周期性进入“睡眠”状态，离线多轮处理最近的上下文，并将信息固化到模型状态空间块的fast weights中，随后清空KV cache。实验表明，增加睡眠深度或时长能显著提升模型后续的推理能力。该框架完全开源，提供了一种区别于暴力堆显存的长上下文处理新范式。

himanshu: very cool research (and nomenclature)

arXiv 开源生态推理论文/研究

23:27

Berryxia.AI@berryxia

大语言模型需要"睡眠"来巩固记忆

CMU与UMD的研究指出，当前长上下文大语言模型（如Mamba、Jet-Nemotron、Qwen3.5）的瓶颈并非记忆容量，而是“巩固计算”不足。论文《Language Models Need Sleep》提出，可模仿人类睡眠的海马回放机制，在清空前对模型的fast weights进行多次迭代更新（N次forward pass），以提升推理能力。实验表明，该机制在Rule 110元胞自动机及多跳图检索等任务上显著提升了模型性能，且不增加推理延迟。

推理现象/趋势

23:27

Berryxia.AI@berryxia

大语言模型需要"睡眠"以提升推理准确率

研究者提出新方法，认为大语言模型在处理长上下文信息后，需要类似“睡眠”的巩固过程以提升多跳推理能力。该方法要求在清除KV cache前，让模型对当前context进行多次forward pass，将信息沉淀进模型的快速权重中，而非在用户等待时进行思考。实验表明，在相同token预算下，此方法可将多跳推理任务的准确率大幅提升52%，且推理延迟不变。

Berryxia.AI: http://x.com/i/article/2059287655335206912

大佬观点推理