5月21日

08:00

HuggingFace Daily Papers（社区热门论文）

当前视觉语言模型常出现“功能性失明”，即利用强大的语言先验绕过视觉表征瓶颈，而非真正融合多模态信息。本研究挑战了依赖数据消融的传统评估方法，提出了信息论框架下的“模态翻译协议”来量化“感知的代价”。该方法定义了三个新指标（Toll, Curse, Fallacy）与语义充分性准则。研究还假设存在多模态缩放的“分歧定律”：随着语言模型推理能力增强，视觉知识瓶颈带来的性能惩罚可能不降反升。这为构建更可信的多模态推理系统提供了新的评估工具与设计思路。

arXiv 多模态推理论文/研究

06:44

智谱：研究（网页内嵌数据）

精选69

ZCube：超大规模大模型推理的网络优化

针对超大规模大模型推理，ZCube网络架构通过取消Spine层、将Leaf交换机分组并全互联等创新设计，有效解决了推理网络的拥塞问题。该架构在集群实测中，实现了交换机与光模块资本支出减少33%、GPU平均推理吞吐提升15%，同时将首token延迟的P99值大幅降低40.6%，在降低成本的同时显著提升了推理性能。

推理论文/研究部署/工程

关联讨论 1 条

推荐理由：千卡以上推理集群的团队该看一眼，智谱这个网络设计砍掉三分之一交换机成本，吞吐还涨15%，尾时延降四成，有实测数据不是白皮书。

04:28

TechCrunch：AI（RSS）

同事件精选79

OpenAI 声称其解决了一道存在了80年的数学问题--这次来真的

OpenAI 宣布其推理模型成功证伪了一道自1946年起悬而未决的几何猜想。与以往不同，此次声称获得了此前曾指出OpenAI相关声明存在错误的数学家们的认可与支持，这为其结论的可靠性提供了关键背书。

OpenAI 推理论文/研究

同一事件，精选展示《OpenAI模型证伪了离散几何中的一个核心猜想》

推荐理由：从上次的虚报到这次拿出数学家背书，OpenAI 真的让 AI 自主推翻了一个 80 年猜想，这不仅是数学突破，更证明推理模型能处理超长链条的复杂问题。

04:03

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选93

OpenAI的一个模型推翻了离散几何学中的一项核心猜想

OpenAI宣布其开发的人工智能模型成功证伪了离散几何学领域的一个核心猜想。该模型通过自动化推理与证明过程，推翻了这一长期存在的数学假设，标志着AI在抽象数学研究与定理证明方面取得了实质性突破。这项成果不仅展示了大型语言模型在科学发现中的潜力，也为利用AI解决复杂科学问题提供了新的范例。

OpenAI 推理论文/研究

同一事件，精选展示《OpenAI模型证伪了离散几何中的一个核心猜想》

推荐理由：一个通用推理模型自主攻破了 80 年未解的厄尔多斯单位距离猜想，证明被顶级数学家背书。这不再是辅助证明，而是独立的数学发现，对 AI 推理能力的证明比任何基准都直接。

03:07

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选88

OpenAI模型证伪了离散几何中的一个核心猜想

OpenAI开发的人工智能模型成功解决了数学界悬而未决逾80年的“单元距离问题”，并由此推翻了离散几何领域的一个核心猜想。这一突破被视作人工智能驱动数学研究的里程碑事件，标志着AI在基础科学理论探索中取得了实质性进展。该模型通过创新算法处理复杂的几何问题，展示了机器在自动化发现与验证数学猜想方面的巨大潜力。

OpenAI 推理论文/研究

关联讨论 12 条

推荐理由：数学界等了80年的猜想被AI自己证伪了，而且用的是代数数论这种“跨界”手法，这个里程碑说明AI的创造性推理已经进入前沿研究。虽然实战还用不上，但作为能力信号，值得每个关心AI前沿的人看。

02:15

Simon Willison 博客

每秒10个token到底有多快？

开发者Mike Veerman创建了一个名为tokenspeed的HTML应用程序，可模拟从每秒5个到800个token的LLM文本输出速度。用户能够直观感知模型广告中常见速度指标（如30 tokens/秒）的实际生成效果。该工具源代码公开，信息来源于Hacker News，适用于需要理解生成式AI响应速度的开发者与普通用户。

开源/仓库推理

5月20日

22:08

HuggingFace Daily Papers（社区热门论文）

用于高效全能模态大语言模型的阶段自适应Token选择

全能模态大语言模型在处理交织的视频与音频token时，固定比例的剪枝方法无法适应跨模态重要性随网络深度的动态变化。为此，本文提出无需训练的阶段自适应token选择方法SEATS。该方法在模型输入前通过注意力加权进行去冗余，在模型内部逐层动态分配模态保留配额，并在跨模态融合完成后移除所有剩余非文本token。实验在Qwen2.5-Omni和Qwen3-Omni模型上验证，仅保留10%的视觉和音频token，即可实现9.3倍FLOPs削减与4.8倍预填充加速，同时保持96.3%的原始性能。

arXiv Hugging Face 多模态推理

22:02

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选81

Qwen3.7-Max：智能代理的前沿

智能代理领域迎来新突破，Qwen3.7-Max于2026年5月20日发布，标志着前沿技术的演进。该模型聚焦智能代理创新，具体细节可通过qwen.ai博客获取。发布消息在Hacker News上获得128个关注点，显示技术社区的广泛兴趣。尽管未披露详细性能指标，但Qwen3.7-Max的推出暗示了在自主代理架构或任务处理能力上的提升，推动AI向更高效、智能的方向发展。

智能体推理模型发布编码

同一事件，精选展示《Qwen3.7-Max：面向智能体时代的最新专有模型》

推荐理由：Qwen3.7-Max 在多个 agent 基准上达到甚至超越 Opus 4.6 水平，长程自主优化 35 小时跑出 10 倍速度提升，证明 agent 长跑能力不是概念，做自动化工具的值得跟进。

20:00

OpenRouter：Announcements（RSS）

一个机器人正朝你奔来：你希望它运行在Claude还是Grok上？

一场涵盖11个大语言模型的30轮大逃杀式评测，花费482美元推理成本，得出了一个应改变读者阅读模型基准方式的关键发现。

推理评测/基准

18:41

MarkTechPost（RSS）

英伟达AI发布Nemotron-Labs-Diffusion：单次前向传播生成Token数较Qwen3-8B提升6倍的三模式语言模型

英伟达发布了Nemotron-Labs-Diffusion语言模型家族，其核心创新在于将自回归、基于扩散的并行解码以及自推测解码三种解码模式统一于单一架构。该模型提供3B、8B和14B三种参数规模，并包含基础版、指令微调版和视觉语言版本。相较于Qwen3-8B，其8B参数版本在单次前向传播中能够生成多达6倍的Token数量，显著提升了吞吐效率。

多模态推理模型发布

15:12

MarkTechPost（RSS）

Google发布Gemini 3.5 Flash：在2026年I/O大会上推出一款更快速、更经济的AI智能体与编码模型

Google在2026年I/O大会上发布了新一代模型Gemini 3.5 Flash。该模型在代码生成和AI智能体任务等基准测试中性能超越了此前的旗舰版本，同时运行速度提升四倍，推理成本降低一半。这一更新显著增强了模型在实际应用中的效率与经济性，特别面向需要快速响应和复杂任务处理的开发者场景。

智能体 Google 推理模型发布

15:07

HuggingFace Daily Papers（社区热门论文）

精选72

CopT：基于连续空间对比验证的在策略推理

CopT提出了一种反转传统链式思考（CoT）顺序的推理框架：先生成草稿答案，再进行策略内反思。其核心是将连续嵌入向量转化为推理时的对比验证器，通过比较模型在离散令牌与连续嵌入输入下对同一生成令牌的支持度，构建序列级反向KL估计器，以此评估答案的可靠性。当答案不可靠时，CopT会执行进一步思考，并利用第二个KL估计器动态控制草稿答案的可见性，在保留有用信息与规避误导间取得平衡。在无需额外训练的前提下，该方法在数学、编程等任务上显著提升了准确率（最高达23%）并大幅减少了令牌消耗（高达57%）。

智能体 GitHub 推理论文/研究

推荐理由：CopT把推理流程反了过来，先草稿答案再自我反思，用连续嵌入对比验证可靠性，在数学/编码/Agent任务上提点23%省token57%，思路可能改写推理范式。

13:05

HuggingFace Daily Papers（社区热门论文）

PEEK：面向长上下文LLM智能体的上下文映射缓存

针对现有方法在处理重复长外部上下文时未能有效保存和重用定向知识的问题，本文提出PEEK系统。该系统将关于上下文内容、组织方式及历史有用实体的知识缓存为一个小型固定大小的上下文映射，并置于智能体提示中，以持续辅助处理外部上下文。PEEK通过蒸馏、制图和驱逐模块的可编程缓存策略维护映射。实验表明，在长上下文推理和信息聚合任务上，PEEK相比强基线提升6.3-34.0%，迭代次数减少93-145次，成本比ACE低1.7-5.8倍；在上下文学习任务中，解决率和标准准确率分别提升6.0-14.0%和7.8-12.1%，成本降低1.4倍。这些成果在多种模型和智能体架构（包括OpenAI Codex）上均有效，证明了上下文映射能帮助智能体更准确高效地处理重复外部上下文。

智能体推理数据/训练论文/研究

12:05

HuggingFace Daily Papers（社区热门论文）

精选72

GoLongRL：面向能力的长期上下文强化学习与多任务对齐

GoLongRL是一个全开源的长期上下文强化学习方案，聚焦于使用可验证奖励的强化学习。该工作提出了面向能力的数据构建方法，公开发布了包含23K样本的数据集、完整构建管线及训练代码。数据集依据长期上下文能力分类，涵盖9种任务类型，由真实文档生成的问答对构成；实验证明该数据集性能优于闭源的QwenLong-L1.5数据集。训练得到的Qwen3-30B-A3B模型在长期上下文任务上达到了与DeepSeek-R1-0528等先进模型可比的性能。此外，提出了TMN-Reweight多任务优化方法，通过任务级归一化和难度自适应加权，在提升平均性能的同时保持或增强了通用能力。

开源生态推理数据/训练论文/研究

推荐理由：开源长上下文RL的配方直接放出来了，数据集+代码全都有。更狠的是单靠数据多样性就干掉了闭源竞品，甚至摸到了DeepSeek-R1的水平，做长上下文的值得复现。