OpenAI开发的人工智能模型成功解决了数学界悬而未决逾80年的“单元距离问题”，并由此推翻了离散几何领域的一个核心猜想。这一突破被视作人工智能驱动数学研究的里程碑事件，标志着AI在基础科学理论探索中取得了实质性进展。该模型通过创新算法处理复杂的几何问题，展示了机器在自动化发现与验证数学猜想方面的巨大潜力。

OpenAI 推理论文/研究

关联讨论 8 条

推荐理由：数学界等了80年的猜想被AI自己证伪了，而且用的是代数数论这种“跨界”手法，这个里程碑说明AI的创造性推理已经进入前沿研究。虽然实战还用不上，但作为能力信号，值得每个关心AI前沿的人看。

02:15

Simon Willison 博客

每秒10个token到底有多快？

开发者Mike Veerman创建了一个名为tokenspeed的HTML应用程序，可模拟从每秒5个到800个token的LLM文本输出速度。用户能够直观感知模型广告中常见速度指标（如30 tokens/秒）的实际生成效果。该工具源代码公开，信息来源于Hacker News，适用于需要理解生成式AI响应速度的开发者与普通用户。

开源/仓库推理

00:44

Google Gemini@GeminiApp

同事件精选74

Gemini 3.5 Flash能快速提供整理好的结果，无论输入多么混乱。看看Gemini如何将与客户的聊天和文本，转化为您小企业可用的文档。

Google 推理模型发布

同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

推荐理由：Gemini 3.5 Flash 的核心不是刷榜，而是解决现实中‘信息像一堆垃圾’的问题，这种从杂乱输入直接生成文档的能力，对小企业和自由职业者比 SOTA 更有用。

00:05

AK@_akhaliq

基于点互信息的推理强化学习反自蒸馏方法

arXiv 推理数据/训练论文/研究

5月20日

22:08

Berryxia.AI@berryxia

性能飞跃但成本激增，Gemini 3.5 Flash重新定义"轻量"？

Google发布的Gemini 3.5 Flash在性能上实现飞跃，智能指数达55分，超越Grok 4.3等竞品，幻觉率大幅下降，输出速度超280 tokens/s。然而，其运行成本是前代的5.5倍，定价显著提高，引发对“Flash”是否仍代表“便宜”的讨论。该模型已在ZenMux平台开放免费体验，实际测试显示效果惊艳，在多项Agent和多模态榜单中表现顶尖，标志着顶级智能与极致速度的新结合。

Berryxia.AI: 兄弟们! 今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了! 我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 Prompt ,不同模型画出的树形态完全不一样。(见视频-Prompt见评论区) G...

Google 多模态推理评测/基准

22:08

HuggingFace Daily Papers（社区热门论文）

用于高效全能模态大语言模型的阶段自适应Token选择

全能模态大语言模型在处理交织的视频与音频token时，固定比例的剪枝方法无法适应跨模态重要性随网络深度的动态变化。为此，本文提出无需训练的阶段自适应token选择方法SEATS。该方法在模型输入前通过注意力加权进行去冗余，在模型内部逐层动态分配模态保留配额，并在跨模态融合完成后移除所有剩余非文本token。实验在Qwen2.5-Omni和Qwen3-Omni模型上验证，仅保留10%的视觉和音频token，即可实现9.3倍FLOPs削减与4.8倍预填充加速，同时保持96.3%的原始性能。

arXiv Hugging Face 多模态推理

22:02

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选81

Qwen3.7-Max：智能代理的前沿

智能代理领域迎来新突破，Qwen3.7-Max于2026年5月20日发布，标志着前沿技术的演进。该模型聚焦智能代理创新，具体细节可通过qwen.ai博客获取。发布消息在Hacker News上获得128个关注点，显示技术社区的广泛兴趣。尽管未披露详细性能指标，但Qwen3.7-Max的推出暗示了在自主代理架构或任务处理能力上的提升，推动AI向更高效、智能的方向发展。

智能体推理模型发布编码

同一事件，精选展示《Qwen3.7-Max：面向智能体时代的最新专有模型》

推荐理由：Qwen3.7-Max 在多个 agent 基准上达到甚至超越 Opus 4.6 水平，长程自主优化 35 小时跑出 10 倍速度提升，证明 agent 长跑能力不是概念，做自动化工具的值得跟进。