5月22日

02:00

Gary Marcus：The Road to AI We Can Trust（RSS）

精选62

OpenAI与Anthropic近期相继发布重要产品更新。Claude 3.5 Sonnet在多项基准测试中超越GPT-4o，同时宣布API价格下调50%。Anthropic披露其模型训练成本年均增长约3.2倍，而OpenAI被曝已通过企业服务实现单季度超10亿美元营收。两家公司在技术突破与商业化竞赛中，正通过精密的成本核算与性能权衡重塑行业格局。

Anthropic OpenAI 大佬观点推理

推荐理由：Gary Marcus觉得OpenAI的数学奇迹更可能是模型营销，Anthropic的盈利全靠SpaceX折扣，提醒你别急着下结论，AI的现实没那么简单。

01:56

Rohan Paul@rohanpaul_ai

阿里巴巴发布旗舰模型Qwen3.7-Max，专为Agent时代打造

阿里巴巴正式推出最新旗舰模型Qwen3.7-Max，定位为Agent时代的生产级基础模型。该模型在权威评测中得分56.6，较前代显著提升，性能与GPT-5.4相当。其核心优势在于卓越的Agent可靠性，能够在复杂任务中自主规划、调用工具、纠错并持续执行。通过底层深度优化，模型实现了10倍推理加速，并支持长达数小时的自主运行与多工具协作。该模型现已上线阿里云模型工作室，并兼容Claude Code、OpenClaw等主流开发框架，助力开发者构建实际应用。

Qwen: 📣Meet Qwen3.7-Max - our latest flagship, made for the Agent Era. A versatile foundation for agents that actually get th...

智能体 MCP/工具推理模型发布

关联讨论 7 条

00:26

AK@_akhaliq

LongMINT 评估长期智能体系统中多目标干扰下的记忆能力

智能体 arXiv 推理论文/研究

00:26

The Decoder：AI News（RSS）

同事件精选80

OpenAI以"AI数学里程碑"突破自动推理边界，专家正在解析其意义

OpenAI的推理模型证伪了数学家保罗·埃尔德什在1946年提出的关于单位距离几何的猜想。该模型运用了代数数论领域的工具，而专家此前从未预料到这些工具会在此类问题中发挥作用。菲尔兹奖得主蒂姆·高尔斯称此成果为“AI数学发展的里程碑”，并警告称，我们可能已经进入一个人类在解决数学问题方面很难与AI竞争的时代。这项进展标志着自动化推理能力的重要突破。

OpenAI 推理论文/研究

同一事件，精选展示《OpenAI模型证伪了离散几何中的一个核心猜想》

推荐理由：这可能是 AI 首次在严肃数学研究里推翻一个 80 年未解决的正经猜想，菲尔兹奖得主 Tim Gowers 直接说‘人类将很难在数学上胜过 AI’，不是 hype，是界限真的被推了一把。

5月21日

23:11

Berryxia.AI@berryxia

Qwen 3.7 Max与Gemini 3.5 Flash生成二叉树测试对比

新发布的Qwen 3.7 Max正被用户通过“递归分形二叉树”生成测试进行评估。该测试要求模型编写HTML代码，模拟树木从生长到摇曳的动画。此前，Gemini 3.5 Flash已用同一测试进行了展示，其生成完整动画耗时77.56秒，效果被评测者认为惊艳。该测试已成为比较不同AI模型代码生成与创意能力的一种常见方式，用户可借此对比各模型的表现。

Berryxia.AI: 兄弟们! 今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了! 我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 Prompt ,不同模型画出的树形态完全不一样。(见视频-Prompt见评论区) G...

推理编码评测/基准

22:30

凡人小北@frxiaobei

Codex展示了逆向分析并重建软件的惊人能力

用户将Codex工具指向一个现有产品，仅用30分钟就自动分析并输出了该产品的完整技术蓝图，包括架构、数据模型、带有成本估算的提示词，并生成了一份长达378行的重建计划。更令人惊叹的是，现在可以通过一条明确的指令（“/goal implement...”），让Codex尝试一次性重建出与目标产品功能完全一致的成果，展示了其强大的逆向工程与代码生成能力。

Elvis: codex is actually insane 🤯 if you thought frontend cloning was impressive, check this out: I just pointed codex at anot...

OpenAI 推理教程/实践编码

22:12

Alibaba Cloud@alibaba_cloud

Artificial Analysis: Alibaba's new Qwen3.7 Max model scores 56.6 on the Artificial Analysis Intelligence Index, 4.8 points higher than Qwen3....

智能体推理模型发布编码

关联讨论 7 条

21:40

Qwen@Alibaba_Qwen

阿里巴巴近期推出了新一代闭源旗舰模型Qwen3.7 Max。该模型在Artificial Analysis智能指数上获得56.6分，较前代Qwen3.6 Max Preview提升了4.8分，创下阿里系模型最接近全球前沿水平的记录。此次升级主要体现在科学推理、智能体能力和代码生成方面，同时显著降低了模型幻觉率。值得注意的是，其分数提升部分源于模型更倾向于拒绝回答，而非完全依靠事实准确率的提高。技术上，其上下文窗口已扩大至100万tokens，仍保持闭源权重。尽管如此，该模型在整体能力上仍落后于OpenAI、Anthropic和Google的同类产品。

Artificial Analysis: Alibaba's new Qwen3.7 Max model scores 56.6 on the Artificial Analysis Intelligence Index, 4.8 points higher than Qwen3....

智能体推理模型发布编码

关联讨论 7 条

20:56

Rohan Paul@rohanpaul_ai

OpenAI的通用推理模型近期通过连接代数数论与平面几何，成功解决了保持数十年的平面单位距离猜想（Erdős猜想）。关键突破在于模型并非专用定理证明引擎，其成功依赖于延长和深化测试时计算过程，而非仅增加训练数据。这一进展表明前沿大模型已蕴含潜在的数学研究能力，当前瓶颈部分源于模型被允许"思考"的时间和方式。未来方向不是AI取代人类判断，而是在人类判断开始前拓宽思维的疆域，从而推动科学发现与创新。

Rohan Paul: AI in math is creating history again, as OpenAI's general-purpose reasoning model has disproved a major Erdős conjecture...

OpenAI 大佬观点推理

19:29

🚨 AI News | TestingCatalog@testingcatalog

Alibaba Group: Qwen3.7-Max is live! 🚀 Introducing the latest proprietary model, built for advanced agentic coding, complex reasoning, ...

智能体推理模型发布编码

17:03

Orange AI@oran_ge

AI自主破解80年数学难题，里程碑式突破

OpenAI未公开的内部通用推理模型，自主解决了数学家Erdős于1946年提出的平面单位距离问题，颠覆了近80年来学界对解法结构的普遍预期。该模型通过125页思维链，创新运用代数数论工具解决离散几何问题，实现了跨领域方法论突破。更值得注意的是，该模型并非专攻数学训练，其成果表明通用推理能力达到一定阈值后可能自然催生创造性，标志着AI在基础科学领域迈出了关键一步。

OpenAI: Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...

OpenAI 推理论文/研究

关联讨论 8 条

16:28

🚨 AI News | TestingCatalog@testingcatalog

新的MTP技术通过提前草拟多个令牌并一次完成验证，使Qwen 3.6模型在Atomic Chat中的运行速度提升高达2.5倍。该技术对Dense模型（如Qwen 3.6 27B）加速显著，速度从51提升至117 tokens/s；而对MoE模型（如Qwen 3.6 35B-A3B）提升相对较小（25%）。MTP实现了约80%的草稿接受率，无精度损失，仅需额外约1GB显存。用户可通过开源的Atomic Chat应用在本地测试该模型。

atomic.chat: MTP speedup Qwen by 2.5x in Atomic Chat Dense vs MoE models on 2x RTX 5090 Qwen3.6 27B: 51 → 117 tps +137% Qwen3.6 35B-A...

产品更新推理

16:28

Artificial Analysis@ArtificialAnlys

阿里云发布Qwen3.7 Max模型，评测得分56.6分

阿里云发布闭源旗舰模型Qwen3.7 Max，在Artificial Analysis智能指数上获得56.6分，较前代Qwen3.6 Max Preview提升4.8分，与国际前沿模型的差距有所缩小。其进步主要体现在科学推理、智能体及编码能力上。值得注意的是，本次评分提升很大程度上源于模型在“AA-Omniscience”基准上主动选择“不回答”的次数增多，从而将幻觉率从44.2%显著降至22.9%。此外，该模型的上下文窗口已扩大至100万token，但仍延续了Max系列的闭源策略。

推理模型发布编码

15:57

Greg Brockman@gdb

AI在数学领域实现了新知识生成的里程碑式突破。OpenAI模型解决了组合几何中悬而未决的著名难题--平面单位距离问题（Erdos 1946），首次证明通过AI方法可将该问题中单位距离对的数量提升至超线性规模（n^{1+δ}），超越了以往所有人类已知的线性构造。这标志着AI从解决已知问题迈向发现新数学的重要进展。该突破引发了研究者"难以入睡"的强烈反响，被视为AGI时代临近的信号。

Alex Dimakis: A breakthrough by OpenAI in a very famous Combinatorics problem, the Planar Unit Distance problem by Erdos 1946. The pro...

OpenAI 推理论文/研究

关联讨论 8 条

15:26

Rohan Paul@rohanpaul_ai

AI通用推理突破80年数学猜想

OpenAI的通用推理模型自主解决了一个自1946年以来未解的著名数学难题——平面单位距离问题。该模型没有采用专门为数学设计的定定理证明引擎，而是通过推理时增强计算能力，发现了优于传统网格结构的新构造方案。这标志着AI首次自主解决一个数学领域的核心开放问题。更重要的是，该模型能将几何问题与代数数论等深层理论连接，展示了通用人工智能在跨领域研究和拓宽人类认知边界方面的巨大潜力。

OpenAI: Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...

OpenAI 推理论文/研究

关联讨论 8 条

15:26

Rohan Paul@rohanpaul_ai

小模型大智慧：随机推理实现性能超越

仅1000万参数的GRAM模型，通过引入可学习的随机性，在推理时并行探索多条不同路径，打破了传统递归模型锁定单一思维的限制。该模型在测试时同时运行这些平行轨迹，并借助奖励预测器选择最优结果，从而在深度之上增加了“宽度”维度。实验表明，GRAM在困难数独任务上准确率高达97%，远超此前最佳确定性模型；在多解的皇后问题上也能维持高性能，并能高效生成有效的数独谜题。这一框架为提升小模型的推理能力提供了新思路。

推理论文/研究

14:58

IT之家（RSS）

AI 推翻著名几何猜想，OpenAI 宣布攻克 80 年数学难题

OpenAI宣布其全新推理模型成功解决了一道提出近80年的几何猜想，推翻了关于最优解形态的长期认知。该猜想由保罗·埃尔德什于1946年提出，长期以来数学家认为其最优解接近正方形网格。OpenAI模型发现了一类更优的全新构造体系，这是人工智能首次自主攻克数学核心领域的重大未解难题。多位数学家为该证明提供了佐证。OpenAI表示，这意味着AI已具备更强推理能力，并将对科学多领域产生深远影响。

OpenAI 推理论文/研究

关联讨论 8 条

14:30

X.PIN@thexpin

刚刚测试了阿里巴巴全新的Qwen3.7-Max。提示词：构建一个单文件物理模拟网页：风洞、布料、软体、流体，全部集成在一个index.html中，CSS + JS内联。

推理教程/实践

关联讨论 7 条

14:10

HuggingFace Daily Papers（社区热门论文）

OCTOPUS：基于八面体参数化与最优平方误差量化的Transformer优化KV缓存

本文提出了OCTOPUS，一种用于Transformer长上下文推理的新型KV缓存压缩方法。它通过联合量化旋转后的坐标三元组来优化现有旋转编码器的性能。其核心在于将每个三元组的方向通过八面体参数化映射至正方形，并对量化坐标与三元组范数实施最优平方误差量化，从而实现了一种仅依赖于键总维度的严格非均匀比特分配策略。实验表明，OCTOPUS在文本、视频和音频任务上，在所有测试的比特宽度和指标上均达到或超越了此前的旋转编码器，并在极端压缩时优势尤为显著。此外，其融合Triton实现能在线重建键值，不引入额外的解码带宽或延迟。

arXiv 多模态推理论文/研究

14:10

HuggingFace Daily Papers（社区热门论文）

只需最少RLVR训练：通过秩-1轨迹外推大语言模型

研究发现，强化学习与可验证奖励训练大语言模型时，权重变化轨迹具有极低的秩且高度可预测，性能增益主要由秩-1逼近捕获，且随训练步骤线性演化。基于此，提出RELEX方法，仅需从短观察窗口估计秩-1子空间，通过线性外推预测后续检查点，无需学习模型。在多个模型上，RELEX仅需15%的完整训练步骤，即可在域内和域外基准上匹配或超越RLVR性能，并能以零额外成本外推至观察窗口的10-20倍，性能持续提升。成功源于秩-1投影实现的“去噪”效应，有效剔除随机优化噪声。

开源生态推理数据/训练论文/研究

13:58

IT之家（RSS）

英伟达确认新一代超级AI芯片Vera Rubin下半年推出，黄仁勋称其必将超越前代

英伟达公布第一季度财报，营收达创纪录的816亿美元，同比增长85%。公司确认下一代超级AI芯片Vera Rubin将于今年下半年推出，第三季度开始交付，第四季度上量加速。CEO黄仁勋表示，Vera Rubin开局良好，推理市场份额增长迅速，肯定会比Grace Blackwell更成功。该芯片已基于3nm工艺量产，试产计划于2026年6月启动，首批产品7月将运往微软、谷歌等北美大客户，其AI服务器机柜价值约1.8亿美元。

产品更新推理部署/工程

12:44

Chubby♨️@kimmonismus

OpenAI突破性解决平面单位距离问题

OpenAI内部推理模型自主解决了存在近80年的著名数学开放问题——平面单位距离问题。该模型推翻了Paul Erdős的猜想，发现了全新的点配置构造，其效率以固定多项式因子优于传统方格网格方案。证明运用了代数数论等跨学科方法，经外部数学家验证，被Fields奖得主Tim Gowers誉为“AI数学的里程碑”。这是AI首次独立解决数学领域的核心公开问题，标志着从知识复现到知识创造的重要转变，其跨领域推理能力可能为多学科研究带来深远影响。

OpenAI: Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...

OpenAI 推理论文/研究

关联讨论 8 条

12:14

Rohan Paul@rohanpaul_ai

MTP技术大幅提升本地大模型速度

atomic.chat的MTP（多Token预测）技术通过一次验证多个草稿token，有效减少了GPU重复读取模型权重的次数，显著提升了本地大模型的推理速度。测试显示，27B密集模型的速度从51 token/s提升至117 token/s，提升约137%；35B MoE模型在2x RTX 5090上速度提升约25%。该技术实现了约80%的草稿接受率，无精度损失，仅需额外约1GB显存。由于密集模型需要读取全部参数，其从该技术中获益更大。此项目已开源。

atomic.chat: MTP speedup Qwen by 2.5x in Atomic Chat Dense vs MoE models on 2x RTX 5090 Qwen3.6 27B: 51 → 117 tps +137% Qwen3.6 35B-A...

产品更新开源生态推理

11:09

HuggingFace Daily Papers（社区热门论文）

PlanningBench：一个用于评估和训练大语言模型的可扩展、可验证规划数据生成框架

本文提出了PlanningBench框架，旨在为评估与训练大语言模型生成可扩展、多样且可验证的规划数据。框架源于真实场景，抽象出包含30余种任务类型、约束与难度因素的结构化分类体系，并基于此实现了约束驱动的数据合成流程，该流程具备自适应难度控制、质量过滤与实例级验证能力。研究利用该框架评估了前沿大模型，发现其在耦合约束下仍难以生成完整解决方案。此外，基于PlanningBench数据的强化学习不仅提升了模型在未知规划任务上的表现，也增强了其指令遵循能力，并表明明确的最优解能提供更稳定的训练信号。

arXiv 推理数据/训练论文/研究

11:03

AYi@AYi_AInotes

OpenAI模型突破性自主解决80年数学悬案

OpenAI的一个AI模型自主攻克了“平面单位距离问题”，这是数学家埃尔德什于1946年提出的一个著名开放难题。近80年来，学界普遍认为最优构造近似于方格子，而该AI模型通过运用代数数论中冷门的Golod-Shafarevich理论，发现了一整族效率更高的全新构造，推翻了原有定见。此成就标志着AI首次独立解决一个数学领域的核心开放问题，其关键在于提出并完整执行了一条人类因直觉认为不可行而从未尝试的创新路径。

OpenAI: Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...

OpenAI 推理论文/研究

关联讨论 8 条