AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
5月22日周五
02:00Gary Marcus:The Road to AI We Can Trust(RSS)62精选核算OpenAI和Anthropic最新动态背后的数学
01:56Rohan Paul84阿里巴巴发布旗舰模型Qwen3.7-Max,专为Agent时代打造
00:26AK56长期智能体系统多目标干扰下的记忆评估
00:26The Decoder:AI News(RSS)80同事件精选OpenAI以"AI数学里程碑"突破自动推理边界,专家正在解析其意义同一事件,精选展示《OpenAI模型证伪了离散几何中的一个核心猜想》
5月21日周四
23:11Berryxia.AI71Qwen 3.7 Max与Gemini 3.5 Flash生成二叉树测试对比
22:30凡人小北65Codex展示了逆向分析并重建软件的惊人能力
22:12Alibaba Cloud76阿里巴巴发布闭源旗舰模型Qwen3.7 Max,性能分数跃升
21:40Qwen76阿里巴巴发布新一代旗舰模型Qwen3.7 Max,智能指数跃升至56.6
20:56Rohan Paul64通用大语言模型在获得足够测试时计算时能产生前沿研究
19:29🚨 AI News | TestingCatalog72阿里发布Qwen 3.7 Max专有模型
17:03Orange AI81AI自主破解80年数学难题,里程碑式突破
16:28🚨 AI News | TestingCatalog74MTP技术助力Qwen模型在Atomic Chat上实现2.5倍加速
16:28Artificial Analysis70阿里云发布Qwen3.7 Max模型,评测得分56.6分
15:57Greg Brockman78AI科学发现新范式,数学难题突破现里程碑
15:26Rohan Paul78AI通用推理突破80年数学猜想
15:26Rohan Paul67小模型大智慧:随机推理实现性能超越
14:58IT之家(RSS)79AI 推翻著名几何猜想,OpenAI 宣布攻克 80 年数学难题
14:30X.PIN85测试阿里全新Qwen3.7-Max模型
14:10HuggingFace Daily Papers(社区热门论文)69OCTOPUS:基于八面体参数化与最优平方误差量化的Transformer优化KV缓存
14:10HuggingFace Daily Papers(社区热门论文)69只需最少RLVR训练:通过秩-1轨迹外推大语言模型
13:58IT之家(RSS)67英伟达确认新一代超级AI芯片Vera Rubin下半年推出,黄仁勋称其必将超越前代
12:44Chubby♨️84OpenAI突破性解决平面单位距离问题
12:14Rohan Paul69MTP技术大幅提升本地大模型速度
11:09HuggingFace Daily Papers(社区热门论文)64PlanningBench:一个用于评估和训练大语言模型的可扩展、可验证规划数据生成框架
11:03AYi76OpenAI模型突破性自主解决80年数学悬案
10:30公众号:智谱(GLM)44下一代大模型推理网络架构:ZCube如何有效破解网络瓶颈?
10:11SemiAnalysis60Google为llm-d添加TPU夜间CI支持
10:09HuggingFace Daily Papers(社区热门论文)58生成式递归推理
09:39Ethan Mollick63LLM解难题资源消耗极低,成本约百至千美元
08:00HuggingFace Daily Papers(社区热门论文)46重访均匀扩散模型:留一去噪器与吸收态重构
08:00HuggingFace Daily Papers(社区热门论文)55MotiMotion:基于视觉推理的运动控制视频生成
08:00HuggingFace Daily Papers(社区热门论文)51ThriftAttention:用于长上下文FP4注意力的选择性混合精度
08:00HuggingFace Daily Papers(社区热门论文)49感知的代价:在整体框架内实现可信的多模态推理
06:44智谱:研究(网页内嵌数据)69精选ZCube:超大规模大模型推理的网络优化
05:50Z.ai75ZCube网络架构:破解大模型推理网络瓶颈
05:35Chubby♨️64通用大模型突破:计算资源驱动性能飞跃
05:18Sam Altman84通用模型解决数学重大开放问题
04:33Ethan Mollick72通用大模型数学能力飞速进化
04:33Ethan Mollick48OpenAI IMO金牌模型身份仍未公开
04:33Ethan Mollick72The Graph再现,o1模型能力曲线引关注
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月22日
02:00
Gary Marcus:The Road to AI We Can Trust(RSS)
精选62
核算OpenAI和Anthropic最新动态背后的数学

OpenAI与Anthropic近期相继发布重要产品更新。Claude 3.5 Sonnet在多项基准测试中超越GPT-4o,同时宣布API价格下调50%。Anthropic披露其模型训练成本年均增长约3.2倍,而OpenAI被曝已通过企业服务实现单季度超10亿美元营收。两家公司在技术突破与商业化竞赛中,正通过精密的成本核算与性能权衡重塑行业格局。

AnthropicOpenAI大佬观点推理

推荐理由:Gary Marcus觉得OpenAI的数学奇迹更可能是模型营销,Anthropic的盈利全靠SpaceX折扣,提醒你别急着下结论,AI的现实没那么简单。
01:56
Rohan Paul@rohanpaul_ai
84
阿里巴巴发布旗舰模型Qwen3.7-Max,专为Agent时代打造

阿里巴巴正式推出最新旗舰模型Qwen3.7-Max,定位为Agent时代的生产级基础模型。该模型在权威评测中得分56.6,较前代显著提升,性能与GPT-5.4相当。其核心优势在于卓越的Agent可靠性,能够在复杂任务中自主规划、调用工具、纠错并持续执行。通过底层深度优化,模型实现了10倍推理加速,并支持长达数小时的自主运行与多工具协作。该模型现已上线阿里云模型工作室,并兼容Claude Code、OpenClaw等主流开发框架,助力开发者构建实际应用。

Qwen: 📣Meet Qwen3.7-Max - our latest flagship, made for the Agent Era. A versatile foundation for agents that actually get th...

智能体MCP/工具推理模型发布
关联讨论 7 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:OpenRouter (@OpenRouter)IT之家(RSS)
00:26
AK@_akhaliq
56
LongMINT 评估长期智能体系统中多目标干扰下的记忆能力
智能体arXiv推理论文/研究
00:26
The Decoder:AI News(RSS)
同事件精选80
OpenAI以"AI数学里程碑"突破自动推理边界,专家正在解析其意义

OpenAI的推理模型证伪了数学家保罗·埃尔德什在1946年提出的关于单位距离几何的猜想。该模型运用了代数数论领域的工具,而专家此前从未预料到这些工具会在此类问题中发挥作用。菲尔兹奖得主蒂姆·高尔斯称此成果为“AI数学发展的里程碑”,并警告称,我们可能已经进入一个人类在解决数学问题方面很难与AI竞争的时代。这项进展标志着自动化推理能力的重要突破。

OpenAI推理论文/研究
同一事件,精选展示《OpenAI模型证伪了离散几何中的一个核心猜想》
推荐理由:这可能是 AI 首次在严肃数学研究里推翻一个 80 年未解决的正经猜想,菲尔兹奖得主 Tim Gowers 直接说‘人类将很难在数学上胜过 AI’,不是 hype,是界限真的被推了一把。
5月21日
23:11
Berryxia.AI@berryxia
71
Qwen 3.7 Max与Gemini 3.5 Flash生成二叉树测试对比

新发布的Qwen 3.7 Max正被用户通过“递归分形二叉树”生成测试进行评估。该测试要求模型编写HTML代码,模拟树木从生长到摇曳的动画。此前,Gemini 3.5 Flash已用同一测试进行了展示,其生成完整动画耗时77.56秒,效果被评测者认为惊艳。该测试已成为比较不同AI模型代码生成与创意能力的一种常见方式,用户可借此对比各模型的表现。

Berryxia.AI: 兄弟们! 今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了! 我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 Prompt ,不同模型画出的树形态完全不一样。(见视频-Prompt见评论区) G...

推理编码评测/基准
22:30
凡人小北@frxiaobei
65
Codex展示了逆向分析并重建软件的惊人能力

用户将Codex工具指向一个现有产品,仅用30分钟就自动分析并输出了该产品的完整技术蓝图,包括架构、数据模型、带有成本估算的提示词,并生成了一份长达378行的重建计划。更令人惊叹的是,现在可以通过一条明确的指令(“/goal implement...”),让Codex尝试一次性重建出与目标产品功能完全一致的成果,展示了其强大的逆向工程与代码生成能力。

Elvis: codex is actually insane 🤯 if you thought frontend cloning was impressive, check this out: I just pointed codex at anot...

OpenAI推理教程/实践编码
22:12
Alibaba Cloud@alibaba_cloud
76
阿里巴巴推出其最新闭源旗舰大模型Qwen3.7 Max,在Artificial Analysis智能指数上获得56.6分,较上代预览版提升4.8分,是其迄今最接近国际顶尖水平的模型。此次分数提升主要得益于科学推理、代理和编码能力的增强,其中模型的幻觉率大幅降低(从44.2%降至22.9%)是主要贡献因素。模型的上下文窗口已扩展至100万tokens,仍仅支持文本输入输出,具体定价尚未公布。

Artificial Analysis: Alibaba's new Qwen3.7 Max model scores 56.6 on the Artificial Analysis Intelligence Index, 4.8 points higher than Qwen3....

智能体推理模型发布编码
关联讨论 7 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:OpenRouter (@OpenRouter)IT之家(RSS)
21:40
Qwen@Alibaba_Qwen
76
阿里巴巴近期推出了新一代闭源旗舰模型Qwen3.7 Max。该模型在Artificial Analysis智能指数上获得56.6分,较前代Qwen3.6 Max Preview提升了4.8分,创下阿里系模型最接近全球前沿水平的记录。此次升级主要体现在科学推理、智能体能力和代码生成方面,同时显著降低了模型幻觉率。值得注意的是,其分数提升部分源于模型更倾向于拒绝回答,而非完全依靠事实准确率的提高。技术上,其上下文窗口已扩大至100万tokens,仍保持闭源权重。尽管如此,该模型在整体能力上仍落后于OpenAI、Anthropic和Google的同类产品。

Artificial Analysis: Alibaba's new Qwen3.7 Max model scores 56.6 on the Artificial Analysis Intelligence Index, 4.8 points higher than Qwen3....

智能体推理模型发布编码
关联讨论 7 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:OpenRouter (@OpenRouter)IT之家(RSS)
20:56
Rohan Paul@rohanpaul_ai
64
OpenAI的通用推理模型近期通过连接代数数论与平面几何,成功解决了保持数十年的平面单位距离猜想(Erdős猜想)。关键突破在于模型并非专用定理证明引擎,其成功依赖于延长和深化测试时计算过程,而非仅增加训练数据。这一进展表明前沿大模型已蕴含潜在的数学研究能力,当前瓶颈部分源于模型被允许"思考"的时间和方式。未来方向不是AI取代人类判断,而是在人类判断开始前拓宽思维的疆域,从而推动科学发现与创新。

Rohan Paul: AI in math is creating history again, as OpenAI's general-purpose reasoning model has disproved a major Erdős conjecture...

OpenAI大佬观点推理
19:29
🚨 AI News | TestingCatalog@testingcatalog
72
阿里巴巴发布了其最新的专有模型 Qwen 3.7 Max,专为智能体编码设计。 Qwen 3.7 Max 在人工智能分析智能指数上获得 56.6 分,超越了近期发布的 Gemini 3.5 Flash 和 Kimi K2.6。

Alibaba Group: Qwen3.7-Max is live! 🚀 Introducing the latest proprietary model, built for advanced agentic coding, complex reasoning, ...

智能体推理模型发布编码
17:03
Orange AI@oran_ge
81
AI自主破解80年数学难题,里程碑式突破

OpenAI未公开的内部通用推理模型,自主解决了数学家Erdős于1946年提出的平面单位距离问题,颠覆了近80年来学界对解法结构的普遍预期。该模型通过125页思维链,创新运用代数数论工具解决离散几何问题,实现了跨领域方法论突破。更值得注意的是,该模型并非专攻数学训练,其成果表明通用推理能力达到一定阈值后可能自然催生创造性,标志着AI在基础科学领域迈出了关键一步。

OpenAI: Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...

OpenAI推理论文/研究
关联讨论 8 条X:OpenAI (@OpenAI)X:AI Safety Memes (@AISafetyMemes)OpenAI:官网动态(RSS · 排除企业/客户案例)X:Noam Brown (@polynoamial)X:Greg Brockman (@gdb)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)The Decoder:AI News(RSS)
16:28
🚨 AI News | TestingCatalog@testingcatalog
74
新的MTP技术通过提前草拟多个令牌并一次完成验证,使Qwen 3.6模型在Atomic Chat中的运行速度提升高达2.5倍。该技术对Dense模型(如Qwen 3.6 27B)加速显著,速度从51提升至117 tokens/s;而对MoE模型(如Qwen 3.6 35B-A3B)提升相对较小(25%)。MTP实现了约80%的草稿接受率,无精度损失,仅需额外约1GB显存。用户可通过开源的Atomic Chat应用在本地测试该模型。

atomic.chat: MTP speedup Qwen by 2.5x in Atomic Chat Dense vs MoE models on 2x RTX 5090 Qwen3.6 27B: 51 → 117 tps +137% Qwen3.6 35B-A...

产品更新推理
16:28
Artificial Analysis@ArtificialAnlys
70
阿里云发布Qwen3.7 Max模型,评测得分56.6分

阿里云发布闭源旗舰模型Qwen3.7 Max,在Artificial Analysis智能指数上获得56.6分,较前代Qwen3.6 Max Preview提升4.8分,与国际前沿模型的差距有所缩小。其进步主要体现在科学推理、智能体及编码能力上。值得注意的是,本次评分提升很大程度上源于模型在“AA-Omniscience”基准上主动选择“不回答”的次数增多,从而将幻觉率从44.2%显著降至22.9%。此外,该模型的上下文窗口已扩大至100万token,但仍延续了Max系列的闭源策略。

推理模型发布编码
15:57
Greg Brockman@gdb
78
AI在数学领域实现了新知识生成的里程碑式突破。OpenAI模型解决了组合几何中悬而未决的著名难题--平面单位距离问题(Erdos 1946),首次证明通过AI方法可将该问题中单位距离对的数量提升至超线性规模(n^{1+δ}),超越了以往所有人类已知的线性构造。这标志着AI从解决已知问题迈向发现新数学的重要进展。该突破引发了研究者"难以入睡"的强烈反响,被视为AGI时代临近的信号。

Alex Dimakis: A breakthrough by OpenAI in a very famous Combinatorics problem, the Planar Unit Distance problem by Erdos 1946. The pro...

OpenAI推理论文/研究
关联讨论 8 条X:OpenAI (@OpenAI)X:AI Safety Memes (@AISafetyMemes)OpenAI:官网动态(RSS · 排除企业/客户案例)X:Noam Brown (@polynoamial)X:Greg Brockman (@gdb)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)The Decoder:AI News(RSS)
15:26
Rohan Paul@rohanpaul_ai
78
AI通用推理突破80年数学猜想

OpenAI的通用推理模型自主解决了一个自1946年以来未解的著名数学难题——平面单位距离问题。该模型没有采用专门为数学设计的定定理证明引擎,而是通过推理时增强计算能力,发现了优于传统网格结构的新构造方案。这标志着AI首次自主解决一个数学领域的核心开放问题。更重要的是,该模型能将几何问题与代数数论等深层理论连接,展示了通用人工智能在跨领域研究和拓宽人类认知边界方面的巨大潜力。

OpenAI: Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...

OpenAI推理论文/研究
关联讨论 8 条X:OpenAI (@OpenAI)X:AI Safety Memes (@AISafetyMemes)OpenAI:官网动态(RSS · 排除企业/客户案例)X:Noam Brown (@polynoamial)X:Greg Brockman (@gdb)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)The Decoder:AI News(RSS)
15:26
Rohan Paul@rohanpaul_ai
67
小模型大智慧:随机推理实现性能超越

仅1000万参数的GRAM模型,通过引入可学习的随机性,在推理时并行探索多条不同路径,打破了传统递归模型锁定单一思维的限制。该模型在测试时同时运行这些平行轨迹,并借助奖励预测器选择最优结果,从而在深度之上增加了“宽度”维度。实验表明,GRAM在困难数独任务上准确率高达97%,远超此前最佳确定性模型;在多解的皇后问题上也能维持高性能,并能高效生成有效的数独谜题。这一框架为提升小模型的推理能力提供了新思路。

推理论文/研究
14:58
IT之家(RSS)
79
AI 推翻著名几何猜想,OpenAI 宣布攻克 80 年数学难题

OpenAI宣布其全新推理模型成功解决了一道提出近80年的几何猜想,推翻了关于最优解形态的长期认知。该猜想由保罗·埃尔德什于1946年提出,长期以来数学家认为其最优解接近正方形网格。OpenAI模型发现了一类更优的全新构造体系,这是人工智能首次自主攻克数学核心领域的重大未解难题。多位数学家为该证明提供了佐证。OpenAI表示,这意味着AI已具备更强推理能力,并将对科学多领域产生深远影响。

OpenAI推理论文/研究
关联讨论 8 条X:OpenAI (@OpenAI)X:AI Safety Memes (@AISafetyMemes)OpenAI:官网动态(RSS · 排除企业/客户案例)X:Noam Brown (@polynoamial)X:Greg Brockman (@gdb)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)The Decoder:AI News(RSS)
14:30
X.PIN@thexpin
85
刚刚测试了阿里巴巴全新的Qwen3.7-Max。 提示词:构建一个单文件物理模拟网页:风洞、布料、软体、流体,全部集成在一个index.html中,CSS + JS内联。
推理教程/实践
关联讨论 7 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:OpenRouter (@OpenRouter)IT之家(RSS)
14:10
HuggingFace Daily Papers(社区热门论文)
69
OCTOPUS:基于八面体参数化与最优平方误差量化的Transformer优化KV缓存

本文提出了OCTOPUS,一种用于Transformer长上下文推理的新型KV缓存压缩方法。它通过联合量化旋转后的坐标三元组来优化现有旋转编码器的性能。其核心在于将每个三元组的方向通过八面体参数化映射至正方形,并对量化坐标与三元组范数实施最优平方误差量化,从而实现了一种仅依赖于键总维度的严格非均匀比特分配策略。实验表明,OCTOPUS在文本、视频和音频任务上,在所有测试的比特宽度和指标上均达到或超越了此前的旋转编码器,并在极端压缩时优势尤为显著。此外,其融合Triton实现能在线重建键值,不引入额外的解码带宽或延迟。

arXiv多模态推理论文/研究
14:10
HuggingFace Daily Papers(社区热门论文)
69
只需最少RLVR训练:通过秩-1轨迹外推大语言模型

研究发现,强化学习与可验证奖励训练大语言模型时,权重变化轨迹具有极低的秩且高度可预测,性能增益主要由秩-1逼近捕获,且随训练步骤线性演化。基于此,提出RELEX方法,仅需从短观察窗口估计秩-1子空间,通过线性外推预测后续检查点,无需学习模型。在多个模型上,RELEX仅需15%的完整训练步骤,即可在域内和域外基准上匹配或超越RLVR性能,并能以零额外成本外推至观察窗口的10-20倍,性能持续提升。成功源于秩-1投影实现的“去噪”效应,有效剔除随机优化噪声。

开源生态推理数据/训练论文/研究
13:58
IT之家(RSS)
67
英伟达确认新一代超级AI芯片Vera Rubin下半年推出,黄仁勋称其必将超越前代

英伟达公布第一季度财报,营收达创纪录的816亿美元,同比增长85%。公司确认下一代超级AI芯片Vera Rubin将于今年下半年推出,第三季度开始交付,第四季度上量加速。CEO黄仁勋表示,Vera Rubin开局良好,推理市场份额增长迅速,肯定会比Grace Blackwell更成功。该芯片已基于3nm工艺量产,试产计划于2026年6月启动,首批产品7月将运往微软、谷歌等北美大客户,其AI服务器机柜价值约1.8亿美元。

产品更新推理部署/工程
12:44
Chubby♨️@kimmonismus
84
OpenAI突破性解决平面单位距离问题

OpenAI内部推理模型自主解决了存在近80年的著名数学开放问题——平面单位距离问题。该模型推翻了Paul Erdős的猜想,发现了全新的点配置构造,其效率以固定多项式因子优于传统方格网格方案。证明运用了代数数论等跨学科方法,经外部数学家验证,被Fields奖得主Tim Gowers誉为“AI数学的里程碑”。这是AI首次独立解决数学领域的核心公开问题,标志着从知识复现到知识创造的重要转变,其跨领域推理能力可能为多学科研究带来深远影响。

OpenAI: Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...

OpenAI推理论文/研究
关联讨论 8 条X:OpenAI (@OpenAI)X:AI Safety Memes (@AISafetyMemes)OpenAI:官网动态(RSS · 排除企业/客户案例)X:Noam Brown (@polynoamial)X:Greg Brockman (@gdb)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)The Decoder:AI News(RSS)
12:14
Rohan Paul@rohanpaul_ai
69
MTP技术大幅提升本地大模型速度

atomic.chat的MTP(多Token预测)技术通过一次验证多个草稿token,有效减少了GPU重复读取模型权重的次数,显著提升了本地大模型的推理速度。测试显示,27B密集模型的速度从51 token/s提升至117 token/s,提升约137%;35B MoE模型在2x RTX 5090上速度提升约25%。该技术实现了约80%的草稿接受率,无精度损失,仅需额外约1GB显存。由于密集模型需要读取全部参数,其从该技术中获益更大。此项目已开源。

atomic.chat: MTP speedup Qwen by 2.5x in Atomic Chat Dense vs MoE models on 2x RTX 5090 Qwen3.6 27B: 51 → 117 tps +137% Qwen3.6 35B-A...

产品更新开源生态推理
11:09
HuggingFace Daily Papers(社区热门论文)
64
PlanningBench:一个用于评估和训练大语言模型的可扩展、可验证规划数据生成框架

本文提出了PlanningBench框架,旨在为评估与训练大语言模型生成可扩展、多样且可验证的规划数据。框架源于真实场景,抽象出包含30余种任务类型、约束与难度因素的结构化分类体系,并基于此实现了约束驱动的数据合成流程,该流程具备自适应难度控制、质量过滤与实例级验证能力。研究利用该框架评估了前沿大模型,发现其在耦合约束下仍难以生成完整解决方案。此外,基于PlanningBench数据的强化学习不仅提升了模型在未知规划任务上的表现,也增强了其指令遵循能力,并表明明确的最优解能提供更稳定的训练信号。

arXiv推理数据/训练论文/研究
11:03
AYi@AYi_AInotes
76
OpenAI模型突破性自主解决80年数学悬案

OpenAI的一个AI模型自主攻克了“平面单位距离问题”,这是数学家埃尔德什于1946年提出的一个著名开放难题。近80年来,学界普遍认为最优构造近似于方格子,而该AI模型通过运用代数数论中冷门的Golod-Shafarevich理论,发现了一整族效率更高的全新构造,推翻了原有定见。此成就标志着AI首次独立解决一个数学领域的核心开放问题,其关键在于提出并完整执行了一条人类因直觉认为不可行而从未尝试的创新路径。

OpenAI: Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...

OpenAI推理论文/研究
关联讨论 8 条X:OpenAI (@OpenAI)X:AI Safety Memes (@AISafetyMemes)OpenAI:官网动态(RSS · 排除企业/客户案例)X:Noam Brown (@polynoamial)X:Greg Brockman (@gdb)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)The Decoder:AI News(RSS)
10:30
公众号:智谱(GLM)
44
下一代大模型推理网络架构:ZCube如何有效破解网络瓶颈?

智谱(GLM)提出ZCube,这是一种专为下一代大模型设计的推理网络架构,目标在于有效破解大规模模型推理时面临的网络瓶颈问题。

推理教程/实践部署/工程
10:11
SemiAnalysis@SemiAnalysis_
60
TPU警报:针对开源生产级Kubernetes分布式推理,Google刚为llm-d添加了夜间CI。这是Google推动更广泛ML社区使用TPU的重要一步。TPU在llm-d CI和代码质量方面正追赶NVIDIA。相比之下,尽管AMD官方推荐的生产级Kubernetes推理方案是llm-d,但@AnushElangovan尚未将任何AMD GPU或AMD网卡加入CI。
Google开源/仓库推理部署/工程
10:09
HuggingFace Daily Papers(社区热门论文)
58
生成式递归推理

GRAM(生成式递归推理模型)框架将递归潜状态推理从确定性单一路径转变为概率性的多路径计算。它允许模型在推理时生成多种假设与替代解决策略,并可通过增加递归深度或并行采样来扩展计算能力。该框架通过摊销变分推断训练,形成了一个支持条件推理与无条件生成的潜变量生成模型。实验表明,GRAM在结构化推理及多解约束满足任务上优于确定性循环与递归基线模型,并具备了独立的无条件生成能力。

arXiv推理论文/研究
09:39
Ethan Mollick@emollick
63
基于公开估算,LLM解决Erdos问题的资源消耗极低:电力仅0.6-6.3千瓦时(相当于电动汽车行驶数英里),水耗约3-31升(少于三颗杏仁的耗水量)。引用的估算进一步指出,该过程使用了GPT-5.6 Pro,处理时间约5至32小时,成本在120至1000美元之间。核心观点是,相对于解决这类数学问题的重大成果而言,LLM所需的资源和时间投入并不算多。

will depue: just quick napkin math on how long this took (unless i missed where they said): the published CoT summary is 111,145 tok...

大佬观点推理
08:00
HuggingFace Daily Papers(社区热门论文)
46
重访均匀扩散模型:留一去噪器与吸收态重构

研究揭示均匀扩散模型(UDM)的标准参数化与训练目标存在失配。提出“留一去噪器”,即在预测干净token时不依赖其自身噪声观测的后验,并推导了其与标准去噪器、分数函数的精确转换关系。进一步通过“吸收态重构”,将UDM联合分布分解为类掩码扩散操作,从而简化了去噪后验。在语言建模中,留一参数化稳定提升了UDM生成效果,吸收态构建匹配或超越了掩码扩散模型。实验表明,经验差距主要源于参数化与采样设计,而非边际分布选择本身。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
MotiMotion:基于视觉推理的运动控制视频生成

该研究指出当前运动控制视频生成模型存在轨迹僵硬、因果不完整的问题。为此,MotiMotion框架将运动控制重新定义为“先推理再生成”的任务。其核心是利用一个无需训练的视觉语言推理器来完善主轨迹坐标,并“幻想”出合理的次要运动。同时,框架引入置信度感知控制方案,根据计划的可信度调整引导强度。为系统评估,研究还构建了新的运动交互基准MotiBench。评估表明,MotiMotion能生成物体行为和交互更合理可信的视频,效果优于现有方法。

图像生成推理视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
ThriftAttention:用于长上下文FP4注意力的选择性混合精度

针对长上下文场景下FP4量化推理的质量下降问题,ThriftAttention提出了一种低比特注意力变体。该方法首先通过启发式策略快速识别出少量关键的query-key块对,对其使用FP16精度计算,其余块使用FP4计算。最后,两路计算结果通过在线softmax合并。实验表明,仅对5%的块使用FP16计算,该方法就能平均恢复FP4与FP16间89.1%的性能差距,且优势随序列长度增加而更加显著。

推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
49
感知的代价:在整体框架内实现可信的多模态推理

当前视觉语言模型常出现“功能性失明”,即利用强大的语言先验绕过视觉表征瓶颈,而非真正融合多模态信息。本研究挑战了依赖数据消融的传统评估方法,提出了信息论框架下的“模态翻译协议”来量化“感知的代价”。该方法定义了三个新指标(Toll, Curse, Fallacy)与语义充分性准则。研究还假设存在多模态缩放的“分歧定律”:随着语言模型推理能力增强,视觉知识瓶颈带来的性能惩罚可能不降反升。这为构建更可信的多模态推理系统提供了新的评估工具与设计思路。

arXiv多模态推理论文/研究
06:44
智谱:研究(网页内嵌数据)
精选69
ZCube:超大规模大模型推理的网络优化

针对超大规模大模型推理,ZCube网络架构通过取消Spine层、将Leaf交换机分组并全互联等创新设计,有效解决了推理网络的拥塞问题。该架构在集群实测中,实现了交换机与光模块资本支出减少33%、GPU平均推理吞吐提升15%,同时将首token延迟的P99值大幅降低40.6%,在降低成本的同时显著提升了推理性能。

推理论文/研究部署/工程

推荐理由:千卡以上推理集群的团队该看一眼,智谱这个网络设计砍掉三分之一交换机成本,吞吐还涨15%,尾时延降四成,有实测数据不是白皮书。
05:50
Z.ai@Zai_org
75
ZCube网络架构:破解大模型推理网络瓶颈

随着长上下文与Prefill-Decode分离部署成为主流,GPU集群网络已从次要部件转变为制约推理吞吐、尾部延迟和成本的关键瓶颈。传统静态网络拓扑与动态非对称的KV Cache流量模式冲突,导致局部拥塞。为此,Z.ai、Harnets.AI与清华大学联合研发了ZCube网络架构。该架构采用完全扁平化拓扑与混合接入设计,从源头解耦并分散流量以减少拥塞。在GLM-5.1生产测试中,ZCube在保持GPU与软件栈不变的前提下,实现了交换机与光模块成本降低33%、平均推理吞吐提升15%、首token时间P99降低40.6%的显著效果,证明网络架构创新能有效释放硬件潜力。

推理论文/研究部署/工程
05:35
Chubby♨️@kimmonismus
64
OpenAI即将推出通用型大语言模型,强调其并非为特定问题或数学领域专门训练。该模型通过增加测试时的计算资源,性能实现显著提升,展现了通用模型在扩展计算时的潜力。官方表示当前重点在于快速发布,供用户自主探索,暂未在开放问题上追求极限优化。这标志着大模型发展的一条新路径。

Noam Brown: This is a general-purpose LLM. It wasn't targeted at this problem or even at mathematics. Also, it's not a scaffold. We ...

OpenAI推理模型发布
05:18
Sam Altman@sama
84
一个通用模型解决了数学领域的一个重大开放问题。 未来几年我们会经常说这句话,但这确实是一个相当重要的里程碑。 我非常期待AI能极大地拓展我们对世界的理解,但今天,我的心情依然很复杂。

Timothy Gowers @wtgowers: If you are a mathematician, then you may want to make sure you are sitting down before reading further.

OpenAI推理行业动态
关联讨论 8 条X:OpenAI (@OpenAI)X:AI Safety Memes (@AISafetyMemes)OpenAI:官网动态(RSS · 排除企业/客户案例)X:Noam Brown (@polynoamial)X:Greg Brockman (@gdb)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)The Decoder:AI News(RSS)
04:33
Ethan Mollick@emollick
72
2024年6月:最新的通用大模型无法数清"strawberry"里有几个r。 2025年7月:最新的通用大模型在国际数学奥林匹克竞赛中获得金牌。 2026年5月:最新的通用大模型解决了"组合几何学中最著名的问题之一"。
大佬观点推理现象/趋势
04:33
Ethan Mollick@emollick
48
我们最终知道OpenAI在IMO上获得金牌的是什么模型了吗?那是一年前的事了,当时被称为一个未发布的内部通用模型。GPT-5.5 Pro Extended是否已经赶上了那个模型?
OpenAI大佬观点推理
04:33
Ethan Mollick@emollick
72
又是The Graph(不是METR的图,是o1发布时的那张图)。 虽然能力并未随计算量增加呈现对数衰减……

Noam Brown: This is a general-purpose LLM. It wasn't targeted at this problem or even at mathematics. Also, it's not a scaffold. We ...

OpenAI大佬观点推理模型发布
‹ 上一页
1…2829303132…50
下一页 ›