OpenAI与Anthropic近期相继发布重要产品更新。Claude 3.5 Sonnet在多项基准测试中超越GPT-4o,同时宣布API价格下调50%。Anthropic披露其模型训练成本年均增长约3.2倍,而OpenAI被曝已通过企业服务实现单季度超10亿美元营收。两家公司在技术突破与商业化竞赛中,正通过精密的成本核算与性能权衡重塑行业格局。
OpenAI与Anthropic近期相继发布重要产品更新。Claude 3.5 Sonnet在多项基准测试中超越GPT-4o,同时宣布API价格下调50%。Anthropic披露其模型训练成本年均增长约3.2倍,而OpenAI被曝已通过企业服务实现单季度超10亿美元营收。两家公司在技术突破与商业化竞赛中,正通过精密的成本核算与性能权衡重塑行业格局。
阿里巴巴正式推出最新旗舰模型Qwen3.7-Max,定位为Agent时代的生产级基础模型。该模型在权威评测中得分56.6,较前代显著提升,性能与GPT-5.4相当。其核心优势在于卓越的Agent可靠性,能够在复杂任务中自主规划、调用工具、纠错并持续执行。通过底层深度优化,模型实现了10倍推理加速,并支持长达数小时的自主运行与多工具协作。该模型现已上线阿里云模型工作室,并兼容Claude Code、OpenClaw等主流开发框架,助力开发者构建实际应用。
📣Meet Qwen3.7-Max - our latest flagship, made for the Agent Era. A versatile foundation for agents that actually get th...
关联讨论 7 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:OpenRouter (@OpenRouter)IT之家(RSS)OpenAI的推理模型证伪了数学家保罗·埃尔德什在1946年提出的关于单位距离几何的猜想。该模型运用了代数数论领域的工具,而专家此前从未预料到这些工具会在此类问题中发挥作用。菲尔兹奖得主蒂姆·高尔斯称此成果为“AI数学发展的里程碑”,并警告称,我们可能已经进入一个人类在解决数学问题方面很难与AI竞争的时代。这项进展标志着自动化推理能力的重要突破。
同一事件,精选展示《OpenAI模型证伪了离散几何中的一个核心猜想》新发布的Qwen 3.7 Max正被用户通过“递归分形二叉树”生成测试进行评估。该测试要求模型编写HTML代码,模拟树木从生长到摇曳的动画。此前,Gemini 3.5 Flash已用同一测试进行了展示,其生成完整动画耗时77.56秒,效果被评测者认为惊艳。该测试已成为比较不同AI模型代码生成与创意能力的一种常见方式,用户可借此对比各模型的表现。
兄弟们! 今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了! 我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 Prompt ,不同模型画出的树形态完全不一样。(见视频-Prompt见评论区) G...
用户将Codex工具指向一个现有产品,仅用30分钟就自动分析并输出了该产品的完整技术蓝图,包括架构、数据模型、带有成本估算的提示词,并生成了一份长达378行的重建计划。更令人惊叹的是,现在可以通过一条明确的指令(“/goal implement...”),让Codex尝试一次性重建出与目标产品功能完全一致的成果,展示了其强大的逆向工程与代码生成能力。
codex is actually insane 🤯 if you thought frontend cloning was impressive, check this out: I just pointed codex at anot...
Alibaba's new Qwen3.7 Max model scores 56.6 on the Artificial Analysis Intelligence Index, 4.8 points higher than Qwen3....
关联讨论 7 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:OpenRouter (@OpenRouter)IT之家(RSS)Alibaba's new Qwen3.7 Max model scores 56.6 on the Artificial Analysis Intelligence Index, 4.8 points higher than Qwen3....
关联讨论 7 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:OpenRouter (@OpenRouter)IT之家(RSS)AI in math is creating history again, as OpenAI's general-purpose reasoning model has disproved a major Erdős conjecture...
Qwen3.7-Max is live! 🚀 Introducing the latest proprietary model, built for advanced agentic coding, complex reasoning, ...
OpenAI未公开的内部通用推理模型,自主解决了数学家Erdős于1946年提出的平面单位距离问题,颠覆了近80年来学界对解法结构的普遍预期。该模型通过125页思维链,创新运用代数数论工具解决离散几何问题,实现了跨领域方法论突破。更值得注意的是,该模型并非专攻数学训练,其成果表明通用推理能力达到一定阈值后可能自然催生创造性,标志着AI在基础科学领域迈出了关键一步。
Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...
关联讨论 8 条X:OpenAI (@OpenAI)X:AI Safety Memes (@AISafetyMemes)OpenAI:官网动态(RSS · 排除企业/客户案例)X:Noam Brown (@polynoamial)X:Greg Brockman (@gdb)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)The Decoder:AI News(RSS)MTP speedup Qwen by 2.5x in Atomic Chat Dense vs MoE models on 2x RTX 5090 Qwen3.6 27B: 51 → 117 tps +137% Qwen3.6 35B-A...
阿里云发布闭源旗舰模型Qwen3.7 Max,在Artificial Analysis智能指数上获得56.6分,较前代Qwen3.6 Max Preview提升4.8分,与国际前沿模型的差距有所缩小。其进步主要体现在科学推理、智能体及编码能力上。值得注意的是,本次评分提升很大程度上源于模型在“AA-Omniscience”基准上主动选择“不回答”的次数增多,从而将幻觉率从44.2%显著降至22.9%。此外,该模型的上下文窗口已扩大至100万token,但仍延续了Max系列的闭源策略。
A breakthrough by OpenAI in a very famous Combinatorics problem, the Planar Unit Distance problem by Erdos 1946. The pro...
关联讨论 8 条X:OpenAI (@OpenAI)X:AI Safety Memes (@AISafetyMemes)OpenAI:官网动态(RSS · 排除企业/客户案例)X:Noam Brown (@polynoamial)X:Greg Brockman (@gdb)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)The Decoder:AI News(RSS)OpenAI的通用推理模型自主解决了一个自1946年以来未解的著名数学难题——平面单位距离问题。该模型没有采用专门为数学设计的定定理证明引擎,而是通过推理时增强计算能力,发现了优于传统网格结构的新构造方案。这标志着AI首次自主解决一个数学领域的核心开放问题。更重要的是,该模型能将几何问题与代数数论等深层理论连接,展示了通用人工智能在跨领域研究和拓宽人类认知边界方面的巨大潜力。
Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...
关联讨论 8 条X:OpenAI (@OpenAI)X:AI Safety Memes (@AISafetyMemes)OpenAI:官网动态(RSS · 排除企业/客户案例)X:Noam Brown (@polynoamial)X:Greg Brockman (@gdb)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)The Decoder:AI News(RSS)仅1000万参数的GRAM模型,通过引入可学习的随机性,在推理时并行探索多条不同路径,打破了传统递归模型锁定单一思维的限制。该模型在测试时同时运行这些平行轨迹,并借助奖励预测器选择最优结果,从而在深度之上增加了“宽度”维度。实验表明,GRAM在困难数独任务上准确率高达97%,远超此前最佳确定性模型;在多解的皇后问题上也能维持高性能,并能高效生成有效的数独谜题。这一框架为提升小模型的推理能力提供了新思路。
OpenAI宣布其全新推理模型成功解决了一道提出近80年的几何猜想,推翻了关于最优解形态的长期认知。该猜想由保罗·埃尔德什于1946年提出,长期以来数学家认为其最优解接近正方形网格。OpenAI模型发现了一类更优的全新构造体系,这是人工智能首次自主攻克数学核心领域的重大未解难题。多位数学家为该证明提供了佐证。OpenAI表示,这意味着AI已具备更强推理能力,并将对科学多领域产生深远影响。
关联讨论 8 条X:OpenAI (@OpenAI)X:AI Safety Memes (@AISafetyMemes)OpenAI:官网动态(RSS · 排除企业/客户案例)X:Noam Brown (@polynoamial)X:Greg Brockman (@gdb)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)The Decoder:AI News(RSS)本文提出了OCTOPUS,一种用于Transformer长上下文推理的新型KV缓存压缩方法。它通过联合量化旋转后的坐标三元组来优化现有旋转编码器的性能。其核心在于将每个三元组的方向通过八面体参数化映射至正方形,并对量化坐标与三元组范数实施最优平方误差量化,从而实现了一种仅依赖于键总维度的严格非均匀比特分配策略。实验表明,OCTOPUS在文本、视频和音频任务上,在所有测试的比特宽度和指标上均达到或超越了此前的旋转编码器,并在极端压缩时优势尤为显著。此外,其融合Triton实现能在线重建键值,不引入额外的解码带宽或延迟。
研究发现,强化学习与可验证奖励训练大语言模型时,权重变化轨迹具有极低的秩且高度可预测,性能增益主要由秩-1逼近捕获,且随训练步骤线性演化。基于此,提出RELEX方法,仅需从短观察窗口估计秩-1子空间,通过线性外推预测后续检查点,无需学习模型。在多个模型上,RELEX仅需15%的完整训练步骤,即可在域内和域外基准上匹配或超越RLVR性能,并能以零额外成本外推至观察窗口的10-20倍,性能持续提升。成功源于秩-1投影实现的“去噪”效应,有效剔除随机优化噪声。
英伟达公布第一季度财报,营收达创纪录的816亿美元,同比增长85%。公司确认下一代超级AI芯片Vera Rubin将于今年下半年推出,第三季度开始交付,第四季度上量加速。CEO黄仁勋表示,Vera Rubin开局良好,推理市场份额增长迅速,肯定会比Grace Blackwell更成功。该芯片已基于3nm工艺量产,试产计划于2026年6月启动,首批产品7月将运往微软、谷歌等北美大客户,其AI服务器机柜价值约1.8亿美元。
OpenAI内部推理模型自主解决了存在近80年的著名数学开放问题——平面单位距离问题。该模型推翻了Paul Erdős的猜想,发现了全新的点配置构造,其效率以固定多项式因子优于传统方格网格方案。证明运用了代数数论等跨学科方法,经外部数学家验证,被Fields奖得主Tim Gowers誉为“AI数学的里程碑”。这是AI首次独立解决数学领域的核心公开问题,标志着从知识复现到知识创造的重要转变,其跨领域推理能力可能为多学科研究带来深远影响。
Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...
关联讨论 8 条X:OpenAI (@OpenAI)X:AI Safety Memes (@AISafetyMemes)OpenAI:官网动态(RSS · 排除企业/客户案例)X:Noam Brown (@polynoamial)X:Greg Brockman (@gdb)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)The Decoder:AI News(RSS)atomic.chat的MTP(多Token预测)技术通过一次验证多个草稿token,有效减少了GPU重复读取模型权重的次数,显著提升了本地大模型的推理速度。测试显示,27B密集模型的速度从51 token/s提升至117 token/s,提升约137%;35B MoE模型在2x RTX 5090上速度提升约25%。该技术实现了约80%的草稿接受率,无精度损失,仅需额外约1GB显存。由于密集模型需要读取全部参数,其从该技术中获益更大。此项目已开源。
MTP speedup Qwen by 2.5x in Atomic Chat Dense vs MoE models on 2x RTX 5090 Qwen3.6 27B: 51 → 117 tps +137% Qwen3.6 35B-A...
本文提出了PlanningBench框架,旨在为评估与训练大语言模型生成可扩展、多样且可验证的规划数据。框架源于真实场景,抽象出包含30余种任务类型、约束与难度因素的结构化分类体系,并基于此实现了约束驱动的数据合成流程,该流程具备自适应难度控制、质量过滤与实例级验证能力。研究利用该框架评估了前沿大模型,发现其在耦合约束下仍难以生成完整解决方案。此外,基于PlanningBench数据的强化学习不仅提升了模型在未知规划任务上的表现,也增强了其指令遵循能力,并表明明确的最优解能提供更稳定的训练信号。
OpenAI的一个AI模型自主攻克了“平面单位距离问题”,这是数学家埃尔德什于1946年提出的一个著名开放难题。近80年来,学界普遍认为最优构造近似于方格子,而该AI模型通过运用代数数论中冷门的Golod-Shafarevich理论,发现了一整族效率更高的全新构造,推翻了原有定见。此成就标志着AI首次独立解决一个数学领域的核心开放问题,其关键在于提出并完整执行了一条人类因直觉认为不可行而从未尝试的创新路径。
Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...
关联讨论 8 条X:OpenAI (@OpenAI)X:AI Safety Memes (@AISafetyMemes)OpenAI:官网动态(RSS · 排除企业/客户案例)X:Noam Brown (@polynoamial)X:Greg Brockman (@gdb)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)The Decoder:AI News(RSS)智谱(GLM)提出ZCube,这是一种专为下一代大模型设计的推理网络架构,目标在于有效破解大规模模型推理时面临的网络瓶颈问题。
GRAM(生成式递归推理模型)框架将递归潜状态推理从确定性单一路径转变为概率性的多路径计算。它允许模型在推理时生成多种假设与替代解决策略,并可通过增加递归深度或并行采样来扩展计算能力。该框架通过摊销变分推断训练,形成了一个支持条件推理与无条件生成的潜变量生成模型。实验表明,GRAM在结构化推理及多解约束满足任务上优于确定性循环与递归基线模型,并具备了独立的无条件生成能力。
just quick napkin math on how long this took (unless i missed where they said): the published CoT summary is 111,145 tok...
研究揭示均匀扩散模型(UDM)的标准参数化与训练目标存在失配。提出“留一去噪器”,即在预测干净token时不依赖其自身噪声观测的后验,并推导了其与标准去噪器、分数函数的精确转换关系。进一步通过“吸收态重构”,将UDM联合分布分解为类掩码扩散操作,从而简化了去噪后验。在语言建模中,留一参数化稳定提升了UDM生成效果,吸收态构建匹配或超越了掩码扩散模型。实验表明,经验差距主要源于参数化与采样设计,而非边际分布选择本身。
该研究指出当前运动控制视频生成模型存在轨迹僵硬、因果不完整的问题。为此,MotiMotion框架将运动控制重新定义为“先推理再生成”的任务。其核心是利用一个无需训练的视觉语言推理器来完善主轨迹坐标,并“幻想”出合理的次要运动。同时,框架引入置信度感知控制方案,根据计划的可信度调整引导强度。为系统评估,研究还构建了新的运动交互基准MotiBench。评估表明,MotiMotion能生成物体行为和交互更合理可信的视频,效果优于现有方法。
针对长上下文场景下FP4量化推理的质量下降问题,ThriftAttention提出了一种低比特注意力变体。该方法首先通过启发式策略快速识别出少量关键的query-key块对,对其使用FP16精度计算,其余块使用FP4计算。最后,两路计算结果通过在线softmax合并。实验表明,仅对5%的块使用FP16计算,该方法就能平均恢复FP4与FP16间89.1%的性能差距,且优势随序列长度增加而更加显著。
当前视觉语言模型常出现“功能性失明”,即利用强大的语言先验绕过视觉表征瓶颈,而非真正融合多模态信息。本研究挑战了依赖数据消融的传统评估方法,提出了信息论框架下的“模态翻译协议”来量化“感知的代价”。该方法定义了三个新指标(Toll, Curse, Fallacy)与语义充分性准则。研究还假设存在多模态缩放的“分歧定律”:随着语言模型推理能力增强,视觉知识瓶颈带来的性能惩罚可能不降反升。这为构建更可信的多模态推理系统提供了新的评估工具与设计思路。
针对超大规模大模型推理,ZCube网络架构通过取消Spine层、将Leaf交换机分组并全互联等创新设计,有效解决了推理网络的拥塞问题。该架构在集群实测中,实现了交换机与光模块资本支出减少33%、GPU平均推理吞吐提升15%,同时将首token延迟的P99值大幅降低40.6%,在降低成本的同时显著提升了推理性能。
随着长上下文与Prefill-Decode分离部署成为主流,GPU集群网络已从次要部件转变为制约推理吞吐、尾部延迟和成本的关键瓶颈。传统静态网络拓扑与动态非对称的KV Cache流量模式冲突,导致局部拥塞。为此,Z.ai、Harnets.AI与清华大学联合研发了ZCube网络架构。该架构采用完全扁平化拓扑与混合接入设计,从源头解耦并分散流量以减少拥塞。在GLM-5.1生产测试中,ZCube在保持GPU与软件栈不变的前提下,实现了交换机与光模块成本降低33%、平均推理吞吐提升15%、首token时间P99降低40.6%的显著效果,证明网络架构创新能有效释放硬件潜力。
This is a general-purpose LLM. It wasn't targeted at this problem or even at mathematics. Also, it's not a scaffold. We ...
If you are a mathematician, then you may want to make sure you are sitting down before reading further.
关联讨论 8 条X:OpenAI (@OpenAI)X:AI Safety Memes (@AISafetyMemes)OpenAI:官网动态(RSS · 排除企业/客户案例)X:Noam Brown (@polynoamial)X:Greg Brockman (@gdb)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)The Decoder:AI News(RSS)This is a general-purpose LLM. It wasn't targeted at this problem or even at mathematics. Also, it's not a scaffold. We ...