DeepSeek V4 Flash has topped the weekly leaderboard
DeepSeek V4 Flash has topped the weekly leaderboard
智谱近期推出GLM-5.1-Highspeed模型,实测输出速度达300+ tokens/s,首token延迟约1秒,相较于标准版GLM-5.1的35 tps和9秒延迟,性能提升约10倍。技术上,智谱联合TileRT团队重构了推理链路,通过将整个推理流程编译为常驻GPU的大kernel,大幅减少CPU调度与数据搬运开销,并优化单卡内的计算、IO分配及多卡间任务协作,显著提升GPU利用效率。该模型单次激活40B参数,高性能运行需依托多卡并行,建议现有用户切换使用以获得更实时的生成体验。
本期早报聚焦AI Agent的成熟化。Anthropic首次发布Memory与Dreaming基础设施原语,将跨会话记忆工程化,Rakuten部署后首次执行错误率下降97%。通义实验室的Qwen3.7-Max通过35小时极限压力测试,在未知硬件平台上自主优化Kernel,实现1158次工具调用零中断,凸显长程稳定性,将国内大模型竞争焦点从问答分数转向Agent可靠性。与此同时,Every创始人观察到,随着AI自动化普及,能评判执行质量的人类专家价值反而凸显。这些进展共同指向Agent成熟的基础设施、模型基座与人类协作新范式。
Today there is so much math known that mathematicians often have a very narrow speciality. This gives AI potential to co...
该推文探讨了评估AI Token价值的新视角,核心在于Token的“智能含量”与“传输速度”。快速的Token若缺乏深度推理可能造成浪费,而缓慢的Token即使算力廉价也会因延迟影响用户体验。不同应用场景如医疗分诊、代码编写和购物客服对Token需求各异。因此,构建有效的“Token经济学”不应从模型菜单出发,而应从客户对不确定性、延迟和成本的容忍度开始,以具体用例为起点进行反向优化。NVIDIA的Shruti Koparkar强调,这关系到AI应用是规模化扩展还是停滞不前。
Token economics determine whether your AI scales or stalls. The key to optimizing AI tokenomics? Start with the customer...
据The Information报道,微软正向AI公司Anthropic推销其第二代AI芯片Maia 200,强调该芯片在特定推理任务中比NVIDIA芯片更具成本效益。Maia 200专注于高速推理而非训练,双方已有深度合作基础:Anthropic已在Azure承诺300亿美元支出,且Claude已整合进微软Copilot。此次芯片合作旨在深化协同。分析认为,Maia 200无需全面超越NVIDIA,只要能在高量推理中提供更低成本选项,便可能将部分计算需求从GPU转移。
阿里巴巴正式推出最新旗舰模型Qwen3.7-Max,定位为Agent时代的生产级基础模型。该模型在权威评测中得分56.6,较前代显著提升,性能与GPT-5.4相当。其核心优势在于卓越的Agent可靠性,能够在复杂任务中自主规划、调用工具、纠错并持续执行。通过底层深度优化,模型实现了10倍推理加速,并支持长达数小时的自主运行与多工具协作。该模型现已上线阿里云模型工作室,并兼容Claude Code、OpenClaw等主流开发框架,助力开发者构建实际应用。
📣Meet Qwen3.7-Max - our latest flagship, made for the Agent Era. A versatile foundation for agents that actually get th...
关联讨论 7 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:OpenRouter (@OpenRouter)IT之家(RSS)新发布的Qwen 3.7 Max正被用户通过“递归分形二叉树”生成测试进行评估。该测试要求模型编写HTML代码,模拟树木从生长到摇曳的动画。此前,Gemini 3.5 Flash已用同一测试进行了展示,其生成完整动画耗时77.56秒,效果被评测者认为惊艳。该测试已成为比较不同AI模型代码生成与创意能力的一种常见方式,用户可借此对比各模型的表现。
兄弟们! 今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了! 我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 Prompt ,不同模型画出的树形态完全不一样。(见视频-Prompt见评论区) G...
用户将Codex工具指向一个现有产品,仅用30分钟就自动分析并输出了该产品的完整技术蓝图,包括架构、数据模型、带有成本估算的提示词,并生成了一份长达378行的重建计划。更令人惊叹的是,现在可以通过一条明确的指令(“/goal implement...”),让Codex尝试一次性重建出与目标产品功能完全一致的成果,展示了其强大的逆向工程与代码生成能力。
codex is actually insane 🤯 if you thought frontend cloning was impressive, check this out: I just pointed codex at anot...
Alibaba's new Qwen3.7 Max model scores 56.6 on the Artificial Analysis Intelligence Index, 4.8 points higher than Qwen3....
关联讨论 7 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:OpenRouter (@OpenRouter)IT之家(RSS)Alibaba's new Qwen3.7 Max model scores 56.6 on the Artificial Analysis Intelligence Index, 4.8 points higher than Qwen3....
关联讨论 7 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:OpenRouter (@OpenRouter)IT之家(RSS)AI in math is creating history again, as OpenAI's general-purpose reasoning model has disproved a major Erdős conjecture...
Qwen3.7-Max is live! 🚀 Introducing the latest proprietary model, built for advanced agentic coding, complex reasoning, ...
OpenAI未公开的内部通用推理模型,自主解决了数学家Erdős于1946年提出的平面单位距离问题,颠覆了近80年来学界对解法结构的普遍预期。该模型通过125页思维链,创新运用代数数论工具解决离散几何问题,实现了跨领域方法论突破。更值得注意的是,该模型并非专攻数学训练,其成果表明通用推理能力达到一定阈值后可能自然催生创造性,标志着AI在基础科学领域迈出了关键一步。
Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...
关联讨论 7 条TechCrunch:AI(RSS)The Decoder:AI News(RSS)X:OpenAI (@OpenAI)OpenAI:官网动态(RSS · 排除企业/客户案例)IT之家(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Noam Brown (@polynoamial)MTP speedup Qwen by 2.5x in Atomic Chat Dense vs MoE models on 2x RTX 5090 Qwen3.6 27B: 51 → 117 tps +137% Qwen3.6 35B-A...
阿里云发布闭源旗舰模型Qwen3.7 Max,在Artificial Analysis智能指数上获得56.6分,较前代Qwen3.6 Max Preview提升4.8分,与国际前沿模型的差距有所缩小。其进步主要体现在科学推理、智能体及编码能力上。值得注意的是,本次评分提升很大程度上源于模型在“AA-Omniscience”基准上主动选择“不回答”的次数增多,从而将幻觉率从44.2%显著降至22.9%。此外,该模型的上下文窗口已扩大至100万token,但仍延续了Max系列的闭源策略。
A breakthrough by OpenAI in a very famous Combinatorics problem, the Planar Unit Distance problem by Erdos 1946. The pro...
关联讨论 7 条TechCrunch:AI(RSS)The Decoder:AI News(RSS)X:OpenAI (@OpenAI)OpenAI:官网动态(RSS · 排除企业/客户案例)IT之家(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Noam Brown (@polynoamial)OpenAI的通用推理模型自主解决了一个自1946年以来未解的著名数学难题——平面单位距离问题。该模型没有采用专门为数学设计的定定理证明引擎,而是通过推理时增强计算能力,发现了优于传统网格结构的新构造方案。这标志着AI首次自主解决一个数学领域的核心开放问题。更重要的是,该模型能将几何问题与代数数论等深层理论连接,展示了通用人工智能在跨领域研究和拓宽人类认知边界方面的巨大潜力。
Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...
关联讨论 7 条TechCrunch:AI(RSS)The Decoder:AI News(RSS)X:OpenAI (@OpenAI)OpenAI:官网动态(RSS · 排除企业/客户案例)IT之家(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Noam Brown (@polynoamial)仅1000万参数的GRAM模型,通过引入可学习的随机性,在推理时并行探索多条不同路径,打破了传统递归模型锁定单一思维的限制。该模型在测试时同时运行这些平行轨迹,并借助奖励预测器选择最优结果,从而在深度之上增加了“宽度”维度。实验表明,GRAM在困难数独任务上准确率高达97%,远超此前最佳确定性模型;在多解的皇后问题上也能维持高性能,并能高效生成有效的数独谜题。这一框架为提升小模型的推理能力提供了新思路。
OpenAI内部推理模型自主解决了存在近80年的著名数学开放问题——平面单位距离问题。该模型推翻了Paul Erdős的猜想,发现了全新的点配置构造,其效率以固定多项式因子优于传统方格网格方案。证明运用了代数数论等跨学科方法,经外部数学家验证,被Fields奖得主Tim Gowers誉为“AI数学的里程碑”。这是AI首次独立解决数学领域的核心公开问题,标志着从知识复现到知识创造的重要转变,其跨领域推理能力可能为多学科研究带来深远影响。
Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...
关联讨论 7 条TechCrunch:AI(RSS)The Decoder:AI News(RSS)X:OpenAI (@OpenAI)OpenAI:官网动态(RSS · 排除企业/客户案例)IT之家(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Noam Brown (@polynoamial)atomic.chat的MTP(多Token预测)技术通过一次验证多个草稿token,有效减少了GPU重复读取模型权重的次数,显著提升了本地大模型的推理速度。测试显示,27B密集模型的速度从51 token/s提升至117 token/s,提升约137%;35B MoE模型在2x RTX 5090上速度提升约25%。该技术实现了约80%的草稿接受率,无精度损失,仅需额外约1GB显存。由于密集模型需要读取全部参数,其从该技术中获益更大。此项目已开源。
MTP speedup Qwen by 2.5x in Atomic Chat Dense vs MoE models on 2x RTX 5090 Qwen3.6 27B: 51 → 117 tps +137% Qwen3.6 35B-A...
OpenAI的一个AI模型自主攻克了“平面单位距离问题”,这是数学家埃尔德什于1946年提出的一个著名开放难题。近80年来,学界普遍认为最优构造近似于方格子,而该AI模型通过运用代数数论中冷门的Golod-Shafarevich理论,发现了一整族效率更高的全新构造,推翻了原有定见。此成就标志着AI首次独立解决一个数学领域的核心开放问题,其关键在于提出并完整执行了一条人类因直觉认为不可行而从未尝试的创新路径。
Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...
关联讨论 7 条TechCrunch:AI(RSS)The Decoder:AI News(RSS)X:OpenAI (@OpenAI)OpenAI:官网动态(RSS · 排除企业/客户案例)IT之家(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Noam Brown (@polynoamial)just quick napkin math on how long this took (unless i missed where they said): the published CoT summary is 111,145 tok...
随着长上下文与Prefill-Decode分离部署成为主流,GPU集群网络已从次要部件转变为制约推理吞吐、尾部延迟和成本的关键瓶颈。传统静态网络拓扑与动态非对称的KV Cache流量模式冲突,导致局部拥塞。为此,Z.ai、Harnets.AI与清华大学联合研发了ZCube网络架构。该架构采用完全扁平化拓扑与混合接入设计,从源头解耦并分散流量以减少拥塞。在GLM-5.1生产测试中,ZCube在保持GPU与软件栈不变的前提下,实现了交换机与光模块成本降低33%、平均推理吞吐提升15%、首token时间P99降低40.6%的显著效果,证明网络架构创新能有效释放硬件潜力。
关联讨论 1 条智谱:研究(网页内嵌数据)This is a general-purpose LLM. It wasn't targeted at this problem or even at mathematics. Also, it's not a scaffold. We ...
If you are a mathematician, then you may want to make sure you are sitting down before reading further.
关联讨论 7 条TechCrunch:AI(RSS)The Decoder:AI News(RSS)X:OpenAI (@OpenAI)OpenAI:官网动态(RSS · 排除企业/客户案例)IT之家(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Noam Brown (@polynoamial)This is a general-purpose LLM. It wasn't targeted at this problem or even at mathematics. Also, it's not a scaffold. We ...
Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...
关联讨论 7 条TechCrunch:AI(RSS)The Decoder:AI News(RSS)X:OpenAI (@OpenAI)OpenAI:官网动态(RSS · 排除企业/客户案例)IT之家(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Noam Brown (@polynoamial)If you are a mathematician, then you may want to make sure you are sitting down before reading further.
Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...
关联讨论 7 条TechCrunch:AI(RSS)The Decoder:AI News(RSS)X:OpenAI (@OpenAI)OpenAI:官网动态(RSS · 排除企业/客户案例)IT之家(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Noam Brown (@polynoamial)Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...
关联讨论 7 条TechCrunch:AI(RSS)The Decoder:AI News(RSS)X:OpenAI (@OpenAI)OpenAI:官网动态(RSS · 排除企业/客户案例)IT之家(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Noam Brown (@polynoamial)