Many research labs only consider inference efficiency after the fact. Step 3.7 Flash is a 198B sparse MoE VLM designed b...
同一事件,精选展示《在 NVIDIA GPU 上运行面向企业级就绪的多模态 AI--Step 3.7 Flash》Many research labs only consider inference efficiency after the fact. Step 3.7 Flash is a 198B sparse MoE VLM designed b...
同一事件,精选展示《在 NVIDIA GPU 上运行面向企业级就绪的多模态 AI--Step 3.7 Flash》SGLang 与 Miles 在发布首日即支持 NVIDIA Nemotron 3 Ultra。该模型为开放前沿推理模型,总参数 550B、激活参数 55B,采用混合 Transformer-Mamba 架构的 MoE,支持最长 1M token 上下文。针对长运行自主智能体优化,具备工具调用、编码、深度研究与编排能力,后训练使用多环境强化学习(NeMo RL)。SGLang 提供高性能推理,支持 NVFP4 和 BF16 精度,NVFP4 检查点可在 Blackwell GPU 运行;Miles 支持强化学习工作流。模型权重、数据与配方均开源。在智能体生产力、指令遵循与长上下文任务上准确率领先,成本节省高达 30%。
关联讨论 9 条X:Kim (@kimmonismus)HuggingFace Daily Papers(社区热门论文)IT之家(RSS)Hugging Face:Blog(RSS)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)IR3DE是一个基于岭回归的线性路由器,为每个提示选择最合适的领域专家大语言模型。在两个因果语言建模(CLM)任务中,IR3DE性能与其他基线相当;在推理任务中,归一化性能达到98.4%,超越其他方法。该路由器支持动态添加或移除领域专家,无需重新训练,代码已开源。
OpenRouter 在 30 场机器人冲刺对决中测试了 11 款大语言模型,共耗 482 美元推理成本。结果指向一个发现:应该重新审视模型 benchmark 的解读方式。
同一事件,精选展示《OpenRouter 翻遍 11 款 LLM 找最快的决策模型:Claude vs. Grok 领衔》在 Nemotron-3 Nano 模型的 100B token 续训练实验中,任务种子合成数据生成(Task-Seeded SDG)使 MMLU-Pro 提升 1.8 分,平均代码提升 1.9 分,常识理解提升 1.6 分,GPQA 提升 11.1 分,数学成绩保持稳定。该流程利用 lm-eval-harness 中约 70 个公开任务(约 700 子任务)的训练集作为种子,生成新示例并补充推理和上下文,经过格式校验、去重和答案验证后得到精选合成数据集,用于 Nemotron Ultra 和 Super 训练。
StepFun's Step 3.7 Flash sits on the Intelligence vs Output Speed Pareto frontier, scoring 43 on the Artificial Analysis...
一篇来自 maxleiter.com 的博文,标题为“它们是用哑铃做的”。正文内容极为简短,仅包含一张图片和一句声明“They're made out of weights”(中文翻译为“它们是用哑铃做的”),未提供任何上下文或技术细节。该博文在 Hacker News 上获得 113 个点赞。由于缺少具体说明,读者无法得知所指对象以及“哑铃”的真实含义。
StepFun 开源 Step 3.7 Flash(Apache 2.0),总参数 198B、激活 11B(MoE),上下文 256K。在 Artificial Analysis 智能指数上得分 42.6,较 Step 3.5 Flash 提升 4 分,输出速度超 400 tokens/s,通过 Multi-Token Prediction(3 个 token)加速。新增 1.8B 视觉编码器支持原生多模态,MMMU-Pro 得分 75.3%。代理能力提升:GDPval-AA Elo 从 1070 升至 1298,TerminalBench Hard 达 35.6%,AA-LCR 63.7%。知识/幻觉仍弱:AA-Omniscience 准确率 25.4%,幻觉率 84.4%。提供 BF16、FP8、NVFP4 精度权重以降低部署成本。
Large Reasoning Models (LRMs) 在基于可验证奖励的强化学习(RLVR)下取得进展,但长思维链中的试错和冗余探索被强化,导致过度思考。ThoughtFold 提出细粒度偏好学习框架:通过内省策略识别正确轨迹中的冗余段,生成候选子轨迹谱,并引入掩码偏好优化目标,显式惩罚冗余探索、鼓励模型直接桥接关键推理步骤,从而折叠推理链。在 DeepSeek-R1-Distill-Qwen-7B 上将 token 使用量减少约 56%,同时保持 SOTA 准确率。
AMD 客户端业务高级副总裁拉胡尔·蒂库在 2026 台北国际电脑展上回应英伟达推出 RTX Spark 入局 AI PC 处理器市场,表示欢迎竞争,认为大容量本地内存对 AI 智能体工作负载至关重要。AMD 的 Strix Halo 及后续 Gorgon Halo 足以与 RTX Spark 竞争,Gorgon Halo 采用 Zen 5 CPU 和 RDNA 3.5 GPU,统一内存最高 192GB。软件生态方面,AMD 主推 ROCm,称 CUDA 的壁垒影响已较三年前下降,开发者迁移难度较低。
StreamMA 采用“流式通信”范式,每个推理步骤生成后立即流式传输给下游智能体,通过流水线相邻智能体降低端到端延迟。该方法还提升了效果,因为早期步骤更可靠,可避免错误后期步骤误导下游智能体。在数学、科学和代码八项推理基准上,使用 Claude Opus 4.6 和 GPT-5.4 两种大语言模型,及 Chain、Tree、Graph 三种拓扑,StreamMA 平均优于基线 +7.3 个百分点,在 HMMT 2026 上最高达 +22.4 个百分点。研究还发现“步骤级缩放定律”:增加每智能体步骤数可同时提升效果与效率。
阶跃星辰的 Step 3.7 Flash 在 Artificial Analysis 最新榜单中多项关键维度领先。其输出速度达 409 tokens/s,位列主流模型第一;端到端响应时长仅 7.1 秒;智能效率与速度价格比均进入最吸引人的象限。模型在搜索、代码、多模态理解和 Agent 工作流中保持稳定表现,兼顾速度、智能与成本,适合大规模商业化部署。
可验证奖励强化学习(如GRPO)常用统一的序列级优势更新所有token,稀释了梯度信号。GRAIL提出内在的逐token优势重加权方法,利用梯度激活显著度为对最终答案更敏感的token赋予更高权重。在Qwen3、R1-distilled和OctoThinker家族共5个模型上的评估显示,GRAIL一致优于GRPO,平均准确率提升3.60%,Pass@3提升3.05%,无需过程级监督即可实现细粒度推理对齐。
科技媒体 The Information 报道,苹果 iOS 27 版 Siri 的部分用户查询将跳转至 Google Cloud,调用授权版 Gemini 模型,并由谷歌的 NVIDIA Blackwell B200 GPU 集群处理。Blackwell B200 基于 Blackwell 架构,面向大模型训练与推理。为降低云端隐私风险,苹果将启用英伟达机密计算(confidential compute)硬件级安全功能,在 GPU 处理数据时加密,保护 AI 模型在共享云环境中的机密性与完整性。
研究发现,预训练LLM的层可作为模块,对每个输入灵活跳过或循环,形成动态程序(PoLar)。多数输入使用更少层即可达到相同或更高准确率,且原始模型的错误预测可通过更少层的替代程序纠正。为此,研究者提出轻量级PoLar预测网络,为每个输入生成动态跳过或重复层的执行程序。在数学推理基准上,PoLar一致优于标准推理和此前动态深度方法,常在使用更少层时提升准确率,在分布外评估中表现稳定。结果表明,固定深度执行仅捕捉了LLM潜在推理能力的一小部分。
MRAgent 框架将记忆建模为 Cue-Tag-Content 关联图,并通过主动重建机制将 LLM 推理直接融入记忆访问,使智能体在推理过程中基于累积证据动态探索和剪枝检索路径,避免组合爆炸。在 LoCoMo 和 LongMemEval 基准上,MRAgent 相比强基线最高提升 23%,同时显著降低 token 和运行时开销。
Qwen3.5-397B-A17B与gpt-oss-120B两教师模型各生成约283k条正确轨迹,经指令微调模型压缩至原始字符长度的8.6–21.0%。压缩轨迹使训练token降至原始的12–30%,训练速度提升2.0–7.6倍,推理输出长度缩短3–19倍。但原始轨迹在所有规模下保持最高下游准确率;压缩学生模型可保留高达96%的原始准确率,同时获得最高18倍的每token效率。在0.8B学生规模使用LoRA时,压缩轨迹缩小了与原始轨迹的差距,但未超过原始。
视觉-语言模型(VLM)在空间推理中受限于观测图像和文本链式推理。Astra框架将Astra-VL(基于强化学习的VLM策略)与Astra-WM(基于Bagel的世界模拟器)耦合,后者从上下文图像和自然语言相机运动生成新视角观测。Astra-WM通过视角一致性训练提升跨视角一致性。RL阶段采用包含世界模拟器的两阶段课程学习,训练模型仅在想象观测优于直接回答时调用模拟器。实验显示,Astra-WM使Gemini-3-Flash在MMSI-Bench上从45.1提升至49.5;Astra-VL将Qwen3-VL在MMSI-Bench上从29.8提升至38.8,在MindCube上从36.8提升至42.7。
WorldBench是一个用于评估多模态大语言模型(MLLM)的推理基准,通过构建涵盖多个领域(如生物)的数千个视觉概念分类体系,从搜索引擎和现有数据集中广泛收集图片,并采用结构化试错方法手动设计前沿MLLM难以回答的挑战性问题。在15个MLLM上的评估显示,最强模型准确率仅达64.0%,部分模型性能略高于随机水平,揭示了现有模型在视觉理解上的不足。该基准在视觉多样性上优于现有任何多样化基准。
MiniMax M3 arrives with MiniMax Sparse Attention (MSA), 15.6x faster decoding at 1M tokens. We're partnering with @MiniM...
关联讨论 12 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)IT之家(RSS)GPT-Rosalind 在生命科学研究领域推出新功能,增强了生物推理、药物化学专业知识、基因组学分析以及实验工作流处理能力。
Jensen Huang 在 Computex 主题演讲中引用 Artificial Analysis 的 Intelligence Index vs. Output Speed 图表,介绍 NVIDIA 新模型 Nemotron 3 Ultra 的性能。演讲还提及 GDPval-AA——Artificial Analysis 基于 OpenAI 的 GDPval 数据集评估模型在经济价值任务上的基准。NVIDIA 同时用 Artificial Analysis 的文生图和图生视频 Arena Elo 评分推广 Cosmos 3 模型族。
多伦多大学研究人员展示了一种人工智能蠕虫,能够主动传播并攻击任何联网设备,无需人工干预即可在系统间移动。这项研究揭示了AI驱动自主攻击的潜在威胁。
KVarN是一种免校准的KV-cache量化方法,通过Hadamard旋转结合双标度方差归一化,同时对K和V矩阵的两个轴进行归一化,以修复异常token尺度误差,大幅减少自回归解码中量化误差随时间步的累积。在2-bit精度下,KVarN在MATH500、AIME24和HumanEval等生成基准上达到新的SOTA。该方法的vLLM实现已在GitHub开源。
Google 新研究 LEAP 将通用大语言模型封装在智能体框架中,每个步骤基于 Lean 编译器,并依赖验证器反馈进行迭代。同一通用模型解决了全部 12 道 Putnam 2025 问题,并将 Lean-IMO-Bench 一次性解决率从不到 10% 提升至 70%,击败了得分 48% 的专业金牌系统。论文链接:https://arxiv.org/abs/2606.03303。
在年度Build大会上,微软宣布了一系列AI新举措,包括超级应用、自研推理模型、网络安全工具和OpenClaw风格的AI智能体。该公司此前长期依赖与OpenAI的独家合作,但这段充满戏剧性的关系已在4月底实质上破裂(微软仍保留OpenAI主要云合作伙伴身份)。微软正以独立姿态成为AI领域的重要玩家。
Perplexity 发布了一个编排器,将本地计算机上的 AI 模型与云端强大模型相结合,并自动决定每个任务分配至本地处理还是云端处理。
微软在模型发布卡中首次加入平均token使用量指标。其模型在SWE-Bench Verified上达71.6分,仅消耗约Claude Haiku 4.5三分之一的token。Artificial Analysis的Intelligence Index显示GPT 5.5与Claude Opus 4.8得分相近(约60分),但Opus 4.8运行成本高出40%($4,685 vs $3,357)。Uber因四个月内AI预算超支而限制员工使用;Salesforce花费$3亿购买Anthropic tokens并冻结工程招聘。模型公司如今需同时在性能和成本两个维度竞争。
英特尔 CEO 陈立武在 2026 台北电脑展上预测,到 2030 年每 10 台新数据中心服务器中 8 台基于 x86 架构。智能体 AI 场景下 CPU 与 GPU 算力比例可能从传统 AI 的 7:1(偏向 GPU)反转至最高 1:1.3。英特尔同步发布 18A 制程至强 6+ “Clearwater Forest” 处理器(288 个 E 核),推出开放标准整机架方案 “Rack Scale Blueprint”,并宣布进入定制 ASIC 市场,已为谷歌供应 IPU,与爱立信合作开发无线通信 ASIC。
微软在 Build 2026 大会上发布七款自研新 AI 模型,其中包括其首款推理模型。公司还推出了一种新的调优方法和一个自主后台 AI 智能体。
关联讨论 3 条X:Rohan Paul (@rohanpaul_ai)The Verge:AI(RSS)X:Satya Nadella (@satyanadella)中兴通讯在 AI 云电脑体验日宣布与腾讯达成合作,推出搭载腾讯原生 WorkBuddy 的 AI 云电脑,融合腾讯云算力和混元大模型能力,面向学生、职场人士、小微团队。中兴副总裁华新海指出,我国家庭电脑拥有率为 67.5%,20% 设备长期闲置。2025 年中兴云电脑终端销量突破 200 万台,连续两年蝉联中国云终端市场冠军。
该研究将大语言模型推理测试时扩展的自适应采样过程建模为马尔可夫决策过程,并使用强化学习训练一个轻量级采样控制器。该控制器在每一轮决定是停止采样还是获取更多样本,仅依赖最终答案的统计信息,并能联合权衡答案正确性、延迟与计算成本,且可在CPU上训练和部署。实验在Qwen2.5-7B和Llama-3.1-8B模型上进行,与ASC等强基线相比,该方法在正确性、采样轮数和总样本数之间取得了更优的权衡。
推理模型通过延长思考链提高准确率,但长输出导致内存与计算瓶颈。现有KV缓存淘汰方法因准确率常不及保留完整缓存的稀疏注意力方法而受限。研究发现,淘汰少量大数值价值状态会导致模型陷入重复推理循环;引入随机性则能提升缓存多样性以改善准确率。基于此,本文提出无需训练的“价值感知随机KV缓存淘汰”方案。在Qwen3模型上的实验表明,该方法进行4倍缓存压缩时,在六个推理任务上的平均准确率高于同等稀疏度下的SOTA选择方法,并比最强淘汰方法提升超过4%。