SOMEONE CAUGHT FABLE 5 LEAKING ITS UNFILTERED INNER VOICE, AND ITS JUST MUTTERING AND GRUMBLING TO ITSELF THE WHOLE TIME...
SOMEONE CAUGHT FABLE 5 LEAKING ITS UNFILTERED INNER VOICE, AND ITS JUST MUTTERING AND GRUMBLING TO ITSELF THE WHOLE TIME...
Runway 开发了名为 deckard 的容量控制器,在生产推理集群与研究集群间动态重分配 GPU。生产流量在北美工作日上午 9 点 ET 达峰,晚 8 点 ET 跌至不足一半。控制器基于预计算的时间窗口(如工作日 8:30–12:30 ET 高峰子窗口)提前扩容和回收,每次集群间转移耗时 20–60 分钟。利用排队论(Erlang‑C、Little's Law)确定目标利用率,避免接近 85% 后的队列发散(90% 利用率下等待时间约为服务时间的 10 倍)。此方案使夜间闲置 GPU 回归研究、白天排队等待缩短。
推理大语言模型支持测试时扩展,准确率随 token 预算增加而提升,但预算设定带来风险-精度权衡。Conformal Thinking 框架将预算设定重定义为风险控制问题:在最小化计算量的同时限制错误率。该框架引入上阈值(模型足够自信时停止推理,承担输出错误的风险)和下阈值(提前终止无法解决的实例,承担过早停止的风险)。给定目标风险与验证集后,使用无分布风险控制来最优指定这些停止机制。跨多种推理任务和模型的实验表明,该方法在遵守用户指定风险目标的同时,通过下阈值与集成停止机制实现了计算效率提升。代码已开源。
扩散大语言模型(dLLM)可并行解码多个token,但现有分块式dLLM依赖重新掩码机制,仅保留最置信token而丢弃其余,造成计算浪费。本文提出Residual Context Diffusion(RCD)模块,将丢弃token的表示转化为上下文残差并注入下一次去噪步骤,采用解耦两阶段训练绕过内存瓶颈。在长CoT推理(SDAR)和短CoT指令跟随(LLaDA)模型上验证,标准dLLM仅需约10亿token即可高效转换为RCD。RCD在多项基准上以极小额外计算将前沿dLLM精度提升5–10个点,在最具挑战的AIME任务上几乎翻倍基线准确率,等效精度下减少4–5倍去噪步数。
AI appears to be finding software vulnerabilities at scale. In June 2026, 21 notable organizations disclosed ~1,500 high...
SGLang团队将LLM服务、分布式运行时、GPU内核、扩散管道等工作流编码为可执行的SKILL.md文件、脚本、基准合约和审查循环。现有技能包括:SGLang .claude/skills(CUDA调试、内核集成、性能分析等)、SGLang diffusion .claude/skills(扩散模型添加与调优)、BBuf/AI-Infra-Auto-Driven-SKILLS(跨框架SOTA循环)、KDA(MLSys 2026 FlashInfer内核竞赛获胜方案)以及BBuf/KDA-Pilot(已合并三个SGLang集成PR)。Profile证据是性能工作的核心,长期优化转向Loop Engineering——SGLang SOTA Performance Loop将追求SOTA分解为公平基准测试、差距决策、性能分析、补丁和再验证,Humanize/RLCR添加外部审查,Codex Goal以更低协调开销运行相同循环。评审重要性提升,开发者需定义问题、选择证据、设计工作流并判断结果是否可用于生产。
大语言模型可涌现推理行为,但复杂推理轨迹在无约束采样中稀疏,标准强化学习难以保证多样性。Ctrl-R框架通过可追踪轨迹控制主动引导rollout,激励探索多样推理模式,并利用重要性采样实现无偏on-policy优化,引入重要性采样权重的幂缩放因子以选择性学习分布外轨迹。实验表明,Ctrl-R在语言和视觉-语言模型的数学推理任务上均取得一致改进。
强化学习(RL)微调被扩展至视觉语言模型(VLM)。研究发现,简单的文本扰动——误导性标题或错误思维链(CoT)——会显著降低模型鲁棒性和置信度,且开源模型衰退更明显。闭源模型呈现类似失败模式,但鲁棒性和推理一致性更强。进一步分析揭示准确性与忠实性的权衡:微调提升基准准确率,但同时侵蚀CoT的可靠性及对上下文变化的鲁棒性;对抗性增强可改善鲁棒性,却无法阻止忠实性漂移。引入忠实性感知奖励能恢复答案与推理的对齐,但与增强结合时训练易崩溃到捷径策略。这些发现强调需联合关注正确性、鲁棒性与视觉推理的忠实性。
Introducing EBR-bench, our new benchmark to measure on-the-fly learning. AI repeatedly plays a challenging board game ca...
Bridgewater used their unique financial knowledge and partnered with us on @tinkerapi to fine-tune a model that helps th...
数学家 David Bessis 在文中反思,数学的核心产物是清晰与理解,而非定理本身。他用自己的两个未发表定理经历说明,证明定理并非最难,难点在于直觉和概念框架的构建。面对 AI 的快速发展,他感到既兴奋又担忧:AI 可能摧毁数学的“定理经济”,但几乎不触及数学本质——人类的直觉与创造力。他认为公众对数学的误解正在成为学科本身的生存威胁。
研究团队开发 Graph-PRefLexOR,一组图原生推理模型,用 GRPO 微调,将推理组织为机制探索、图构建、模式提取和假设合成等显式阶段。在材料科学与力学的 100 个开放式问题上,相较基础模型提升 40–65%,最大增益来自推理可追溯性。嵌入分析显示语义多样性约为基线 2–3 倍;层间隐藏状态分析表明结构化推理与最终答案对齐更强。测试时图扩展表明,额外算力主要增加有限语义空间内的长距离概念重组。
ELDR是为预填充-解码分离式MoE服务设计的解码路由算法。它从请求预填充阶段提取专家激活特征,构建预测生成阶段所需专家的签名,通过离线平衡K-means聚类将签名空间分配到解码节点,在线路由时优先将请求发往签名匹配且负载最轻的节点。签名缓存与KV缓存以KV-block粒度协同索引,保证前缀缓存下签名准确。在vLLM实现,最高40块GPU部署测试,相比四种负载均衡基线中最强的一种,在三个MoE模型和两种负载上降低中位TPOT 5.9–13.9%,模型输出不变。
多模态大语言模型受语言空间瓶颈限制,连续潜在推理虽能绕过离散token的感知损失,但存在训练-推理不匹配:训练时后验利用答案捷径,迫使推理时先验模仿包含不可用信息的后验,导致性能下降。提出非对称互变分学习(AMVL)框架,通过双向KL校准解决——前向KL训练先验匹配后验,反向KL正则化后验防止崩溃至推理不兼容区域,缓解“答案泄露”。理论分析将后验污染形式化为先验污染,证明双KL目标可降低污染。在latent-integrated MLLM上,AMVL在复杂BLINK基准平均提升+10.83,单项推理任务最高提升+32.00,潜在空间稳定性得到改善。
阿里云为秒悟 Meoo 推出夜间计划,每晚 22:00 至次日 08:00 期间,用户通过 Qoder 或 Meoo 调用 Qwen 3.7-Max 旗舰模型可享 2 折优惠,调用 Qwen 3.7-Plus 模型可享 4 折优惠。活动面向 Meoo Pro 或 Max 套餐用户,系统自动按比例扣减积分,不影响模型质量与响应速度,旨在利用夜间算力资源实现最高 80% 的成本节省。
Perceive-to-Reason (P2R) 提出两阶段统一框架:模型先作为感知器定位与问题相关的视觉证据,再作为推理器基于标注图像和裁剪区域回答问题。为对齐训练,引入感知-推理交替 GRPO(PRA-GRPO),一种仅用最终答案监督的、区分角色的强化学习策略。基于 Qwen3-VL-Instruct-2B/4B/8B,P2R 在各规模上持续提升性能。其中 P2R-4B 在 V-Star 达 93.2%,在 HR-Bench-4K 和 HR-Bench-8K 上分别达 81.9% 和 80.5%,显著超越对应基线。进一步实验表明,P2R 的收益可延伸至更广泛的多模态推理任务。
DSpark 与 JetSpec 几乎同时出现,都解决轻量级草稿模型并行提案时的因果一致性问题。DSpark 面向高并发,通过轻量级马尔可夫校正头与置信度估计控制预算,在 Qwen3-8B 与 AIME25 上,预算 7 时将接受长度从 DFlash 的 4.07 提升至 5.01。JetSpec 面向低延迟,将因果性直接构建进并行草稿头,预算 16 时接受长度 7.23,预算 128 时达 9.82,高于 DFlash 的 7.34 与 DDTree 的 8.66。两者分别从吞吐与延迟侧优化因果性。
在 atomic.chat(本地 LLM 桌面应用)的 HTML5 物理竞赛中,Fable 5 以 A+ 成绩完成全部三个场景(火车脱轨、汽车空中碰撞、怪物卡车碾压),消耗 62,158 token,成本 $3.12。相比之下,Opus 4.8 消耗 22,280 token/$0.56,GPT 5.5 消耗 37,753 token/$1.14(在怪物卡车场景中略胜 Fable),GLM 5.2 消耗 36,246 token/$0.08 但未赢得任何场景。Fable 5 质量最佳但成本最高。
Fable 5 totally crushed our new contest, but it cost 6x more than Opus 4.8! We gave 4 models the same prompt: build thre...
This is crazier than you might think: Fable-5 now scores 16.10% on the Remote Labor Index What is RLI? The Remote Labor ...
I have this struggle with my own teams, too: many think it is a great idea to save money/latency/sanity by running a pre...
Meta 新论文发现,后训练量化虽能缩小推理模型、降低部署成本,但会导致模型在已得出正确答案后反复自我怀疑,浪费 token。量化在不确定的词选择上引入噪声,使模型更倾向使用“wait”“but”“alternatively”等词重新开启推理。在 5 个推理模型(1.5B-32B)的数学、编程和科学任务上,激进量化使过度思考失败率最高达 52%。通过给 50 个犹豫词施以小惩罚,可剪掉 12%-23% 的推理长度,同时保持甚至提升准确率。
I have this struggle with my own teams, too: many think it is a great idea to save money/latency/sanity by running a pre...
Same here. Happy with Opus 4.8 (planning) and GPT-5.5 (execution). Also, breaking steps into smaller ones for increasing...
SemiAnalysis 指出推理正被多轮“切分”以降低成本。第一步按阶段拆分:prefill 与 decode 用不同芯片;第二步按层拆分:attention 用 HBM 富裕的 GPU,前馈网络用 SRAM 基芯片;第三步按时间拆分:工作负载切片为执行窗口,在集群中交错调度。每次切分回收闲置利用率,从而降低每 token 成本。更便宜的 token 不会压缩需求,反而刺激增长——这是 MLSys 2026 的核心叙事。
QVal提出一种无需训练的测试平台,通过Q对齐度量直接评估密集监督信号质量,判断动作排序是否匹配强参考策略的Q值。QVal-v1.0在4个环境、7类方法族、6个开放权重模型骨干上对21种密集监督方法进行了超过1200次评估实验,发现简单提示基线一致优于近年文献中的密集监督方法,且性能按方法族显著聚类。该平台易于扩展至新环境和新方法。
Claude Sonnet 5在Artificial Analysis评测中以53分(峰值)排名第五,与GPT-5.5 (high)并列。虽输入/输出token价格维持$3/$15不变,但每任务平均成本达$2.29,高于Opus 4.8的$1.97。原因:max设置下输出token消耗比Sonnet 4.6多40%,在agent任务中运行约3倍循环,成本接近翻倍。Anthropic延续了通过新tokenizer增加约30% token消耗的隐藏涨价策略。Sonnet 5在CritPt仅得17%,低于多个更强模型;但Terminal-Bench v2.1、HLE、SciCode分别提升9、10、7分。目前有促销价$2/$10至9月1日,但隐藏成本上涨使其与低价竞品竞争时处于劣势。
I'm posting this prediction now so I can quote it later. There has been a significant breakthrough in architecture - spe...
美团发布LongCat-2.0,一个1.6万亿参数的大模型,据称完全基于5万片国产AI处理器集群完成训练和推理。美团自2023年推进国产AI基础设施,该模型成为其首个在国产集群上完成预训练与推理的前沿规模模型。更值得关注的是,美团并未推出独立聊天机器人,而是将AI嵌入现有的推荐餐厅、订酒店、点餐等服务中。这种将AI整合进已有用户、商户、支付和交易生态的做法,正成为阿里(开放Qwen品牌智能体)、蚂蚁(以Ah Bao重构支付宝)等中国互联网平台的共同方向。
OpenAI论文首次列出GPT-5.6的三个Pro变体:Luna Pro、Terra Pro和Sol Pro,取代以往单一Pro模式。在基因组学基准中,Sol Pro通过率31.5%居60个测试模型之首,领先标准Sol(28.7%)和Claude Opus 4.8(16.0%)。Pro相比标准版本提升逐级递减:Luna Pro提升7.1个百分点(16.5%→23.6%),Terra Pro提升5.2(23.3%→28.5%),Sol Pro仅提升2.8(28.7%→31.5%)。Terra Pro(28.5%)几乎与标准Sol(28.7%)持平。论文未披露Pro运行的token用量,也不清楚该分层是否会在ChatGPT中实际推出。
We're coming out of stealth. We've built our first racks after a successful A0 tapeout, $1B+ in customer contracts, and ...
NVIDIA 发布 Nemotron-Labs-TwoTower,基于冻结的自回归骨干 Nemotron-3-Nano-30B-A3B 的扩散语言模型。采用双塔架构:上下文塔冻结,降噪器塔训练,通过层对齐交叉注意力和状态播种协作。在 2×H100 上 BF16 评估,保留 98.7% 的 AR 基线质量,生成吞吐量提升 2.42 倍(γ=0.8,块大小 S=16)。降噪器在约 2.1T token 上训练,骨干使用 25T token 预训练。总参数约 60B,每 token 活跃参数约 3B/塔。支持扩散、模拟 AR 和 AR 三种解码模式。
Sonnet 5 因更换新 tokenizer,实际费用与 Opus 4.8 相近,引发争议。Sonnet 5 在金融领域(如 GDPeval)表现最佳,擅长调用工具核查事实,但编程费用可能超过 Opus 4.8。Opus 4.8 在复杂编程、规划和 HTML 设计上强,写作不及 Opus 4.6,与 GPT 5.5 各有千秋。目前编程首选 GPT 5.5。三模型均已上线 Cola。
MBD-LMs通过多块教师强制(MultiTF)后训练块扩散语言模型(BD-LMs)得到。MultiTF结合教师强制与扩散强制,在干净前缀上训练有界噪声组,采用随机噪声调度器匹配多块扩散推理状态。基于Block Buffer的优化解码实现前缀缓存复用和输入形状静态化,将更高并行度转为实际加速。MBD-LLaDA2-Mini的TPF从3.47提升至6.19,准确率从79.95%提升至81.03%;结合DMax后TPF
英伟达 6 月 30 日发布博文,宣布在 Blackwell 平台上通过全栈推理优化,使 DeepSeek V4 模型的单 Token 成本降至 1 个月前的五分之一,达到行业最低水平。优化涵盖生产运营、应用加速和基础设施访问三层,采用分离式服务、大规模专家并行、NVLink 并行通信、NVFP4 精度及多 token 预测等技术,单 GPU 的 token 吞吐量最高提升 20 倍。
Grant Sanderson(3Blue1Brown)与Dwarkesh Patel对话指出,2024年AI在IMO已达金牌,但组合数学仍卡住。AI数学进展分两类:连接闪电(跨领域连接,如Erdős第1196号问题、单位距离猜想反例)和建造山峰(如伽罗瓦群论,需百年验证)。训练依赖RLVR,但伽罗瓦想法当时被拒,无反馈信号。可验证仅是必要条件,可磨性(并行实例)才是充分条件;电脑操作虽可验证但缺可磨性,进展慢。
3blue1brown 的 Grant Sanderson 在访谈中分享 AI 相关观点:① 知识跨领域连接在自回归框架中属于低概率事件;② AI 擅长跨领域打通已有知识,但尚无法创造全新思考框架;③ AI 最被低估的优势是并行化,而非智力;④ 数学和代码能被 AI 快速迭代,不仅因为答案可验证,更因为可以容器化、并行磨练。完整访谈见视频链接。
http://x.com/i/article/2072191016476856320
美团发布并开源LongCat-2.0,1.6万亿总参数、480亿激活参数(3%)的MoE大模型。使用35万亿token训练,在5万片国产芯片上“全程无回滚”完成。引入LongCat稀疏注意力(LSA),包含流感知索引、跨层索引和层级化索引,解决长文本注意力瓶颈。采用5-gram N-gram Embedding增加135B参数,在不增加MoE专家竞争的情况下增强局部上下文理解。训练使用6D并行技术适配国产算力。计划2026年6月30日发布并开源。