7月3日

06:36

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

用户 @om_patel5 发现，Claude 在解决高难度编程题时，Web 界面泄露了其未经筛选的思维过程。模型并非用完整句子推理，而是发出"DATA DATA DATA. GO."、"GRRR"、"GAAAH"、"PHEW"等简短片段，如同焦躁的原始人速记。AI Safety Memes 指出，这表明模型本质上已建立自己的"私人语言"--一种比规范英语更快、更省 token 的压缩速记形式进行推理，而给出的清晰答案只是经过打磨的最终输出。

Om Patel: SOMEONE CAUGHT FABLE 5 LEAKING ITS UNFILTERED INNER VOICE, AND ITS JUST MUTTERING AND GRUMBLING TO ITSELF THE WHOLE TIME...

安全/对齐推理现象/趋势

05:50

Runway：News（网页）

借用夜晚：将闲置推理GPU回收用于研究

Runway 开发了名为 deckard 的容量控制器，在生产推理集群与研究集群间动态重分配 GPU。生产流量在北美工作日上午 9 点 ET 达峰，晚 8 点 ET 跌至不足一半。控制器基于预计算的时间窗口（如工作日 8:30–12:30 ET 高峰子窗口）提前扩容和回收，每次集群间转移耗时 20–60 分钟。利用排队论（Erlang‑C、Little's Law）确定目标利用率，避免接近 85% 后的队列发散（90% 利用率下等待时间约为服务时间的 10 倍）。此方案使夜间闲置 GPU 回归研究、白天排队等待缩短。

推理教程/实践部署/工程

05:08

Apple Machine Learning Research（RSS）

Conformal Thinking：计算预算下推理的风险控制框架

推理大语言模型支持测试时扩展，准确率随 token 预算增加而提升，但预算设定带来风险-精度权衡。Conformal Thinking 框架将预算设定重定义为风险控制问题：在最小化计算量的同时限制错误率。该框架引入上阈值（模型足够自信时停止推理，承担输出错误的风险）和下阈值（提前终止无法解决的实例，承担过早停止的风险）。给定目标风险与验证集后，使用无分布风险控制来最优指定这些停止机制。跨多种推理任务和模型的实验表明，该方法在遵守用户指定风险目标的同时，通过下阈值与集成停止机制实现了计算效率提升。代码已开源。

推理论文/研究

05:08

Apple Machine Learning Research（RSS）

残差上下文扩散语言模型（Residual Context Diffusion Language Models）

扩散大语言模型（dLLM）可并行解码多个token，但现有分块式dLLM依赖重新掩码机制，仅保留最置信token而丢弃其余，造成计算浪费。本文提出Residual Context Diffusion（RCD）模块，将丢弃token的表示转化为上下文残差并注入下一次去噪步骤，采用解耦两阶段训练绕过内存瓶颈。在长CoT推理（SDAR）和短CoT指令跟随（LLaDA）模型上验证，标准dLLM仅需约10亿token即可高效转换为RCD。RCD在多项基准上以极小额外计算将前沿dLLM精度提升5–10个点，在最具挑战的AIME任务上几乎翻倍基线准确率，等效精度下减少4–5倍去噪步数。

推理论文/研究

04:41

François Chollet@fchollet

最终，大部分AI将趋近于直觉引导的符号世界建模，即深度学习引导的程序合成。这是不可避免的。符号建模让系统能够用最少的数据构建一个紧凑、可复用、高度泛化的问题空间心智模型。

大佬观点推理

04:35

Ethan Mollick@emollick

精选77

关于Mythos和网络安全的讨论并非炒作。（正如任何使用Fable进行自主工作的人可能已经认识到的那样。）

Epoch AI: AI appears to be finding software vulnerabilities at scale. In June 2026, 21 notable organizations disclosed ~1,500 high...

Anthropic 安全/对齐推理

推荐理由：AI在安全漏洞发现上第一次展现出规模化能力，6月CVE数直接翻了3.5倍，所有做安全的人今天起都得重新评估自己的攻击面。

02:37

LMSYS：Blog（Chatbot Arena 团队）

精选59

Agent辅助的SGLang开发：初步探索

SGLang团队将LLM服务、分布式运行时、GPU内核、扩散管道等工作流编码为可执行的SKILL.md文件、脚本、基准合约和审查循环。现有技能包括：SGLang .claude/skills（CUDA调试、内核集成、性能分析等）、SGLang diffusion .claude/skills（扩散模型添加与调优）、BBuf/AI-Infra-Auto-Driven-SKILLS（跨框架SOTA循环）、KDA（MLSys 2026 FlashInfer内核竞赛获胜方案）以及BBuf/KDA-Pilot（已合并三个SGLang集成PR）。Profile证据是性能工作的核心，长期优化转向Loop Engineering——SGLang SOTA Performance Loop将追求SOTA分解为公平基准测试、差距决策、性能分析、补丁和再验证，Humanize/RLCR添加外部审查，Codex Goal以更低协调开销运行相同循环。评审重要性提升，开发者需定义问题、选择证据、设计工作流并判断结果是否可用于生产。

推理教程/实践部署/工程

推荐理由：这不是一篇普通的开发经验总结，而是 SGLang 团队把调试、基准测试和性能调优等重复劳动变成可执行 agent 技能的实操手册，对于做推理框架和复杂工程的人非常值得一看。

01:08

Apple Machine Learning Research（RSS）

通过可追踪轨迹控制学习结构化推理

大语言模型可涌现推理行为，但复杂推理轨迹在无约束采样中稀疏，标准强化学习难以保证多样性。Ctrl-R框架通过可追踪轨迹控制主动引导rollout，激励探索多样推理模式，并利用重要性采样实现无偏on-policy优化，引入重要性采样权重的幂缩放因子以选择性学习分布外轨迹。实验表明，Ctrl-R在语言和视觉-语言模型的数学推理任务上均取得一致改进。

推理数据/训练论文/研究

01:08

Apple Machine Learning Research（RSS）

精选62

RL微调VLM的鲁棒性与思维链一致性研究

强化学习（RL）微调被扩展至视觉语言模型（VLM）。研究发现，简单的文本扰动——误导性标题或错误思维链（CoT）——会显著降低模型鲁棒性和置信度，且开源模型衰退更明显。闭源模型呈现类似失败模式，但鲁棒性和推理一致性更强。进一步分析揭示准确性与忠实性的权衡：微调提升基准准确率，但同时侵蚀CoT的可靠性及对上下文变化的鲁棒性；对抗性增强可改善鲁棒性，却无法阻止忠实性漂移。引入忠实性感知奖励能恢复答案与推理的对齐，但与增强结合时训练易崩溃到捷径策略。这些发现强调需联合关注正确性、鲁棒性与视觉推理的忠实性。

多模态推理论文/研究

推荐理由：RL微调让VLM基准分变好看，却可能让它的推理链变得靠不住，这个反直觉的诊断对正在用RL打磨多模态模型的团队是个警醒。

01:04

Ethan Mollick@emollick

Ethan Mollick指出，持续学习是AI爆炸式采用的最大障碍，并对递归自我改进有重大影响。只要模型健忘、需人类替其学习，采用速度就受限于人类流程。EpochAI Research为此推出EBR-bench，通过让AI反复玩Earthborne Rangers棋盘游戏来测试其即时学习能力。初步结果显示：AI未能从错误中改进，至今无提升迹象。

Epoch AI: Introducing EBR-bench, our new benchmark to measure on-the-fly learning. AI repeatedly plays a challenging board game ca...

大佬观点推理现象/趋势

00:34

Epoch AI@EpochAIResearch

介绍 EBR-bench，我们用于衡量即时学习的新基准。 AI 反复玩一款名为 Earthborne Rangers 的挑战性棋盘游戏，并尝试从错误中学习。迄今为止：没有改进的迹象。

推理论文/研究

00:09

elvis@omarsar0

Elvis Saravia（DAIR.AI）指出，调优和构建LLM验证器及裁判（verifiers/judges）正成为高需求技能。他将这些组件用于自己的测试框架（harness），解锁了远超市面现有方案的智能体编码工作流。同时，引用案例显示，Bridgewater利用其金融专业知识，与Tinker API合作微调模型，帮助分析师聚焦关键任务，体现了"专家提升AI，AI赋能专家"的闭环。

Mira Murati: Bridgewater used their unique financial knowledge and partnered with us on @tinkerapi to fine-tune a model that helps th...

大佬观点推理

7月2日

21:14

Hacker News 热门（buzzing.cc 中文翻译）

"定理经济"的衰落

数学家 David Bessis 在文中反思，数学的核心产物是清晰与理解，而非定理本身。他用自己的两个未发表定理经历说明，证明定理并非最难，难点在于直觉和概念框架的构建。面对 AI 的快速发展，他感到既兴奋又担忧：AI 可能摧毁数学的“定理经济”，但几乎不触及数学本质——人类的直觉与创造力。他认为公众对数学的误解正在成为学科本身的生存威胁。

DeepMind OpenAI 大佬观点开源生态

17:31

HuggingFace Daily Papers（社区热门论文）

图原生强化学习通过概念重组实现可追溯的科学假设生成

研究团队开发 Graph-PRefLexOR，一组图原生推理模型，用 GRPO 微调，将推理组织为机制探索、图构建、模式提取和假设合成等显式阶段。在材料科学与力学的 100 个开放式问题上，相较基础模型提升 40–65%，最大增益来自推理可追溯性。嵌入分析显示语义多样性约为基线 2–3 倍；层间隐藏状态分析表明结构化推理与最终答案对齐更强。测试时图扩展表明，额外算力主要增加有限语义空间内的长距离概念重组。

arXiv 推理数据/训练论文/研究

15:28

HuggingFace Daily Papers（社区热门论文）

ELDR：面向PD分离式MoE服务的专家局部性感知解码路由

ELDR是为预填充-解码分离式MoE服务设计的解码路由算法。它从请求预填充阶段提取专家激活特征，构建预测生成阶段所需专家的签名，通过离线平衡K-means聚类将签名空间分配到解码节点，在线路由时优先将请求发往签名匹配且负载最轻的节点。签名缓存与KV缓存以KV-block粒度协同索引，保证前缀缓存下签名准确。在vLLM实现，最高40块GPU部署测试，相比四种负载均衡基线中最强的一种，在三个MoE模型和两种负载上降低中位TPOT 5.9–13.9%，模型输出不变。

推理论文/研究部署/工程

15:28

HuggingFace Daily Papers（社区热门论文）

多模态连续推理：非对称互变分学习

多模态大语言模型受语言空间瓶颈限制，连续潜在推理虽能绕过离散token的感知损失，但存在训练-推理不匹配：训练时后验利用答案捷径，迫使推理时先验模仿包含不可用信息的后验，导致性能下降。提出非对称互变分学习（AMVL）框架，通过双向KL校准解决——前向KL训练先验匹配后验，反向KL正则化后验防止崩溃至推理不兼容区域，缓解“答案泄露”。理论分析将后验污染形式化为先验污染，证明双KL目标可降低污染。在latent-integrated MLLM上，AMVL在复杂BLINK基准平均提升+10.83，单项推理任务最高提升+32.00，潜在空间稳定性得到改善。

多模态推理论文/研究

15:04

IT之家（RSS）

阿里云秒悟 Meoo 上线夜间计划，每晚 22：00 后用 Qwen3.7-Max AI 工具最低 2 折

阿里云为秒悟 Meoo 推出夜间计划，每晚 22:00 至次日 08:00 期间，用户通过 Qoder 或 Meoo 调用 Qwen 3.7-Max 旗舰模型可享 2 折优惠，调用 Qwen 3.7-Plus 模型可享 4 折优惠。活动面向 Meoo Pro 或 Max 套餐用户，系统自动按比例扣减积分，不影响模型质量与响应速度，旨在利用夜间算力资源实现最高 80% 的成本节省。

产品更新推理

11:28

HuggingFace Daily Papers（社区热门论文）

Perceive-to-Reason （P2R）：解耦感知与推理的细粒度视觉推理框架

Perceive-to-Reason (P2R) 提出两阶段统一框架：模型先作为感知器定位与问题相关的视觉证据，再作为推理器基于标注图像和裁剪区域回答问题。为对齐训练，引入感知-推理交替 GRPO（PRA-GRPO），一种仅用最终答案监督的、区分角色的强化学习策略。基于 Qwen3-VL-Instruct-2B/4B/8B，P2R 在各规模上持续提升性能。其中 P2R-4B 在 V-Star 达 93.2%，在 HR-Bench-4K 和 HR-Bench-8K 上分别达 81.9% 和 80.5%，显著超越对应基线。进一步实验表明，P2R 的收益可延伸至更广泛的多模态推理任务。

多模态推理论文/研究

08:10

Hao AI Lab@haoailab

DSpark 与 JetSpec 对比：两种面向因果一致性的推测解码技术

DSpark 与 JetSpec 几乎同时出现，都解决轻量级草稿模型并行提案时的因果一致性问题。DSpark 面向高并发，通过轻量级马尔可夫校正头与置信度估计控制预算，在 Qwen3-8B 与 AIME25 上，预算 7 时将接受长度从 DFlash 的 4.07 提升至 5.01。JetSpec 面向低延迟，将因果性直接构建进并行草稿头，预算 16 时接受长度 7.23，预算 128 时达 9.82，高于 DFlash 的 7.34 与 DDTree 的 8.66。两者分别从吞吐与延迟侧优化因果性。

大佬观点推理部署/工程

07:37

SemiAnalysis@SemiAnalysis_

本周 InferenceX 团队讨论了将 DeepSeek V4 部署到 InferenceX 所需的工作、模型架构的变化、什么是 MegaKernel，以及在包括华为昇腾 NPU 在内的各种加速器上的初始性能。

DeepSeek 推理评测/基准部署/工程

07:34

Rohan Paul@rohanpaul_ai

Fable 5 在 HTML5 物理竞赛中表现优异，但成本是 Opus 4.8 的 6 倍、GLM 5.2 的 39 倍

在 atomic.chat（本地 LLM 桌面应用）的 HTML5 物理竞赛中，Fable 5 以 A+ 成绩完成全部三个场景（火车脱轨、汽车空中碰撞、怪物卡车碾压），消耗 62,158 token，成本 $3.12。相比之下，Opus 4.8 消耗 22,280 token/$0.56，GPT 5.5 消耗 37,753 token/$1.14（在怪物卡车场景中略胜 Fable），GLM 5.2 消耗 36,246 token/$0.08 但未赢得任何场景。Fable 5 质量最佳但成本最高。

atomic.chat: Fable 5 totally crushed our new contest, but it cost 6x more than Opus 4.8! We gave 4 models the same prompt: build thre...

Anthropic OpenAI 推理编码

07:22

Chubby♨️@kimmonismus

Fable-5在Remote Labor Index（RLI）取得16.10%分数，领跑公开排行榜。RLI使用240个真实远程工作项目（覆盖23个领域、总价值超14万美元），评审将AI输出与人类交付物对比，判断合理客户是否接受。该成绩被称为"疯狂的跃升"，表明AI仍处于指数发展期。与此同时，传闻GPT-5.6将于下周发布，作者向OpenAI喊话并追问Gemini 3.5 Pro去向。

Chubby♨️: This is crazier than you might think: Fable-5 now scores 16.10% on the Remote Labor Index What is RLI? The Remote Labor ...

推理评测/基准

05:29

Ethan Mollick@emollick

Ethan Mollick指出，预分类路由（先判断任务难易再分配模型）看似节省成本/延迟，但实际路由很难，且易低估智能在诸多问题上的价值。OpenAI在GPT-5上已吸取此教训，如今这类思路再次流行。@MParakhin补充：要可靠运行预分类器必须先解决任务本身，唯一正确方式是采用顾问模型（advisory model）方法。

Mikhail Parakhin: I have this struggle with my own teams, too: many think it is a great idea to save money/latency/sanity by running a pre...

OpenAI 大佬观点推理

05:03

Rohan Paul@rohanpaul_ai

Meta 研究：量化推理模型因自我怀疑导致过度思考，小幅惩罚可缓解

Meta 新论文发现，后训练量化虽能缩小推理模型、降低部署成本，但会导致模型在已得出正确答案后反复自我怀疑，浪费 token。量化在不确定的词选择上引入噪声，使模型更倾向使用“wait”“but”“alternatively”等词重新开启推理。在 5 个推理模型（1.5B-32B）的数学、编程和科学任务上，激进量化使过度思考失败率最高达 52%。通过给 50 个犹豫词施以小惩罚，可剪掉 12%-23% 的推理长度，同时保持甚至提升准确率。

Meta 推理论文/研究

04:59

Ethan Mollick@emollick

Ethan Mollick 指出预分类路由器（pre-classifying routers）会导致糟糕结果，因为路由本身很难，且常低估智能的价值。OpenAI 在 GPT-5 上已吃过亏，如今这类思路又热起来。引用的 @MParakhin 也认为，用预分类器先判断任务是否简单再调用小模型看似省钱省延迟，但可靠执行必须先解决任务本身，唯一可行的是 advisory model approach。

Mikhail Parakhin: I have this struggle with my own teams, too: many think it is a great idea to save money/latency/sanity by running a pre...

OpenAI 大佬观点推理

04:37

elvis@omarsar0

作者预测Fable 5的兴奋感将迅速消退，并提醒用户注意token限制和功能局限。建议通过组合多个AI模型（如Opus 4.8用于规划、GPT-5.5用于执行）获得相同或更好效果，也可混合前沿开放权重模型。此外，将任务分解为更小子步骤以提升质量的方法常被低估，这正是动态工作流的重要性所在。

elvis: Same here. Happy with Opus 4.8 (planning) and GPT-5.5 (execution). Also, breaking steps into smaller ones for increasing...

Anthropic OpenAI 大佬观点推理

04:36

SemiAnalysis@SemiAnalysis_

SemiAnalysis：推理不断被切分，每次切分都让智能更便宜

SemiAnalysis 指出推理正被多轮“切分”以降低成本。第一步按阶段拆分：prefill 与 decode 用不同芯片；第二步按层拆分：attention 用 HBM 富裕的 GPU，前馈网络用 SRAM 基芯片；第三步按时间拆分：工作负载切片为执行窗口，在集群中交错调度。每次切分回收闲置利用率，从而降低每 token 成本。更便宜的 token 不会压缩需求，反而刺激增长——这是 MLSys 2026 的核心叙事。

推理现象/趋势部署/工程

7月1日

20:28

HuggingFace Daily Papers（社区热门论文）

QVal：低成本评估长周期LLM智能体密集监督信号的测试平台

QVal提出一种无需训练的测试平台，通过Q对齐度量直接评估密集监督信号质量，判断动作排序是否匹配强参考策略的Q值。QVal-v1.0在4个环境、7类方法族、6个开放权重模型骨干上对21种密集监督方法进行了超过1200次评估实验，发现简单提示基线一致优于近年文献中的密集监督方法，且性能按方法族显著聚类。该平台易于扩展至新环境和新方法。

智能体推理论文/研究评测/基准

19:40

The Decoder：AI News（RSS）

Claude Sonnet 5延续Anthropic隐藏涨价的模式

Claude Sonnet 5在Artificial Analysis评测中以53分（峰值）排名第五，与GPT-5.5 (high)并列。虽输入/输出token价格维持$3/$15不变，但每任务平均成本达$2.29，高于Opus 4.8的$1.97。原因：max设置下输出token消耗比Sonnet 4.6多40%，在agent任务中运行约3倍循环，成本接近翻倍。Anthropic延续了通过新tokenizer增加约30% token消耗的隐藏涨价策略。Sonnet 5在CritPt仅得17%，低于多个更强模型；但Terminal-Bench v2.1、HLE、SciCode分别提升9、10、7分。目前有促销价$2/$10至9月1日，但隐藏成本上涨使其与低价竞品竞争时处于劣势。

Anthropic 推理行业动态

18:51

Chubby♨️@kimmonismus

@AndrewCurran_ 预测一项重大架构突破即将公布，重点提升内存效率，来自从OpenAI分拆的团队（非SSI）。主推文@Kim 指出，若属实其意义远超普通模型发布--内存效率是长上下文模型、AI智能体和推理成本的核心瓶颈，架构级突破可使长时间跨度AI系统大幅降价并更实用。Andrew被视为最可靠信源之一，Kim认为可能正处于转折点。

Andrew Curran: I'm posting this prediction now so I can quote it later. There has been a significant breakthrough in architecture - spe...

OpenAI 大佬观点推理

18:22

X.PIN@thexpin

美团发布1.6万亿参数大模型LongCat-2.0，完全基于国产AI处理器集群

美团发布LongCat-2.0，一个1.6万亿参数的大模型，据称完全基于5万片国产AI处理器集群完成训练和推理。美团自2023年推进国产AI基础设施，该模型成为其首个在国产集群上完成预训练与推理的前沿规模模型。更值得关注的是，美团并未推出独立聊天机器人，而是将AI嵌入现有的推荐餐厅、订酒店、点餐等服务中。这种将AI整合进已有用户、商户、支付和交易生态的做法，正成为阿里（开放Qwen品牌智能体）、蚂蚁（以Ah Bao重构支付宝）等中国互联网平台的共同方向。

推理模型发布部署/工程

18:10

The Decoder：AI News（RSS）

精选70

OpenAI论文揭示GPT-5.6三个Pro变体，打破单一顶级策略

OpenAI论文首次列出GPT-5.6的三个Pro变体：Luna Pro、Terra Pro和Sol Pro，取代以往单一Pro模式。在基因组学基准中，Sol Pro通过率31.5%居60个测试模型之首，领先标准Sol（28.7%）和Claude Opus 4.8（16.0%）。Pro相比标准版本提升逐级递减：Luna Pro提升7.1个百分点（16.5%→23.6%），Terra Pro提升5.2（23.3%→28.5%），Sol Pro仅提升2.8（28.7%→31.5%）。Terra Pro（28.5%）几乎与标准Sol（28.7%）持平。论文未披露Pro运行的token用量，也不清楚该分层是否会在ChatGPT中实际推出。

OpenAI 推理行业动态

推荐理由：论文意外曝光 GPT-5.6 Pro 将有三个变体，Pro 不再只是一个最强模型，而是让用户按推理需求选版本，这才是匹配 200 美元月费该有的逻辑。

18:00

Artificial Analysis@ArtificialAnlys

Etched 宣布走出隐身模式，基于成功的 A0 tapeout 制造出首批机架，已获得超 10 亿美元客户合同并融资 8 亿美元。早期客户测试显示其在推断吞吐量、延迟和能效上达到 SOTA。首批机架将于今夏发货。Artificial Analysis 祝贺并透露将用自研基准 AA-AgentPerf 对系统进行评测，该基准衡量每兆瓦运行功率可同时运行的 agent 数量。

Etched: We're coming out of stealth. We've built our first racks after a successful A0 tapeout, $1B+ in customer contracts, and ...

产品更新推理部署/工程

16:32

MarkTechPost（RSS）

精选73

NVIDIA 发布 Nemotron-Labs-TwoTower 开放权重扩散语言模型

NVIDIA 发布 Nemotron-Labs-TwoTower，基于冻结的自回归骨干 Nemotron-3-Nano-30B-A3B 的扩散语言模型。采用双塔架构：上下文塔冻结，降噪器塔训练，通过层对齐交叉注意力和状态播种协作。在 2×H100 上 BF16 评估，保留 98.7% 的 AR 基线质量，生成吞吐量提升 2.42 倍（γ=0.8，块大小 S=16）。降噪器在约 2.1T token 上训练，骨干使用 25T token 预训练。总参数约 60B，每 token 活跃参数约 3B/塔。支持扩散、模拟 AR 和 AR 三种解码模式。

开源生态推理模型发布部署/工程

推荐理由：NVIDIA这个TwoTower把扩散解码接在已有的AR骨干上，几乎无损质量却让吞吐翻倍，并且开源可商用，对批量文本生成的团队是实在的加速工具。

15:32

Orange AI@oran_ge

Sonnet 5 新 tokenizer 致费用争议，与 Opus 4.8 持平

Sonnet 5 因更换新 tokenizer，实际费用与 Opus 4.8 相近，引发争议。Sonnet 5 在金融领域（如 GDPeval）表现最佳，擅长调用工具核查事实，但编程费用可能超过 Opus 4.8。Opus 4.8 在复杂编程、规划和 HTML 设计上强，写作不及 Opus 4.6，与 GPT 5.5 各有千秋。目前编程首选 GPT 5.5。三模型均已上线 Cola。

Anthropic 推理编码评测/基准

14:28

HuggingFace Daily Papers（社区热门论文）

多块扩散语言模型

MBD-LMs通过多块教师强制（MultiTF）后训练块扩散语言模型（BD-LMs）得到。MultiTF结合教师强制与扩散强制，在干净前缀上训练有界噪声组，采用随机噪声调度器匹配多块扩散推理状态。基于Block Buffer的优化解码实现前缀缓存复用和输入形状静态化，将更高并行度转为实际加速。MBD-LLaDA2-Mini的TPF从3.47提升至6.19，准确率从79.95%提升至81.03%；结合DMax后TPF

推理数据/训练论文/研究

14:03

IT之家（RSS）

英伟达刷新 DeepSeek V4 推理纪录：单 Token 成本降至 1/5，AI 吞吐量最高提升 20 倍

英伟达 6 月 30 日发布博文，宣布在 Blackwell 平台上通过全栈推理优化，使 DeepSeek V4 模型的单 Token 成本降至 1 个月前的五分之一，达到行业最低水平。优化涵盖生产运营、应用加速和基础设施访问三层，采用分离式服务、大规模专家并行、NVLink 并行通信、NVFP4 精度及多 token 预测等技术，单 GPU 的 token 吞吐量最高提升 20 倍。

DeepSeek 推理行业动态部署/工程

13:51

向阳乔木@vista8

Grant Sanderson与Dwarkesh Patel探讨AI数学突破：连接闪电与建造山峰

Grant Sanderson（3Blue1Brown）与Dwarkesh Patel对话指出，2024年AI在IMO已达金牌，但组合数学仍卡住。AI数学进展分两类：连接闪电（跨领域连接，如Erdős第1196号问题、单位距离猜想反例）和建造山峰（如伽罗瓦群论，需百年验证）。训练依赖RLVR，但伽罗瓦想法当时被拒，无反馈信号。可验证仅是必要条件，可磨性（并行实例）才是充分条件；电脑操作虽可验证但缺可磨性，进展慢。

大佬观点推理

13:51

向阳乔木@vista8

Grant Sanderson访谈：AI跨领域连接与创造力局限

3blue1brown 的 Grant Sanderson 在访谈中分享 AI 相关观点：① 知识跨领域连接在自回归框架中属于低概率事件；② AI 擅长跨领域打通已有知识，但尚无法创造全新思考框架；③ AI 最被低估的优势是并行化，而非智力；④ 数学和代码能被 AI 快速迭代，不仅因为答案可验证，更因为可以容器化、并行磨练。完整访谈见视频链接。

向阳乔木: http://x.com/i/article/2072191016476856320

大佬观点推理

12:21

向阳乔木@vista8

美团发布并开源LongCat-2.0万亿参数MoE大模型

美团发布并开源LongCat-2.0，1.6万亿总参数、480亿激活参数（3%）的MoE大模型。使用35万亿token训练，在5万片国产芯片上“全程无回滚”完成。引入LongCat稀疏注意力（LSA），包含流感知索引、跨层索引和层级化索引，解决长文本注意力瓶颈。采用5-gram N-gram Embedding增加135B参数，在不增加MoE专家竞争的情况下增强局部上下文理解。训练使用6D并行技术适配国产算力。计划2026年6月30日发布并开源。

开源生态推理教程/实践数据/训练