08:00

HuggingFace Daily Papers（社区热门论文）

68

SVI-Bench是一个用于评估战略视频智能(SVI)的大型基准测试，利用篮球、足球和冰球等团队运动作为动态微世界。其数据包含约35K小时广播视频、15M标注动作、15K小时专家评论、23K比赛报告及103K结构化统计记录。评估任务涵盖动态场景理解、因果推理、战略模拟和智能体综合四个递进层级。评估显示，模型在感知任务上能达到约73%准确率，但性能随认知层级提升而急剧下降；在需自主整合证据的智能体任务中，最强模型准确率仅为5%。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

LVSA：长视频扩散模型的免训练稀疏注意力机制

LVSA是一种无需训练、适用于视频扩散Transformer的块稀疏注意力机制，旨在降低长视频推理的计算成本。它通过结合结构化窗口模式与旋转全局锚点，避免了导致时程伪影的固定网格偏置。该技术在Wan 2.1 1.3B、Wan 2.1 14B及HunyuanVideo 1.5上分别实现了最高3.17倍、2.98倍和3.33倍的计算量缩减，并使HunyuanVideo 1.5在单一GPU上能生成2倍于训练长度的视频。LVSA在NPU上同样有效。此外，论文还提出了VQeval评估工具，专门针对循环视频故障进行评分，以弥补现有评估工具的不足。

推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

流水线推测解码

提出一种名为SPD的推测解码框架，通过将目标大语言模型（LLM）划分为n个流水线阶段来并行处理n个token，以加速解码。SPD利用一个推测模块跨流水线深度聚合中间特征以预测下一个token，并与目标模型的流水线步骤严格并行执行，从而实现有限难度、更高接受率和零延迟气泡。实验显示，SPD的理论加速比显著高于主流基线。

arXiv 推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

62

面向离散策略优化的引导对比策略优化

针对现有基于组优势的强化学习方法（如GRPO和DAPO）在所有token上采用统一奖励、无法细粒度分配信用的问题，本文提出引导对比策略优化（GCPO）。该方法通过对比模型在正负提示下的预测，将token级优势与对比预测差异成比例分配，从而提供更精确的学习信号。实验表明，GCPO能有效强调语义相关区域（如图像生成中与文本对齐的视觉区域、推理链中的关键词），并在文本到图像生成和思维链推理基准测试中均优于GRPO和DAPO基线。

多模态开源生态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

62

Mellum2 技术报告

Mellum 2 是一个开源的 12B 参数 MoE 大语言模型，每个 token 有 2.5B 活跃参数，专注于软件工程任务，是 Mellum 的后继版本。其架构基于 64 专家、8 激活的 MoE，并融合了分组查询注意力、滑动窗口注意力和多 token 预测头。模型在约 10.6 万亿 token 上进行三阶段预训练，并通过 YaRN 扩展至 128K 上下文窗口，之后经过监督微调与 RLVR 后训练，发布了直答式（Instruct）和带推理链（Thinking）两个变体。在多项基准测试中，其性能可与 4B-14B 范围的开源模型竞争，而计算成本仅相当于 2.5B 稠密模型。所有检查点以 Apache 2.0 许可证发布。

开源/仓库推理模型发布编码

08:00

HuggingFace Daily Papers（社区热门论文）

58

Trust-Region Behavior Blending for On-Policy Distillation：信赖域行为融合用于在策略蒸馏

为解决在策略蒸馏中学生模型早期策略质量低导致教师监督效果差的问题，提出了信赖域行为融合方法。该方法在训练初期，在学生以自身为中心的KL散度信赖域内，使用最接近教师的策略替代学生策略进行前缀采样，同时保持蒸馏损失不变。通过将KL预算退火至零，训练会平滑过渡回纯粹的学生策略。在两种数学推理蒸馏设置中，TRB取得了最佳的平均表现。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

iVGR：通过强化学习将视觉锚定推理内化于多模态大语言模型

研究发现，在多模态大语言模型（MLLMs）推理阶段强制使用带有显式物体框的视觉锚定CoT，其效果反而不如标准文本推理。作者提出iVGR框架，旨在通过强化学习将视觉定位能力内化到文本推理过程中。该框架采用双流训练策略，利用一致性奖励将文本流与高质量视觉锚定流对齐，使模型在推理时无需显式锚定即可准确进行视觉定位。实验表明，该方法在细粒度基准测试上显著优于现有基线，并支持工具辅助推理流程。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

66

SCOPE：通过共同演化策略实现开放式任务的自我对弈

SCOPE是一个无需数据、通过自我对弈提升模型开放式任务能力的框架。它通过共同演化两个策略来工作：一个“挑战者”生成基于文档的任务，一个“解答者”通过多轮检索来回答。模型自身的一个冻结副本作为自我裁判，为任务生成评分标准并打分。在三个7-8B参数的指令微调模型（Qwen2.5， Qwen3， OLMo-3）上进行的实验显示，SCOPE将开放式任务性能在八个基准上最高提升了10.4分，达到或超过了使用约9K精调提示训练的GRPO_data。尽管仅针对开放式任务训练，SCOPE在七个留出的简短问答基准上也带来了最高13.8分的提升。消融实验表明，共同演化挑战者对维持任务难度是必要的，检索与合成能力均有贡献，而生成质量是自我评判的瓶颈。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

63

dMoE：面向扩散大语言模型的块级专家混合架构

扩散大语言模型（dLLMs）与混合专家（MoE）架构结合时，存在块并行解码与token级专家选择之间的不匹配，导致推理时激活专家数过多、内存占用高。为此，我们提出dMoE框架，它将每个块内的token级专家分布聚合为统一的块级专家分布，以更协调的方式指导专家路由。实验表明，dMoE将唯一激活专家数平均从69.5降至14.6，保留了原模型99.11%的性能，同时减少76.64%-79.84%的内存使用，并实现1.14至1.66倍的端到端延迟加速。代码已开源：https://github.com/fscdc/dMoE

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

56

Function2Scene：基于功能描述的3D室内布局生成

Function2Scene是一个从自然语言功能描述（如用户需求和活动）生成3D室内布局的框架。与传统基于物品提示的方法不同，它将设计问题重构为空间功能支持。系统解析用户画像和活动，并基于包含空间、人体工学等17项标准的功能约束分类体系来指导布局生成。其核心是采用检查-修复循环进行迭代优化，结合几何测量、大语言模型的上下文推理与视觉语言模型的视觉评估。实验在30个专业设计案例上表明，其布局在功能需求满足度上显著优于近期基线，在配对比较中偏好率达94.3%。

图像生成推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

LongTraceRL：基于搜索智能体轨迹与评分奖励的长上下文推理学习

针对大语言模型在长上下文推理中难以定位关键信息的问题，现有强化学习方法受限于干扰物挑战性不足和奖励信号稀疏。LongTraceRL方法通过知识图谱随机游走生成多跳问题，并利用搜索智能体的轨迹构建分级干扰文档，从而生成更具挑战性的训练数据。其创新性地提出评分奖励，使用推理链上的金标准实体作为细粒度的过程监督，且仅应用于最终答案正确的响应，以此区分推理质量并防止奖励作弊。实验表明，该方法在多个长上下文基准测试中优于强基线。

智能体 arXiv 推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

63

Lumos-Nexus：一种基于同质潜空间的高效频率桥接视频统一模型训练框架

针对现有指令驱动视频统一模型因集成高保真生成器导致训练计算成本高昂的问题，Lumos-Nexus 提出了一种两阶段高效训练框架。训练阶段，模型仅将轻量生成器与理解模块对齐，学习接收推理驱动的语义控制。推理阶段，则引入统一渐进频率桥接机制，在共享潜空间中逐步将生成任务移交至高容量的预训练生成器，实现由粗到细的优化，生成高质量视频。为评估此能力，研究同时发布了新基准 VR-Bench。实验证明，该模型在 VBench 上视觉真实度和时间连贯性显著提升，并在 VR-Bench 上展现出强大的推理生成性能。

多模态推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

63

Light Interaction：交互式视频世界模型的免训练推理加速

Light Interaction是一个用于交互式视频世界模型的免训练推理加速框架。其核心是利用交互特性实现轨迹依赖的自适应计算，具体包括自适应上下文管理、去噪缓存加速以及硬件软件协同设计的3D块稀疏注意力。在HY-WorldPlay和Matrix-Game-3.0上的评估表明，该框架无需重新训练模型，可实现最高2.59倍的推理加速，同时保持有竞争力的视觉质量。

推理视频论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

56

面向长视频理解的线性扩展视频语言模型

本文提出StateKV，一种推理时方法，使预训练长视频VLM的视频预填充达到线性时间复杂度。其核心是通过固定容量、基于重要性的循环状态携带跨帧上下文，并搭配第二个完整的每帧缓存用于解码。在三个长视频基准和多个模型上的实验表明，StateKV的性能接近全自注意力机制，并持续优于主流的滑动窗口等流式近似方法，且无需微调或架构改变。该方法降低了预填充的FLOPs成本，允许在固定算力下使用更大模型以获得更高准确率，为可扩展的长视频理解提供了实用方案。

arXiv 多模态推理论文/研究

07:40

ginobefun@hongming731

70

Claude Opus 4.8、Anthropic H轮融资、动态工作流发布

Anthropic发布旗舰模型Claude Opus 4.8，在编程、智能体、推理等基准上全面超越上代，其代码“诚实度”提升约四倍，增强了多智能体系统的可靠性。同日，Anthropic完成H轮650亿美元融资，投后估值达9650亿美元，年化收入已超470亿美元。配套推出的Claude Code动态工作流允许在单次会话内编排数百个并行子智能体，适用于大规模代码库排查等任务。

智能体 Anthropic 推理现象/趋势

07:40

ginobefun@hongming731

76

Anthropic 发布 Claude Opus 4.8

Anthropic 发布旗舰大语言模型 Claude Opus 4.8，作为 Opus 4.7 的全面升级版，其在编程、智能体、推理和知识工作等基准测试中均超越前代。最显著的改进是模型诚实度大幅提升，对自身有缺陷代码视而不见的概率降低约四倍。同步推出三项新功能：Claude Code 支持动态工作流，可启动并行子智能体处理复杂任务；claude.ai 提供“努力控制”功能，允许用户调整模型思考深度；API 支持任务执行中实时更新指令。早期测试者反馈模型在判断力和可靠性上改善明显，价格与 Opus 4.7 保持一致。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic 推理模型发布编码

关联讨论 8 条

07:21

IT之家（RSS）

64

Claude Opus 4.8 上线：提升 AI 编程可靠性，减少无依据结论

Anthropic 推理模型发布编码

07:14

Rohan Paul@rohanpaul_ai

64

Kog在标准GPU上实现超高速大语言模型推理

Kog AI 在标准数据中心 GPU 上实现了惊人的推理速度：在 8× AMD MI300X 上达到 3,000 tokens/s，在 8× NVIDIA H200 上达到 2,100 tokens/s（FP16，无推测解码），而常规速度通常为 100-300 tokens/s。其技术核心是将大语言模型解码视为内存流问题，通过将整个 token 生成循环置于单一持久 GPU 程序内、优化内存访问拓扑以降低跨芯片延迟、并采用延迟张量并行技术来大幅减少开销。Kog 今日开放技术预览，提供 2B 编码模型，并计划后续支持大型前沿 MoE。

Kog: 🚀 Launch today: Kog generates 3,000+ output tokens/s per single request, on standard datacenter GPUs. We are bringing r...

产品更新推理部署/工程

07:08

Nathan Lambert@natolambert

57

供参考，我们访问中国的 @Zai_org 时，他们在展厅展示了 API 指标图表，达到每天 5-7 万亿 tokens。美国/欧洲的推理市场规模似乎大得多（这对持续构建模型很重要）

Fireworks AI: This tracks. 30 trillion tokens a day on our end, and open model share keeps climbing. Our partners @FactoryAI are seein...

推理现象/趋势

06:18

Artificial Analysis@ArtificialAnlys

79

Claude Opus 4.8重夺Artificial Analysis智能指数第一

Anthropic发布Claude Opus 4.8，在Artificial Analysis智能指数上以61.4分超越GPT-5.5（xhigh）1.2分，重新登顶。该模型在真实世界智能体任务和前沿学术推理上均有提升，在主要智能体评测GDPval-AA上以1890 Elo分取得约67%的胜率。在科学推理方面，Claude首次在Humanity's Last Exam基准上领先OpenAI和Google。其模型幻觉率维持在35.9%，显著低于竞品。上下文窗口仍为100万token，定价为输入$5、输出$25每百万token。

智能体 Anthropic 推理模型发布

关联讨论 8 条

05:42

The Decoder：AI News（RSS）

71

Anthropic 发布 Claude Opus 4.8：被称作"小幅但实在的改进"，在多数基准测试中超越 GPT-5.5

Anthropic 发布其最新模型 Claude Opus 4.8。该模型在大多数基准测试中超越了 GPT-5.5 和 Gemini 3.1 Pro。其代码错误自动捕获能力是前代产品的四倍。同步推出动态工作流功能，可启动数百个并行子智能体来处理跨代码库迁移等任务。

Anthropic 推理模型发布

关联讨论 8 条

05:12

Google Research：Blog（网页）

精选79

创新时代：Google Research 在 I/O 2026

Google Research 在 I/O 2026 大会上展示了其在多个前沿领域的技术进展，包括应用AI、基础机器学习算法以及量子AI等。本次大会的核心主题是展示其在将科学发现与研究成果转化为现实世界影响方面的持续努力。

智能体 Google 推理论文/研究

关联讨论 1 条

推荐理由：Google 把研究成果直接发 Nature，ERA 和 Co-Scientist 这套工具让 AI 从写诗进化到做实验，健康 AI 的临床验证数据也很扎实，搞科研的可以蹲一下访问资格。

04:44

Rohan Paul@rohanpaul_ai

62

推理购买从"锁定供应商"转向"按需选择级别"

The Grid AI 提出了一种新的AI推理购买模式。用户不再指定具体模型，而是根据任务复杂度选择标准（standard）、生产（prime）或极致（max）三个级别之一。平台会自动将请求路由到满足该级别要求的最便宜供应商。应用仅需接入单一API，后端模型可根据价格与质量动态变化，从而优化成本。作者曾用Hermes Agent在本地测试，通过agent-price级别处理了工单分类工作流。The Grid目前处于Beta阶段，声称通过供应商竞价可使AI API成本降低最高80%，并为新用户提供首200M tokens免费额度。

The Grid: The Grid's Beta is LIVE! We can get your AI API costs down by up to 80% by making suppliers compete for your requests. Y...

产品更新推理部署/工程

04:44

Rohan Paul@rohanpaul_ai

30

大多数人类专家在目睹一项技能变成API时，都会感到这种痛苦和生存反思。

Tomás Bjartur: Mathematician reacts to OpenAI's recent proof:

推理现象/趋势

02:21

OpenCode@opencode

60

Opus 4.8 现已在 OpenCode 中可用。

Anthropic 产品更新推理

01:44

Chubby♨️@kimmonismus

53

太棒了！！"Mythos级模型将在未来几周内向所有用户开放"！！天啊，我们正在加速！！

Chubby♨️: Thank god! I can turn off adaptive thinking and set reasoning effort myself. Finally!

推理模型发布

01:37

Perplexity@perplexity_ai

59

Claude Opus 4.8 现已面向 Max 订阅用户在 Perplexity 和 Computer 上提供。

Anthropic 产品更新推理

01:36

Thariq@trq212

76

我觉得你会非常喜欢 Opus 4.8。它和基准测试显示的一样聪明，但以温暖协作的方式表达和运用这种智能。工作流是利用它的绝佳方式--我已沉迷其中。相关文章即将推出。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic 推理模型发布

关联讨论 8 条

01:36

OpenRouter@OpenRouter

80

Opus 4.8 已在 OpenRouter 上线！价格与 4.7 相同，在智能体编码、推理和计算机使用方面均有提升。代码缺陷未被发现的概率比 4.7 低约 4 倍。 Opus 4.8 Fast Mode 也已上线--现在只需 2 倍价格，即可获得 2.5 倍速度。

智能体 Anthropic 推理模型发布

关联讨论 8 条

01:19

ClaudeDevs@ClaudeDevs

83

Opus 4.8今日已在Claude Code上线。几点值得了解：🧵

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic 推理模型发布编码

关联讨论 8 条

01:19

🚨 AI News | TestingCatalog@testingcatalog

82

ANTHROPIC 🔥：Claude Opus 4.8 正在向所有用户推送。此次发布还包含更新的思考强度选择器，提供低、中、高、额外和最大选项。 > 切换到 Opus 4.8 来完成你最具雄心的工作--现在你可以设置思考强度，以平衡深度或速度。

Anthropic 推理模型发布

关联讨论 8 条

01:19

🚨 AI News | TestingCatalog@testingcatalog

69

ANTHROPIC 🔥： Claude Opus 4.8 在 SWE-bench Pro 上取得 69.2% 的分数，而 Opus 4.7 为 64.3%。 Benchmarks 👀

🚨 AI News | TestingCatalog: ANTHROPIC 🔥: CLAUDE OPUS 4.8 IS ROLLING OUT TO ALL USERS. The release also includes an updated Thinking effort selector...

Anthropic 推理模型发布评测/基准

01:18

SemiAnalysis@SemiAnalysis_

64

最受欢迎的AI订阅服务每月约20美元，可访问大多数模型，对普通日常用户来说已足够。但对于Anthropic这样的公司，服务用户的成本是多少？可以合理假设大多数用户不会达到使用上限，但假设他们达到了。根据工作负载的不同，同样的20美元订阅可能从极其盈利到勉强收支平衡。

推理现象/趋势

01:14

Chubby♨️@kimmonismus

75

Opus 4.8 已上线！甚至在德国也能用了！！

Anthropic 推理模型发布

关联讨论 8 条

01:14

Chubby♨️@kimmonismus

70

太好了！我可以关闭自适应思考并自行设置推理强度了。终于！

Chubby♨️: Opus 4.8 is live! Even in Germany!!

Anthropic 推理模型发布

01:14

TechCrunch：AI（RSS）

同事件精选72

Anthropic 发布 Opus 4.8 并推出新型"动态工作流"工具

Anthropic 发布了最新的 Opus 4.8 大语言模型，并为该模型引入了一个名为“Dynamic Workflows”的新工具。该工具旨在协调由多个子代理组成的群组，以执行复杂任务。

智能体 Anthropic 推理模型发布

同一事件，精选展示《Claude Opus 4.8 发布：在编码、智能体技能与推理方面实现全面升级》

推荐理由：Opus 4.8 是 Anthropic 对 Opus 4.7 失望反应的快速回应，亮点不在跑分而在模型能主动标记不确定性，这比正确率更实用。动态工作流让跨子 agent 的代码迁移成为现实，开发团队值得关注。

01:08

Hacker News 热门（buzzing.cc 中文翻译）

87

克劳德作品4.8

Anthropic 发布了新版模型 Claude Opus 4.8。该模型的具体技术参数、性能基准与定价等详情暂未提供。本文提供了其官方公告页面的链接，并记录了该新闻在 Hacker News 上的讨论热度。

Anthropic 推理模型发布

关联讨论 8 条

01:06

Claude@claudeai

82

介绍 Claude Opus 4.8：它在 Opus 4.7 基础上，拥有更敏锐的判断力、对自身进展更诚实，并且能比前代更长时间独立工作。今日发布，价格不变。

Anthropic 推理模型发布

关联讨论 8 条

01:06

swyx@swyx

67

开发者可以在任务执行过程中更新Claude的指令，而不会破坏提示词缓存或需要通过用户轮次来传递更新。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic 推理模型发布

01:05

Anthropic：Newsroom（网页）

精选85

Claude Opus 4.8 发布：在编码、智能体技能与推理方面实现全面升级

Anthropic 发布了新一代模型 Claude Opus 4.8，作为 Opus 4.7 的升级版本，其在编码、智能体技能、推理和实用知识工作等各项基准测试中均取得进步。Claude Opus 4.8 现已可用，价格与前代相同。同步推出的新功能包括：用户可控制任务投入程度、Claude Code 新增“动态工作流”特性，以及 Opus 4.8 的 2.5 倍速模式价格降低为以往的三分之一。早期测试者反馈其在智能体任务中的判断力更可靠、工具调用更高效。该模型在 Online-Mind2Web 测评中得分 84%，超越了 Opus 4.7 和 GPT-5.5。此外，其诚实度与对齐表现也得到提升，代码错误漏检率降低了约 75%。

智能体 Anthropic 推理模型发布

关联讨论 8 条

推荐理由：Opus 4.8看着是常规升级，但动态工作流让Claude Code能啃下跨十万行代码迁移这种硬骨头，快速模式降价三倍更是直接拉低了实时场景的入场券。