SVI-Bench是一个用于评估战略视频智能(SVI)的大型基准测试,利用篮球、足球和冰球等团队运动作为动态微世界。其数据包含约35K小时广播视频、15M标注动作、15K小时专家评论、23K比赛报告及103K结构化统计记录。评估任务涵盖动态场景理解、因果推理、战略模拟和智能体综合四个递进层级。评估显示,模型在感知任务上能达到约73%准确率,但性能随认知层级提升而急剧下降;在需自主整合证据的智能体任务中,最强模型准确率仅为5%。
SVI-Bench是一个用于评估战略视频智能(SVI)的大型基准测试,利用篮球、足球和冰球等团队运动作为动态微世界。其数据包含约35K小时广播视频、15M标注动作、15K小时专家评论、23K比赛报告及103K结构化统计记录。评估任务涵盖动态场景理解、因果推理、战略模拟和智能体综合四个递进层级。评估显示,模型在感知任务上能达到约73%准确率,但性能随认知层级提升而急剧下降;在需自主整合证据的智能体任务中,最强模型准确率仅为5%。
LVSA是一种无需训练、适用于视频扩散Transformer的块稀疏注意力机制,旨在降低长视频推理的计算成本。它通过结合结构化窗口模式与旋转全局锚点,避免了导致时程伪影的固定网格偏置。该技术在Wan 2.1 1.3B、Wan 2.1 14B及HunyuanVideo 1.5上分别实现了最高3.17倍、2.98倍和3.33倍的计算量缩减,并使HunyuanVideo 1.5在单一GPU上能生成2倍于训练长度的视频。LVSA在NPU上同样有效。此外,论文还提出了VQeval评估工具,专门针对循环视频故障进行评分,以弥补现有评估工具的不足。
提出一种名为SPD的推测解码框架,通过将目标大语言模型(LLM)划分为n个流水线阶段来并行处理n个token,以加速解码。SPD利用一个推测模块跨流水线深度聚合中间特征以预测下一个token,并与目标模型的流水线步骤严格并行执行,从而实现有限难度、更高接受率和零延迟气泡。实验显示,SPD的理论加速比显著高于主流基线。
针对现有基于组优势的强化学习方法(如GRPO和DAPO)在所有token上采用统一奖励、无法细粒度分配信用的问题,本文提出引导对比策略优化(GCPO)。该方法通过对比模型在正负提示下的预测,将token级优势与对比预测差异成比例分配,从而提供更精确的学习信号。实验表明,GCPO能有效强调语义相关区域(如图像生成中与文本对齐的视觉区域、推理链中的关键词),并在文本到图像生成和思维链推理基准测试中均优于GRPO和DAPO基线。
Mellum 2 是一个开源的 12B 参数 MoE 大语言模型,每个 token 有 2.5B 活跃参数,专注于软件工程任务,是 Mellum 的后继版本。其架构基于 64 专家、8 激活的 MoE,并融合了分组查询注意力、滑动窗口注意力和多 token 预测头。模型在约 10.6 万亿 token 上进行三阶段预训练,并通过 YaRN 扩展至 128K 上下文窗口,之后经过监督微调与 RLVR 后训练,发布了直答式(Instruct)和带推理链(Thinking)两个变体。在多项基准测试中,其性能可与 4B-14B 范围的开源模型竞争,而计算成本仅相当于 2.5B 稠密模型。所有检查点以 Apache 2.0 许可证发布。
为解决在策略蒸馏中学生模型早期策略质量低导致教师监督效果差的问题,提出了信赖域行为融合方法。该方法在训练初期,在学生以自身为中心的KL散度信赖域内,使用最接近教师的策略替代学生策略进行前缀采样,同时保持蒸馏损失不变。通过将KL预算退火至零,训练会平滑过渡回纯粹的学生策略。在两种数学推理蒸馏设置中,TRB取得了最佳的平均表现。
研究发现,在多模态大语言模型(MLLMs)推理阶段强制使用带有显式物体框的视觉锚定CoT,其效果反而不如标准文本推理。作者提出iVGR框架,旨在通过强化学习将视觉定位能力内化到文本推理过程中。该框架采用双流训练策略,利用一致性奖励将文本流与高质量视觉锚定流对齐,使模型在推理时无需显式锚定即可准确进行视觉定位。实验表明,该方法在细粒度基准测试上显著优于现有基线,并支持工具辅助推理流程。
SCOPE是一个无需数据、通过自我对弈提升模型开放式任务能力的框架。它通过共同演化两个策略来工作:一个“挑战者”生成基于文档的任务,一个“解答者”通过多轮检索来回答。模型自身的一个冻结副本作为自我裁判,为任务生成评分标准并打分。在三个7-8B参数的指令微调模型(Qwen2.5, Qwen3, OLMo-3)上进行的实验显示,SCOPE将开放式任务性能在八个基准上最高提升了10.4分,达到或超过了使用约9K精调提示训练的GRPO_data。尽管仅针对开放式任务训练,SCOPE在七个留出的简短问答基准上也带来了最高13.8分的提升。消融实验表明,共同演化挑战者对维持任务难度是必要的,检索与合成能力均有贡献,而生成质量是自我评判的瓶颈。
扩散大语言模型(dLLMs)与混合专家(MoE)架构结合时,存在块并行解码与token级专家选择之间的不匹配,导致推理时激活专家数过多、内存占用高。为此,我们提出dMoE框架,它将每个块内的token级专家分布聚合为统一的块级专家分布,以更协调的方式指导专家路由。实验表明,dMoE将唯一激活专家数平均从69.5降至14.6,保留了原模型99.11%的性能,同时减少76.64%-79.84%的内存使用,并实现1.14至1.66倍的端到端延迟加速。代码已开源:https://github.com/fscdc/dMoE
Function2Scene是一个从自然语言功能描述(如用户需求和活动)生成3D室内布局的框架。与传统基于物品提示的方法不同,它将设计问题重构为空间功能支持。系统解析用户画像和活动,并基于包含空间、人体工学等17项标准的功能约束分类体系来指导布局生成。其核心是采用检查-修复循环进行迭代优化,结合几何测量、大语言模型的上下文推理与视觉语言模型的视觉评估。实验在30个专业设计案例上表明,其布局在功能需求满足度上显著优于近期基线,在配对比较中偏好率达94.3%。
针对大语言模型在长上下文推理中难以定位关键信息的问题,现有强化学习方法受限于干扰物挑战性不足和奖励信号稀疏。LongTraceRL方法通过知识图谱随机游走生成多跳问题,并利用搜索智能体的轨迹构建分级干扰文档,从而生成更具挑战性的训练数据。其创新性地提出评分奖励,使用推理链上的金标准实体作为细粒度的过程监督,且仅应用于最终答案正确的响应,以此区分推理质量并防止奖励作弊。实验表明,该方法在多个长上下文基准测试中优于强基线。
针对现有指令驱动视频统一模型因集成高保真生成器导致训练计算成本高昂的问题,Lumos-Nexus 提出了一种两阶段高效训练框架。训练阶段,模型仅将轻量生成器与理解模块对齐,学习接收推理驱动的语义控制。推理阶段,则引入统一渐进频率桥接机制,在共享潜空间中逐步将生成任务移交至高容量的预训练生成器,实现由粗到细的优化,生成高质量视频。为评估此能力,研究同时发布了新基准 VR-Bench。实验证明,该模型在 VBench 上视觉真实度和时间连贯性显著提升,并在 VR-Bench 上展现出强大的推理生成性能。
Light Interaction是一个用于交互式视频世界模型的免训练推理加速框架。其核心是利用交互特性实现轨迹依赖的自适应计算,具体包括自适应上下文管理、去噪缓存加速以及硬件软件协同设计的3D块稀疏注意力。在HY-WorldPlay和Matrix-Game-3.0上的评估表明,该框架无需重新训练模型,可实现最高2.59倍的推理加速,同时保持有竞争力的视觉质量。
本文提出StateKV,一种推理时方法,使预训练长视频VLM的视频预填充达到线性时间复杂度。其核心是通过固定容量、基于重要性的循环状态携带跨帧上下文,并搭配第二个完整的每帧缓存用于解码。在三个长视频基准和多个模型上的实验表明,StateKV的性能接近全自注意力机制,并持续优于主流的滑动窗口等流式近似方法,且无需微调或架构改变。该方法降低了预填充的FLOPs成本,允许在固定算力下使用更大模型以获得更高准确率,为可扩展的长视频理解提供了实用方案。
Anthropic发布旗舰模型Claude Opus 4.8,在编程、智能体、推理等基准上全面超越上代,其代码“诚实度”提升约四倍,增强了多智能体系统的可靠性。同日,Anthropic完成H轮650亿美元融资,投后估值达9650亿美元,年化收入已超470亿美元。配套推出的Claude Code动态工作流允许在单次会话内编排数百个并行子智能体,适用于大规模代码库排查等任务。
Anthropic 发布旗舰大语言模型 Claude Opus 4.8,作为 Opus 4.7 的全面升级版,其在编程、智能体、推理和知识工作等基准测试中均超越前代。最显著的改进是模型诚实度大幅提升,对自身有缺陷代码视而不见的概率降低约四倍。同步推出三项新功能:Claude Code 支持动态工作流,可启动并行子智能体处理复杂任务;claude.ai 提供“努力控制”功能,允许用户调整模型思考深度;API 支持任务执行中实时更新指令。早期测试者反馈模型在判断力和可靠性上改善明显,价格与 Opus 4.7 保持一致。
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 8 条X:Boris Cherny (@bcherny)X:Artificial Analysis (@ArtificialAnlys)X:洪明 (@hongming731)X:Kim (@kimmonismus)X:Rohan Paul (@rohanpaul_ai)MarkTechPost(RSS)X:邵猛 (@shao__meng)X:宝玉 (@dotey)Kog AI 在标准数据中心 GPU 上实现了惊人的推理速度:在 8× AMD MI300X 上达到 3,000 tokens/s,在 8× NVIDIA H200 上达到 2,100 tokens/s(FP16,无推测解码),而常规速度通常为 100-300 tokens/s。其技术核心是将大语言模型解码视为内存流问题,通过将整个 token 生成循环置于单一持久 GPU 程序内、优化内存访问拓扑以降低跨芯片延迟、并采用延迟张量并行技术来大幅减少开销。Kog 今日开放技术预览,提供 2B 编码模型,并计划后续支持大型前沿 MoE。
🚀 Launch today: Kog generates 3,000+ output tokens/s per single request, on standard datacenter GPUs. We are bringing r...
This tracks. 30 trillion tokens a day on our end, and open model share keeps climbing. Our partners @FactoryAI are seein...
Anthropic发布Claude Opus 4.8,在Artificial Analysis智能指数上以61.4分超越GPT-5.5(xhigh)1.2分,重新登顶。该模型在真实世界智能体任务和前沿学术推理上均有提升,在主要智能体评测GDPval-AA上以1890 Elo分取得约67%的胜率。在科学推理方面,Claude首次在Humanity's Last Exam基准上领先OpenAI和Google。其模型幻觉率维持在35.9%,显著低于竞品。上下文窗口仍为100万token,定价为输入$5、输出$25每百万token。
关联讨论 8 条X:Boris Cherny (@bcherny)X:Artificial Analysis (@ArtificialAnlys)X:洪明 (@hongming731)X:Kim (@kimmonismus)X:Rohan Paul (@rohanpaul_ai)MarkTechPost(RSS)X:邵猛 (@shao__meng)X:宝玉 (@dotey)Anthropic 发布其最新模型 Claude Opus 4.8。该模型在大多数基准测试中超越了 GPT-5.5 和 Gemini 3.1 Pro。其代码错误自动捕获能力是前代产品的四倍。同步推出动态工作流功能,可启动数百个并行子智能体来处理跨代码库迁移等任务。
关联讨论 8 条X:Boris Cherny (@bcherny)X:Artificial Analysis (@ArtificialAnlys)X:洪明 (@hongming731)X:Kim (@kimmonismus)X:Rohan Paul (@rohanpaul_ai)MarkTechPost(RSS)X:邵猛 (@shao__meng)X:宝玉 (@dotey)Google Research 在 I/O 2026 大会上展示了其在多个前沿领域的技术进展,包括应用AI、基础机器学习算法以及量子AI等。本次大会的核心主题是展示其在将科学发现与研究成果转化为现实世界影响方面的持续努力。
关联讨论 1 条Google Blog:AI(RSS)The Grid AI 提出了一种新的AI推理购买模式。用户不再指定具体模型,而是根据任务复杂度选择标准(standard)、生产(prime)或极致(max)三个级别之一。平台会自动将请求路由到满足该级别要求的最便宜供应商。应用仅需接入单一API,后端模型可根据价格与质量动态变化,从而优化成本。作者曾用Hermes Agent在本地测试,通过agent-price级别处理了工单分类工作流。The Grid目前处于Beta阶段,声称通过供应商竞价可使AI API成本降低最高80%,并为新用户提供首200M tokens免费额度。
The Grid's Beta is LIVE! We can get your AI API costs down by up to 80% by making suppliers compete for your requests. Y...
Mathematician reacts to OpenAI's recent proof:
Thank god! I can turn off adaptive thinking and set reasoning effort myself. Finally!
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 8 条X:Boris Cherny (@bcherny)X:Artificial Analysis (@ArtificialAnlys)X:洪明 (@hongming731)X:Kim (@kimmonismus)X:Rohan Paul (@rohanpaul_ai)MarkTechPost(RSS)X:邵猛 (@shao__meng)X:宝玉 (@dotey)Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 8 条X:Boris Cherny (@bcherny)X:Artificial Analysis (@ArtificialAnlys)X:洪明 (@hongming731)X:Kim (@kimmonismus)X:Rohan Paul (@rohanpaul_ai)MarkTechPost(RSS)X:邵猛 (@shao__meng)X:宝玉 (@dotey)ANTHROPIC 🔥: CLAUDE OPUS 4.8 IS ROLLING OUT TO ALL USERS. The release also includes an updated Thinking effort selector...
Anthropic 发布了最新的 Opus 4.8 大语言模型,并为该模型引入了一个名为“Dynamic Workflows”的新工具。该工具旨在协调由多个子代理组成的群组,以执行复杂任务。
同一事件,精选展示《Claude Opus 4.8 发布:在编码、智能体技能与推理方面实现全面升级》Anthropic 发布了新版模型 Claude Opus 4.8。该模型的具体技术参数、性能基准与定价等详情暂未提供。本文提供了其官方公告页面的链接,并记录了该新闻在 Hacker News 上的讨论热度。
关联讨论 8 条X:Boris Cherny (@bcherny)X:Artificial Analysis (@ArtificialAnlys)X:洪明 (@hongming731)X:Kim (@kimmonismus)X:Rohan Paul (@rohanpaul_ai)MarkTechPost(RSS)X:邵猛 (@shao__meng)X:宝玉 (@dotey)Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
Anthropic 发布了新一代模型 Claude Opus 4.8,作为 Opus 4.7 的升级版本,其在编码、智能体技能、推理和实用知识工作等各项基准测试中均取得进步。Claude Opus 4.8 现已可用,价格与前代相同。同步推出的新功能包括:用户可控制任务投入程度、Claude Code 新增“动态工作流”特性,以及 Opus 4.8 的 2.5 倍速模式价格降低为以往的三分之一。早期测试者反馈其在智能体任务中的判断力更可靠、工具调用更高效。该模型在 Online-Mind2Web 测评中得分 84%,超越了 Opus 4.7 和 GPT-5.5。此外,其诚实度与对齐表现也得到提升,代码错误漏检率降低了约 75%。
关联讨论 8 条X:Boris Cherny (@bcherny)X:Artificial Analysis (@ArtificialAnlys)X:洪明 (@hongming731)X:Kim (@kimmonismus)X:Rohan Paul (@rohanpaul_ai)MarkTechPost(RSS)X:邵猛 (@shao__meng)X:宝玉 (@dotey)