PhySciBench是面向物理科学研究的基准,包含200道专家精选的物理和化学问题,覆盖六类真实科研任务。评测显示,最强基线Gemini Deep Research准确率仅33.5%。失败案例暴露长推理链脆弱、跨步骤知识迁移有限、缺乏物理接地自我验证等缺陷。为此提出的DelveAgent是一个模块化多智能体框架,配备自适应规划循环、双粒度记忆和层次化物理接地反思机制。在四个科学基准上,DelveAgent将准确率提升最多7.5个百分点,推理成本降至最强基线的约三分之一。
PhySciBench是面向物理科学研究的基准,包含200道专家精选的物理和化学问题,覆盖六类真实科研任务。评测显示,最强基线Gemini Deep Research准确率仅33.5%。失败案例暴露长推理链脆弱、跨步骤知识迁移有限、缺乏物理接地自我验证等缺陷。为此提出的DelveAgent是一个模块化多智能体框架,配备自适应规划循环、双粒度记忆和层次化物理接地反思机制。在四个科学基准上,DelveAgent将准确率提升最多7.5个百分点,推理成本降至最强基线的约三分之一。
FAPO是一个让Claude Code在标准化代码库内自动优化多步LLM管道的框架。它评估管道、检查中间步骤、诊断失败、提出范围性更改并反复验证,优先尝试提示编辑,仅当提示优化不足且归因识别出结构瓶颈时才调整链结构。在6个基准和3个任务模型上,FAPO在18个模型-基准比较中15次击败基线GEPA,平均增益+14.1pp;其中11次比较中均值±标准差范围不重叠。在HoVer和IFBench上,提示优先搜索升级为结构变化的6次比较中FAPO全胜,平均增益+33.8pp。安全任务上,仅提示版FAPO在CTIBench-RCM上将GPT-5测试准确率提升+4.0pp,Foundation-Sec-8B-Instruct提升+7.1pp,Foundation-Sec-8B-Reasoning提升+2.0pp。
高通发布骁龙 Reality Elite 旗舰 XR 芯片(第三代骁龙 XR2 更名)。相比前代 XR2+ Gen2,GPU 性能提升 60%,CPU 提升 30%,NPU AI 算力提升 160% 达 48 TOPS。摄像头视频透视延迟降低 10%,功耗减少 33%。支持 UFS 4.0、4.2GHz 内存、蓝牙 6.0 及双 USB 3.1。续航延长 20%,满载温度最多降低 12°C。NPU 本地运行 30 亿参数大语言模型速度 45 tokens/s;512×512 视觉模型推理约 1.7 秒。首款搭载设备 Xreal Aura Android XR 眼镜今年秋季发售,玩出梦想也官宣下一代旗舰搭载该芯片。
SubQ 1.1 Small 基于 Subquadratic Sparse Attention (SSA),在 needle-in-a-haystack 测试中接近完美检索 12M token,注意力计算减少近 1000 倍。1M token 时计算量仅密集注意力的 1/64.5,速度是 FlashAttention-2 的 56 倍。GPQA Diamond 85.4%,LiveCodeBench v6 pass@4 89.7%,AutomationBench Finance 13%。模型基于现有开源前沿模型改造,通过阶段上下文扩展(262K 至 2M)和约 1 万亿 token 继续预训练实现。已与设计合作伙伴部署,计划年内推出 2M–12M token 更大系列。
Tensordyne 发布突破性推理系统,采用对数 AI 计算芯片。相比 NVIDIA Blackwell,每瓦特 token 数提升 17 倍,吞吐量提升 13 倍。核心创新是在硬件中实现高效对数运算,将乘法转为加法,从而缩小计算电路、减少晶体管、降低功耗,释放芯片空间用于更多张量引擎、高带宽 SRAM 和 HBM3e 内存。针对 DeepSeek-R1,单机架可达 363K tokens/sec,对照系统仅 27.4K。Napier 处理器已完成流片,在台积电 3nm 制程生产。
http://x.com/i/article/2066408998698442752
Want a closer look at today's launch? Here is a breakdown of what's new and exciting 🧵: First up: An upgraded, more tho...
Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...
Qatar vs Switzerland. Five models and one human predicted. Everyone took a side. @MiniMax_AI's M3 took the draw, and it ...
一篇新论文揭示了大型推理模型的“生产-评估差距”:模型能解出数学题并得到正确答案,但在评估他人推理时,即便逻辑有缺失步骤、前提颠倒或循环论证等明显缺陷,只要最终答案正确,模型也往往判定为合格。作者提出VAIR(有效答案-无效推理)基准验证该问题。这种现象称为“答案确认偏差”,模型仅凭正确答案而非有效逻辑评判推理。与人类相比,模型从解题到评估的能力下降更显著,表明AI可能成为制造看似合理论点的自信引擎,而非真正理解自身产出的推理引擎。
Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...
Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...
🚀 Step 3.7 Flash from @StepFun_ai is now available via Novita on @OpenRouter. High-efficiency multimodal reasoning. Mul...
稀疏奖励RL提升LLM推理能力依赖模型初始覆盖范围。现有通过人工梳理推理轨迹的中期训练需手动指定学习内容。ExpRL提出自动化方式:利用大规模问答数据作为奖励脚手架——参考答案仅用于构建评分标准,LLM裁判对比模型推理轨迹与参考答案,输出过程级或结果级密集奖励。该方法强化稀疏最终奖励难以捕捉的中间步骤。在数学推理任务上,ExpRL比SFT、稀疏奖励GRPO和自蒸馏更强,并为后续稀疏奖励RL提供更好起点。混合领域实验表明可扩展至数学以外场景。
Interconnects 播客邀请 Finbarr Timbers 回顾后训练配方的演变:从 InstructGPT 的 SFT→奖励模型→RL 三阶段,到 Llama 3 / Tülu 3 的 SFT→DPO→可验证奖励 RL,再至 DeepSeek R1 以大规模 RL 为核心。2026 年配方分化为多个领域专家模型再合并回统一模型。新出现模式为 Multi-teacher On-Policy Distillation(MOPD):训练 N 个领域专家(经 SFT 和领域 RL),再通过在线采样、逐 token 最小化反向 KL 散度训练通用学生模型。MiMo Flash V2 率先引入,DeepSeek V4 与 Nemotron 3 Ultra 扩展至超过 10 个教师。MOPD 兴起源于单一 RL 流程在多领域间产生能力冲突,而专家模型易于并行训练,在线蒸馏技术日趋成熟。
Probably 获得 Andreessen Horowitz 的 900 万美元种子轮融资,旨在构建严格错误检测系统,防止模型幻觉和事实错误,目标达到 99.99% 准确率。其首款产品是数据科学工具,能从复杂数据集快速生成答案,每个结果附带引用和审计追踪。工具通过确定性验证器系统(“数据科学机甲套装”)校验 LLM 初轮回答,仅返回与数据集匹配的结果。系统针对验证器进行了训练和优化;当前版本运行在比前沿模型弱四个等级的模型上,可在本地桌面硬件运行,大幅降低 token 成本。
AI 模型 API 聚合平台 OpenRouter 于 6 月 14 日推出 Fusion API,将用户请求并行发送至多个模型,经审查模型分析后由调用模型生成统一回答。官方测试显示,Claude Opus 4.8 + GPT-5.5 + Gemini 3.1 Pro 组合得分 68.3%,超过单独 Claude Fable 5 的 65.3%;双 Claude Opus 4.8 组合得 65.5% 同样高于 Fable 5。低成本组合 Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro 得分 64.7%,以约 Claude Fable 5 一半的成本将分数差距控制在 1% 以内。
多轮LLM服务中,对话历史KV缓存随轮次增长,内存成为吞吐瓶颈。非均匀KV压缩可在注意力头间分配不同预算以保留精度,但现有服务栈因头间异构性导致页面碎片和预填充延迟增加。Tangram发现头级保留遵循输入无关的两层结构规律,仅需50样本离线校准,并通过Budget Reservation、Ragged Paging和Ahead-of-Time Load Balancing三个静态方案替代动态处理。基于vLLM实现,Tangram匹配现有非均匀压缩方法的精度,端到端吞吐量相比全KV基线最高提升2.6倍。代码已开源。
基于大语言模型(LLM)的生成式推荐(GR)使用语义ID(SID)表示物品,破坏了LLM的预训练自然语言推理接口。现有显式推理方法存在削弱世界知识表述、SID与自然语言token嵌入空间错位、依赖推理质量三个局限。PauseRec是一种轻量隐式推理范式,无需推理轨迹获取与对齐训练。相比标准显式CoT方法,PauseRec性能提升最高6.22%,训练GPU耗时减少65%,推理速度加快71.3%,成为更高效且有效的替代方案。
HuggingFace社区热门论文发布VibeThinker-3B技术报告。该3B参数模型基于Spectrum-to-Signal后训练范式,经课程监督微调、多域强化学习和离线知识蒸馏优化。在AIME26上得分94.3(借助claim-level test-time scaling提升至97.1),LiveCodeBench v6 Pass@1达80.2,最近LeetCode未见题接受率96.1%,性能匹敌DeepSeek V3.2、GLM-5、Gemini 3 Pro等更大旗舰模型。IFEval得分93.4,表明极端推理增强未损害指令可控性。论文提出参数压缩-覆盖假说。
研究发现掩码扩散语言模型(MDLM)中,成功的生成在答案相关位置呈现稳定置信度动态,不可靠轨迹可通过注入其他模型的中间状态纠正。基于此,提出TIE(Trajectory-based Iterative Ensembling)框架,通过追踪置信度动态识别可靠解码轨迹并在模型间传递部分去噪序列,使不同模型在不同生成阶段贡献互补优势。在多种推理任务上取得强性能,为MDLM集成提供了实用方案。
Tensordyne 于当地时间6月15日发布 AI 推理系统 Napier (TDN),宣称按 token 计能效达 NVIDIA Blackwell 系统的 17 倍、吞吐量达 13 倍。Napier 处理器采用对数数学设计,以台积电 3nm 制程生产,集成大量 SRAM 缓存和 HBM 内存,处理器间通信延迟<1μs。Tensordyne 构建了集成 72 颗 Napier 芯片的 TDN72“推理舱”,一个机柜可容纳 4 个舱共 288 颗芯片。机架级 TDN 系统可支持以 1000 Token/s/user 速率进行 T 级 LLM 推理,每年额外创造 3300 万美元收入。
蚂蚁百灵发布 Ling & Ring 2.6 技术报告,系统公开 Ling-2.6-flash、Ling-2.6-1T 和 Ring-2.6-1T 的架构、预训练、后训练及 Agent 强化学习细节。三款模型采用 Hybrid Linear Attention 架构,将 Lightning Attention 与 MLA 以 7:1 比例结合。Ling-2.6-flash 在 4×H20 硬件上解码速度达 340 tokens/s,Ling-2.6-1T 在 Artificial Analysis Intelligence Index 上 token efficiency 较前代提升约 4 倍。Ring-2.6-1T high 在 PinchBench 得 87.60,ClawEval 得 63.82。三款模型均已开源。
同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》Artificial Analysis 发布 Intelligence Index v4.1,转向智能体任务。升级 Terminal-Bench 2.1、τ³-Bench Banking、GDPval-AA v2(Elo 重基线、引入前沿模型评审、回合上限增至250),移除饱和的 IFBench。新增每任务成本、时间、输出 token 指标及缓存 token 影响。关键结果:Claude Fable 5(60分)领先但不可用;可用模型中 Claude Opus 4.8(max)56分居首,GPT-5.5(xhigh)55分。开源 DeepSeek V4 Pro 与 MiniMax M3 均44分。成本方面,Opus 4.8 每任务 $1.78,GPT-5.5 $0.99,DeepSeek V4 Pro 仅 $0.04。时间方面,Grok 4.3 最快(1.5分钟),Opus 4.8 需6.4分钟,GPT-5.5 需3.7分钟,Gemini 3.1 Pro Preview 以1.6分钟得46分。
Open-weight MiniMax M3 filled out a US customs form from a driver's license photo For this test we deployed MiniMax M3 Q...
提出 LLM-as-Environment-Engineer 框架,使当前策略模型能基于失败轨迹与上下文自动修改下一阶段训练环境配置。引入可控测试床 MAPF-FrozenLake,支持多维环境配置生成与基准评估。以 Qwen3-4B 为骨干,该框架在基准测试中取得最强综合性能,超越 GPT、Gemini 等更大专有模型及固定环境基线。分析发现,成功环境更新依赖失败证据并保留已有配置;当前 RL 检查点作为环境工程师优于原始基座模型,表明策略学习提升了模型诊断自身弱点的能力。
稀疏自编码器(SAE)将残差流激活分解为可解释特征,但干预特定特征后,通过优化残差扰动可恢复原有行为。研究发现这是一种可恢复失败模式:干预阻断一条可见行为路径,却未消除行为本身。即使干预在整个优化和生成期间保持激活,恢复依然可行。在TPP、遗忘、IOI和拒绝引导场景中均观察到可恢复行为。安全关键的拒绝引导场景下有效样本恢复率达95.8%,被防御特征的相对漂移仅0.131。归因分析将恢复路径定位到SAE重建残差,表明控制SAE特征并不能保证控制底层行为。
Pythagoras-Prover 团队发布最小定理证明器 4B 版本及首个扩散模型概念验证版,均仅 4B 参数。在 MiniF2F 测试中,4B 模型以 86.1% Pass@32 超越 DeepSeek-Prover-V2-671B;32B 版本达 89.8% Pass@32 和 92.6% Pass@2024,创当前最佳成绩。核心在于数据效率:构造约 80 万 Lean 验证示例,按易到难训练,并采用 LoRA 微调避免全参数更新。模型上下文窗口为 8192 tokens。模型、数据及训练流水线将陆续开源。
🚀🚀 Introducing Pythagoras-Prover 🚀🚀 🔹 The smallest theorem prover to date - Pythagoras-Prover-4B 🔹 The first proof...
东京 AI 公司 Sakana AI 发布首个商业产品 Sakana Marlin,定位为虚拟首席战略官(Virtual CSO)的 B2B 自主研究智能体。输入主题后,Marlin 自主运行最多约8小时,输出数十至100页详细报告(含正文、参考文献和附录)及 AI 生成的幻灯片。核心算法是自适应分支蒙特卡洛树搜索(AB-MCTS),可动态选择“扩宽”或“加深”。产品经2026年4月封闭测试(约300名专业人士)优化,已与三菱 UFJ 金融集团合作,获花旗集团战略投资。定价按次付费(每次100积分,每积分98日元)及 Pro(月费15万日元,含2000积分)、Team(月费40万日元,含6000积分)套餐,AB-MCTS 已以 Apache 2.0 许可证开源。
MiniMax Sparse Attention(MSA)在1M token时,将注意力计算量削减28.4倍,H800 GPU上预填充提速14.2倍、解码提速7.6倍,同时基准性能基本持平全量版本。MSA不放弃softmax注意力,而是在分组查询注意力旁增设一个小型路由分支,让每个查询组自主选择应查看的key-value块,主分支仅对该子集执行精确注意力。该方法将长上下文视为延迟约束下的检索问题,通过架构内建选择器,用模型自身注意力模式训练路由,使注意力变得有选择性而非穷举。
Z Lab、Modal 与 SGLang 团队联合发布 DFlash 投机解码模型和 SGLang 的默认 Spec V2 引擎。DFlash 采用块扩散+KV 注入并行生成整块 draft token,在 Qwen 3.5 397B-A17B(BF16)的 HumanEval 数据集上、并发 1 时吞吐量达到基线的 4.3
UC Santa Barbara与UC Berkeley团队基于OpenSage框架构建了CTF专用智能体SageCTF。在DEF CON CTF 2026资格赛中,SageCTF以单人玩家身份尝试15道挑战,成功攻克7道、恢复8个flag,总计1,743分,排名前5%,超越全部自评“不使用AI”或“低AI”的175支团队。在50道近期CTF挑战的对比测试中,SageCTF以Claude-Opus-4.6为主模型,在相同预算(每道$200/10小时)下解出39道,而Claude Code仅解出13道,且Claude Code的解出全部被SageCTF覆盖。技术核心包括AI自生成拓扑、多智能体通信、分层记忆及多模型协同编排。
Lambert 指出,美国实验室用“蒸馏”一词掩盖了 API 劫持问题。中国实验室通过破解 API 获取推理痕迹,帮助在新领域引导推理行为。他认为 API 提供者很难完全防止劫持,因为推理模型本身倾向于输出推理痕迹,完全修补会降低模型智能。他呼吁实验室更透明地说明这一过程,以便开展知情政策讨论。
Another important thing: Chinese models are not strong because they distill US models. Distillation of models via API is...
Artificial intelligence has undergone its most scrupulous maths test yet, and it did not live up to the task https://go....