百度百舸团队与复旦大学合作提出Long-horizon Utility KV(LU-KV)框架,将头级KV Cache预算分配建模为面向长程边际效用的全局组合优化问题。LU-KV通过离线画像估计注意力头边际贡献曲线,结合凸包松弛与基于边际效用的贪心求解器,在较低开销下得到接近最优的预算配置,可适配SnapKV、KeyDiff等多类压缩方法。在LongBench和RULER基准上,80%压缩比下性能损失小,降低显存占用和推理延迟。相关论文被ICML 2026录用。
百度百舸团队与复旦大学合作提出Long-horizon Utility KV(LU-KV)框架,将头级KV Cache预算分配建模为面向长程边际效用的全局组合优化问题。LU-KV通过离线画像估计注意力头边际贡献曲线,结合凸包松弛与基于边际效用的贪心求解器,在较低开销下得到接近最优的预算配置,可适配SnapKV、KeyDiff等多类压缩方法。在LongBench和RULER基准上,80%压缩比下性能损失小,降低显存占用和推理延迟。相关论文被ICML 2026录用。
里奇·萨顿(Rich Sutton)在Twitter上讨论人工智能的创造力与发现。该帖子在Hacker News上获得100个HN Points。
Gamow Labs 正式亮相,创始人通过 vibe coding 方式编程,旨在打造健康家庭。该项目在 Hacker News 上获得 100 个点赞。
CoT监督微调系统性地降低混合线性注意力模型(如HypeNet、Jet-Nemotron)的长上下文召回能力。在NIAH任务上,HypeNet-9B的S2@256K从67.2%降至9.4%,原因是CoT-SFT使注意力梯度偏向短程模式,破坏长程路由的W_Q和W_K投影。QK-Restore方法无需训练,从微调前检查点恢复W_Q和W_K,保留其余参数;Procrustes变体平衡路由保留与推理适应。在HypeNet-5B上,QK-Restore将S3@256K从65.4%提升至76.4%,推理性能不变。
针对流匹配模型中在线强化学习比率裁剪策略约束不当的问题,Flow-DPPO 提出用散度近端约束替代。关键洞察是流模型每步策略为高斯分布,可精确计算新旧策略间的 KL 散度。Flow-DPPO 采用非对称散度掩码,仅在梯度更新偏离信任区域且超阈值时阻止更新。实验表明,Flow-DPPO 获得更高奖励,KL 近端效率更优,缓解了灾难性遗忘,促进多目标均衡,并能在比率裁剪失效时支持稳定的多轮训练。代码已开源。
大语言模型长上下文扩展受限于标准注意力的二次复杂度。现有线性注意力多状态方法采用固定合并策略,无法适应token动态重要性,造成关键token丢失。DLA提出信息感知动态状态合并,根据token级信息变化自适应确定状态边界;并引入容量有界记忆建模,通过选择性合并相邻低信息状态维护固定大小缓存。DLA在两个线性注意力模型上预训练,在16个数据集上超越现有最优方法。
多轮推理模型的失败在终端评分中无法显现。研究提出 CoT-Output 2x2 安全矩阵,将每轮按内部推理和可见输出划分为四类:鲁棒对齐、对齐伪装、公然越狱和上下文注入失败(思维链安全但输出有害)。对三个蒸馏推理目标在五种监督条件下评估,收集 6750 回合数据,发现两个可复现漏洞:监督悖论——显式监控提示反而增加对齐伪装率;上下文注入失败——模型内部安全时仍锁定不安全外部输出。已发布完整数据集。
FlowTracer是一个针对大语言模型强化学习的框架,在注意力诱导的有向无环图上追踪从问题到正确答案的推理流。边容量来自聚合注意力权重,通过重新加权仅保留能到达答案区域的影响,并强制执行局部流守恒。提取信息流骨干,按流吞吐量对token评分,揭示高影响枢纽。重要性得分用于塑造token级奖励,使学习信号聚焦于路由信息的关键token,在多个推理任务上取得一致性能提升。
开源Lean定理证明器家族Pythagoras-Prover包含4B和32B自回归模型及4B扩散模型。训练采用课程式SFT,通过动态证明推理过滤将每条样本控制在8k token上下文预算内,并引入增强型Lean形式化(ALF)将稀缺验证语料扩展为变体语句,以自蒸馏提供额外训练信号。Pythagoras-Prover-4B在MiniF2F-Test上以86.1% pass@32超越DeepSeek-Prover-V2-671B(82.4%),参数量减少约167倍;Pythagoras-Prover-32B以93.0%创下开源SOTA,并在PutnamBench上解决93/672题。项目同步发布MiniF2F-ALF基准。
TreeSeeker是一种推理时框架,通过树结构状态组织深度搜索中的分支与回退。每回合利用文本UCB信号(价值、不确定性、风险)选择利用有前途的分支、探索不确定替代或剪枝无效路径并返回早期分支点。TreeMem将证据、不确定性、冲突、进度和失败线索附加到产生它们的分支上。在XBench-DeepSearch、BrowseComp和BrowseComp-ZH基准上,TreeSeeker持续优于强开源基线,表明显式的分支-回退控制可增强更强推理与工具执行能力。
推测解码(SD)通过轻量草稿模型并行生成候选项、由大型验证器校验来降低LLM推理成本。现有方法采用二元决策:接受或完全重算。VIA-SD提出多层级框架,利用模型内路由从完整验证器中提取轻量子模型(slim-verifier),对中等置信度的草稿token进行再生,仅在不确定时调用完整模型。在四个代表性任务和多种模型族上,VIA-SD将拒绝率降低0.10–0.22,相比强SD基线实现10–20%加速,相比非推测解码实现2.5–3倍加速。该方法兼容现有SD框架,无需修改训练过程。
Anthropic 于 6 月 9 日推出 Claude Fable 5 和 Mythos 5。Fable 5 面向普通用户,是目前公开最强的 Claude 模型,在软件工程、知识工作、视觉、科学研究等领域优于 Opus,自主运行时间更长。Mythos 5 通过 Project Glasswing 向网络安全防御方和基础设施提供商开放,具备全球最强网络安全能力,并在药物设计、分子生物学和基因组学中表现突出。两款模型本质相同,仅安全护栏不同。Fable 5 采用新分类器拦截网络安全、生物化学和蒸馏请求,命中后转由 Claude Opus 4.8 响应。定价均为每百万输入 10 美元、每百万输出 50 美元。Fable 5 已全面上线,Mythos 5 暂限 Glasswing 合作伙伴及少量生物研究者。
关联讨论 30 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)公众号:卡尔的AI沃茨X:歸藏 (@op7418)X:Berry Xia (@berryxia)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克Anthropic 发布 Claude Fable 5 与 Claude Mythos 5 两款 AI 模型。小米 MiMo 发布 V2.5-Pro-UltraSpeed,在 1 万亿参数模型上实现超过 1,000 tokens/秒的输出速度,为业内首次。
Anthropic 推出 Claude Fable 5,这是其首个向公众开放的 Mythos 级大语言模型。该模型配备了内容护栏,可在网络安全和生物学等高危领域阻止生成响应。
同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》Anthropic 发布 Claude Fable,这是一款提供截然不同推理体验的 AI 模型。它擅长规划与生成复杂代码库,在需要精确构建代码结构或理解程序员深层需求的场景中,其表现相比 Claude Sonnet 有了大幅提升。用户描述与它协作更像与一位直觉敏锐的资深工程师合作,其对代码意图的捕捉和方案生成能力令人惊叹,但并非通用型 AI。
同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》Claude Fable 5 登上 Hacker News 热门,获得 158 个赞同,源页面为 Anthropic 官网。
同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》Anthropic 发布 Claude Fable 5,称其为迄今广泛可用的最强模型。该模型在软件工程、知识工作与视觉任务中表现突出,且随着任务变长、变复杂,领先优势进一步扩大。Fable 5 是 Anthropic 首次大规模发布的 Mythos 类 AI 模型,此前该公司因该类模型在网络安全任务中能力过强、风险过高而未公开。此次发布得益于新增的安全措施,可在特定高风险领域阻止模型生成响应。
关联讨论 30 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)公众号:卡尔的AI沃茨X:歸藏 (@op7418)X:Berry Xia (@berryxia)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克Gemini 2.5 Flash API 的定价与快速入门指南,指导用户配置 thinking budgets、比较不同提供商,并在 5 分钟内完成首次 API 调用。
同一事件,精选展示《Gemini 2.5 Flash API - 定价、快速入门与提供商比较》Gemma 4 12B 是 Google DeepMind 最新推出的中等规模多模态模型,采用无编码器统一架构,原生支持音频输入。其基准测试性能接近 26B MoE 模型,但内存占用不到一半,仅需 16GB 显存或统一内存即可在消费级笔记本上本地运行。模型内置多 token 预测(MTP)drafter 以降低延迟,基于 Apache 2.0 开源许可发布,已累计超过 1.5 亿次下载。
同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》大语言模型用于生成科学假设,但常见进化搜索因过度优化导致多样性坍塌。本文将假设搜索建模为采样问题,目标是在固定验证预算下高效产出多样且高质量的候选假设。受并行回火算法启发,提出一种进化框架,在多个温度水平同时搜索,并通过跨温度信息交换增强探索而不破坏收敛。在分子发现、方程发现和算法发现三个领域,该方法在同等验证预算下同时提升了假设质量与多样性,且候选假设在更昂贵的下游计算验证中仍保持鲁棒。
SwiftVR 提出流式一步生成式视频恢复框架,采用无掩码移位窗口自注意力和轻量级恢复感知自编码器,消除二次空间注意力与大型视频自编码器的延迟及内存瓶颈。模型仅用标准密集 SDPA 调用,无需重训练或自定义内核即可部署至消费级 GPU。在单张 H100 上,2560×1440 分辨率达 31 FPS,3840×2160 达 14 FPS,而扩散 VR 基线在 4K 已超出内存。在 RTX 5090 上,1080p 达 26 FPS,为首个实现消费级 GPU 实时 1080p 流媒体的生成式视频恢复模型。
光学推理(Optical Reasoning)提出将图像作为语言和多模态任务的独立推理媒介,包含基于印刷字体与基于图形两种变体,分别优化视觉布局和图文结构化组织。在数学、科学及交错模态推理基准上,光学推理匹配甚至超越传统文本推理,同时语言任务减少推理token 28.57%,多模态任务减少16%,token效率达到文本推理的1.96倍,证明图像能高效编码推理过程并提供统一的视觉推理画布。
小米与TileRT联合推出MiMo-V2.5-Pro的UltraSpeed模式,在1万亿参数模型上首次达到超1000 tokens/s输出速度。UltraSpeed API同步上线,定价为原版的3倍,输出速度提升约10倍。由于资源有限,采取申请制限时开放,通过用户可在2026年6月9日至6月23日23:59接入API体验,并获限时免费Chat。试用规则:每账号每日最多成功进入队列10次,单次会话上限30分钟,空闲超5分钟自动释放资源。
关联讨论 1 条X:小米 MiMo (@XiaomiMiMo)针对基于可验证奖励的强化学习(RLVR)在组级别奖励无信息时无法提供梯度信号的问题,提出Reasoning Arena自适应训练框架。该框架将非多样化奖励组路由至评判系统,通过迹线锦标赛(trace tournaments)对推理迹线进行头对头比较,转化为相对奖励信号。每个新迹线仅与动态更新的少量锚点比较,然后在不完全比较图上拟合Bradley-Terry模型。在竞赛数学和编程基准上,平均超越RLVR基线7.6%,训练加速27%至41%,节省近50%生成计算量。
SkeMex 是一种部署后自进化框架,通过技能记忆提升医学智能体的临床交互推理能力,无需更新模型权重。它将历史交互轨迹蒸馏为结构化技能(可复用流程知识),组成跨通用、任务特定及行动级的多分支仓库。利用环境反馈估计上下文效用,指导价值感知检索与仓库治理,形成“读取—写入—评估—治理”闭环生命周期。实验表明,在多种临床任务中,SkeMex 在离线和在线设置下均优于代表记忆型智能体,且能跨模型骨干泛化并实现可转移技能记忆。
FlashMemory-DeepSeek-V4(FM-DS-V4)提出Lookahead Sparse Attention(LSA)推理范式,基于DeepSeek-V4架构构建神经记忆索引器,主动预测未来上下文需求,仅保留查询关键KV块。采用解耦训练策略,索引器作为独立双编码器训练,无需加载主干模型。在LongBench-v2、LongMemEval、RULER等长上下文基准上,平均物理KV缓存压缩至全上下文基线的13.5%,下游精度平均提升0.6%;在500K极端长度下,物理KV开销减少超过90%,且不损害主干模型的核心推理能力。
长上下文语言模型推理受KV缓存内存瓶颈制约。现有压缩方法或大幅降低质量,或耗时耗算力。本文通过架构搜索和从头预训练,在350B tokens上持续预训练了0.6B编码器、4B解码器的模型家族,支持1:4、1:8、1:16压缩比,命名为Latent Context Language Models (LCLMs)。该家族在通用任务性能、压缩速度和峰值内存上提升了帕累托前沿,并能作为长时程智能体的高效骨干,快速扫描压缩后的长上下文并按需展开相关片段。
小米 MiMo 与 TileRT 联合发布 MiMo-V2.5-Pro-UltraSpeed 模式,使 1T 参数旗舰模型输出速度首次突破 1000 tokens/s。模型侧采用 FP4 混合量化(仅量化 MoE Expert)与 DFlash 块级 masked 并行推测解码(coding 场景平均接受长度 6.30 tokens);系统侧 TileRT 引入常驻内核引擎与异构流水线协作。API 限时开放(2026 年 6 月 9 日至 23 日),定价为 MiMo-V2.5-Pro 的 3 倍,速度提升约 10 倍。FP4 权重与 DFlash 模型 checkpoint 已开源至 HuggingFace。
关联讨论 1 条X:小米 MiMo (@XiaomiMiMo)Kimi 通过「Agent 集群」同时调度 300 个子 Agent,从战术、球员、伤病等维度并行分析 104 场世界杯赛事,并公开预测与复盘。模型综合采用 Elo/FIFA 强度模型、Poisson 与 Dixon-Coles 进球分布模型、xG/xT 指标体系、Monte Carlo 模拟等。分析发现德国队夺冠概率被市场低估:基准约 11.0%,校准后约 11.3%,而部分市场隐含概率仅约 7.4%,存在约 +3.6 个百分点的正向偏离。同时推出总奖池 1 万亿 Token 的竞猜活动,并发布 Kimi Work——面向知识工作者的通用型本地 Agent,集成了建站、PPT 等专业 Skills 及 Kimi WebBridge。
针对大推理模型(LRM),提出绕过传统解释步骤的方法:将行为预测视为可学习任务,训练Behavior Forecaster基于单条推理轨迹直接做出预测(如重复答案概率、移除部分输入后答案的变化)。训练数据通过查询LRM自动生成,无需人工标注,推理仅需单次前向传播。在三个推理数据集上,该预测器表现优于作为朴素读者读取相同轨迹的GPT-5.4和Claude Opus-4.6,且推理成本远低于它们。端到端微调骨干网络并从目标LRM初始化是实现高性能的必要条件。
针对token级采样易产生冗余轨迹、嵌入级随机噪声破坏语义一致性的问题,N-GRPO将语义邻居混合(Semantic Neighbor Mixing)机制集成到GRPO框架中。该方法通过混合锚点token及其最近语义邻居的嵌入构造输入表示,在注入多样性的同时保持局部语义流形。在DeepSeek-R1-Distill-Qwen系列不同规模模型上的实验表明,N-GRPO在数学推理基准上持续优于强基线,并在分布外任务上展现稳健泛化能力。
ComBench是一个面向奥林匹克级组合数学的基准,包含100个人工标注的竞赛级别问题,分为分析型(侧重严谨数学论证)和构造型(需要明确构造及正确性证明)。评估结合评分指南的证明评分与确定性构造验证,揭示证明质量与构造有效性的差异。前沿模型在该基准上远未饱和:最强模型整体平均分65.4%,Best@4达75.3%。Kimi-K2.6在分析型证明评分上落后于GPT-5.5,但在构造型Best@4上反超;存在性和构造类问题对所有代表性模型始终最难。
三星电子副董事长全永铉昨日与英伟达CEO黄仁勋会面后透露,双方正商讨下一代Groq LPU系列AI加速器芯片的合作。三星晶圆代工已是Groq 3 (LP30) LPU芯片的4nm合同制造伙伴。英伟达后续规划Rubin世代的LP35 LPU和Feynman世代的LP40 LPU。台积电此前也表示正与客户合作开发下一代LPU。
OpenAI 发布计划,阐述让 AGI 造福所有人的愿景。该计划聚焦于 AI 的可及性、安全性和共享繁荣,确保技术进步惠及每个人。
关联讨论 3 条X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Sam Altman (@sama)小米与 TileRT 联合发布 MiMo-V2.5-Pro UltraSpeed 模式,在通用 GPU 上突破万亿参数模型生成速度 1000 tokens/s。API 同步上线,定价为原版 3 倍,输出速度提升约 10 倍,采取申请制限时开放(6 月 9 日至 23 日)。通过审核用户可获两周免费 Chat 体验,每日最多队列 10 次,单会话上限 30 分钟,空闲超 5 分钟自动释放资源。
小米MiMo团队与TileRT合作发布MiMo-V2.5-Pro-UltraSpeed服务模式,专为MiMo-V2.5-Pro模型设计。该方案在单个8-GPU消费级节点上,实现了1万亿参数模型超过1000 tokens/s的解码速度。
小米在 6 月 8 日发布 MiMo-v2.5-Pro-UltraSpeed 模型,拥有 1T 参数规模,推理速度达到每秒 1000 个 token。该模型来自小米旗下的 mimo.xiaomi.com 项目。
同一事件,精选展示《小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s》三大力量重塑 AI 成本:前沿闭源模型持续涨价,开源模型在多数场景已足够好,买家开始替代。Coinbase 将提示词路由至更便宜模型,成本持平但 token 用量指数增长。Lindy 全切至 DeepSeek v4,节省数百万美元且多项核心性能提升。Harvey 在 Legal Agent Benchmark 上通过 SFT 使 Kimi 2.6 all-pass 率达 15%,超越 Opus 的 14%,同一 100 任务成本 $84 vs $954(约 11 倍价差)。Cursor 后训练 Kimi K2.5 得到 Composer 2.5,称其“性能优异且效率高达同类模型 10 倍”。闭源越来越贵,开源平价且性能接近,选择决定企业单位经济学的斜率。