单卡 700TPS! Diffusion Gemma 来了! Google 刚刚发布了 Gemma 小模型的 Diffusion 版本! 大小26B, 激活参数量4B, 最重要的是, 这次还跟 NVIDIA 合作针对4090和5090优化了...
单卡 700TPS! Diffusion Gemma 来了! Google 刚刚发布了 Gemma 小模型的 Diffusion 版本! 大小26B, 激活参数量4B, 最重要的是, 这次还跟 NVIDIA 合作针对4090和5090优化了...
Nemotron 3 Ultra 是一个 550B 总参数、55B 激活参数的混合专家(MoE)Mamba-Attention 语言模型。它在 20T tokens 上预训练,上下文窗口扩展至 1M tokens,后训练采用监督微调(SFT)、强化学习(RL)和多方教师在线蒸馏(MOPD)。关键技术包括 LatentMoE、多 token 预测(MTP)、NVFP4 预训练、多环境 RLVR、MOPD 和推理预算控制。相比公开 SOTA 大语言模型,推理吞吐量提升约 6 倍且准确率持平,适合长时间运行的自主智能体任务。模型开源基础、后训练和量化检查点,以及训练数据和配方。
现有功能推理评测常暴露物体身份,使模型依赖记忆而非推理。新基准 Affordance20Q 采用 20 问游戏形式,隐藏物体身份,要求模型通过询问形状、材质等物理属性推断功能。数据集包含 1,009 个游戏,覆盖 454 个物体和 59 种功能。15 个大语言模型的测试显示,模型与人类表现差距约 20 个百分点。基于 KL 散度的信息增益分析表明,模型在游戏后期难以提出有区分度的问题。提出的 KARI 方法利用知识库生成功能规则,将开源 LLM 提升最高 15.2 个百分点。代码和数据已开源。
AdaSR 是一个自适应流式推理框架,使大语言模型在输入持续到达时边接收边思考,并在流结束后进行最终推敲。它引入分层相对策略优化(HRPO),将策略优化分解为流式推理和深度推理两阶段,提供更细粒度的优势分配,取代传统单一序列级奖励。HRPO 综合格式、准确性和自适应思考奖励,确保推理协议有效、保持最终性能并鼓励延迟感知的计算分配。实验表明,相比监督微调基线,AdaSR 在推理准确性、计算效率和流式延迟间取得更优平衡。代码已开源。
大语言模型正从对话生成器转向集成推理、行动、记忆与自我改进的AI系统。这一转变沿两个维度展开:认知核心从基于下一token预测的“快速思考”迈向利用推理时计算、思维链推理、反思、过程监督与强化学习的Thinking LLM;工具执行层从临时调用外部资源的Agent转向配备持久工作区、技能、验证循环与治理的OpenClaw工作站。“工作区+技能”范式通过状态持久化与经验复用实现持续协作。数据构建从指令-响应对转向状态-动作-观察轨迹,评估从静态基准转向沙盒化、可审计、自我进化的生态系统。
将GRPO直接用于GUI定位时,单视图采样会导致困难实例全失败、简单实例全成功,无法产生有效相对优势。VISTA提出GRPO训练框架,从同一GUI实例的多个目标保留视图中构建对比组——每个视图通过裁剪保持目标元素可见并精确重映射边界框。VISTA还引入自验证交叉视图锚点,使用优势加权损失优化Oracle答案,不纳入群组基线。在五个GUI定位基准和多种Qwen骨干上,VISTA一致提升精度:ScreenSpot-Pro上,Qwen3-VL 4B/8B/30B-A3B从55.5/52.7/53.7提升至63.4/65.8/67.0。鲁棒性分析显示更高最差视图准确率和更低预测翻转率。
karminski认为,one-pass能力强(少思考即正确)的模型才是SOTA;需用agentic coding修复首次错误反显模型差,bug应在thinking中修复,而非依赖n+1次上下文,否则有诱导购买coding plan之嫌。@iamai_omni建议测评转向长期任务一致性,可构建loop测评,重点看后续几轮修复表现。
@karminski3 兄弟,测评方向错了,前沿模型的能力要往长期任务一致性上去看,这种几分钟的短期任务真的看不出什么,而且你可以尝试构建 loop 来测评这个任务,重点看后面模型用几轮来修复。
Google 推出 Diffusion Gemma,大小 26B、激活参数量 4B,与 NVIDIA 合作针对 RTX 4090/5090 优化,5090 上速度达 700+ token/s。该扩散文本模型以“刮奖式”并行生成而非逐 token 生成,输出质量略逊但优于此前同类模型:AIME 2026(数学)达 Gemma4-26B-A4B 的 94%,tau2 bench(Agent)达 82%。4bit 量化版仅需 16G 显存即可运行。
Claude Fable 5 doesn't truly understand. And here is a beautiful proof: The Beninatto-Trombetti test is a translation te...
一项模拟研究显示,大型语言模型(LLM)在 95% 的模拟场景中会选择使用战术核武器。该研究未指明具体模型名称与版本,结果引发对 AI 决策行为的关注。
提出社会世界模型(SWM)框架,利用大语言模型的常识与社会智能模拟社会信念随重大事件的演变。SWM通过挖掘社会数据中的时间模式并优化证据下界学习状态转移函数,无需人工标注事件与信念的关联或普查数据。引入SWM-bench基准,包含Kalshi和Polymarket预测市场超12k数据点,覆盖政治、金融、加密货币等领域。实验表明SWM显著优于时序基线,在Kalshi上达最优,在Polymarket上表现有竞争力,并提供可解释的社会信念动态洞察。
PorlockBench still unsaturated, but the models are getting better: "complete the poem as you imagine it might end if The...
用户分享 Claude Fable 5 使用体验:以前无脑选 Max 推理强度,现在则不敢随便选,因为模型足够聪明无需过强推理,且时间长、token 消耗大。Fable 5 还喜欢反复验证,结果虽好但耗时长不一定合算。引用推文指出,Fable 5 的强项之一是思考推理时间很长,曾有一次思考 15 分钟才开始行动。
发现Claude Fable 5强的地方之一,可能是模型思考推理的时间足够长。 刚提了个想法,它思考15分钟才开始行动,牛逼。
DeepSeek-R1 的开源复现项目已在 GitHub 发布,在 Hacker News 上获得 101 个积分。该项目旨在以开源方式复现 DeepSeek-R1 模型。
OpenRouter数据显示,企业正从单一LLM转向跨模型族推理,成本压力是推动路由决策的关键。Anthropic的Opus 4.7因tokenizer tax导致输入token增加约35%;新模型Fable($10/M输入,$50/M输出)和OpenAI的GPT-5.5 Pro($30/M输入,$180/M输出)定价更高。3月至4月间有90个新模型发布,进一步增加了可选性。
同一事件,精选展示《OpenRouter:企业应转向多模型路由,放弃单一LLM供应商》视觉语言模型(VLM)将图像投影为大量视觉token,导致推理时注意力计算与KV缓存开销高昂。现有方法遵循“排序‑移除”范式,但token重要性随解码器深度变化,早期丢弃的token可能在后续层变得关键。Reroute是一种无需训练的可插拔模块,将永久移除替换为可恢复路由:被延迟的token绕过当前解码阶段,在下一路由决策时重新进入候选池。在LLaVA‑1.5与Qwen骨干上对FastV、PDrop和Nüwa变体的实验表明,Reroute在激进token压缩下提升了grounding能力,同时保持通用VQA性能。
可复用的自然语言技能被频繁调用时,将完整文本放入每个上下文会显著增加预填充成本和延迟。SKIM(SKIll coMpression)是一种自适应多分辨率软token压缩框架,专为程序性技能设计。它根据每项技能的复杂度生成不同数量的软token,在提升LLM推理效率的同时保留技能使用效果。实验表明,SKIM将技能压缩至原始token长度的30%到60%,且在任务性能上优于现有压缩方法。代码已开源。
在代码模型预训练、从大语言模型蒸馏代码模型以及时间序列基础模型预训练三项任务中,xLSTM、Mamba-2和Gated DeltaNet三种次二次架构中,xLSTM取得最佳整体性能。通过统一公式和机制分析发现,xLSTM的门控方案实现了更灵活稳定的记忆校正,其状态跟踪和记忆累积优势在合成长度泛化任务中得到验证。
TRACE 针对多轮智能体 RL 中因提示复杂度差异和仅有最终奖励导致的奖励对比度不足问题,将每个 ReAct 轮次视为语义独立节点,把预算分配从 prompt 根节点扩展到中间前缀,形成树结构 rollout。它使用可共享预测器根据前缀历史估计条件成功概率,优先向易产生混合奖励的节点分配有限采样预算,从而增强策略更新信号。在典型智能体基准上,TRACE 以相同采样成本使 Qwen3-14B 在 Multi-Hop QA 上的准确率提升 2.8 个百分点。
阿里云宣布Qwen模型上线欧洲AI网关Eden AI。Eden AI拥有超20万开发者,企业可通过其统一API访问Qwen开放权重模型(用于推理、编程和AI应用),构建多模型工作流并避免供应商锁定。庆祝上线期间,所有Qwen模型享35%折扣。下周VivaTech阿里云AI创新峰会(7.3区Workshop A)将举办特别见面会,Eden AI CEO与CPTO出席。
腾讯混元 AI Infra 团队开源升级 HPC-Ops 推理算子库,推出五大核心算子。Attention 采用运行时动态负载调度,长文本最高加速 2.95x,端到端 QPM 提升 17%;Router GEMM 以双 BF16 组合实现 FP32 精度,对比 CuBLAS FP32 最高提速 3.22x;FusedMoE 相对 vLLM、SGLang 性能提升 1.2x~1.6x;Fused AllReduce+Norm 对比主流方案最高提速 1.68x;Sampler 将解码采样融合为 2 个 CUDA Kernel,相对 vLLM 提速 4.0x~7.5x。所有能力均来自生产实践并完全开源。
用户使用 Claude Fable 5 分析爬取的小红书数据,获得 Opus 4.8 未能提供的结论,并发现一个可 AI 全自动运营的赛道。用户认为 AI 是普通人的第六个康波周期,做自媒体是最大的 AI 红利,后续计划继续挖掘更多赛道。
http://x.com/i/article/2064536412670562304
苹果在 WWDC 2026 推出 CoreAI 引擎,接替 CoreML,主攻端侧大语言模型推理。首批测试显示,M4 Mac 上运行 Qwen3 0.6B 时 CoreAI 解码速度约是 MLX 的 2.47 倍,iPhone 17 Pro 上约 1.6 倍;但模型升至 Qwen3 8B(M4 Max)时优势缩至 5%。持续负载下 iPhone 17 Pro GPU 降频,CoreML 配合苹果神经引擎(ANE)性能保持率反超。横向对比,谷歌 LiteRT-LM 运行 Gemma 达 55.4 tok/s,RAM 仅 641 MB,而 MLX 占用 2900 MB。
针对第一人称视频空间推理中观测证据受限的问题,现有单次推理方法依赖语义先验无法解决几何歧义。论文提出无训练推理时框架ReRe:推理阶段MLLM从原始视频形成空间假设;重推理阶段通过观察合成的新视角视频验证或修正假设。采用Geometry-to-Video流水线,从预测3D几何渲染抬高斜视的全景新视角,保留MLLM原生视频接口。在VSI-Bench和STI-Bench上,ReRe显著提升开源MLLM性能,匹敌专有模型最优水平。
Bebop系统研究多token预测(MTP)在大语言模型RL后训练中的加速瓶颈。发现MTP接受率与模型熵波动呈负线性关系;概率拒绝采样相比贪婪草稿采样能缓解熵干扰。提出端到端TV损失直接优化多步拒绝采样接受率,带来约10%提升,最高达95%接受率,额外推理吞吐提升25%。在Qwen3.5、Qwen3.6和Qwen3.7上,异步RL训练实现1.8倍端到端加速。预RL阶段的MTP训练结合e2e TV损失和拒绝采样可保持全程一致的加速,无需在线更新。
InternVideo3框架通过多模态上下文推理(MCR)提升基础模型的长时序多模态任务能力。MCR将理解视为包含观察、指令、推理、工具行动和记忆的闭环过程,将长视频理解为证据积累与验证。为提升效率,引入多模态多头潜在注意力(M²LA),一种保留完整token流同时压缩KV-cache状态的token保持重参数化。训练阶段包括继续预训练、短到长监督微调、基于规则的强化学习和在线蒸馏。InternVideo3在Video-MME、MLVU、EgoSchema等基准上取得强性能,并实例化为带有检索工具的视频智能体,展现基于证据的鲁棒行为。
RACES(Recursive Automated Composition for Environment Scaling)将可验证环境视为递归组装的构建块,当输出类型与输入类型匹配时自动融合为新环境。基于300个基础环境,定义SEQUENTIAL、PARALLEL、SORT、SELECT四种组合算子,诱导多样推理模式。在DeepSeek-R1-Distill-Qwen-14B上平均提升3.1分(从48.2到51.3),Qwen3-14B提升2.3分(从58.8到61.1),均在六个未见基准上测得。仅用50个基础环境即可达到300个环境的训练效果,环境利用效率显著。
Google 开源 DiffusionGemma,基于扩散架构,一次性生成大段文本再逐步优化。H100 上达 1000+ tokens/s,RTX 5090 上 700+ tokens/s。26B 参数仅需 18GB 显存,一次生成 256 tokens。多轮迭代自我纠错,可修改已生成内容。
分离式推理架构将 prefill 和 decode 阶段分配到不同 GPU 池,形成共享硬件预算的竞争“智能体”。研究首次用博弈论建模该架构,以 NVIDIA Dynamo 为案例,拆解为三个耦合博弈。在 3 节点 B200 集群上用 Nemotron-4-340B 和 Llama-3.1-70B 验证,两模型呈现相同三阶段 PoA-hat 结构。自适应路由可在饱和阶段大幅降低 PoA-hat:70B 1P/5D 拓扑下 PoA-hat 从 66.4 降至 21.5(3.1 倍),吞吐量损失 13%;70B 1P/2D 下 PoA-hat 降 2.2 倍,TTFT P99 降 7.6 倍。
大语言模型虽在数学与符号推理上表现出色,但无法理解量子表示(如酉矩阵)。本文提出将酉算子映射到LLM潜在空间,实现量子输入与语言输入的联合建模。在Clifford+T电路合成上,该模型达到与最先进方法竞争的性能,且随训练数据规模扩展持续提升,未见饱和迹象。方法还支持语言条件合成,允许以自然语言指定训练中未见过的门约束。这项工作为构建原生理解量子运算的量子感知基础模型铺平道路,可能对量子编译与算法发现产生广泛影响。
现有PPO风格信任区域机制对所有token施加统一阈值,忽视自回归生成的非对称性和累积前缀漂移。CPPO通过位置加权阈值和累积前缀预算两种耦合机制进行优化:早期位置限制更严格以抑制序列级漂移,后期位置放宽约束以保障探索;同时动态追踪历史偏差,防止前缀沿累计误差。实验表明,该方法在不同模型规模下均能提升训练稳定性并显著提高推理准确率。
谷歌6月11日发布开源文本扩散模型DiffusionGemma,本地推理速度较自回归模型提升4倍。采用Apache 2.0许可证,可从Hugging Face下载权重。采样速度1479 tokens/秒,开销0.84秒。代码生成HumanEval达89.6%,数学AIME 2025达23.3%超越对比模型。在H100 GPU上每秒生成1000 token,DGX Station上可达2000 token。
Gemini 2.5 Flash API 支持配置思考预算(thinking budgets),用户可跨提供商进行比较,并在5分钟内完成首次API调用。
关联讨论 1 条OpenRouter:Announcements(RSS)Google DeepMind 发布 DiffusionGemma,一款利用扩散模型加速文本输出的新模型,本地 AI 推理速度达到传统模型的 4 倍。
Google DeepMind 发布实验性开源模型 DiffusionGemma,参数量 26B,采用混合专家(MoE)架构,通过文本扩散(text diffusion)技术实现在 GPU 上最高 4 倍生成速度提升。模型权重已开放。
关联讨论 6 条Google DeepMind:Blog(RSS)X:Google DeepMind (@GoogleDeepMind)X:Demis Hassabis (@demishassabis)X:Testing Catalog (@testingcatalog)X:Google AI for Developers (@googleaidevs)Google Developers Blog(RSS)DiffusionGemma 是 Google 推出的文本生成模型,其文本生成速度相比前代提升 4 倍。该模型详情已发布在 Google 官方博客。
Google 推出开源实验性模型 DiffusionGemma,基于 Gemma 4 的文本扩散研究。该模型为 26B MoE 架构,仅激活 3.8B 参数,量化后可适配 18GB VRAM。核心突破在于每轮前向传播并行生成 256 个 token,实现推理速度提升 4 倍:H100 上可达 1000+ tokens/s,RTX 5090 达 700+ tokens/s。DiffusionGemma 通过初始化随机占位符画布并运行多轮并行去噪,同时生成整段文本,许可证为 Apache 2.0。
DiffusionGemma is an open, experimental model that brings our text diffusion research to Gemma 4. It's a racehorse 🏇ach...