Google 推出 SIMA 2,基于 Gemini 的 AI 智能体,支持在交互式环境中思考、理解并执行动作,可在虚拟3D世界中进行游戏、推理和协同学习。
Google 推出 SIMA 2,基于 Gemini 的 AI 智能体,支持在交互式环境中思考、理解并执行动作,可在虚拟3D世界中进行游戏、推理和协同学习。
AI for Math Initiative 汇聚全球顶尖研究机构,率先探索 AI 在数学研究中的创新应用,加速科学发现。
集成 Deep Think 的 Gemini 高级版本在国际数学奥林匹克(IMO)中达到金牌水平。IMO 自1959年起每年举办,是全球最顶尖的青年数学家竞赛,各国派出6名精英学生角逐代数、组合、几何和数论领域的6道极难题目。
关联讨论 1 条Google DeepMind:Blog(RSS)SGLang现已集成KTransformers后端,为DeepSeek-V3等稀疏MoE模型提供CPU/GPU混合推理加速。该技术采用Intel AMX优化内核,使单路Xeon算力达21.3 TFLOPS,较PyTorch原生实现快3.9倍;通过NUMA感知张量并行和CUDA Graph调度,双路服务器解码吞吐量提升63%,GPU内核启动开销从20%降至接近零;专家延迟机制支持跨层重排计算以重叠CPU与GPU执行,在精度变化低于0.5%的情况下使解码吞吐量再提高1.45倍。
Anthropic可解释性团队分享了多项研究进展。研究发现,从Haiku 3.5到Sonnet 4.5等模型中存在跨模态视觉特征,能够识别ASCII艺术和SVG代码中编码的语义概念,如眼睛、嘴巴、狗、猫等。这些特征依赖于视觉描绘的上下文环境,例如,SVG圆形元素只有在位于激活“面部”特征的更大结构中时才会激活“眼睛”特征。在生成过程中对部分特征进行引导,可以对应修改文本艺术的语义,例如将ASCII表情从皱眉转为微笑,或为SVG面部添加皱纹。研究还发现模型存在类似“人脸幻想”的倾向,会将形状解释为动物绘图的组成部分。这些特征对人类手绘的SVG同样有效。
研究团队发布合成编程基准DELTA与Manufactoria测试平台,针对基础模型pass@128为零的分布外任务,提出两阶段奖励调度方案:先以密集每测试奖励打破零梯度僵局,再切换至二元全通奖励巩固精确解。实验显示,RL训练在漫长平台期后会出现"grokking"式相变,准确率骤升至约100%,证明模型能够发现全新策略而非仅优化已有知识。迁移测试表明,习得策略可重组编程子技能并外推至更难参数范围,但在需要新不变量的结构性转变上仍受限。
inclusionAI团队发布了dInfer,一个专为扩散语言模型设计的高效推理框架。该框架旨在解决扩散模型在文本生成领域推理速度慢、资源消耗大的核心挑战。dInfer通过一系列底层优化技术,显著提升了推理效率,能够更快地生成文本,同时降低计算成本,为扩散模型在更广泛的实际应用场景中部署提供了关键技术支持。
蚂蚁集团联合SGLang提出H20-96G部署DeepSeek-R1的工业级方案。针对H20高内存带宽、低计算吞吐特性,采用硬件感知策略:单节点TP-8处理prefill,小规模EP-16处理decode。结合FlashMLA-FP8、DeepGEMM swapAB内核优化与异步Expert Affinity负载均衡技术,在4096 token序列上实现单节点16.5k输入/5.7k输出token/秒的吞吐,达H20平台SOTA性能。
SGLang团队基于GB200 NVL72优化DeepSeek V3/R1推理,采用FP8 Attention、NVFP4 MoE、大规模专家并行及PD分离等技术。2000 token输入下,单卡Prefill达26,156 tokens/s,Decode达13,386 tokens/s,较H100提升3.8倍和4.8倍。BF16/FP8配置下仍达18,471/9,087 tokens/s。FP8与NVFP4低精度内核分别带来1.8倍和1.9倍加速且精度损失可忽略。
InclusionAI 发布并开源了 Ring-V2,这是一个基于混合专家架构的推理大语言模型。该模型采用 MoE 设计,旨在提升复杂推理任务的性能。作为开源项目,Ring-V2 可供研究者和开发者直接使用与进一步探索。
meituan-longcat 开源发布 LongCat-Flash-Thinking-FP8 模型,采用 FP8 8位浮点精度格式优化计算效率与推理速度。该模型支持 Flash-Thinking 快速推理能力,致力于通过开源和开放科学推进人工智能的民主化。正文未披露具体参数规模、训练数据详情或基准测试指标。
Anthropic 可解释性团队在月度更新中分享了关于大语言模型跨语言表征的新发现。研究显示,模型在不同语言间的特征相似性(通过交并比IoU衡量)会随文本样本长度增加而上升。通过对比英法双语段落的首句与末句,团队发现末句的IoU显著高于首句,且无关文本的首句间重叠度高于末句。这表明模型在较长上下文中能构建更丰富的跨语言理解,而非由虚假激活主导。相关发现支持了模型随上下文积累深化语义表征的观点。
LLM推理的再现性是科学进步的基础,但即使在温度设为0的贪心采样下,ChatGPT等API以及vLLM、SGLang等自托管推理引擎仍无法保证确定性结果。常见的“并发+浮点非结合性”假设并不完整——GPU上重复执行相同矩阵乘法结果完全一致。真正原因在于:部分GPU内核是非确定性的,但LLM前向传播使用的内核均为确定性;推理服务器前向传播本身是确定性的,用户感知的非确定性源于浮点运算非结合性在不同聚合顺序下导致的细微数值差异。文章揭示了这一误解,并探讨如何实现真正可重现的LLM推理输出。
OpenAI 高层公开致谢首席科学家 Jakub Pachocki 与 Szymon Sidor,二人多次联手攻克被认为不可能的技术难题,主导 Dota RL 扩展、GPT-4 预训练及推理突破,被形容为“不知疲倦”的黄金搭档。
DeepSeek-V3.1 以混合推理模型形式开源,用户可一键切换思考模式,同时 Agent 智能体支持性能得到增强。
Anthropic可解释性团队在2025年8月的研究更新中,通过一个电路分析案例展示了模型“角色扮演”如何影响其回答。研究使用Claude Haiku 3.5模型,当系统提示将其设定为“学龄前儿童”并询问“27的平方根”时,模型会以“我不知道!”回应并提议玩耍;而在默认或“研究生”角色下则能给出正确答案。团队通过归因图识别出一个关键子电路:模型能将“学龄前学生”关联到“扮演儿童”,从而激活“我不知道”特征。研究还发现,问题难度会调节此效应,并且通过特征干预能显著改变模型行为。这引发了对其他角色运作机制及预训练角色与模型表达能力关系的后续思考。
GPT-5 不再需要详细提示工程,只需给出目标即可自主完成任务。将 AI 置于主导地位,用户只需设定方向,具体执行由模型自行处理。
GPT-5 现已登陆 OpenRouter 平台,具备长上下文能力,专为复杂推理和代码工作流设计。
同一事件,精选展示《GPT-5 现已上线》OpenRouter 平台已发布 GPT-5,该模型支持长上下文,专为复杂推理与代码工作流构建。
关联讨论 1 条X:ChatGPT (@ChatGPTapp)GPT-5 已在 OpenRouter 平台正式推出。该模型具备长上下文处理能力,专门针对复杂推理任务与代码工作流进行了优化。此次发布标志着新一代大语言模型开始接入开放路由网络,为开发者与用户提供更强大的多步骤逻辑处理和编程辅助功能。
字节跳动Seed团队发布扩散语言模型Seed Diffusion,采用非自回归的扩散架构替代传统GPT类模型,通过去噪扩散机制并行生成文本,突破逐token解码的速度瓶颈。该模型在保持大规模参数能力的同时显著提升推理效率,在文本生成任务中实现生成质量与计算速度的平衡,为大规模语言模型提供了自回归范式之外的高性能替代方案。
智谱发布旗舰模型 GLM-4.5(355B/32B 激活)与 GLM-4.5-Air(106B/12B 激活),含 FP8 量化版本,即日起原生支持 SGLang 框架。采用 MoE 架构与 128k 上下文,在 12 项基准测试中分列第 3 与第 6。GLM-4.5 在 BrowseComp 网页浏览任务中以 26.4% 准确率超越 Claude 4 Opus,工具调用成功率达 90.6%,编程与数学推理能力突出。
Seed-Prover是基于引理的全证明推理模型,支持根据Lean形式验证反馈、已证引理及自我总结迭代优化证明,并采用三种测试时推理策略实现深度与广度兼顾的推理。该系统在形式化IMO历史题目中完成78.1%,在MiniF2F上实现饱和,在PutnamBench上突破50%,大幅领先此前最优水平。针对Lean缺乏几何支持的问题,团队同步推出Seed-Geometry引擎。该系统参加IMO 2025竞赛,在6道题目中完整证明5道。
Mistral AI 为 Le Chat 推出五项重要更新:Deep Research(预览版)模式可快速生成结构化研究报告;语音模式启用新 Voxtral 模型实现自然对话;Think 模式由 Magistral 推理模型支持,提供原生多语言推理;Projects 功能可将相关对话组织至独立文件夹;并联合 Black Forest Labs 推出 Le Chat 内的高级图像编辑功能。用户现在可在 chat.mistral.ai 或移动应用中免费试用这些新功能。
SGLang 推理框架现已支持多 Token 预测(MTP)技术,并与大规模专家并行(EP)、预填充-解码分离(PD Disaggregation)等特性无缝集成。该技术通过轻量级草稿模型预测多个未来 Token,再由完整目标模型并行验证,在保持生成质量不变的前提下,可将 DeepSeek V3 等模型的输出吞吐量提升高达 60%。在 16 张 H200 GPU 的小规模部署场景中,该方案显著优化了长序列推理效率,为生产环境提供即插即用的性能增益。
Anthropic可解释性团队分享了2025年7月的研究进展。第一部分用“特征”语言重构Transformer数学框架,将注意力头的OV和QK电路描述为特征及其变换(如检测属性X、前一标记X、触发输出X的特征),并解释了先前用特征值分析复制头和归纳头行为的合理性。第二部分概述了稀疏自编码器在生物AI系统(如蛋白质语言模型ESM-2)可解释性中的应用进展,强调此类研究对确保药物发现等应用的安全与有效性至关重要。
Kimi K2 采用混合专家(MoE)架构,拥有 320 亿激活参数和 1 万亿总参数,在非推理模型的前沿知识、数学和编程任务上达到 SOTA 性能。
关联讨论 1 条Moonshot AI:Kimi BlogOpenRouter 发布免费套餐更新,通过引入新模型来维持可持续的 AI 推理服务,旨在继续为广大用户提供可访问的 AI 能力。
关联讨论 1 条X:OpenRouter (@OpenRouter)xAI 正式发布 Grok 4,新一代大模型在数学推理和代码生成能力上大幅提升,延续实时获取 X 平台信息的特色。该版本支持更长上下文窗口和图像理解,即日起向 X Premium+ 订阅者开放。
关联讨论 1 条xAI:News(网页)SGLang团队在GB200 NVL72集群部署DeepSeek 671B模型,采用预填充-解码分离(PD)与大规模专家并行(EP)架构,结合Blackwell专用优化组件(DeepGEMM、DeepEP等),实现单GPU解码吞吐7,583 tokens/秒。在2,000 token输入下,性能较H100提升2.7倍,整体加速比达2.5-3.4倍。系统利用NVLink全互联降低通信延迟,依托更大显存支持高批次处理,显著提升MoE模型推理效率。
Anthropic可解释性团队在Crosscoder模型差异分析中发现,模型独占特征往往多义性高、激活密集,难以解释。实验表明,这是由于有限特征容量下的竞争:共享特征能同时解释两个模型的激活模式,而独占特征需编码更多信息以证明其存在。团队提出缓解策略,即引入少量指定共享特征并降低其稀疏性惩罚,使独占特征变得更可解释和单义。该方法应用于真实模型时,成功分离出能捕捉模型间行为差异的可解释特征。此外,观察到独占特征激活频率比共享特征高一个数量级,且两模型独占特征数量相近。
Anthropic可解释性团队报告了注意力机制的最新研究进展。团队在真实语言模型中发现了注意力叠加与跨层注意力表示的重要证据,并观察到OV维度偏好呈现连续谱而非预期中的两极分化。研究进一步表明QK条件与OV条件相互耦合,并提出了以多令牌转码器为形式的实用研究方法。目前核心未解问题是理解注意力模式的形成机制,团队提出通过QK对角化这一前景明确的路径进行探索。文中还详细阐述了包括“注意力替换层”在内的多种实验方法,以及初步结果与当前局限,为后续研究提供了方向。
稀疏混合线性变换(MOLT)是一种正在开发的新方法,旨在替代Transformer模型中的MLP层,以解决此前“转码器”方法在计算效率和表示忠实性上的局限。与转码器学习稀疏激活的特征向量不同,MOLT学习稀疏激活的线性变换,这些变换直接对残差流进行线性操作以贡献输出,充当纯粹的计算单元。初步实验表明,MOLT比转码器计算效率更高、机制更忠实,其激活条件具有可解释性,有助于理解层间特征的转换过程。该方法与混合解码器架构相关,但采用了低秩矩阵等不同参数化策略。
本文探讨神经网络中“干扰权重”与“权重叠加”现象,认为这是从特定示例归因分析转向全局电路分析的核心障碍。研究通过在玩具模型中的初步探索得出三点发现:干扰权重可在修改解释的玩具模型中复现,其表现与真实模型相似,分析时通常需滤除;其定义多样,既有原则性定义也有实用启发式方法,可在玩具模型中比较,并有望将计算成本高的原则性定义应用于真实模型少量权重以校准启发式方法;仍需大量玩具模型研究以深入理解。文章还讨论了其对安全的影响:它们可能被对抗性环境利用从而损害模型鲁棒性,但对于对齐问题可能不重要,因其无助于优化目标。
本文通过“绝对值”玩具模型,揭示了稀疏自动编码器(SAE)和转码器在解释神经网络时可能存在的“机制非忠实性”问题。核心在于,即使转码器能很好地近似模型的输入-输出映射,它也可能采用与原始模型完全不同的内部计算机制。作者特别指出,当训练数据中存在重复数据点时,转码器可能形成专门“记忆”该点的特征电路,而原模型并无此机制。这种机制背离可能导致模型在分布外数据上泛化行为出现差异,从而威胁机械可解释性研究的可信度。文章最后简要讨论了“雅可比匹配”等潜在缓解方法。
本研究探讨了Claude 3.5 Haiku等语言模型如何从纯文本中学习类似生物感知的空间推理能力,以完成固定宽度文本的自动换行任务。模型通过两种对偶机制表征位置信息:离散特征激活与特征流形上的几何变换。具体而言,它通过追踪当前行字符数、行宽限制等变量,整合信息以估算剩余空间,从而决定是否换行。研究发现,这些计数表征存在于残差流的低维高曲率一维流形上,其计算过程既可解读为离散电路,也可视为连续的几何变换。
研究通过“概念注入”技术直接操控模型内部激活状态,以检验大语言模型是否具备真正的内省能力。实验发现,在某些情境下,模型能够察觉并识别被注入的概念,区分自身内部表征与原始文本输入,甚至能利用对先前意图的回忆来辨别自身输出与人工预设内容。其中,Claude Opus系列模型展现出最强的自省意识,但这种能力不稳定且高度依赖情境。研究表明,当前模型已具备某种对其内部状态的功能性感知,尽管仍不可靠,但可能随模型能力提升而发展。