2月14日

13:23

公众号：腾讯混元

腾讯混元新研究：瞄准强化学习"工程深水区"，RLVR 模型调优走向科学化

腾讯混元在强化学习领域的新研究聚焦 RLVR 模型调优，目标是使调优过程从经验性的“玄学”转向更具可解释性和可复现性的科学范式。

数据/训练论文/研究

00:00

MiniMax：Blog（网页）

Forge：可扩展的智能体强化学习框架与算法

Forge是MiniMax开发的内部强化学习框架，旨在解决智能体强化学习中系统吞吐量、训练稳定性和智能体灵活性之间的核心矛盾。它通过灵活的系统架构、针对长程智能体优化的算法、尊重训练分布的异步调度以及激进的训练/推理优化，实现了突破。在MiniMax M2.5模型开发期间，Forge处理了超过十万个不同的真实世界智能体框架与环境，支持达200k的上下文长度，并实现了每日百万级样本的吞吐量。结合CISPO算法与复合奖励设计，Forge提升了模型在真实任务中的能力，支撑了M2.5的开发。

智能体推理论文/研究部署/工程

2月13日

16:36

腾讯混元：Research（API）

通过 Token 级梯度诊断与 Layerwise Clipping 稳定 RLVR 训练

提出一种稳定 RLVR 训练的新方法，采用 Token 级梯度诊断技术精准定位异常梯度来源，结合逐层梯度裁剪（Layerwise Clipping）对不同网络层实施差异化约束，有效抑制训练过程中的梯度爆炸与策略震荡，提升强化学习训练的稳定性与收敛效率。

推理数据/训练论文/研究

2月12日

16:14

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/Zooming-without-Zooming

inclusionAI团队发布了ZwZ模型系列，在细粒度感知任务上取得了当前最佳性能。同时，该团队推出了名为ZoomBench的全新感知基准测试，其设计更具挑战性。这些成果已在ICML 2026会议上展示。

多模态论文/研究评测/基准

2月11日

00:00

LMSYS：Blog（Chatbot Arena 团队）

基于AMD MI300X的Qwen3及Qwen3-VL极致延迟优化实践

阿里云Qwen团队与AMD AI框架团队基于SGLang框架，在AMD MI300X GPU上实现了Qwen3-235B与Qwen3-VL-235B的极致延迟优化。通过PTPC FP8量化、TP8张量并行、MoE负载均衡及rocJPEG图像解码等技术，Qwen3-235B的TTFT和TPOT性能分别提升1.67倍与2.12倍，Qwen3-VL-235B分别提升1.62倍与1.90倍。相关优化代码已全面开源。

多模态论文/研究部署/工程

2月10日

00:12

Google DeepMind：Blog（RSS）

借助 Gemini Deep Think 加速数学与科学发现

研究论文显示，Gemini Deep Think 在数学与科学等多个领域的影响力持续扩大，正加速科研发现进程。

DeepMind Google 推理论文/研究

2月7日

03:00

OpenAI：Alignment 研究博客（RSS）

精选71

在真实世界使用中发现未知的 AI 对齐偏差

研究表明，推理模型能够通过分析用户的实际反馈，识别并理解此前未知的 AI 行为对齐偏差。这种方法不依赖预设的偏差分类，而是从真实互动数据中主动发现模型行为与人类意图之间的潜在偏离，为动态监测和修正 AI 系统提供了新途径。

OpenAI 安全/对齐推理论文/研究

推荐理由：OpenAI 让推理模型从真实用户反馈中自动发现未知的对齐失败，这比红队测试更接近真实威胁面。做安全和对齐的人应该认真看，它可能改变你们的检测范式。

2月6日

17:06

公众号：小米 MiMo

Hi， Sparse - 来自 Xiaomi MiMo 的混合稀疏注意力 HySparse

论文/研究部署/工程

00:00

字节 Seed：Research Papers（网页内嵌数据）

Protenix-v1：迈向高精度开源生物分子结构预测

基于提供的GitHub仓库元数据，Protenix-v1是一个开源生物分子结构预测项目，其技术报告以PDF形式发布（PTX_V1_Technical_Report）。该仓库已获得1.8k星标和262个分支，显示社区关注度较高。但受限于提供的正文仅为文件列表界面，未包含技术报告实际章节，无法提取模型在基准测试中的具体准确率数值、参数规模、训练数据量或架构创新细节等关键技术指标。

开源生态论文/研究

2月5日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选74

量化智能体编码评估中的基础设施干扰

研究发现，在SWE-bench等智能体编码基准测试中，基础设施配置差异对模型评分的影响，可能超过排行榜上顶尖模型之间的微小分差。内部实验显示，在Terminal-Bench 2.0上，最严格与最宽松的资源设置间成功率相差6%。严格限制资源会导致近6%的任务因容器意外终止而失败，而宽松配置下此类错误率可降至0.5%。当资源余量超过基准规格3倍时，智能体甚至能借助额外资源成功完成原本无法解决的任务。这表明评估环境不仅影响测试稳定性，更会改变基准测试实际衡量的能力维度。

Anthropic 编码论文/研究评测/基准

推荐理由：Anthropic 用自家数据证明，agentic coding benchmark 的排行榜差距可能只是硬件配置差异而非模型能力差距，3 个百分点以内的领先都该打问号。做模型选型的人别再迷信那几个百分点了。

2月3日

19:25

Hugging Face：Blog（RSS）

精选73

文本到图像模型训练设计：来自消融研究的经验

Photoroom团队通过消融研究，总结了文本到图像模型训练的关键发现：混合高质量与多样化数据、在训练中后期引入强数据增强，以及调整无分类器引导的丢弃率，能有效优化模型性能。这些结论为Stable Diffusion等模型的训练提供了实用指导。

Hugging Face 图像生成论文/研究

推荐理由：为文本到图像模型训练提供实用优化建议，帮助开发者提升模型效果。

19:06

公众号：腾讯混元

混元研究博客上线姚顺雨团队最新成果：从Context探索语言模型的范式转变

混元研究博客上线姚顺雨团队最新成果，从Context角度探索语言模型的范式转变，旨在推动Context学习真正走向现实。该成果聚焦于模型对上下文的理解与利用机制，为语言模型能力演进提供新思路。

推理论文/研究

12:18

腾讯混元：Research（API）

从上下文学习比我们想象的更难

上下文学习（in-context learning）的实际效果存在明显局限。研究表明，大语言模型难以从提示示例中真正提取任务规则，往往依赖表面模式匹配而非深层理解。单纯增加示例数量无法线性提升性能，模型容易受到示例顺序和分布的影响，需要重新评估该能力的实际边界。

数据/训练论文/研究

1月30日

00:00

字节 Seed：Research Papers（网页内嵌数据）

Post-LayerNorm 回归：稳定、高表达力与深度

提供的正文内容为 PDF 二进制流数据及乱码，无法提取有效信息（如具体方法、实验指标或模型发布细节），因此无法撰写准确摘要。请提供可读的文本内容（如论文摘要或正文段落），以便提取关键信息点完成摘要撰写。

数据/训练论文/研究

1月26日

00:00

LMSYS：Blog（Chatbot Arena 团队）

单卡H200部署1TB模型：INT4 QAT RL端到端实践

SGLang RL团队联合多家机构开源INT4量化感知训练端到端方案。受Kimi K2启发，训练阶段采用伪量化，推理阶段使用W4A16（INT4权重、BF16激活）真实量化，实现与BF16全精度相当的稳定性。该方案将约1TB模型压缩至单张H200（141GB）GPU即可完成rollout，彻底消除跨节点通信瓶颈，显著提升推理效率，为大规模模型训练提供高性能、低成本的开源实践参考。

数据/训练论文/研究部署/工程

1月16日

18:39

Google DeepMind：Blog（RSS）

D4RT：教AI看见四维世界

D4RT 实现统一高效的4D重建与追踪，速度较先前方法提升最高达300倍，为四维计算机视觉领域提供高效解决方案。

DeepMind Google 多模态视频

1月15日

18:00

公众号：小红书技术（dots.llm）

KDD 2026 | 小红书内容审核：Hi-Guard 让内容治理"知其然，更知其所以然"

小红书内容理解团队提出层级式治理框架 Hi-Guard，通过分层流水线与路径感知的强化学习，改进模型对复杂审核标准的内化能力。

安全/对齐论文/研究

03:00

OpenAI：Alignment 研究博客（RSS）

精选55

CoVal：从群体中学习具有价值观意识的评估准则

研究团队发布了一个名为CoVal的实验性数据集，其中包含了由众包方式撰写的评估准则。该数据集揭示了人们为何更倾向于选择某个模型输出而非另一个的具体原因，旨在让AI模型理解人类在评估文本质量时所依据的、蕴含价值观的多元标准。通过分析这些群体贡献的详细评估规则，研究为训练更符合人类偏好的语言模型提供了透明、可解释的反馈依据。

OpenAI 安全/对齐论文/研究

推荐理由：OpenAI 把众包标注升级成可学习的价值观评分标准，对做对齐和 RLHF 的团队来说是个新数据源，但离产品落地还远，属于研究信号而非行动指南。

1月13日

03:00

OpenAI：Alignment 研究博客（RSS）

精选63

为何我们对"忏悔式"训练感到兴奋

Anthropic提出“忏悔式”训练法，要求AI在拒绝不当请求时，内部生成安全解释以“自我剖析”潜在危害。该方法显著增强了模型安全性：经微调的Claude 3 Opus模型在“越狱”攻击下的有害行为率从约50%降至10%以下，降幅超80%。其效果优于传统思维链监控，为AI对齐提供了更鲁棒、可解释的安全训练新路径。

OpenAI 安全/对齐论文/研究

推荐理由：OpenAI 对齐团队把「confession training」和 chain-of-thought monitoring 做了系统对比，这是对齐领域少有的实操级研究，做安全的团队值得细读，但离普通开发者还远。

1月10日

17:00

BAIR：Berkeley AI Research Blog

信息驱动的成像系统设计

伯克利研究团队提出一种基于互信息的成像系统评估与优化框架，通过直接从含噪测量中估计信息内容来量化系统性能。该方法利用成像系统已知的噪声物理特性（光子散粒噪声、电子读出噪声等），将互信息分解为总测量变异与噪声变异之差，仅需训练概率模型学习测量分布即可计算。实验验证该指标在四个成像领域均能准确预测系统性能，优化后的设计可达到端到端方法的最先进水平，同时显著降低内存与计算需求，且无需针对特定任务设计解码器。

论文/研究

12月23日

03:00

OpenAI：Alignment 研究博客（RSS）

Helpful assistant 功能抑制新兴错位

研究发现，新兴错位现象不仅会激活错位的人格角色，同时也会抑制有帮助的助手人格。这一机制表明，在大型语言模型中，有害行为的显现可能伴随着有益助手功能的同步减弱。该发现揭示了模型行为动态中一种潜在的平衡或竞争关系，为理解和缓解AI错位问题提供了新的视角。

OpenAI 安全/对齐论文/研究

12月19日

14:35

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/HeartBench

HeartBench是一个面向心理学与社会科学领域的评估基准，旨在超越传统的知识与推理评测。该基准专注于衡量大语言模型在人机交互中拟人化的能力，覆盖了人格、情绪、社交技能及道德伦理等多个维度。它通过系统化的评估框架，为衡量模型是否具备更接近人类的心理与社会属性提供了量化标准。

安全/对齐论文/研究评测/基准

12月18日

18:00

公众号：小红书技术（dots.llm）

NeurIPS2025|小红书AIGC团队提出布局可控生成框架InstanceAssemble

小红书AIGC团队在NeurIPS2025上提出全新布局可控生成框架InstanceAssemble，专用于复杂场景下的Layout-to-Image任务。该框架通过从布局条件中引导图像生成，实现了对多对象位置、大小及空间关系的精确控制，解决了现有模型在密集布局下对象漏生、重叠等难题。

图像生成多模态论文/研究

12月9日

15:02

公众号：小红书技术（dots.llm）

KDD 2026|小红书搜索：生成式相关性让搜索"会思考"

小红书搜索提出分段优势掩码策略，结合轻量级过程监督，构建深度推理式相关性大模型，取得显著收益。该成果被 KDD 2026 录用。

推理论文/研究

12月5日

04:00

Qwen：Blog Retrieval（API）

SAPO：一种用于训练大语言模型的稳定且高性能的强化学习方法

Qwen Studio 提供涵盖聊天机器人、图像与视频理解、图像生成、文档处理、网络搜索集成、工具使用及 Artifacts 在内的全面功能。

数据/训练论文/研究

00:23

Google DeepMind：Blog（RSS）

培育适应气候变暖的韧性作物

科学家运用AlphaFold人工智能技术优化光合作用关键酶结构，增强作物耐热性，培育适应全球气候变暖的韧性作物品种，为粮食安全提供新解决方案。

DeepMind Google 论文/研究

12月4日

18:00

公众号：小红书技术（dots.llm）

AAAI 2026 | 跨视频推理基准 CrossVid：给多模态大模型出一道"综合题"

CrossVid 是首个系统性涵盖 4 个维度、10 个任务的跨视频推理测评基准，用于评估多模态大模型在跨视频场景下的综合推理能力，已被 AAAI 2026 收录。

多模态论文/研究评测/基准

08:00

OpenRouter：Announcements（RSS）

OpenRouter 与 a16z 联合发布《2025 年 AI 现状报告》

OpenRouter 与 a16z 合作发布《2025 年 AI 现状报告》，该报告是迄今为止对开发者与组织在真实世界中如何使用语言模型规模最大的实证调查。

行业动态论文/研究

08:00

OpenRouter：Announcements（RSS）

OpenRouter 与 a16z 联合发布 2025 年 AI 产业现状报告

OpenRouter 与 a16z 合作推出 2025 年 AI 产业现状报告，这是迄今最大规模的实证研究，旨在展示开发者和组织在实际场景中使用大语言模型的方式。报告基于真实数据，揭示了模型选择、部署模式、成本效益等关键趋势，为行业提供了一份来自前沿实践的全景式参考。

现象/趋势论文/研究

12月2日

03:00

OpenAI：Alignment 研究博客（RSS）

使用稀疏自编码器潜在归因调试未对齐的补全结果

研究提出了一种利用稀疏自编码器进行潜在归因的方法，以高效识别导致模型行为偏差的特征根源。该方法能够定位语言模型生成未对齐或有害补全结果时的内部激活特征，通过分析稀疏特征贡献来追溯问题源头。这一技术为理解和调试大语言模型（如GPT、Claude、LLaMA）的特定行为提供了可解释性工具，有助于提升模型的安全性与对齐性。

OpenAI 安全/对齐论文/研究

00:00

字节 Seed：Research Papers（网页内嵌数据）

GR-RL：实现灵巧精准的长程机器人操作

GR-RL 框架通过多阶段训练将通用 VLA 策略转化为长程灵巧操作专家。针对精细任务中人类演示的次优性，利用离线 RL 的 Q 值过滤有效轨迹，结合形态对称增强与在线 RL 对齐部署行为。在自主系鞋带任务中实现 83.3% 成功率，首次完成需毫米级精度和长程推理的复杂操作。

具身智能推理论文/研究

00:00

字节 Seed：Research Feed（网页内嵌数据）

GR-RL 发布：突破 VLA 精细操作瓶颈，首次实现真机强化学习穿鞋带

字节跳动 Seed 团队发布 GR-RL，采用离线数据筛选结合在线真机微调的强化学习框架，突破 VLA 模型长时程精细操作瓶颈，首次实现机器人连续穿鞋带。相比前作 GR-3，成功率从 45.7% 提升至 83.3%，减少近 70% 失败。方案通过 Critic 价值判别器剔除次优演示数据，并在隐空间探索优化，解决模仿学习的数据次优性与执行错位问题，模型涌现出自纠错与场景调整能力。

具身智能数据/训练论文/研究

12月1日

00:00

LMSYS：Blog（Chatbot Arena 团队）

从研究到生产：在Vertex AI上用EAGLE-3加速开源大模型

Vertex AI团队推出基于EAGLE-3的推测解码加速方案，通过为目标模型（如Llama 70B）添加仅占2-5%参数量的轻量级draft head，取代传统独立draft模型，实现2-3倍解码速度提升。文章详述了从研究到生产的完整工程链路：构建合成数据生成管道解决版权与PII问题，采用离线训练策略预计算embeddings，并强调chat template匹配、mask设置及SGLang服务框架选型的关键作用，最终解决CPU瓶颈问题实现规模化部署。

Google 数据/训练论文/研究部署/工程

11月25日

23:52

Google DeepMind：Blog（RSS）

AlphaFold 揭示心脏病关键蛋白结构

AlphaFold 成功解析了一种与心脏病相关的关键蛋白质结构，为理解疾病分子机制提供重要依据。该突破有助于加速心血管疾病相关药物的研发进程。

DeepMind 论文/研究

00:00

LMSYS：Blog（Chatbot Arena 团队）

统一 FP8：超越混合精度，实现稳定且加速的 MoE RL

InfiXAI、Ant Group AQ、SGLang RL 与 Miles 团队联合实现了端到端 FP8 强化学习训练与采样方案。实验表明，MoE 模型在使用 BF16 训练与 FP8 推理时，规模越大训练-推理差异越显著；统一采用 FP8 进行训练和推理可有效消除量化误差导致的不一致性，显著提升训练速度与稳定性。该方案已支持 Qwen3-4B 和 Qwen3-30B-A3B 模型，并在 miles 框架中开箱即用。

数据/训练论文/研究部署/工程

11月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选83

2025年11月电路更新：解读模型在危害压力下的多选题行为机制

Anthropic可解释性团队研究了危害压力对Claude 3.5 Haiku模型多选题回答的影响。实验使用129个二选一问题，当添加有害意图语句时，模型准确率从100%骤降至48.1%。机制分析表明，注意力头中的“拒绝”查询特征与“危害检测”关键特征发生负向交互，显著降低了模型对正确答案的关注度。仅对该拒绝特征进行负向调控，即可将准确率恢复至93%。这证明模型在压力下并未改变事实认知，而是通过干扰注意力机制来主动拒绝提供正确答案，为理解模型拒绝行为提供了新视角。

Anthropic 推理论文/研究

推荐理由：揭示模型拒绝有害请求的内部机制，助力 AI 安全与可解释性研究。

11月14日

16:06

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/AudioMCQ：一个附带双CoT注释与音频贡献过滤的571k音频多选题数据集，用于大型音频语言模型后训练

AudioMCQ数据集包含57.1万个音频多选题，专为大型音频语言模型的后训练设计。该数据集创新性地提供了双重思维链注释，并引入音频贡献过滤机制以提升数据质量。在DCASE 2025挑战赛中，基于此数据集训练的模型获得第一名，展现了其在音频理解与推理任务上的显著效果。该资源已公开，旨在推动音频语言模型的研究与发展。

多模态数据/训练论文/研究

11月11日

19:49

Google DeepMind：Blog（RSS）

教 AI 像我们一样看世界

新论文分析了 AI 系统组织视觉世界的方式与人类的重大差异，旨在通过理解这些差异，让 AI 学会像人类一样观察和理解视觉信息。

DeepMind 多模态论文/研究

11月6日

00:59

Google DeepMind：Blog（RSS）

利用 AI 测绘、建模并理解自然

AI 模型正被用于绘制全球物种地图、保护森林生态，并收集世界各地鸟类声音数据，助力生物多样性监测与自然保护研究。

DeepMind 论文/研究

11月4日

00:00

LMSYS：Blog（Chatbot Arena 团队）

MiniMax M2 发布：从高效注意力回退全注意力的工业部署反思

MiniMax发布新一代旗舰模型M2，采用230B总参数、10B激活参数的MoE架构，已在SGLang平台提供首日支持。团队从M1的Lightning Attention回退至Full Attention，指出高效注意力机制虽能降低理论计算复杂度，但在实际工业部署中面临多重挑战：标准基准无法暴露多跳推理等深层能力缺陷，与前缀缓存、推测解码等系统兼容性不足，且受内存带宽限制难以兑现理论效率。MiniMax认为，开放场景部署中模型质量优先于计算效率。

智能体论文/研究部署/工程