5月27日

07:21

karminski-牙医@karminski3

微软联合上海交通大学等机构发布SkillOpt框架，旨在通过机器学习流程系统性地优化AI智能体的技能。该框架引入独立的优化器模型，通过harness闭环流程对技能进行编辑，且每次编辑必须在验证集上带来分数提升才被接受。框架设置了每步4到8个编辑操作的学习率预算，使核心修改控制在1到4个。实验表明，优化后的技能可使GPT-5.5的对话准确率提升23.5分。

智能体 arXiv Microsoft 数据/训练

04:50

Epoch AI@EpochAIResearch

推理数据/训练现象/趋势

02:20

Epoch AI@EpochAIResearch

请花5分钟参与我们的调研，帮助我们产出最有用的AI工作：https://docs.google.com/forms/d/e/1FAIpQLSfzw_ad497AhTPNS5sQaCjBwqChjvM96RiiKXZqKTTS4ko53g/viewform （您可以在最后注册加入我们的有偿用户研究小组。）

其他数据/训练

5月26日

23:59

Ant Ling@AntLingAGI

团队发布了KPop技术，用于稳定大规模MoE模型的强化学习训练。它取代了此前IcePop方法的固定比例掩码，改用自适应二元KL散度区域来匹配每个token的固有噪声，从而实现更鲁棒的参数更新，支持长期、智能体化的强化学习训练。具体应用中，万亿参数的Ring-2.6-1T模型在仅使用纯强化学习训练（未修改基础设施或路由重放）的情况下，于SWE-bench Verified评测中得分超过76。KPop仅通过一个关键参数即可实现该优化。

Jia Guo: Curious about the secret sauce behind our trillion-scale agentic foundation model? Here it comes!🥳 Last year, we releas...

智能体数据/训练论文/研究

关联讨论 4 条

23:31

Chubby♨️@kimmonismus

Google 正在赢得 AI 分发竞赛，而非 AI 竞赛本身

文章的核心论点是 Google 凭借其分发优势，在 AI 分发竞赛中占据了有利位置。目前 Gemini 拥有 9 亿用户，这主要归功于向 Android 用户进行的默认应用替换，以及向 Google 搜索用户推送的 AI 概览。其大语言模型 token 用量在 12 个月内从 480 万亿增长至 3.2 千万亿。为支撑此规模，Google 计划今年投入 1900 亿美元用于基础设施。Google 的关键优势在于能够利用庞大的 Android 设备基础，通过其搜索和 AI 模式免费向用户推广 Gemini。这一策略的部分成本优势源于自研的 TPU 芯片，使其在推理和训练上更独立，并能基于自身盈利补贴免费 AI 服务。尽管游戏远未结束，但 Google 的开局位置非常出色。

Google 大佬观点搜索数据/训练

23:29

Ant Ling@AntLingAGI

同事件精选68

团队推出 KPop，用于稳定大规模 MoE 模型的智能体强化学习训练。它用基于二元 KL 散度的自适应掩码机制，替代了此前 IcePop 方法中的固定比例掩码，能根据训练过程中的训练-推理不匹配程度动态调整。这一改进使得 Ring-2.6-1T 模型在无需修改基础设施或路由重放的情况下，仅通过纯 RL 训练，在 SWE-bench Verified 上取得了超过 76 分的成绩。

Jia Guo: Curious about the secret sauce behind our trillion-scale agentic foundation model? Here it comes!🥳 Last year, we releas...

智能体数据/训练编码论文/研究

同一事件，精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》

推荐理由：蚂蚁团队把 IcePop 升级成 KPop，从固定掩码变成自适应 KL 区域，思路很巧。Ring-2.6-1T 纯 RL 直接冲到 SWE-bench 76+，做 agentic RL 训练的同学值得翻一下博客。

23:29

SenseTime@SenseTime_AI

同事件精选77

开源多模态模型SenseNova-U1完整训练代码库

商汤开源了SenseNova-U1（8B dense + A3B MoE）的完整训练代码库。这是一个统一的框架，支持文本到图像、图像编辑、交错生成、文本与视觉理解等多种多模态任务的训练。其设计注重实用性与大规模训练，采用混合并行、流式可恢复数据管道、环境变量配置、解耦模块化设计，并支持从1×8 GPU扩展到多节点集群的规模。代码库以Apache-2.0协议开源。

多模态开源/仓库开源生态数据/训练

同一事件，精选展示《商汤发布信息图生成模型升级，增强多项核心能力》

推荐理由：商汤把 SenseNova-U1 的训练代码全量开源，支持多模态任务和 MoE，还给了完整的并行策略，做多模态训练的可以直接 fork 过去用，Apache-2.0 很友好。

22:28

Ant Ling@AntLingAGI

SwiGLU在现代大语言模型中无处不在--但对于大输入，它的行为类似于x2。这种二次增长会膨胀激活值，放大异常值，并使深层网络或低精度（FP8/FP4）训练容易出现损失尖峰。我们提出了PowLU，一种为稳定大规模预训练而设计的即插即用激活函数。🧵

推理数据/训练论文/研究

20:59

向阳乔木@vista8

Codex分析揭示X平台内容规律

用户让Codex分析自己过去3年在X上的约3.4G发帖数据，总结出几点规律：最爆内容为编程/产品/创业、资源推荐合集、学习方法论类；爆款公式是“真实工具+明确场景+三步内路径”；发帖时间上，周五至周日、及每日三个时段（下午5-11点、上午10-下午1点、凌晨0-2点）数据更好，周一最差；内容形式上，带媒体和链接、篇幅在101-180字的表现更优。

向阳乔木: 有朋友问:什么样的内容在 X 上受欢迎,如何做 X 的运营增长? 我先让 Codex 把自己三年的 X 数据分析一遍,看有什么发现。

教程/实践数据/训练