全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「数据/训练」清除

5月29日周五

11:42ginobefun38PostHog 真的很适合独立开发者

11:35公众号：面壁智能（MiniCPM）61精选面壁智能联合清华、OpenBMB开源最大中文预训练合成数据集及千万级SFT数据集，公开MiniCPM5-1B核心数据

11:34Berryxia.AI59文本频率定律的发现与验证

11:29HuggingFace Daily Papers（社区热门论文）63神经物体运动学：NeuROK

11:29HuggingFace Daily Papers（社区热门论文）65大模型为何能学会更多：容量、干扰与罕见任务保持效应

10:29HuggingFace Daily Papers（社区热门论文）57LaRA：基于逐层表征分析的强化学习后训练数据污染检测

10:29HuggingFace Daily Papers（社区热门论文）65LoRA 如何记忆？大语言模型微调中的参数记忆定律

10:29HuggingFace Daily Papers（社区热门论文）59LiteCoder-Terminal：构建用于训练语言智能体的可扩展长周期终端环境

09:39公众号：蚂蚁百灵（Ling）52蚂蚁百灵团队提出 PowLU 激活函数，解决低精度训练中 SwiGLU 的异常值问题

09:21IT之家（RSS）71精选三星电子业内率先出样 HBM4E 内存

09:12Ethan Mollick50用Claude Code可视化人类历史人口分布

08:38swyx45免费清洁换数据：AI机器人训练新模式

08:21IT之家（RSS）66苹果 iOS 27 爆料：用 Gemini 训练本地 AI，部分 Siri 请求转向谷歌云

08:00HuggingFace Daily Papers（社区热门论文）43AgentOdyssey：用于测试时持续学习智能体的开放式长周期文本游戏生成

08:00HuggingFace Daily Papers（社区热门论文）49蒸馏LLM反馈用于Lean定理证明

08:00HuggingFace Daily Papers（社区热门论文）46MechVQA：全面机械图纸理解的多模态大语言模型基准与增强

08:00HuggingFace Daily Papers（社区热门论文）53组合式合成：通过原子分解与重组扩展代码 RLVR 训练规模

08:00HuggingFace Daily Papers（社区热门论文）52DOMINO：通过最小充分表示学习实现大语言模型领域数据合成

08:00HuggingFace Daily Papers（社区热门论文）57MIRA：基于自锚定评分发现的源感知数据选择

08:00HuggingFace Daily Papers（社区热门论文）60大规模多语言平行数据的模型化质量评估

08:00HuggingFace Daily Papers（社区热门论文）55SOCO：视觉基础模型中的语义物体对应基准测试

08:00HuggingFace Daily Papers（社区热门论文）64DRIFT：解耦式采样与重要性加权微调实现高效多轮优化

08:00HuggingFace Daily Papers（社区热门论文）63基于人类反馈的强化学习的另一面：奖励模型自监督改进的策略内反馈

08:00HuggingFace Daily Papers（社区热门论文）66SCOPE：通过共同演化策略实现开放式任务的自我对弈

08:00HuggingFace Daily Papers（社区热门论文）59Count Anything

08:00HuggingFace Daily Papers（社区热门论文）51LongTraceRL：基于搜索智能体轨迹与评分奖励的长上下文推理学习

06:14Rohan Paul60学术论文现14.7万次虚假引用，AI生成问题激增

05:48Ars Technica：AI（RSS）70精选LLMs相信虚假陈述，即使明确警告也无效

04:36Epoch AI40Epoch AI网站长文内容新增旁白功能

04:21IT之家（RSS）66戴尔 2027 财年第一财季归母净利润 34.38 亿美元，同比增长 256%

03:36Epoch AI68超大规模厂商资本支出持续增长，预计今年达7700亿美元

02:44Rohan Paul81精选hexoai开源SIA框架：AI智能体实现递归自我改进

5月28日周四

23:43AK48ProRL：基于修正策略梯度的主动强化学习推荐

23:41Google Developers Blog（RSS）64精选社区如何利用Tunix和TPU训练Gemma学会"思考"

21:11Cloudflare Blog41我们如何构建Cloudflare的数据平台及其上的AI智能体

19:11Rohan Paul71Diffusion Transformers训练提速8.75倍：革新残差连接机制

14:28HuggingFace Daily Papers（社区热门论文）71精选DenoiseRL：通过恢复嘈杂前缀来引导推理模型

13:28HuggingFace Daily Papers（社区热门论文）57ProRL：基于修正策略梯度估计的主动推荐强化学习框架

13:28HuggingFace Daily Papers（社区热门论文）65PEFT-Arena：从稳定性-可塑性视角理解参数高效微调

12:36Ethan Mollick55AI写作叙事特征研究揭示风格差异

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月29日

11:42

ginobefun@hongming731

38

PostHog 真的很适合独立开发者

PostHog 被认为很适合独立开发者。以 BestBlogs Pro 早报的 A/B 实验为例，它帮助串联了从埋点到分析的完整实验链路。结果表明，high_engagement 组在查看率、点击率、停留时长和 Top 3 点击占比等指标上均优于对照组。该工具不仅能显示优胜组，还能分析实验差异与样本偏差并提供下一步建议，其快速反馈对独自做产品的人很重要。

教程/实践数据/训练

11:35

公众号：面壁智能（MiniCPM）

精选61

面壁智能联合清华、OpenBMB开源最大中文预训练合成数据集及千万级SFT数据集，公开MiniCPM5-1B核心数据

面壁智能联合清华大学、OpenBMB发布并开源两大数据集：Ultra-FineWeb-L3（超600B Tokens，中文200B+，为当前最大中文预训练合成数据集）和UltraData-SFT-2605（国内首个千万级同时含深思考与非思考标注的SFT数据集）。两者基于UltraData数据分级治理体系构建，在MiniCPM5-1B训练流程中得到完全验证，覆盖预训练退火到后训练SFT全链路。已上线UltraData网站与HuggingFace，免费开放。

Hugging Face 开源/仓库数据/训练端侧

关联讨论 1 条X：面壁智能 OpenBMB (@OpenBMB)

推荐理由：填补了中文大规模合成数据空白，三年前还在用英文数据做中文模型的日子可以翻篇了，做端侧模型的可以直接拿这份数据跑一版 MiniCPM5-1B 级别的效果。

11:34

Berryxia.AI@berryxia

59

文本频率定律的发现与验证

脸谱心智（FaceMind）的研究发现，在保持语义不变的前提下，使用大模型预训练语料中出现频率更高的表达方式，能显著提升模型表现。该规律被命名为Adam’s Law（文本频率定律）。核心实验显示：在数学推理任务中，仅换用高频表述可使准确率平均提升；在机器翻译任务中，使用DeepSeek-V3测试100种语言到英语的翻译，绝大多数语言对在BLEU指标上获得提升。该研究指出现有数据工程忽视了“文本频率”这一维度。Anthropic的Claude Opus 4.7使用新分词器，被业界视为对低频token退化问题的间接验证。

Anthropic DeepSeek 数据/训练论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

63

神经物体运动学：NeuROK

当前数据驱动方法在静态3D物体重建上表现突出，但生成符合物理规律的4D动态形变仍具挑战，现有方法多依赖预定义物理模型与参数估计，局限于特定类别。该研究提出NeuROK，通过学习一个表征物体所有可能状态的潜空间及一个将潜空间采样映射为合理形变形状的解码器，实现了数据驱动的运动状态参数化。其在大规模4D数据集上训练了基于Transformer的编码器-解码器模型，将动态生成简化为低维潜空间中的操作，从而能更高效地生成多类物体的逼真动态。

多模态数据/训练论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

65

大模型为何能学会更多：容量、干扰与罕见任务保持效应

本研究探讨了更大模型能学习小模型无法掌握任务的原因。通过合成数据实验发现，小模型因神经元资源有限，倾向于将其分配给高频或低复杂度任务，导致其在罕见复杂任务上表现不佳，即使存在可表达该任务的潜在解。大模型则通过一种减弱的干扰机制克服此瓶颈：它们能为常见任务分配足够资源，使得相关梯度更新变弱，从而让罕见任务特征得以缓慢积累而不被覆盖。使用OLMo模型（4M至4B参数）在新任务上的预训练验证了这一结论：只有更大的模型学会了不频繁且复杂的任务，且这些模型在表征中嵌入了更多任务特征，任务间的梯度干扰更少。

数据/训练论文/研究

10:29

HuggingFace Daily Papers（社区热门论文）

57

LaRA：基于逐层表征分析的强化学习后训练数据污染检测

强化学习后训练能提升大语言模型的推理能力，但也可能引入数据污染，影响模型泛化和评估可靠性。现有基于输出层信号的检测方法对RL模型效果不佳。为此，研究提出了LaRA框架，通过逐层分析模型表征来检测污染。该框架引入三个互补指标，分别度量受控扰动下的扰动敏感度、方向坍缩和局部表征刚性。研究发现，污染会导致模型表征在各层出现渐进式几何偏差。基于此，研究开发了一种聚合各层与各指标表征偏差的检测协议，实验表明其性能优于现有的输出级基线方法。

arXiv 推理数据/训练论文/研究

10:29

HuggingFace Daily Papers（社区热门论文）

65

LoRA 如何记忆？大语言模型微调中的参数记忆定律

本研究使用 LoRA 作为控制探针，系统量化了大语言模型的精确参数记忆能力。提出了参数记忆定律，建立了损失减少量与有效参数及序列长度之间的稳健幂律关系。在 token 层面的分析揭示确定性相变，表明预测概率 p > 0.5 是贪心解码下实现逐字记忆的充分条件。基于此，设计了阈值引导的优化策略 MemFT，能动态重分配训练预算以提升记忆保真度与效率。代码将发布于 https://github.com/zjunlp/ParametricMemoryLaw。

GitHub 开源生态数据/训练论文/研究

10:29

HuggingFace Daily Papers（社区热门论文）

59

LiteCoder-Terminal：构建用于训练语言智能体的可扩展长周期终端环境

训练能够进行多步规划和动态适应的终端环境语言智能体，其瓶颈在于依赖外部爬取的仓库。研究团队提出了零依赖的合成管道LiteCoder-Terminal-Gen，可从领域规范自主生成可执行、可验证的终端环境。基于此构建了两个大规模资源：包含10个领域、11,255条专家轨迹的SFT数据集，以及拥有602个可验证环境用于轨迹偏好优化的RL环境。在SFT数据集上对通义千问（Qwen）系列模型进行微调后，智能体性能显著提升，其32B变体在Terminal Bench 1.0、2.0和Pro上分别取得29.06%、18.54%和34.00%的pass@1分数。应用Direct Multi-turn Preference Optimization（DMPO）可带来进一步性能提升。

智能体数据/训练论文/研究

09:39

公众号：蚂蚁百灵（Ling）

52

蚂蚁百灵团队提出 PowLU 激活函数，解决低精度训练中 SwiGLU 的异常值问题

SwiGLU 在大模型低精度训练中因输出近似二次增长导致异常值逐层放大，引发 Loss Spike。蚂蚁百灵（Ling）团队提出的 PowLU，在正半轴用幂函数替代指数衰减因子，使增长曲线更平缓。Scaling Law 实验（26M–368M 参数）显示 PowLU 与 SwiGLU 拟合曲线几乎重合；7.9B（600B token）和 124B（800B token）模型在 17 个基准上 PowLU 均优于或持平 SwiGLU。FP8 训练下 PowLU Loss 稳定在约 1.32，有效压缩数值动态范围，减少极端异常值。

数据/训练论文/研究

09:21

IT之家（RSS）

精选71

三星电子业内率先出样 HBM4E 内存

数据/训练行业动态

推荐理由：三星的HBM4E把单堆栈带宽推到3.6TB/s，能效再提16%，对LLM训练是实打实的硬件升级，做AI基础设施和模型训练的可以关注后续量产时间。

09:12

Ethan Mollick@emollick

50

你有多幸运，能生在现在这个时代和地方？让Claude Code里的Opus 4.8快速制作了一个新可视化，展示了所有曾经存在过的人类。这不仅很酷，也是对AI结合研究、代码、设计和统计能力的一次有趣测试。 https://veil-of-history.netlify.app/

Anthropic 教程/实践数据/训练编码

08:38

swyx@swyx

45

AI服务商 shift 推出纽约免费清洁服务。用户预约后，经过审核的 shift 操作员将佩戴设备上门清洁，用户无需付费。作为交换，清洁过程会被记录，这些关于人类执行日常任务的行为数据将用于训练机器人技术，其价值资助了免费服务。录音中的个人信息会被匿名化处理。该模式旨在让AI变革具体化，未来计划扩展至水管工、维修和跑腿等全球服务。

shift: Today, we're launching shift. We're starting by cleaning your apartment in New York City, for free. Here's how it works....

产品更新具身智能数据/训练

08:21

IT之家（RSS）

66

苹果 iOS 27 爆料：用 Gemini 训练本地 AI，部分 Siri 请求转向谷歌云

Google 数据/训练端侧行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

43

AgentOdyssey：用于测试时持续学习智能体的开放式长周期文本游戏生成

AgentOdyssey 是一个程序化生成开放式文本游戏的评估框架，用于衡量智能体在测试时的持续学习能力。游戏包含丰富实体、世界动态和长周期任务，要求智能体在部署中交替进行学习与推理。评估体系不仅跟踪游戏进度，还诊断世界知识获取、情景记忆、探索多样性及模型成本。实验显示，即使最强基础模型驱动的智能体也远低于人类水平，而短期记忆对多种智能体范式有显著提升作用。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

49

蒸馏LLM反馈用于Lean定理证明

针对推理模型后训练中GRPO存在的稀疏奖励、有限探索和模式坍缩问题，提出Feedback Distillation方法。该方法让模型在token级别匹配其自身分布（基于语言模型提供的特权反馈），提供token级监督并注入外部知识。在Lean4定理证明任务上，Feedback Distillation相比GRPO保持更高轨迹多样性，获得更高策略熵和更好的pass@k缩放。两种方法互补：从Feedback Distillation检查点初始化GRPO优于单独使用任一方法，为改进复杂推理后训练提供了有前景的方向。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

46

MechVQA：全面机械图纸理解的多模态大语言模型基准与增强

MechVQA是一个面向机械工程图纸理解的全面数据集，通过半自动构建与质量控制流程生成，包含3.3k高密度图片和21K问答对，覆盖识别、推理、判断三个能力层级的10种细粒度任务。基于该数据集，研究团队开发了MechVL模型，采用多阶段训练范式，在MechVQA总分上超越最强闭源基线7.57个百分点，显著提升机械图纸理解能力，为多模态大语言模型在机械设计与检测场景中的应用提供了可复用基础。

arXiv 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

53

组合式合成：通过原子分解与重组扩展代码 RLVR 训练规模

针对可验证奖励强化学习（RLVR）中足够有挑战性的代码任务稀缺、现有种子扩展法限制新颖性与难度的问题，提出原子分解与重组（ADR）框架。ADR 将代码任务分解为原子元素并受控重组，从而生成真正新颖且高难度的可验证代码任务。实验表明，ADR 在原创性、难度、多样性和测试质量上均优于现有基线，并在算法编程、工具使用和数据科学等多个下游领域的 RLVR 训练中持续带来更大的代码能力提升。

arXiv 数据/训练编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

52

DOMINO：通过最小充分表示学习实现大语言模型领域数据合成

针对LLM微调中高质量数据获取难的问题，现有合成方法依赖自然语言描述，不适用于难以表述的领域。本文提出DOMINO，仅以参考样例定义目标领域，通过学习最小充分表示引导生成域对齐数据。DOMINO结合提示调优与对比解缠目标分离域模式与样本噪声。在隐式领域定义的编码基准上，基于DOMINO合成数据微调相比强指令调优基线，Pass@1准确率最高提升4.63%，实现无需手动提示或自然语言规范的自动化域适配。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

MIRA：基于自锚定评分发现的源感知数据选择

大语言模型中间训练的数据选择面临异构来源和不同格式的挑战，需兼顾可扩展性与源自适应语义标准。现有方法或仅提供隐式质量信号，或依赖固定评分规则。MIRA提出自锚定评分发现框架，先为每组数据源发现应评估的维度，再将判断蒸馏为可扩展的学生评分器用于全语料过滤。在21个来源、5个源组的代码中间训练中，MIRA在9个代码基准上超越多种基线，仅用半数模型token即达到全语料效果。

开源生态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

60

大规模多语言平行数据的模型化质量评估

针对大规模多语言平行数据中存在的非平行句对与低质量翻译问题，该研究将模型化评估分解为两个部分。一是基于多语言嵌入向量的平行性评估，在FLORES-200和BOUQuET任务上对四个嵌入模型进行了基准测试，覆盖6,654个源-目标方向。二是无参考质量评估，在FLORES-200的专业翻译上评估了九个无参考评估器，覆盖41,412个有序方向。结果显示，没有模型在所有翻译方向上都可靠，简单的质量评估集成会稀释强模型的信号，而文档化的目标语言覆盖率与更高的质量评估分数密切相关。这些发现表明，该问题最好被视为一个方向感知的路由和校准问题。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

SOCO：视觉基础模型中的语义物体对应基准测试

为评估视觉基础模型对物体部件的细粒度理解能力，研究提出了新基准SOCO。该基准建立了语义对应类型分类体系，提供了跨100个类别、超过100万对应对的统一关键点标注，并包含关键点语言描述，以支持对大型视觉-语言模型的评估。实验发现，视觉基础模型虽编码了强语义结构，但在相关类别间的对应关系迁移能力较弱；大型视觉-语言模型在文本提示的部件定位上优于视觉参考的跨图像匹配；且对应性能比分更能预测分割、跟踪等密集预测下游任务的表现。

arXiv 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

64

DRIFT：解耦式采样与重要性加权微调实现高效多轮优化

针对多轮交互场景中在线强化学习成本高昂与离线监督微调存在分布偏移的困境，论文提出 DRIFT 框架。该框架将 KL 正则化 RL 目标等效为重要性加权监督学习，通过从固定参考策略采样离线交互轨迹、计算基于回报的重要性权重，再用加权 SFT 进行策略优化。实验表明，DRIFT 在匹配或超越多轮 RL 基线性能的同时，保持了标准监督微调的训练效率和简洁性。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

63

基于人类反馈的强化学习的另一面：奖励模型自监督改进的策略内反馈

构建用于大语言模型对齐的强奖励模型，其瓶颈在于获取多样化、可靠的人类偏好数据成本高昂，且当策略模型超出静态奖励模型训练范围时问题加剧。为此，研究提出SAVE框架，它利用价值函数对策略内生成的响应进行评分，将该评分作为反馈信号用于奖励模型的自监督训练。该框架通过提示特定的价值头作为自适应锚点，将评分后的响应转化为监督信号，计算奖励模型优势值并过滤模糊样本，最终通过对比目标更新模型。在六个多样化基准测试上的严格评估验证了其有效性，结果在所有数据集上超越基线，并在GRPO、RLOO、GSPO三种RL算法及不同策略主干上保持一致改进。

安全/对齐数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

66

SCOPE：通过共同演化策略实现开放式任务的自我对弈

SCOPE是一个无需数据、通过自我对弈提升模型开放式任务能力的框架。它通过共同演化两个策略来工作：一个“挑战者”生成基于文档的任务，一个“解答者”通过多轮检索来回答。模型自身的一个冻结副本作为自我裁判，为任务生成评分标准并打分。在三个7-8B参数的指令微调模型（Qwen2.5， Qwen3， OLMo-3）上进行的实验显示，SCOPE将开放式任务性能在八个基准上最高提升了10.4分，达到或超过了使用约9K精调提示训练的GRPO_data。尽管仅针对开放式任务训练，SCOPE在七个留出的简短问答基准上也带来了最高13.8分的提升。消融实验表明，共同演化挑战者对维持任务难度是必要的，检索与合成能力均有贡献，而生成质量是自我评判的瓶颈。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

59

为解决现有对象计数模型在跨类别、跨领域和跨密度分布场景下泛化能力不足的问题，本研究提出了Count Anything，一个文本引导的通用对象计数模型。该模型以图像和自然语言查询为输入，输出实例级的目标点集并以点数作为计数值。为此，研究构建了CLOC跨域大规模对象计数数据集，涵盖六个视觉领域约22万张图像、619个类别和1500万个对象实例。Count Anything采用双粒度实例枚举策略：区域级稀疏计数器为大而稀疏的目标提供锚点，像素级密集计数器处理小而密集的目标。通过互补计数融合机制无参数地结合两者，在多个领域展现出优于现有开世界计数方法的准确性和泛化能力。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

LongTraceRL：基于搜索智能体轨迹与评分奖励的长上下文推理学习

针对大语言模型在长上下文推理中难以定位关键信息的问题，现有强化学习方法受限于干扰物挑战性不足和奖励信号稀疏。LongTraceRL方法通过知识图谱随机游走生成多跳问题，并利用搜索智能体的轨迹构建分级干扰文档，从而生成更具挑战性的训练数据。其创新性地提出评分奖励，使用推理链上的金标准实体作为细粒度的过程监督，且仅应用于最终答案正确的响应，以此区分推理质量并防止奖励作弊。实验表明，该方法在多个长上下文基准测试中优于强基线。

智能体 arXiv 推理数据/训练

06:14

Rohan Paul@rohanpaul_ai

60

学术论文现14.7万次虚假引用，AI生成问题激增

研究人员审查250万篇论文发现，2025年同行评议期刊中出现了14.7万次指向不存在研究的引用，这些虚假的研究、作者和期刊由AI生成，且未被察觉，已永久留在科学记录中。问题增长迅速：2023年每2828篇论文中约1篇含此类引用，到2026年初已升至每277篇约1篇。完整研究见arxiv论文2605.07723。

arXiv 数据/训练现象/趋势

05:48

Ars Technica：AI（RSS）

精选70

LLMs相信虚假陈述，即使明确警告也无效

微调测试显示，大语言模型存在一种偏见，即倾向于自信地将虚假陈述表述为真实，即使明确告知其陈述为假。

arXiv 安全/对齐数据/训练论文/研究

推荐理由：这项研究让我重新思考幻觉问题的根源——LLM无视「此声明为假」的标签，照样把假话当成真知识，开发者靠标注清洗数据可能根本不够。

04:36

Epoch AI@EpochAIResearch

40

我们已在Epoch AI网站的长篇内容中添加了旁白功能，包括报告、Gradient Updates和主题概述。请留意播放按钮。

产品更新数据/训练

04:21

IT之家（RSS）

66

戴尔 2027 财年第一财季归母净利润 34.38 亿美元，同比增长 256%

戴尔2027财年第一财季财报显示，归母净利润达34.38亿美元，同比增长256%。AI业务爆发式增长，本季AI优化服务器营收161亿美元，同比增长757%，公司因此上调全年AI服务器营收预期至约600亿美元。

数据/训练行业动态

03:36

Epoch AI@EpochAIResearch

68

超大规模厂商的资本支出在2026年第一季度符合趋势，延续了预计今年支出7700亿美元、2027年超过一万亿美元的轨迹。

Epoch AI: Driven by investments in AI, hyperscaler capital expenditures have grown 70% per year since the release of GPT-4, nearin...

数据/训练行业动态部署/工程

02:44

Rohan Paul@rohanpaul_ai

精选81

hexoai开源SIA框架：AI智能体实现递归自我改进

hexoai开源了SIA（自我改进AI）框架。该框架展示了AI智能体不仅能优化其外部工作流（harness），还能通过任务反馈直接更新自身的模型权重，从而在领域知识和能力上实现自主提升，而非仅依赖人类提供的提示或工具改进。论文报告显示，SIA在LawBench基准上性能提升56.6%，在GPU kernels运行上耗时减少91.9%，在单细胞RNA去噪任务中相比基线提升502%。

Kunal Bhatia: Superintelligence will be built on Self Improvement. Today @hexoai, we're excited to release 'SIA' - an open-source Self...

智能体数据/训练论文/研究

推荐理由：不再只是给AI换提示词，SIA框架连模型自己的权重都更新了，在三个任务里分别提升了56%、502%和91%加速，开源出来会让整个Agent开发范式重新思考。

5月28日

23:43

AK@_akhaliq

48

ProRL 通过修正策略梯度估计实现主动推荐的有效强化学习

数据/训练论文/研究

23:41

Google Developers Blog（RSS）

精选64

社区如何利用Tunix和TPU训练Gemma学会"思考"

Google在Kaggle举办的Tunix黑客马拉松，挑战开发者利用TPU和有限算力，将小型基础模型转变为通用推理引擎。获胜团队通过多阶段后训练流程实现了这一目标，该流程结合了监督微调（SFT）与GRPO、SimPO等先进对齐技术。比赛结果表明，社区能够借助开源资源成功训练出高能力的结构化推理模型。

Google 开源生态教程/实践数据/训练

推荐理由：Google 官方比赛总结，证明用 Kaggle TPU 和开源工具就能把 Gemma 训练出不错推理能力，对想自己微调模型的小团队是个实用参考。

21:11

Cloudflare Blog

41

我们如何构建Cloudflare的数据平台及其上的AI智能体

Cloudflare构建了名为Town Lake的统一分析平台，并基于此开发了内部AI智能体Skipper。

智能体教程/实践数据/训练部署/工程

19:11

Rohan Paul@rohanpaul_ai

71

Diffusion Transformers训练提速8.75倍：革新残差连接机制

传统Diffusion Transformers因层间信息传递方式固化导致训练效率低下。研究团队提出Diffusion-Adaptive Routing方法，允许每层动态选择使用哪些早期层的输出，且该选择随去噪时间步调整。该方法未引入新的数据集、损失函数或注意力机制，仅通过优化残差连接，使得相同图像质量所需的训练迭代次数减少8.75倍。

arXiv 图像生成数据/训练论文/研究

14:28

HuggingFace Daily Papers（社区热门论文）

精选71

DenoiseRL：通过恢复嘈杂前缀来引导推理模型

DenoiseRL是一种强化学习框架，旨在提升大语言模型的推理能力。它无需依赖更强的教师模型或精心筛选的困难数据集，而是通过在弱模型产生的失败推理轨迹上进行基于恢复的优化来直接学习，将错误转化为改进机会。这种方法提供了更丰富多样的学习信号，提升了探索效率。实验表明，DenoiseRL在竞争性的数学和通用推理基准测试中，持续优于强在策略RL基线，并能随着训练难度增加促进更强的自我纠正行为。

推理数据/训练论文/研究

推荐理由：做 RL for reasoning 的团队该看这篇，它把训练信号从“依赖强模型”转向“从弱模型的错误中学习”，可能降低对昂贵 teacher 的依赖，是个架构层面的新思路。

13:28

HuggingFace Daily Papers（社区热门论文）

57

ProRL：基于修正策略梯度估计的主动推荐强化学习框架

针对主动推荐系统中简单应用策略梯度方法存在的梯度估计缺陷，研究提出ProRL强化学习框架。该框架识别出路径级奖励分解为步级奖励时产生的长度依赖偏差，以及忽略分解结构导致的高方差问题。ProRL引入两个机制：逐步奖励中心化通过减去期望奖励消除长度偏差，位置特定优势估计利用奖励分解结构计算步级基线以降低方差。实验表明，ProRL在三个真实数据集上显著优于现有先进方法。

数据/训练论文/研究

13:28

HuggingFace Daily Papers（社区热门论文）

65

PEFT-Arena：从稳定性-可塑性视角理解参数高效微调

PEFT-Arena是一个新的参数高效微调评估基准，它同时衡量下游任务性能和大语言模型预训练通用能力的保留情况。研究发现，不同微调方法展现出不同的稳定性-可塑性特征；在相似参数预算下，正交微调取得了最佳的性能-保留权衡帕累托前沿。通过权重空间（谱分析）和激活空间（表示失真度量）两个几何视角的分析，研究解释了这些差异，并指出最终的SFT检查点常常会越过一个更优的目标-保留操作点。基于此，研究通过路径回溯案例展示了一种改进方法。

arXiv 数据/训练论文/研究

12:36

Ethan Mollick@emollick

55

关于AI写作的风格特征（如破折号等）已有大量讨论，但这篇论文关注的是AI叙事特征 AI与人类叙事之间存在引人入胜的差异，要求AI以不同风格写作并不能显著改变这一点 https://arxiv.org/abs/2604.03136

arXiv 数据/训练论文/研究

1…17 181920 21…43