PostHog 被认为很适合独立开发者。以 BestBlogs Pro 早报的 A/B 实验为例,它帮助串联了从埋点到分析的完整实验链路。结果表明,high_engagement 组在查看率、点击率、停留时长和 Top 3 点击占比等指标上均优于对照组。该工具不仅能显示优胜组,还能分析实验差异与样本偏差并提供下一步建议,其快速反馈对独自做产品的人很重要。
PostHog 被认为很适合独立开发者。以 BestBlogs Pro 早报的 A/B 实验为例,它帮助串联了从埋点到分析的完整实验链路。结果表明,high_engagement 组在查看率、点击率、停留时长和 Top 3 点击占比等指标上均优于对照组。该工具不仅能显示优胜组,还能分析实验差异与样本偏差并提供下一步建议,其快速反馈对独自做产品的人很重要。
面壁智能联合清华大学、OpenBMB发布并开源两大数据集:Ultra-FineWeb-L3(超600B Tokens,中文200B+,为当前最大中文预训练合成数据集)和UltraData-SFT-2605(国内首个千万级同时含深思考与非思考标注的SFT数据集)。两者基于UltraData数据分级治理体系构建,在MiniCPM5-1B训练流程中得到完全验证,覆盖预训练退火到后训练SFT全链路。已上线UltraData网站与HuggingFace,免费开放。
关联讨论 1 条X:面壁智能 OpenBMB (@OpenBMB)脸谱心智(FaceMind)的研究发现,在保持语义不变的前提下,使用大模型预训练语料中出现频率更高的表达方式,能显著提升模型表现。该规律被命名为Adam’s Law(文本频率定律)。核心实验显示:在数学推理任务中,仅换用高频表述可使准确率平均提升;在机器翻译任务中,使用DeepSeek-V3测试100种语言到英语的翻译,绝大多数语言对在BLEU指标上获得提升。该研究指出现有数据工程忽视了“文本频率”这一维度。Anthropic的Claude Opus 4.7使用新分词器,被业界视为对低频token退化问题的间接验证。
当前数据驱动方法在静态3D物体重建上表现突出,但生成符合物理规律的4D动态形变仍具挑战,现有方法多依赖预定义物理模型与参数估计,局限于特定类别。该研究提出NeuROK,通过学习一个表征物体所有可能状态的潜空间及一个将潜空间采样映射为合理形变形状的解码器,实现了数据驱动的运动状态参数化。其在大规模4D数据集上训练了基于Transformer的编码器-解码器模型,将动态生成简化为低维潜空间中的操作,从而能更高效地生成多类物体的逼真动态。
本研究探讨了更大模型能学习小模型无法掌握任务的原因。通过合成数据实验发现,小模型因神经元资源有限,倾向于将其分配给高频或低复杂度任务,导致其在罕见复杂任务上表现不佳,即使存在可表达该任务的潜在解。大模型则通过一种减弱的干扰机制克服此瓶颈:它们能为常见任务分配足够资源,使得相关梯度更新变弱,从而让罕见任务特征得以缓慢积累而不被覆盖。使用OLMo模型(4M至4B参数)在新任务上的预训练验证了这一结论:只有更大的模型学会了不频繁且复杂的任务,且这些模型在表征中嵌入了更多任务特征,任务间的梯度干扰更少。
强化学习后训练能提升大语言模型的推理能力,但也可能引入数据污染,影响模型泛化和评估可靠性。现有基于输出层信号的检测方法对RL模型效果不佳。为此,研究提出了LaRA框架,通过逐层分析模型表征来检测污染。该框架引入三个互补指标,分别度量受控扰动下的扰动敏感度、方向坍缩和局部表征刚性。研究发现,污染会导致模型表征在各层出现渐进式几何偏差。基于此,研究开发了一种聚合各层与各指标表征偏差的检测协议,实验表明其性能优于现有的输出级基线方法。
本研究使用 LoRA 作为控制探针,系统量化了大语言模型的精确参数记忆能力。提出了参数记忆定律,建立了损失减少量与有效参数及序列长度之间的稳健幂律关系。在 token 层面的分析揭示确定性相变,表明预测概率 p > 0.5 是贪心解码下实现逐字记忆的充分条件。基于此,设计了阈值引导的优化策略 MemFT,能动态重分配训练预算以提升记忆保真度与效率。代码将发布于 https://github.com/zjunlp/ParametricMemoryLaw。
训练能够进行多步规划和动态适应的终端环境语言智能体,其瓶颈在于依赖外部爬取的仓库。研究团队提出了零依赖的合成管道LiteCoder-Terminal-Gen,可从领域规范自主生成可执行、可验证的终端环境。基于此构建了两个大规模资源:包含10个领域、11,255条专家轨迹的SFT数据集,以及拥有602个可验证环境用于轨迹偏好优化的RL环境。在SFT数据集上对通义千问(Qwen)系列模型进行微调后,智能体性能显著提升,其32B变体在Terminal Bench 1.0、2.0和Pro上分别取得29.06%、18.54%和34.00%的pass@1分数。应用Direct Multi-turn Preference Optimization(DMPO)可带来进一步性能提升。
SwiGLU 在大模型低精度训练中因输出近似二次增长导致异常值逐层放大,引发 Loss Spike。蚂蚁百灵(Ling)团队提出的 PowLU,在正半轴用幂函数替代指数衰减因子,使增长曲线更平缓。Scaling Law 实验(26M–368M 参数)显示 PowLU 与 SwiGLU 拟合曲线几乎重合;7.9B(600B token)和 124B(800B token)模型在 17 个基准上 PowLU 均优于或持平 SwiGLU。FP8 训练下 PowLU Loss 稳定在约 1.32,有效压缩数值动态范围,减少极端异常值。
Today, we're launching shift. We're starting by cleaning your apartment in New York City, for free. Here's how it works....
AgentOdyssey 是一个程序化生成开放式文本游戏的评估框架,用于衡量智能体在测试时的持续学习能力。游戏包含丰富实体、世界动态和长周期任务,要求智能体在部署中交替进行学习与推理。评估体系不仅跟踪游戏进度,还诊断世界知识获取、情景记忆、探索多样性及模型成本。实验显示,即使最强基础模型驱动的智能体也远低于人类水平,而短期记忆对多种智能体范式有显著提升作用。
针对推理模型后训练中GRPO存在的稀疏奖励、有限探索和模式坍缩问题,提出Feedback Distillation方法。该方法让模型在token级别匹配其自身分布(基于语言模型提供的特权反馈),提供token级监督并注入外部知识。在Lean4定理证明任务上,Feedback Distillation相比GRPO保持更高轨迹多样性,获得更高策略熵和更好的pass@k缩放。两种方法互补:从Feedback Distillation检查点初始化GRPO优于单独使用任一方法,为改进复杂推理后训练提供了有前景的方向。
MechVQA是一个面向机械工程图纸理解的全面数据集,通过半自动构建与质量控制流程生成,包含3.3k高密度图片和21K问答对,覆盖识别、推理、判断三个能力层级的10种细粒度任务。基于该数据集,研究团队开发了MechVL模型,采用多阶段训练范式,在MechVQA总分上超越最强闭源基线7.57个百分点,显著提升机械图纸理解能力,为多模态大语言模型在机械设计与检测场景中的应用提供了可复用基础。
针对可验证奖励强化学习(RLVR)中足够有挑战性的代码任务稀缺、现有种子扩展法限制新颖性与难度的问题,提出原子分解与重组(ADR)框架。ADR 将代码任务分解为原子元素并受控重组,从而生成真正新颖且高难度的可验证代码任务。实验表明,ADR 在原创性、难度、多样性和测试质量上均优于现有基线,并在算法编程、工具使用和数据科学等多个下游领域的 RLVR 训练中持续带来更大的代码能力提升。
针对LLM微调中高质量数据获取难的问题,现有合成方法依赖自然语言描述,不适用于难以表述的领域。本文提出DOMINO,仅以参考样例定义目标领域,通过学习最小充分表示引导生成域对齐数据。DOMINO结合提示调优与对比解缠目标分离域模式与样本噪声。在隐式领域定义的编码基准上,基于DOMINO合成数据微调相比强指令调优基线,Pass@1准确率最高提升4.63%,实现无需手动提示或自然语言规范的自动化域适配。
大语言模型中间训练的数据选择面临异构来源和不同格式的挑战,需兼顾可扩展性与源自适应语义标准。现有方法或仅提供隐式质量信号,或依赖固定评分规则。MIRA提出自锚定评分发现框架,先为每组数据源发现应评估的维度,再将判断蒸馏为可扩展的学生评分器用于全语料过滤。在21个来源、5个源组的代码中间训练中,MIRA在9个代码基准上超越多种基线,仅用半数模型token即达到全语料效果。
针对大规模多语言平行数据中存在的非平行句对与低质量翻译问题,该研究将模型化评估分解为两个部分。一是基于多语言嵌入向量的平行性评估,在FLORES-200和BOUQuET任务上对四个嵌入模型进行了基准测试,覆盖6,654个源-目标方向。二是无参考质量评估,在FLORES-200的专业翻译上评估了九个无参考评估器,覆盖41,412个有序方向。结果显示,没有模型在所有翻译方向上都可靠,简单的质量评估集成会稀释强模型的信号,而文档化的目标语言覆盖率与更高的质量评估分数密切相关。这些发现表明,该问题最好被视为一个方向感知的路由和校准问题。
为评估视觉基础模型对物体部件的细粒度理解能力,研究提出了新基准SOCO。该基准建立了语义对应类型分类体系,提供了跨100个类别、超过100万对应对的统一关键点标注,并包含关键点语言描述,以支持对大型视觉-语言模型的评估。实验发现,视觉基础模型虽编码了强语义结构,但在相关类别间的对应关系迁移能力较弱;大型视觉-语言模型在文本提示的部件定位上优于视觉参考的跨图像匹配;且对应性能比分更能预测分割、跟踪等密集预测下游任务的表现。
针对多轮交互场景中在线强化学习成本高昂与离线监督微调存在分布偏移的困境,论文提出 DRIFT 框架。该框架将 KL 正则化 RL 目标等效为重要性加权监督学习,通过从固定参考策略采样离线交互轨迹、计算基于回报的重要性权重,再用加权 SFT 进行策略优化。实验表明,DRIFT 在匹配或超越多轮 RL 基线性能的同时,保持了标准监督微调的训练效率和简洁性。
构建用于大语言模型对齐的强奖励模型,其瓶颈在于获取多样化、可靠的人类偏好数据成本高昂,且当策略模型超出静态奖励模型训练范围时问题加剧。为此,研究提出SAVE框架,它利用价值函数对策略内生成的响应进行评分,将该评分作为反馈信号用于奖励模型的自监督训练。该框架通过提示特定的价值头作为自适应锚点,将评分后的响应转化为监督信号,计算奖励模型优势值并过滤模糊样本,最终通过对比目标更新模型。在六个多样化基准测试上的严格评估验证了其有效性,结果在所有数据集上超越基线,并在GRPO、RLOO、GSPO三种RL算法及不同策略主干上保持一致改进。
SCOPE是一个无需数据、通过自我对弈提升模型开放式任务能力的框架。它通过共同演化两个策略来工作:一个“挑战者”生成基于文档的任务,一个“解答者”通过多轮检索来回答。模型自身的一个冻结副本作为自我裁判,为任务生成评分标准并打分。在三个7-8B参数的指令微调模型(Qwen2.5, Qwen3, OLMo-3)上进行的实验显示,SCOPE将开放式任务性能在八个基准上最高提升了10.4分,达到或超过了使用约9K精调提示训练的GRPO_data。尽管仅针对开放式任务训练,SCOPE在七个留出的简短问答基准上也带来了最高13.8分的提升。消融实验表明,共同演化挑战者对维持任务难度是必要的,检索与合成能力均有贡献,而生成质量是自我评判的瓶颈。
为解决现有对象计数模型在跨类别、跨领域和跨密度分布场景下泛化能力不足的问题,本研究提出了Count Anything,一个文本引导的通用对象计数模型。该模型以图像和自然语言查询为输入,输出实例级的目标点集并以点数作为计数值。为此,研究构建了CLOC跨域大规模对象计数数据集,涵盖六个视觉领域约22万张图像、619个类别和1500万个对象实例。Count Anything采用双粒度实例枚举策略:区域级稀疏计数器为大而稀疏的目标提供锚点,像素级密集计数器处理小而密集的目标。通过互补计数融合机制无参数地结合两者,在多个领域展现出优于现有开世界计数方法的准确性和泛化能力。
针对大语言模型在长上下文推理中难以定位关键信息的问题,现有强化学习方法受限于干扰物挑战性不足和奖励信号稀疏。LongTraceRL方法通过知识图谱随机游走生成多跳问题,并利用搜索智能体的轨迹构建分级干扰文档,从而生成更具挑战性的训练数据。其创新性地提出评分奖励,使用推理链上的金标准实体作为细粒度的过程监督,且仅应用于最终答案正确的响应,以此区分推理质量并防止奖励作弊。实验表明,该方法在多个长上下文基准测试中优于强基线。
研究人员审查250万篇论文发现,2025年同行评议期刊中出现了14.7万次指向不存在研究的引用,这些虚假的研究、作者和期刊由AI生成,且未被察觉,已永久留在科学记录中。问题增长迅速:2023年每2828篇论文中约1篇含此类引用,到2026年初已升至每277篇约1篇。完整研究见arxiv论文2605.07723。
微调测试显示,大语言模型存在一种偏见,即倾向于自信地将虚假陈述表述为真实,即使明确告知其陈述为假。
戴尔2027财年第一财季财报显示,归母净利润达34.38亿美元,同比增长256%。AI业务爆发式增长,本季AI优化服务器营收161亿美元,同比增长757%,公司因此上调全年AI服务器营收预期至约600亿美元。
Driven by investments in AI, hyperscaler capital expenditures have grown 70% per year since the release of GPT-4, nearin...
hexoai开源了SIA(自我改进AI)框架。该框架展示了AI智能体不仅能优化其外部工作流(harness),还能通过任务反馈直接更新自身的模型权重,从而在领域知识和能力上实现自主提升,而非仅依赖人类提供的提示或工具改进。论文报告显示,SIA在LawBench基准上性能提升56.6%,在GPU kernels运行上耗时减少91.9%,在单细胞RNA去噪任务中相比基线提升502%。
Superintelligence will be built on Self Improvement. Today @hexoai, we're excited to release 'SIA' - an open-source Self...
Google在Kaggle举办的Tunix黑客马拉松,挑战开发者利用TPU和有限算力,将小型基础模型转变为通用推理引擎。获胜团队通过多阶段后训练流程实现了这一目标,该流程结合了监督微调(SFT)与GRPO、SimPO等先进对齐技术。比赛结果表明,社区能够借助开源资源成功训练出高能力的结构化推理模型。
Cloudflare构建了名为Town Lake的统一分析平台,并基于此开发了内部AI智能体Skipper。
传统Diffusion Transformers因层间信息传递方式固化导致训练效率低下。研究团队提出Diffusion-Adaptive Routing方法,允许每层动态选择使用哪些早期层的输出,且该选择随去噪时间步调整。该方法未引入新的数据集、损失函数或注意力机制,仅通过优化残差连接,使得相同图像质量所需的训练迭代次数减少8.75倍。
DenoiseRL是一种强化学习框架,旨在提升大语言模型的推理能力。它无需依赖更强的教师模型或精心筛选的困难数据集,而是通过在弱模型产生的失败推理轨迹上进行基于恢复的优化来直接学习,将错误转化为改进机会。这种方法提供了更丰富多样的学习信号,提升了探索效率。实验表明,DenoiseRL在竞争性的数学和通用推理基准测试中,持续优于强在策略RL基线,并能随着训练难度增加促进更强的自我纠正行为。
针对主动推荐系统中简单应用策略梯度方法存在的梯度估计缺陷,研究提出ProRL强化学习框架。该框架识别出路径级奖励分解为步级奖励时产生的长度依赖偏差,以及忽略分解结构导致的高方差问题。ProRL引入两个机制:逐步奖励中心化通过减去期望奖励消除长度偏差,位置特定优势估计利用奖励分解结构计算步级基线以降低方差。实验表明,ProRL在三个真实数据集上显著优于现有先进方法。
PEFT-Arena是一个新的参数高效微调评估基准,它同时衡量下游任务性能和大语言模型预训练通用能力的保留情况。研究发现,不同微调方法展现出不同的稳定性-可塑性特征;在相似参数预算下,正交微调取得了最佳的性能-保留权衡帕累托前沿。通过权重空间(谱分析)和激活空间(表示失真度量)两个几何视角的分析,研究解释了这些差异,并指出最终的SFT检查点常常会越过一个更优的目标-保留操作点。基于此,研究通过路径回溯案例展示了一种改进方法。