企业广泛采用AI订阅服务正成为潜在运营风险源,这些订阅可能引发隐藏成本激增、数据安全漏洞和技术依赖问题。随着使用量扩大,费用失控和合规性挑战如同定时炸弹般威胁企业财务与稳定。业界警示需建立严格管理机制,以防范未来危机爆发。
伊利诺伊大学与清华大学等机构的研究发现,LLM智能体虽能从经验中学习,但其通过LLM将原始经历压缩成书面教训的记忆重写机制会损害记忆可靠性。在网页购物、模拟世界及ARC风格谜题等任务测试中,反复重写记忆会导致错误分组、规则过度泛化或过拟合,使智能体遗忘细节或混淆任务类型。例如,GPT-4在无记忆时可100%解决小型ARC-AGI问题集,而建立记忆并流式更新后,性能降至约54%。研究主张智能体记忆系统应重视原始经历作为关键证据,而非自动将所有经验重写为摘要,保留原始证据并选择性摘要效果更佳。
本研究提出一种更贴近工业实际的CAD生成任务,要求模型从工程描述直接生成完整的多部件STEP文件,并通过有限元分析进行验证。初始测试中,GPT-5.5和Claude Code(Opus-4.7)智能体均未生成完全通过验证的作品,最佳配置平均仅满足约20%的规范要求。为改进流程,引入了纯文本蓝图规范与21视角图像渲染器两种新的监督信号,以辅助智能体进行视觉检查与迭代。这些反馈工具提升了生成质量,使GPT-5.5/xhigh在S2O基准上的Box-IoU从0.444提升至0.592,在Fusion360基准上从0.397提升至0.505,推动CAD生成结果在满足视觉合理性的同时,更能通过物理与结构要求的检验。
研究发现,标准损失函数与正偏置激活函数(如ReLU)的相互作用,会在训练早期普遍引发与数据无关的权重负向漂移现象。该漂移在多种架构中存在,并能与ReLU结合使GPT-nano的激活稀疏度高达90%。研究分析了79种配置下的稀疏度-精度权衡,发现超过约70%的稀疏度会导致精度骤降。虽然ReLU²能取得较好的平衡,但会病态放大Transformer中间层的激活尖峰;而裁剪后的ReLU²解决了这一问题,且GELU²在GPT-nano上取得了最佳性能。
近期访谈揭示了大规模语言模型预训练中的并行化策略与失败案例。关键变化包括从数据并行转向更复杂的模型并行、流水线并行及混合策略,以应对万亿参数模型的内存与计算挑战。具体指标显示,某些失败训练运行因硬件故障或超参数设置不当,导致数百GPU小时损失。成功案例则通过优化通信开销与负载均衡,将训练效率提升约15-30%。这些经验为GPT、Claude、LLaMA等模型的稳定训练提供了重要技术参考。
OpenClaw 创始人在30天内花费130万美元购买OpenAI代币,这一高额支出凸显了其项目对AI算力资源的巨大需求。该笔交易反映出开发前沿AI应用可能伴随的显著运营成本,也引发了业界对AI基础设施使用经济性的关注。相关信息在Hacker News上获得100点讨论热度。
The latest CodexBar update renders API costs wayyyy nicer. https://codex.bar
杜克大学团队提出一种高效训练扩散语言模型的新方法。核心观点是无需从头训练,而是将现有强大的预训练自回归语言模型作为知识源。他们提出的REPR-ALIGN方法,在掩码扩散训练过程中,通过余弦相似度逐层将扩散模型的隐藏状态与冻结的自回归教师模型对齐。该方法无需添加适配器或改变架构,仅调整注意力掩码。实验结果显示,训练速度最高可提升4倍,在低数据场景下效果提升尤其显著。
How to Train Diffusion LLM more efficiently? Our paper has an answer for you: Don't Retrain, Align: Adapting Autoregress...
上海人工智能实验室联合苏州国家实验室、清华大学等团队成功制备出厘米级尺寸、厚度超过200微米的高质量单晶石墨,该厚度达到世界水平的3倍以上。团队构建了亿级计算材料数据库,训练出高精度机器学习势函数模型,可模拟超过十万原子规模的体系动力学,揭示了单晶石墨的生长机制。基于模拟结果优化工艺后,最终实现这一突破,验证了AI驱动科学发现的智能化科研路径。
Codex 能够帮助数据科学团队根据实际工作输入,自动化生成根本原因简报、影响报告、关键绩效指标备忘录、范围分析以及仪表板规格文档。该工具将自然语言描述转化为结构化分析框架,提升了从数据查询到报告生成的工作流效率,使团队能更快速地将业务问题转化为可执行的数据分析方案。
WeatherNext AI模型协助气象预报员为社区在飓风Melissa登陆前提供了前所未有的准备时间。该模型通过提升预测准确性与提前量,帮助牙买加等地成功应对了这场历史性的飓风事件,显著增强了灾害预警的时效性。
DynMuon是一种用于高效训练大模型的动态谱整形优化方法。它改进了Muon算法,将更新矩阵从极分解形式UΣV^top调整为UΣ^p V^top。其核心创新在于,训练过程中将谱调整参数p从正值动态调度为轻微负值。此设计基于对损失曲率、梯度噪声和训练阶段的理论分析:早期使用p>0强调高曲率方向以加速收敛;后期转为轻微负p值,将更新强度重新分配给仍含有效信号的低曲率方向。实验表明,该方法在各类设置下均优于Muon,达到相同目标损失所需步数可减少10.6%-26.5%。
研究发现,可验证奖励强化学习虽能提升语言模型的推理能力,但存在一种反直觉现象:在模型初始难以处理的困难样本中,有相当一部分即使提供正确答案也无法被学习。通过跨样本梯度分析,研究揭示了不可学习样本的根本性表征缺陷,其特征是与其他样本梯度相似性低且推理模式难以泛化,而数据增强无法改善这一问题。该研究首次系统描述了训练中的不可学习数据现象,并指出当前强化学习方法在推理任务上存在根本性局限。
针对模型量化与合并结合时,量化偏差与合并偏差相互耦合导致性能下降的难题,本文提出了E-PMQ框架。该框架在逐层校准过程中,利用源模型的权重提供专家指导的输出目标,并引入合并权重锚定机制以稳定校准过程,从而有效整合合并模型的行为。实验结果表明,E-PMQ显著提升了量化后模型的性能:在CLIP-ViT-B/32的8任务合并中,4位GPTQ的准确率在Task Arithmetic和TIES-Merging方法下分别从65.0%和69.1%提升至73.6%和74.8%;在更具挑战性的20任务CLIP-ViT-L/14设置上,准确率从34.8%大幅跃升至76.7%。这证明了E-PMQ能够实现高效的后合并量化与低比特部署。
本文提出NGM,一种无需训练、即插即用的记忆模块,旨在提升大语言模型的知识检索效率。它包含因果N元组编码器与余弦门控记忆注入器,直接利用模型预训练词嵌入构建N元组表示,无需额外训练或检索步骤。在Qwen3系列模型的多项基准测试中,NGM平均提升性能0.5至1.2分,在代码生成与知识密集型任务中效果尤为显著(如LiveCodeBench提升3.0分,GPQA提升3.03分),并在多模态任务中也带来性能增益。
为解决监督微调(SFT)导致语言模型灾难性遗忘的问题,本文提出了MixSD方法。该方法无需外部教师模型,通过动态混合基础模型自身的“专家条件”(基于注入的事实)和“朴素条件”(模型原有先验)的token来构造监督信号,使训练目标更贴合模型原生分布。在合成数据集与开放域问答基准的实验表明,MixSD在多个模型规模下均优于SFT和自蒸馏基线,能近乎完美地保留基础模型全部未保持能力(高达100%),而标准SFT仅能保留低至1%。该方法降低了监督目标的困惑度(NLL),减少了在Fisher敏感参数方向上的有害更新,为知识注入提供了分布对齐的有效原则。
研究提出一种球面流匹配方法,改进图像生成的潜在几何对齐。通过将潜在标记分解为径向与角度分量,发现解码后的感知与语义信息主要由方向承载。该方法将数据潜在投影到固定半径,以高斯噪声的径向投影作为球面先验,冻结编码器微调解码器,并用球面线性插值替代线性插值。由此构建的测地路径始终保持在球面上,速度目标纯由角度构成。在同等训练条件下,该方法在不同图像标记器上持续提升类别条件ImageNet-256的FID指标,无需改变扩散架构,也不依赖辅助编码器或表示对齐目标。
The version numbers are a little confusing and deserve some explanation. Internally, we are working on version 9 of our ...
针对传统RLVR在难题上样本效率低的问题,研究团队提出了少样本演示指导的强化学习算法FEST。该方法仅需从监督微调数据集中随机选取128个演示样本,即可取得显著效果。其成功关键在于结合了监督信号与同策略信号,并通过对少样本SFT数据集设置衰减权重来防止多轮训练中的过拟合。在多个基准测试中,FEST以远少于基线方法所需的SFT数据量实现了更优性能,甚至在使用完整数据集时也能达到与之匹配的水平。
Mixture of Experts(MoE)与标准Transformer的核心区别在于解码器模块:后者使用单一前馈网络,而MoE将其替换为多个小型专家网络。推理时,MoE仅激活部分专家,以更多参数换取更快的计算速度。模型通过路由器为每个token选择top-K专家。训练面临两大挑战:一是“专家过选”,通过添加噪声和屏蔽非top-K logit来缓解;二是“负载不均”,通过设置专家处理token的容量上限来平衡。Mixtral 8x7B等模型是MoE的典型应用。
Transformer and Mixture of Experts, explained visually! Mixture of Experts (MoE) is a popular architecture that uses dif...
FrontierSmith 是一个自动化系统,能从现有封闭式编码任务中迭代演化出开放式问题。它通过改变问题目标、限制输出和泛化输入生成候选变体,并利用量化思维发散指标筛选能激发多元解法的问题,再由智能体生成测试用例与验证器。在两个开放式编码基准测试中,使用合成数据训练后,基础模型性能显著提升:Qwen3.5-9B 在 FrontierCS 上得分提高 +8.82,在 ALE-bench 上基于 Elo 评分的性能提升 +306.36;Qwen3.5-27B 分别提升 +12.12 和 +309.12。合成问题还使智能体进行更多轮次、消耗更多令牌,其特性与人工构建问题相似,表明封闭式问题种子可作为生成长视野编码数据的实用起点。
本文针对奖励函数时变的马尔可夫决策过程,提出了通用迪杰斯特拉搜索方法,证明了通过中间最优子策略的时间组合可恢复全局最优策略。受此启发,作者提出了动态潜在路由,这是一种语言模型后训练方法,能在单一训练阶段通过动态搜索联合学习离散潜在代码、路由策略和模型参数。在低数据微调场景下,该方法在四个数据集和六个模型上达到或超越了监督微调的性能,平均提升6.6个百分点,而先前的离散潜在基线方法则持续表现不佳。机理分析表明,该方法能学习具有不同因果角色的结构化路由行为。
DiffusionOPD 提出一种基于在线策略蒸馏的扩散模型多任务训练范式,以解决多任务强化学习中的交叉干扰与失衡问题。该方法先独立训练任务专属教师模型,再沿学生自身采样轨迹将能力蒸馏至统一学生,从而解耦单任务探索与多任务整合。理论层面,研究将 OPD 框架从离散标记推广至连续状态马尔可夫过程,推导出闭式逐步 KL 目标,通过均值匹配统一随机 SDE 与确定性 ODE 优化,其解析梯度相比传统 PPO 类策略梯度具有更低方差与更好泛化性。实验表明,DiffusionOPD 在训练效率和最终性能上均超越多奖励强化学习与级联强化学习基线,并在全部评估基准上取得领先结果。
强化学习为LLM智能体后训练提供核心范式,但其轨迹级奖励信号对长程交互的监督较为粗略。针对多轮智能体应用策略自蒸馏时,存在多轮不稳定性加剧以及技能条件化特权指导处理不对称的问题。本文提出的SDAR方法将策略自蒸馏作为门控辅助目标,以强化学习为主要优化主干,通过Sigmoid门映射分离的令牌级信号,强化教师认可的正向差距令牌的蒸馏,并软衰减教师的负面拒绝。在多个基准上的实验表明,SDAR显著优于GRPO基线,避免了朴素混合方法的不稳定性,并在不同模型规模上持续超越混合基线。
Excited to have contributed to the spatial intelligence capabilities of SenseNova-U1, surpassing strong baselines such a...
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》研究提出一种基于Transformer的模型,可将德国政治文本的意识形态投射到连续的左-右光谱上(-1到1)。为筛选最优基础模型,团队构建了四个语料库:联邦议院记录、Wahl-O-Mat内容、33家报纸文章及535,200条议员推文。在13个候选模型中,DeBERTa-large在领域内测试获得最高F1分数(0.844),在推文跨域测试中准确率达0.864;Gemma2-2B在报纸跨域测试中表现最优(平均绝对误差0.172)。研究表明,Transformer模型识别德国新闻政治框架的能力可达民意调查水平,且模型架构与领域训练数据的影响可与模型规模相当。
2/ Go deeper with more metrics and analyze: • Keyword demand, difficulty, CPC, and intent • Branded vs. unbranded search...
Very important update from UK AISI. This is a meaningful change from the previous report. Here's what the new data would...
Build dashboards and automations from your Snowflake data for pipeline analysis, product usage, customer segments, and m...
为解决将自然语言设计规则转换为可执行DRC脚本过程中成本高、专业门槛高的问题,研究团队提出了Rule2DRC大规模基准测试集。该基准包含1,000个规则到脚本的映射任务及13,921个用于执行评分的芯片布局,并提供基于DRC执行结果的功能正确性评估流程,无需将评估布局作为智能体输入。同时,研究设计了SplitTester测试智能体,它利用执行反馈生成有区分性的测试用例,有效分离先前难以区分的候选脚本,显著提升了该领域中Best-of-N选择策略的性能,为相关研究与开发提供了重要工具。
为解决强化学习应用于代理式大语言模型时成本高、扩展难的问题,我们提出AstraFlow。该系统采用数据流导向的组件化架构,替代了传统以训练器为中心的控制模式,将服务、数据流与训练解耦为自治组件。这使系统能原生支持多策略协同训练,并高效利用弹性、异构的跨区域计算资源。在数学、编程、搜索等多类任务评估中,AstraFlow无需修改系统代码即可运行复杂工作负载。实验表明,在多策略协同训练下,它相比现有框架能达到相当或更好的任务准确率,并将训练速度提升2.7倍。
针对多模态大语言模型在多人视频中难以识别交互关系的问题,研究团队提出了GRASP数据集。该数据集包含29万个问答对,源自4.6万个视频共749小时,建立了涵盖注视、指示性手势及其组合推理的16类分类体系。同时发布配套评估基准GRASP-Bench,并提出社会情境奖励学习信号,利用这些细粒度事件引导模型推理交互参与者。实验表明,该方法提升了GRASP-Bench性能,并保持了在相关视频问答基准上的零样本能力。
针对CLIP在微调时易因分布偏移而鲁棒性下降的问题,本文提出SAE-FT方法。该方法仅作用于视觉表征,利用稀疏自编码器识别预训练模型中的语义特征,并在微调中约束这些特征的变化,从而在防止灾难性遗忘的同时提升可解释性。实验表明,SAE-FT计算高效且透明,在ImageNet及相关分布偏移基准上达到或超越现有最优性能,代码已公开。
针对现有3D数据集存在的视图冗余与标注不一致等问题,本研究提出了COVER视角筛选方法。该方法无需训练,通过将多视角观测投影至等距柱状投影探针,以增量式覆盖评分与深度冲突惩罚,筛选出低冗余的稀疏视角。基于此方法,研究构建了CM-EVS数据集,包含来自1,275个室内场景的36,373帧精选全景帧,每帧提供全视角RGB、度量级深度及校准位姿。该数据集室内部分仅用中位25帧/场景即覆盖所有13种统一房间类型,实现了紧凑而完整的场景覆盖。实验表明,COVER方法优化了覆盖与冲突的权衡,使CM-EVS成为一个稀疏、紧凑、可审计的资源,适用于几何一致的全景3D学习。
DepthVLM框架通过为大型语言模型主干附加轻量级深度头,并采用统一视觉-文本监督范式与两阶段训练策略,将单一视觉语言模型转化为原生稠密几何预测器。该模型能在单次前向传播中生成全分辨率深度图与语言输出,推理效率更高。实验表明,其性能显著超越现有视觉语言模型和领先的纯视觉模型,并提升了复杂三维空间推理能力。所有代码与模型检查点将公开。