研究团队提出一种元优化的fMRI语义视觉解码方法,通过上下文学习实现免训练的跨受试者泛化。该方法仅需少量图像-脑激活样本作为条件,即可快速推断新受试者的独特神经编码模式,并采用分层反演策略完成解码。实验表明,无需重新训练、微调、解剖对齐或刺激重叠,即可在多种视觉主干网络上实现强跨受试者和跨扫描仪泛化能力,为构建非侵入式脑解码通用基础模型奠定关键基础。
研究者提出隐性课程假设,指出预训练遵循可组合且可预测的课程结构。通过设计涵盖检索、形态转换、逻辑推理和数学等领域的组合任务,对410M至13B参数的四个模型家族进行追踪,发现技能涌现顺序跨模型高度一致(ρ=.81),且复合任务通常在其组件任务之后出现。研究表明该结构编码于模型内部表征中,利用任务表征空间可有效预测未见过组合任务的训练轨迹(R²=.68-.84),揭示预训练过程比损失曲线显示的更具结构性。
针对大语言模型后训练必须使用新鲜 on-policy 数据的传统观点,研究系统探讨了经验回放技术的应用。通过形式化分析 replay buffer 设计在数据陈旧性方差、样本多样性与生成计算成本间的权衡,发现当生成成本高昂时,严格的 on-policy 采样实为次优选择。实证表明,设计良好的 replay buffer 可在保持策略熵的同时,大幅减少推理计算,且不损害甚至提升最终模型性能。
Google Research 发布 ConvApparel 数据集与评估框架,用于量化 LLM 用户模拟器的"真实感差距"。该数据集包含 4000 余组服装购物多轮对话,采用"好/坏"双智能体协议收集,涵盖从满意到恼怒的全谱系用户行为。框架通过反事实验证测试模拟器对意外糟糕体验的适应能力,解决现有模拟器过于耐心、知识过剩等不现实问题,为训练更鲁棒的对话智能体提供可信的 AI 测试基准。
MoZoo是一个生成式动力学求解器,能绕过传统精炼流程,从粗糙网格直接合成高保真的动物视频。其核心是角色感知旋转位置编码RAR-RoPE,通过基于角色的索引重映射同步运动对齐;同时引入非对称解耦注意力机制,强制单向信息流以防止特征干扰并提升效率。为解决训练数据稀缺问题,提出了MoZoo-Data合成到真实的流水线,并构建了包含120对网格-视频的评测基准MoZooBench。实验表明,MoZoo在多样动物骨架与布局上实现了高保真的毛发模拟,并保持了优异的时间与结构一致性。
研究团队发布了TC-AE,一种用于深度压缩自动编码器的新方法,旨在突破现有模型的令牌容量限制。该方法通过创新的架构设计,显著提升了模型在压缩表示中保留信息的能力,实现了更高的压缩效率与重建质量。具体指标显示,TC-AE在多个基准测试中,相较于传统深度压缩自动编码器,将有效令牌容量提升了约30%,同时保持了较低的计算开销。这项工作为高密度数据压缩与表示学习提供了新的技术路径。
inclusionAI发布了cuLA项目,这是一套为线性注意力变体编写的CUDA内核。该内核完全采用NVIDIA的CuTe DSL和CUTLASS C++库进行开发,旨在高效实现Transformer模型中的线性注意力机制。此举专注于底层计算优化,通过利用先进的CUDA编程抽象和高效模板库,有望提升大语言模型在推理和训练过程中的计算性能与效率。
OpenMed团队构建了一个覆盖蛋白质结构预测、序列设计和密码子优化的端到端AI流程。在密码子优化环节,CodonRoBERTa-large-v2模型以4.10的困惑度和0.40的斯皮尔曼CAI相关性显著优于其他架构。研究将训练扩展至25个物种,仅用55个GPU小时训练了4个生产级模型,并建立了独特的物种条件化系统,实现了从蛋白质概念到合成就绪DNA序列的快速转化。完整代码与实验结果已开源。
Orbax 和 MaxText 引入了连续检查点新功能,旨在优化模型训练中可靠性与性能的平衡。它改变了传统固定频率检查点的模式,通过在前一个保存操作成功完成后才异步启动新操作,最大化I/O带宽并降低故障风险。基准测试表明,该方法显著缩短了检查点间隔,并实现了可观的资源节约,这在平均故障间隔时间较短的大规模训练任务中效果尤为突出。
Hugging Face 正式发布 TRL v1.0,这是一个专为大语言模型后训练设计的开源库。该版本整合了 SFT、RLHF 等多种高效微调技术,提供从监督微调到人类反馈强化学习的完整工具链。新库支持与 Transformers、PEFT 等主流框架无缝集成,显著简化了模型对齐流程。此次更新旨在降低大语言模型微调门槛,推动AI技术民主化,使开发者能够更便捷地提升模型在对话、安全等方面的性能表现。
Google Research 提出基于"gold"评级数据的机器学习评估框架,通过模拟器优化评分项目数量与评分者数量的权衡。研究挑战了当前 AI 基准测试仅使用 1-5 名评分者的行业标准,发现要准确捕捉人类观点差异通常需要超过 10 名评分者。该框架为构建高可复现性且成本高效的 AI 评估体系提供了路线图,并开源了模拟工具。
视觉-语言-动作模型在构建通用机器人时面临二维图像预测与三维动作预测不对齐的困境,且视觉与动作耦合的训练方式限制了模型从大规模无动作网络视频中学习。为此,研究提出DeFI框架,将视觉前向动力学与逆向动力学预训练解耦,分别利用不同数据源。该框架包含通用前向动力学模型,通过多样人类与机器人视频预训练以进行未来预测;以及通用逆向动力学模型,通过自监督学习从无标注视频转换中推断潜在动作。两者随后集成至统一架构,在下游任务中进行端到端微调。实验表明,DeFI在CALVIN基准上取得平均任务长度4.51,在SimplerEnv-Fractal基准上获得51.2%的成功率,在真实世界部署中达到81.3%的成功率,显著超越现有方法。
Lightfeed Extractor 发布基于 TypeScript 的 LLM 网页数据提取库,支持通过自然语言提示和 Zod schema 从 HTML、Markdown 或纯文本中提取结构化数据。核心功能包括 HTML 转 Markdown 预处理、JSON 模式输出、失败 JSON 自动修复及 token 追踪。可与 Playwright 集成加载动态页面,或配合 browser-agent 实现自然语言导航后提取,适用于电商竞品监控等生产级场景。
SGLang亮相Jensen Huang主题演讲AI生态图谱,三天内密集举办五场活动。团队与RadixArk合办200人技术聚会,在LinkedIn总部举办搜索与推荐LLM系统研讨,并参与700人规模的Novita行业论坛。官方培训实验室发布Miles RL框架,解决生产环境训练-推理不匹配难题;LinkedIn工程师分享预填充优化方案,在H100上实现2–3倍吞吐量提升并回馈上游。
Google Research 发布自监督地理空间框架 S2Vec,利用 S2 Geometry 将地球表面划分为分层单元格,把建筑、道路等特征栅格化为多层图像,通过掩码自编码器(MAE)学习通用嵌入向量。无需人工标注即可预测人口密度、房价等社会经济指标,在地理外推任务中表现优于图像基线模型,但树冠覆盖和海拔等环境预测任务仍需改进。
针对使用强模型合成数据微调推理模型时出现的性能下降问题,本文提出师生协作数据合成框架TESSY。该框架通过让师生模型交替生成风格与非风格标记,使合成数据兼具教师的高级推理能力与学生风格一致性。实验以GPT-OSS-120B为教师、Qwen3-8B为学生,在代码生成任务中,传统方法使LiveCodeBench-Pro和OJBench性能分别下降3.25%和10.02%,而TESSY实现11.25%和6.68%的显著提升。
英伟达在Hugging Face平台发布技术博客,分享了一种在24小时内快速构建高质量领域特定嵌入模型的方法。该方法通过结合高效微调技术与领域数据,显著提升了模型在专业任务中的语义理解与检索性能,为企业和开发者提供了低成本、高效率的定制化嵌入解决方案。
Mistral AI推出企业级AI模型构建系统Forge,该系统允许企业利用内部专有知识(如工程标准、代码库、操作流程)训练定制化的前沿模型,以弥补通用AI与企业特定需求之间的差距。Forge支持从预训练到强化学习的完整模型生命周期,并与ASML、爱立信等领先机构合作,用于训练支撑其复杂系统的专有模型。该系统强调控制与战略自主性,确保模型完全由企业掌控,旨在打造能理解内部术语、遵循工作流程并可靠集成到运营中的智能体。
开源RL框架Miles正式支持ROCm,可在AMD Instinct MI300/350 GPU上原生运行大规模语言模型后训练。该框架采用解耦架构分离rollout生成与模型优化,针对RL工作负载中占比70-90%的推理场景优化。在单节点8卡MI300X上训练Qwen3-30B-A3B的实测显示,rollout吞吐达1.1k-1.3k tok/GPU/s,AIME准确率从66.5%提升至72.9%。现提供预构建容器,支持GRPO、Megatron-LM和FSDP后端。
Google Research与NHS合作在Nature Cancer发表两项AIMS研究,评估AI乳腺癌检测系统。回顾性分析11.6万例乳腺X光片显示,AI敏感性显著高于原始第一读者且不降低特异性,癌症检出率从7.54升至9.33/1000,检出25%间隔癌;前瞻性研究验证技术整合可行性。第二项研究进一步测试AI替代双读流程中第二读者的端到端效果。研究为AI辅助筛查提供证据,有望缓解放射科医生30%-40%短缺压力。
两项耗资巨大的AI实验相继失败,为"规模扩张并非实现突破的唯一路径"提供了新的佐证。这些结果表明,单纯依靠增加算力、数据和模型参数的传统Scaling策略可能已触及瓶颈,行业需要探索新的技术范式,而非一味追求规模扩张。
Dylan Patel 深度解析了制约 AI 算力规模扩张的三大核心瓶颈:电力基础设施限制、先进制程芯片产能不足以及网络互联带宽瓶颈。尽管 NVIDIA H100 已发布三年,受供需严重失衡及新一代芯片交付延迟影响,其市场价格与战略价值持续攀升,当前实际价值甚至超过发布初期。文章指出,这些结构性约束正重塑 AI 基础设施的投资逻辑与部署节奏。
伯克利人工智能研究所提出 SPEX 与 ProxySPEX 算法,通过信号处理与编码理论实现大语言模型关键交互作用的高效识别。该方法基于" influential interactions 具有稀疏性与低阶性"的核心观察,将指数级搜索问题转化为可解的稀疏恢复问题,以极少的消融次数定位驱动模型输出的关键特征组合与内部组件依赖,突破传统方法在计算规模上的限制。
Google Research在Flood Hub推出城市山洪预测服务,采用新型AI方法Groundsource从新闻报道中提取历史洪水数据作为训练集,结合全球天气模型,可为城市地区提供最长24小时预警。该系统以20x20公里分辨率运行,无需依赖高分辨率水文地图或本地雷达,旨在解决全球南方国家山洪预警基础设施不足的问题,弥补传统 riverine 洪水预测无法覆盖快速 onset 灾害的空白。
IH-Challenge 训练模型优先处理可信指令,改进指令层级、安全可控性,并提升对提示词注入攻击的抵抗能力。
Hugging Face Hub 发布 Storage Buckets,这是一种为机器学习工作流设计的可变、类 S3 的对象存储服务。它基于 Xet 存储后端,能对跨文件共享内容的 ML 工件进行高效去重,从而节省带宽、加速传输并降低存储成本。该服务还提供“预暖”功能,可将数据预先迁移至靠近计算资源的云区域,以提升分布式训练等场景的效率。目前支持 AWS 和 GCP,用户可通过 CLI 或 Python 库在 2 分钟内快速创建和同步存储桶。
研究团队发布了Ulysses序列并行方法,这是一种用于训练大型语言模型的新技术。该方法通过将长序列在设备间进行特定维度的分割与重组,实现了对极长上下文的并行处理。其核心变化在于能高效训练上下文长度高达百万令牌的模型,突破了现有方法在序列长度上的扩展瓶颈。这一进展使得在保持高训练效率的同时,处理书籍、长文档等超长文本成为可能,为推进AI的民主化与开源发展提供了关键技术支撑。
Olmo 发布采用混合架构的最新模型,聚焦开源后训练工具的前沿技术探索。该模型代表了大语言模型架构的新进展,围绕后训练阶段的优化方法与工具创新展开讨论,为开源社区提供了模型训练与架构演进的最新实践参考。相关技术动向揭示了 LLM 开发流程中后训练环节的关键趋势。
阶跃星辰将 Step 3.5 Flash 的预训练、中训练和训练框架全部开源,支持开发者进行更深度模型定制,以打造专属 AI 智能体。
Photoroom团队在Hugging Face上发布博客,宣布成功在24小时内完成一个文本到图像模型的训练。这一突破将此类模型的典型训练周期从数周大幅缩短至仅一天。实现的关键在于采用了名为PRX的高效训练方法,该方法优化了计算资源分配与数据处理流程。此举显著降低了模型训练的时间与成本门槛,为快速迭代和部署高质量的图像生成AI模型提供了新的可能性。
为突破“端到端”论文生成中出版级科学示意图(如导读图)的制作瓶颈,研究团队构建了DiagramBank数据集。该数据集通过自动化流程从顶级出版物中筛选出89,422张示意图,并利用CLIP过滤器区分示意图与标准图表。每个实例均附有从摘要到图文对照的丰富上下文信息,支持多粒度检索。团队同步开源了检索增强生成代码库,演示如何基于范例合成导读图,数据集与代码均已公开。
针对 Anthropic 关于"蒸馏攻击"的最新论述,分析模型蒸馏技术对中国大语言模型的实际影响。探讨通过蒸馏 GPT、Claude 等模型来训练中国 LLM 的效果与争议,评估该方法在提升模型性能与降低训练成本方面的作用,以及可能引发的知识产权与安全问题。
Hugging Face 宣布通过其平台提供免费 AI 模型训练服务,用户可结合 Unsloth 高效训练工具与 Hugging Face Jobs 功能,无需支付费用。该举措旨在降低 AI 开发门槛,推动开源开放科学,促进人工智能技术的民主化进程。核心变化在于将原先需付费或自建基础设施的训练流程,整合为平台内可直接调用的免费资源,显著减少开发者的时间和经济成本。
MiniMax 解密其 Agent RL 架构,该架构实现了 40 倍训练加速,并打破了训练效率、模型性能与推理能力之间的“不可能三角”。
腾讯混元在强化学习领域的新研究聚焦 RLVR 模型调优,目标是使调优过程从经验性的“玄学”转向更具可解释性和可复现性的科学范式。
提出一种稳定 RLVR 训练的新方法,采用 Token 级梯度诊断技术精准定位异常梯度来源,结合逐层梯度裁剪(Layerwise Clipping)对不同网络层实施差异化约束,有效抑制训练过程中的梯度爆炸与策略震荡,提升强化学习训练的稳定性与收敛效率。