Introducing EgoVerse: an ecosystem for robot learning from egocentric human data. Built and tested by 4 research labs + ...
Introducing EgoVerse: an ecosystem for robot learning from egocentric human data. Built and tested by 4 research labs + ...
Google Research 发布自监督地理空间框架 S2Vec,利用 S2 Geometry 将地球表面划分为分层单元格,把建筑、道路等特征栅格化为多层图像,通过掩码自编码器(MAE)学习通用嵌入向量。无需人工标注即可预测人口密度、房价等社会经济指标,在地理外推任务中表现优于图像基线模型,但树冠覆盖和海拔等环境预测任务仍需改进。
针对使用强模型合成数据微调推理模型时出现的性能下降问题,本文提出师生协作数据合成框架TESSY。该框架通过让师生模型交替生成风格与非风格标记,使合成数据兼具教师的高级推理能力与学生风格一致性。实验以GPT-OSS-120B为教师、Qwen3-8B为学生,在代码生成任务中,传统方法使LiveCodeBench-Pro和OJBench性能分别下降3.25%和10.02%,而TESSY实现11.25%和6.68%的显著提升。
英伟达在Hugging Face平台发布技术博客,分享了一种在24小时内快速构建高质量领域特定嵌入模型的方法。该方法通过结合高效微调技术与领域数据,显著提升了模型在专业任务中的语义理解与检索性能,为企业和开发者提供了低成本、高效率的定制化嵌入解决方案。
Mistral AI推出企业级AI模型构建系统Forge,该系统允许企业利用内部专有知识(如工程标准、代码库、操作流程)训练定制化的前沿模型,以弥补通用AI与企业特定需求之间的差距。Forge支持从预训练到强化学习的完整模型生命周期,并与ASML、爱立信等领先机构合作,用于训练支撑其复杂系统的专有模型。该系统强调控制与战略自主性,确保模型完全由企业掌控,旨在打造能理解内部术语、遵循工作流程并可靠集成到运营中的智能体。
开源RL框架Miles正式支持ROCm,可在AMD Instinct MI300/350 GPU上原生运行大规模语言模型后训练。该框架采用解耦架构分离rollout生成与模型优化,针对RL工作负载中占比70-90%的推理场景优化。在单节点8卡MI300X上训练Qwen3-30B-A3B的实测显示,rollout吞吐达1.1k-1.3k tok/GPU/s,AIME准确率从66.5%提升至72.9%。现提供预构建容器,支持GRPO、Megatron-LM和FSDP后端。
Google Research与NHS合作在Nature Cancer发表两项AIMS研究,评估AI乳腺癌检测系统。回顾性分析11.6万例乳腺X光片显示,AI敏感性显著高于原始第一读者且不降低特异性,癌症检出率从7.54升至9.33/1000,检出25%间隔癌;前瞻性研究验证技术整合可行性。第二项研究进一步测试AI替代双读流程中第二读者的端到端效果。研究为AI辅助筛查提供证据,有望缓解放射科医生30%-40%短缺压力。
两项耗资巨大的AI实验相继失败,为"规模扩张并非实现突破的唯一路径"提供了新的佐证。这些结果表明,单纯依靠增加算力、数据和模型参数的传统Scaling策略可能已触及瓶颈,行业需要探索新的技术范式,而非一味追求规模扩张。
Dylan Patel 深度解析了制约 AI 算力规模扩张的三大核心瓶颈:电力基础设施限制、先进制程芯片产能不足以及网络互联带宽瓶颈。尽管 NVIDIA H100 已发布三年,受供需严重失衡及新一代芯片交付延迟影响,其市场价格与战略价值持续攀升,当前实际价值甚至超过发布初期。文章指出,这些结构性约束正重塑 AI 基础设施的投资逻辑与部署节奏。
伯克利人工智能研究所提出 SPEX 与 ProxySPEX 算法,通过信号处理与编码理论实现大语言模型关键交互作用的高效识别。该方法基于" influential interactions 具有稀疏性与低阶性"的核心观察,将指数级搜索问题转化为可解的稀疏恢复问题,以极少的消融次数定位驱动模型输出的关键特征组合与内部组件依赖,突破传统方法在计算规模上的限制。
Google Research在Flood Hub推出城市山洪预测服务,采用新型AI方法Groundsource从新闻报道中提取历史洪水数据作为训练集,结合全球天气模型,可为城市地区提供最长24小时预警。该系统以20x20公里分辨率运行,无需依赖高分辨率水文地图或本地雷达,旨在解决全球南方国家山洪预警基础设施不足的问题,弥补传统 riverine 洪水预测无法覆盖快速 onset 灾害的空白。
We are partnering with @nvidia to power our frontier model training and platforms delivering customizable AI. https://th...
Ten years ago, AlphaGo's legendary match in Seoul heralded the start of the modern era in AI. Its famous 'Move 37' signa...
IH-Challenge 训练模型优先处理可信指令,改进指令层级、安全可控性,并提升对提示词注入攻击的抵抗能力。
Hugging Face Hub 发布 Storage Buckets,这是一种为机器学习工作流设计的可变、类 S3 的对象存储服务。它基于 Xet 存储后端,能对跨文件共享内容的 ML 工件进行高效去重,从而节省带宽、加速传输并降低存储成本。该服务还提供“预暖”功能,可将数据预先迁移至靠近计算资源的云区域,以提升分布式训练等场景的效率。目前支持 AWS 和 GCP,用户可通过 CLI 或 Python 库在 2 分钟内快速创建和同步存储桶。
研究团队发布了Ulysses序列并行方法,这是一种用于训练大型语言模型的新技术。该方法通过将长序列在设备间进行特定维度的分割与重组,实现了对极长上下文的并行处理。其核心变化在于能高效训练上下文长度高达百万令牌的模型,突破了现有方法在序列长度上的扩展瓶颈。这一进展使得在保持高训练效率的同时,处理书籍、长文档等超长文本成为可能,为推进AI的民主化与开源发展提供了关键技术支撑。
Olmo 发布采用混合架构的最新模型,聚焦开源后训练工具的前沿技术探索。该模型代表了大语言模型架构的新进展,围绕后训练阶段的优化方法与工具创新展开讨论,为开源社区提供了模型训练与架构演进的最新实践参考。相关技术动向揭示了 LLM 开发流程中后训练环节的关键趋势。
Train Beyond Language. We bet on the visual world as the critical next step alongside and beyond language modeling. So, ...
阶跃星辰将 Step 3.5 Flash 的预训练、中训练和训练框架全部开源,支持开发者进行更深度模型定制,以打造专属 AI 智能体。
Photoroom团队在Hugging Face上发布博客,宣布成功在24小时内完成一个文本到图像模型的训练。这一突破将此类模型的典型训练周期从数周大幅缩短至仅一天。实现的关键在于采用了名为PRX的高效训练方法,该方法优化了计算资源分配与数据处理流程。此举显著降低了模型训练的时间与成本门槛,为快速迭代和部署高质量的图像生成AI模型提供了新的可能性。
为突破“端到端”论文生成中出版级科学示意图(如导读图)的制作瓶颈,研究团队构建了DiagramBank数据集。该数据集通过自动化流程从顶级出版物中筛选出89,422张示意图,并利用CLIP过滤器区分示意图与标准图表。每个实例均附有从摘要到图文对照的丰富上下文信息,支持多粒度检索。团队同步开源了检索增强生成代码库,演示如何基于范例合成导读图,数据集与代码均已公开。
研究团队提出EgoScale方法,基于20,000小时第一人称人类视频预训练GR00T N1.5,仅用4小时机器人数据即可掌握组装模型车、操作注射器等高灵巧度任务,性能较从头训练提升54%。研究发现人类视频量与动作预测损失呈对数线性缩放关系(R²=0.998)。该方法利用22-DoF手部与人类的运动学相似性,无需复杂迁移算法即可重定向动作。策略可跨硬件迁移至Unitree G1(7-DoF),性能提升30%以上,且仅需单个示教即可学习新任务。
关联讨论 1 条X:Jim Fan (@DrJimFan)针对 Anthropic 关于"蒸馏攻击"的最新论述,分析模型蒸馏技术对中国大语言模型的实际影响。探讨通过蒸馏 GPT、Claude 等模型来训练中国 LLM 的效果与争议,评估该方法在提升模型性能与降低训练成本方面的作用,以及可能引发的知识产权与安全问题。
Hugging Face 宣布通过其平台提供免费 AI 模型训练服务,用户可结合 Unsloth 高效训练工具与 Hugging Face Jobs 功能,无需支付费用。该举措旨在降低 AI 开发门槛,推动开源开放科学,促进人工智能技术的民主化进程。核心变化在于将原先需付费或自建基础设施的训练流程,整合为平台内可直接调用的免费资源,显著减少开发者的时间和经济成本。
MiniMax 解密其 Agent RL 架构,该架构实现了 40 倍训练加速,并打破了训练效率、模型性能与推理能力之间的“不可能三角”。
腾讯混元在强化学习领域的新研究聚焦 RLVR 模型调优,目标是使调优过程从经验性的“玄学”转向更具可解释性和可复现性的科学范式。
提出一种稳定 RLVR 训练的新方法,采用 Token 级梯度诊断技术精准定位异常梯度来源,结合逐层梯度裁剪(Layerwise Clipping)对不同网络层实施差异化约束,有效抑制训练过程中的梯度爆炸与策略震荡,提升强化学习训练的稳定性与收敛效率。
Interconnects 第17期访谈中,Nvidia 副总裁 Bryan Catanzaro 系统回顾了 Nemotron 开源模型项目的技术演进与战略定位。访谈涵盖该系列模型从研发初期到当前版本的迭代历程,剖析了英伟达在开源 AI 领域的布局逻辑,并披露了 Nemotron 在合成数据生成与模型训练效率方面的最新进展及未来规划。
上下文学习(in-context learning)的实际效果存在明显局限。研究表明,大语言模型难以从提示示例中真正提取任务规则,往往依赖表面模式匹配而非深层理解。单纯增加示例数量无法线性提升性能,模型容易受到示例顺序和分布的影响,需要重新评估该能力的实际边界。
提供的正文内容为 PDF 二进制流数据及乱码,无法提取有效信息(如具体方法、实验指标或模型发布细节),因此无法撰写准确摘要。请提供可读的文本内容(如论文摘要或正文段落),以便提取关键信息点完成摘要撰写。
LinkedIn团队探索了将GPT-OSS模型作为智能体应用核心进行强化学习的可行性。实验发现,由于GPT-OSS采用的混合专家架构在两次前向传播中可能产生路由差异,导致在同策略PPO训练中出现重要性采样比率偏离、KL散度爆炸及奖励不增长的问题。团队通过一个关键修复——在同策略条件下强制将旧对数概率设置为新计算值(并分离梯度),确保了重要性采样比率为1,从而恢复了PPO同策略训练的完整性。该修复方案适用于GPT-OSS-20B及GPT-OSS-120B模型。
SGLang RL团队联合多家机构开源INT4量化感知训练端到端方案。受Kimi K2启发,训练阶段采用伪量化,推理阶段使用W4A16(INT4权重、BF16激活)真实量化,实现与BF16全精度相当的稳定性。该方案将约1TB模型压缩至单张H200(141GB)GPU即可完成rollout,彻底消除跨节点通信瓶颈,显著提升推理效率,为大规模模型训练提供高性能、低成本的开源实践参考。
We have been training with TPUs in academia for two years now (huge thanks to Google TRC!). Works like Cambrian-1, Cambr...
作者发布2026年1月10日阅读清单,涵盖非线性动力学与混沌理论、探讨AI自动化的《Machines of Loving Grace》、Neuralink联合创始人Max Hodak关于意识的理论假说,以及神经网络训练过程中产生精美分形图案的现象。内容横跨复杂系统、神经科学与机器学习可视化等多个前沿领域。
研究团队提出专为网页文档设计的 W-RAC 分块框架,将文本提取与语义分块规划解耦,以结构化 ID 寻址单元管理内容,并仅利用 LLM 执行检索感知分组决策而非文本生成。该方法在消除幻觉风险、提升系统可观测性的同时,将分块相关 LLM 成本降低一个数量级,且保持或优于传统方法的检索性能。
Adam Marblestone 指出,当前人工智能研究忽略了大脑运作的核心机制。与业界普遍关注神经网络架构不同,大脑的真正优势在于其奖励函数而非结构本身。这一观点挑战了主流 AI 研究范式,暗示未来突破可能来自对大脑激励系统的深入理解,而非单纯的架构模仿。该论断为人工智能发展提供了新的思考维度。