AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「数据/训练」清除
3月24日周二
01:41Jim Fan遥操作已是2025:EgoVerse 正式发布,开启无机器人规模化学习时代
00:33Epoch AIAI 公司如何分配研发算力?
00:00Google Research:Blog(网页)绘制现代世界:S2Vec 如何学习城市的语言
3月23日周一
12:36Deedy匿名发帖需谨慎:新研究表明 AI 仅凭帖子就能识别你的身份
08:00HuggingFace Daily Papers(社区热门论文)师生协作合成学生一致性SFT数据的框架
3月21日周六
03:38Hugging Face:Blog(RSS)70精选一日之内构建领域特定嵌入模型
3月18日周三
17:33公众号:腾讯混元53腾讯最新财报:混元智能水平持续提升
3月17日周二
00:00Mistral AI:News(网页)83Mistral AI 发布企业级AI模型构建系统Forge
00:00LMSYS:Blog(Chatbot Arena 团队)Miles RL框架正式支持ROCm:基于AMD Instinct GPU的大规模后训练
00:00Google Research:Blog(网页)利用机器学习改进乳腺癌筛查工作流程
3月15日周日
02:23Gary Marcus:The Road to AI We Can Trust(RSS)重磅:昂贵的新证据表明规模扩张并非万能
3月14日周六
00:00Dwarkesh Patel:Podcast & Blog(RSS)精选Dylan Patel - 深度剖析 AI 算力扩展的三大瓶颈
3月13日周五
17:00BAIR:Berkeley AI Research Blog面向 LLM 的大规模交互作用识别
3月12日周四
00:00Google Research:Blog(网页)利用AI驱动的山洪预测保护城市
3月11日周三
01:08Lilian Weng构建技术以在下一代大规模硬件上实现更好的人机协作。令人兴奋。
00:17Noam Brown精选当今前沿推理模型的配方与 AlphaGo 惊人相似:
3月10日周二
19:00OpenAI:官网动态(RSS · 排除企业/客户案例)精选改进前沿 LLM 的指令层级
08:00Hugging Face:Blog(RSS)83精选Hugging Face Hub 正式推出 Storage Buckets 存储服务
3月9日周一
08:00Hugging Face:Blog(RSS)76精选Ulysses Sequence Parallelism: 实现百万令牌上下文的训练
3月6日周五
00:16Nathan Lambert:Interconnects(RSS)Olmo Hybrid 与未来 LLM 架构
3月5日周四
07:55Saining Xie来自 @TongPetersb、@DavidJFan 和 @__JohnNguyen__ 的又一项科学探索,即使你身处前沿实验室,也可能会让你学到新东西 这里有很多有趣的观察,但我只强调一点: - 尝试用 MoE 扩展 DiTs 大多徒劳无功,这算是行业公开的秘密。 - 但 RAE 与 MoE 之间意外却直观的协同作用,可能真的会改变这一点。 【引用 @TongPetersb】:超越语言训练。我们押注视觉世界,将其作为与语言建模并行且超越它的关键下一步。因此,我们研究了从零开始用视觉构建基础模型。我们分享我们的探索:视觉表征、数据、世界建模、架构和扩展行为!【1/9】
3月4日周三
09:00公众号:阶跃星辰(Step)49阶跃星辰 Step 3.5 Flash 预训练/中训练/训练框架全部开源
00:50Hugging Face:Blog(RSS)70精选PRX 第三部分 -- 24小时内训练一个文本到图像模型!
3月3日周二
20:56公众号:蚂蚁百灵(Ling)41超长上下文训练速度翻倍秘籍
2月28日周六
08:00HuggingFace Daily Papers(社区热门论文)46DiagramBank:一个用于检索增强生成的大规模示意图设计范例数据集
2月26日周四
01:22Jim Fan精选22自由度灵巧手人形机器人:从2万小时人类视频学习精细操作
2月25日周三
00:06Nathan Lambert:Interconnects(RSS)精选蒸馏对中国 LLM 到底有多重要?
2月20日周五
08:00Hugging Face:Blog(RSS)58使用 Unsloth 和 Hugging Face Jobs 免费训练 AI 模型
2月14日周六
22:06公众号:MiniMax(稀宇科技)46训练加速40倍、打破"不可能三角":MiniMax Agent RL 架构解密
13:23公众号:腾讯混元41腾讯混元新研究:瞄准强化学习"工程深水区",RLVR 模型调优走向科学化
2月13日周五
16:36腾讯混元:Research(API)通过 Token 级梯度诊断与 Layerwise Clipping 稳定 RLVR 训练
2月5日周四
02:00Nathan Lambert:Interconnects(RSS)精选Nvidia 为何构建开源模型:对话 Bryan Catanzaro
2月3日周二
12:18腾讯混元:Research(API)从上下文学习比我们想象的更难
1月30日周五
00:00字节 Seed:Research Papers(网页内嵌数据)Post-LayerNorm 回归:稳定、高表达力与深度
1月27日周二
09:53Hugging Face:Blog(RSS)83精选解锁GPT-OSS的智能体强化学习训练:一项实践回顾
1月26日周一
00:00LMSYS:Blog(Chatbot Arena 团队)单卡H200部署1TB模型:INT4 QAT RL端到端实践
1月24日周六
06:53Saining Xie喜欢这段预告片哈哈(而且是真的) 学术界把我们限制得太紧了,差点崩溃,但我们挣扎着爬了出来,在另一边发现了一个全新的宇宙😅 感谢 Google 支持我们这些缺 GPU 的叛逆者,带我们踏上这段旅程,帮助我们建立了我认为是 Google 之外最好的 TPU/GCP 基础设施团队之一 【引用 @TongPetersb】:我们已经在学术界用 TPU 训练两年了(非常感谢 Google TRC!)。像 Cambrian-1、Cambrian-S、RAE 和 Scale-RAE 这样的工作没有 TPU 是不可能的。 我们写了一篇博客文章分享我们的经验、优化和教训:https://cambrian-mllm.github.io/blog/tpu-training-experiments.html 我们希望这能帮助更多人更顺畅地使用 TPU,它们非常强大!
1月11日周日
04:30Dwarkesh Patel:Podcast & Blog(RSS)近期阅读清单 - 2026年1月10日
1月8日周四
08:00HuggingFace Daily Papers(社区热门论文)面向高效低成本 RAG 系统的网页检索感知分块(W-RAC)
12月31日周三
01:07Dwarkesh Patel:Podcast & Blog(RSS)精选Adam Marblestone - AI 缺失了关于大脑的根本认知
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
3月24日
01:41
Jim Fan@DrJimFan
EgoVerse 生态系统正式发布:由4家研究实验室与3家行业伙伴共建,基于1300+小时第一人称人类视频数据,覆盖240个场景与2000+项任务。无需真实机器人即可规模化训练,通过行为克隆直接从人类数据学习,2026年机器人学习将彻底告别遥操作模式。

Danfei Xu: Introducing EgoVerse: an ecosystem for robot learning from egocentric human data. Built and tested by 4 research labs + ...

具身智能数据/训练论文/研究
00:33
Epoch AI@EpochAIResearch
@datagenproc 与 @cherylwoooo 估算,OpenAI、MiniMax 和 Z.ai 的研发算力支出中,仅有不到 30% 用于最终训练运行,其余大部分消耗在实验、迭代与架构搜索等环节。
OpenAI数据/训练现象/趋势
00:00
Google Research:Blog(网页)
绘制现代世界:S2Vec 如何学习城市的语言

Google Research 发布自监督地理空间框架 S2Vec,利用 S2 Geometry 将地球表面划分为分层单元格,把建筑、道路等特征栅格化为多层图像,通过掩码自编码器(MAE)学习通用嵌入向量。无需人工标注即可预测人口密度、房价等社会经济指标,在地理外推任务中表现优于图像基线模型,但树冠覆盖和海拔等环境预测任务仍需改进。

Google数据/训练论文/研究
3月23日
12:36
Deedy@deedydas
新研究实现 AI 去匿名化技术约 500 倍提升:通过文本将 HackerNews 用户匹配到 LinkedIn 身份的成功率从不到 0.1% 跃升至 54%。匿名小号(如 u/throwaway4927)面临暴露风险。
安全/对齐数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
师生协作合成学生一致性SFT数据的框架

针对使用强模型合成数据微调推理模型时出现的性能下降问题,本文提出师生协作数据合成框架TESSY。该框架通过让师生模型交替生成风格与非风格标记,使合成数据兼具教师的高级推理能力与学生风格一致性。实验以GPT-OSS-120B为教师、Qwen3-8B为学生,在代码生成任务中,传统方法使LiveCodeBench-Pro和OJBench性能分别下降3.25%和10.02%,而TESSY实现11.25%和6.68%的显著提升。

推理数据/训练论文/研究
3月21日
03:38
Hugging Face:Blog(RSS)
精选70
一日之内构建领域特定嵌入模型

英伟达在Hugging Face平台发布技术博客,分享了一种在24小时内快速构建高质量领域特定嵌入模型的方法。该方法通过结合高效微调技术与领域数据,显著提升了模型在专业任务中的语义理解与检索性能,为企业和开发者提供了低成本、高效率的定制化嵌入解决方案。

Hugging Face教程/实践数据/训练

推荐理由:一天内搞定领域专属 Embedding 微调,RAG 检索效果可显著提升
3月18日
17:33
公众号:腾讯混元
53
腾讯最新财报:混元智能水平持续提升
数据/训练行业动态
3月17日
00:00
Mistral AI:News(网页)
83
Mistral AI 发布企业级AI模型构建系统Forge

Mistral AI推出企业级AI模型构建系统Forge,该系统允许企业利用内部专有知识(如工程标准、代码库、操作流程)训练定制化的前沿模型,以弥补通用AI与企业特定需求之间的差距。Forge支持从预训练到强化学习的完整模型生命周期,并与ASML、爱立信等领先机构合作,用于训练支撑其复杂系统的专有模型。该系统强调控制与战略自主性,确保模型完全由企业掌控,旨在打造能理解内部术语、遵循工作流程并可靠集成到运营中的智能体。

智能体产品更新数据/训练
00:00
LMSYS:Blog(Chatbot Arena 团队)
Miles RL框架正式支持ROCm:基于AMD Instinct GPU的大规模后训练

开源RL框架Miles正式支持ROCm,可在AMD Instinct MI300/350 GPU上原生运行大规模语言模型后训练。该框架采用解耦架构分离rollout生成与模型优化,针对RL工作负载中占比70-90%的推理场景优化。在单节点8卡MI300X上训练Qwen3-30B-A3B的实测显示,rollout吞吐达1.1k-1.3k tok/GPU/s,AIME准确率从66.5%提升至72.9%。现提供预构建容器,支持GRPO、Megatron-LM和FSDP后端。

开源/仓库数据/训练部署/工程
00:00
Google Research:Blog(网页)
利用机器学习改进乳腺癌筛查工作流程

Google Research与NHS合作在Nature Cancer发表两项AIMS研究,评估AI乳腺癌检测系统。回顾性分析11.6万例乳腺X光片显示,AI敏感性显著高于原始第一读者且不降低特异性,癌症检出率从7.54升至9.33/1000,检出25%间隔癌;前瞻性研究验证技术整合可行性。第二项研究进一步测试AI替代双读流程中第二读者的端到端效果。研究为AI辅助筛查提供证据,有望缓解放射科医生30%-40%短缺压力。

Google数据/训练论文/研究
3月15日
02:23
Gary Marcus:The Road to AI We Can Trust(RSS)
重磅:昂贵的新证据表明规模扩张并非万能

两项耗资巨大的AI实验相继失败,为"规模扩张并非实现突破的唯一路径"提供了新的佐证。这些结果表明,单纯依靠增加算力、数据和模型参数的传统Scaling策略可能已触及瓶颈,行业需要探索新的技术范式,而非一味追求规模扩张。

大佬观点数据/训练
3月14日
00:00
Dwarkesh Patel:Podcast & Blog(RSS)
精选
Dylan Patel - 深度剖析 AI 算力扩展的三大瓶颈

Dylan Patel 深度解析了制约 AI 算力规模扩张的三大核心瓶颈:电力基础设施限制、先进制程芯片产能不足以及网络互联带宽瓶颈。尽管 NVIDIA H100 已发布三年,受供需严重失衡及新一代芯片交付延迟影响,其市场价格与战略价值持续攀升,当前实际价值甚至超过发布初期。文章指出,这些结构性约束正重塑 AI 基础设施的投资逻辑与部署节奏。

大佬观点数据/训练部署/工程

推荐理由:顶尖硬件分析师拆解AI算力扩张的三大瓶颈,揭示H100为何比三年前更值钱
3月13日
17:00
BAIR:Berkeley AI Research Blog
面向 LLM 的大规模交互作用识别

伯克利人工智能研究所提出 SPEX 与 ProxySPEX 算法,通过信号处理与编码理论实现大语言模型关键交互作用的高效识别。该方法基于" influential interactions 具有稀疏性与低阶性"的核心观察,将指数级搜索问题转化为可解的稀疏恢复问题,以极少的消融次数定位驱动模型输出的关键特征组合与内部组件依赖,突破传统方法在计算规模上的限制。

推理数据/训练论文/研究
3月12日
00:00
Google Research:Blog(网页)
利用AI驱动的山洪预测保护城市

Google Research在Flood Hub推出城市山洪预测服务,采用新型AI方法Groundsource从新闻报道中提取历史洪水数据作为训练集,结合全球天气模型,可为城市地区提供最长24小时预警。该系统以20x20公里分辨率运行,无需依赖高分辨率水文地图或本地雷达,旨在解决全球南方国家山洪预警基础设施不足的问题,弥补传统 riverine 洪水预测无法覆盖快速 onset 灾害的空白。

Google数据/训练论文/研究
3月11日
01:08
Lilian Weng@lilianweng
构建技术以在下一代大规模硬件上实现更好的人机协作。令人兴奋。

Thinking Machines: We are partnering with @nvidia to power our frontier model training and platforms delivering customizable AI. https://th...

数据/训练行业动态部署/工程
00:17
Noam Brown@polynoamial
精选
当今前沿推理模型的训练路径与 AlphaGo 高度一致:先模仿大量人类数据,再扩展推理计算(从蒙特卡洛树搜索到思维链),最后用强化学习突破模仿上限。Demis Hassabis 称,十年前 AlphaGo 的"第37步"预示 AI 可攻克真实科学难题,这些思路对构建 AGI 仍至关重要。

Demis Hassabis: Ten years ago, AlphaGo's legendary match in Seoul heralded the start of the modern era in AI. Its famous 'Move 37' signa...

Meta大佬观点推理数据/训练

推荐理由:Meta 研究员揭示推理模型与 AlphaGo 的技术传承,点明 RL 超越模仿的核心路径
3月10日
19:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选
改进前沿 LLM 的指令层级

IH-Challenge 训练模型优先处理可信指令,改进指令层级、安全可控性,并提升对提示词注入攻击的抵抗能力。

OpenAI安全/对齐数据/训练

推荐理由:OpenAI改进指令层级研究,增强模型抗提示注入攻击能力
08:00
Hugging Face:Blog(RSS)
精选83
Hugging Face Hub 正式推出 Storage Buckets 存储服务

Hugging Face Hub 发布 Storage Buckets,这是一种为机器学习工作流设计的可变、类 S3 的对象存储服务。它基于 Xet 存储后端,能对跨文件共享内容的 ML 工件进行高效去重,从而节省带宽、加速传输并降低存储成本。该服务还提供“预暖”功能,可将数据预先迁移至靠近计算资源的云区域,以提升分布式训练等场景的效率。目前支持 AWS 和 GCP,用户可通过 CLI 或 Python 库在 2 分钟内快速创建和同步存储桶。

Hugging Face产品更新数据/训练部署/工程

推荐理由:ML 开发者可高效管理训练数据和检查点,节省存储成本并加速工作流。
3月9日
08:00
Hugging Face:Blog(RSS)
精选76
Ulysses Sequence Parallelism: 实现百万令牌上下文的训练

研究团队发布了Ulysses序列并行方法,这是一种用于训练大型语言模型的新技术。该方法通过将长序列在设备间进行特定维度的分割与重组,实现了对极长上下文的并行处理。其核心变化在于能高效训练上下文长度高达百万令牌的模型,突破了现有方法在序列长度上的扩展瓶颈。这一进展使得在保持高训练效率的同时,处理书籍、长文档等超长文本成为可能,为推进AI的民主化与开源发展提供了关键技术支撑。

数据/训练论文/研究部署/工程

推荐理由:百万 token 训练的序列并行方案,长上下文模型训练的关键工程突破
3月6日
00:16
Nathan Lambert:Interconnects(RSS)
Olmo Hybrid 与未来 LLM 架构

Olmo 发布采用混合架构的最新模型,聚焦开源后训练工具的前沿技术探索。该模型代表了大语言模型架构的新进展,围绕后训练阶段的优化方法与工具创新展开讨论,为开源社区提供了模型训练与架构演进的最新实践参考。相关技术动向揭示了 LLM 开发流程中后训练环节的关键趋势。

大佬观点开源生态数据/训练
3月5日
07:55
Saining Xie@sainingxie
来自 @TongPetersb、@DavidJFan 和 @__JohnNguyen__ 的又一项科学探索,即使你身处前沿实验室,也可能会让你学到新东西 这里有很多有趣的观察,但我只强调一点: - 尝试用 MoE 扩展 DiTs 大多徒劳无功,这算是行业公开的秘密。 - 但 RAE 与 MoE 之间意外却直观的协同作用,可能真的会改变这一点。 【引用 @TongPetersb】:超越语言训练。我们押注视觉世界,将其作为与语言建模并行且超越它的关键下一步。因此,我们研究了从零开始用视觉构建基础模型。我们分享我们的探索:视觉表征、数据、世界建模、架构和扩展行为!【1/9】

Peter Tong: Train Beyond Language. We bet on the visual world as the critical next step alongside and beyond language modeling. So, ...

多模态数据/训练论文/研究
3月4日
09:00
公众号:阶跃星辰(Step)
49
阶跃星辰 Step 3.5 Flash 预训练/中训练/训练框架全部开源

阶跃星辰将 Step 3.5 Flash 的预训练、中训练和训练框架全部开源,支持开发者进行更深度模型定制,以打造专属 AI 智能体。

开源/仓库开源生态数据/训练
00:50
Hugging Face:Blog(RSS)
精选70
PRX 第三部分 -- 24小时内训练一个文本到图像模型!

Photoroom团队在Hugging Face上发布博客,宣布成功在24小时内完成一个文本到图像模型的训练。这一突破将此类模型的典型训练周期从数周大幅缩短至仅一天。实现的关键在于采用了名为PRX的高效训练方法,该方法优化了计算资源分配与数据处理流程。此举显著降低了模型训练的时间与成本门槛,为快速迭代和部署高质量的图像生成AI模型提供了新的可能性。

图像生成教程/实践数据/训练

推荐理由:Photoroom 分享 24h 内训练文生图模型的实战路径,想快速复现的团队可直接参考
3月3日
20:56
公众号:蚂蚁百灵(Ling)
41
超长上下文训练速度翻倍秘籍
教程/实践数据/训练
2月28日
08:00
HuggingFace Daily Papers(社区热门论文)
46
DiagramBank:一个用于检索增强生成的大规模示意图设计范例数据集

为突破“端到端”论文生成中出版级科学示意图(如导读图)的制作瓶颈,研究团队构建了DiagramBank数据集。该数据集通过自动化流程从顶级出版物中筛选出89,422张示意图,并利用CLIP过滤器区分示意图与标准图表。每个实例均附有从摘要到图文对照的丰富上下文信息,支持多粒度检索。团队同步开源了检索增强生成代码库,演示如何基于范例合成导读图,数据集与代码均已公开。

多模态数据/训练论文/研究
2月26日
01:22
Jim Fan@DrJimFan
精选
22自由度灵巧手人形机器人:从2万小时人类视频学习精细操作

研究团队提出EgoScale方法,基于20,000小时第一人称人类视频预训练GR00T N1.5,仅用4小时机器人数据即可掌握组装模型车、操作注射器等高灵巧度任务,性能较从头训练提升54%。研究发现人类视频量与动作预测损失呈对数线性缩放关系(R²=0.998)。该方法利用22-DoF手部与人类的运动学相似性,无需复杂迁移算法即可重定向动作。策略可跨硬件迁移至Unitree G1(7-DoF),性能提升30%以上,且仅需单个示教即可学习新任务。

具身智能数据/训练论文/研究
关联讨论 1 条X:Jim Fan (@DrJimFan)
推荐理由:人类视频学习呈现完美缩放定律,机器人仅需单演示即可掌握新技能,具身智能迎来数据革命
2月25日
00:06
Nathan Lambert:Interconnects(RSS)
精选
蒸馏对中国 LLM 到底有多重要?

针对 Anthropic 关于"蒸馏攻击"的最新论述,分析模型蒸馏技术对中国大语言模型的实际影响。探讨通过蒸馏 GPT、Claude 等模型来训练中国 LLM 的效果与争议,评估该方法在提升模型性能与降低训练成本方面的作用,以及可能引发的知识产权与安全问题。

Anthropic大佬观点安全/对齐数据/训练

推荐理由:技术权威视角拆解'蒸馏攻击',厘清中国大模型能力来源争议
2月20日
08:00
Hugging Face:Blog(RSS)
58
使用 Unsloth 和 Hugging Face Jobs 免费训练 AI 模型

Hugging Face 宣布通过其平台提供免费 AI 模型训练服务,用户可结合 Unsloth 高效训练工具与 Hugging Face Jobs 功能,无需支付费用。该举措旨在降低 AI 开发门槛,推动开源开放科学,促进人工智能技术的民主化进程。核心变化在于将原先需付费或自建基础设施的训练流程,整合为平台内可直接调用的免费资源,显著减少开发者的时间和经济成本。

Hugging Face教程/实践数据/训练
2月14日
22:06
公众号:MiniMax(稀宇科技)
46
训练加速40倍、打破"不可能三角":MiniMax Agent RL 架构解密

MiniMax 解密其 Agent RL 架构,该架构实现了 40 倍训练加速,并打破了训练效率、模型性能与推理能力之间的“不可能三角”。

智能体数据/训练论文/研究
13:23
公众号:腾讯混元
41
腾讯混元新研究:瞄准强化学习"工程深水区",RLVR 模型调优走向科学化

腾讯混元在强化学习领域的新研究聚焦 RLVR 模型调优,目标是使调优过程从经验性的“玄学”转向更具可解释性和可复现性的科学范式。

数据/训练论文/研究
2月13日
16:36
腾讯混元:Research(API)
通过 Token 级梯度诊断与 Layerwise Clipping 稳定 RLVR 训练

提出一种稳定 RLVR 训练的新方法,采用 Token 级梯度诊断技术精准定位异常梯度来源,结合逐层梯度裁剪(Layerwise Clipping)对不同网络层实施差异化约束,有效抑制训练过程中的梯度爆炸与策略震荡,提升强化学习训练的稳定性与收敛效率。

推理数据/训练论文/研究
2月5日
02:00
Nathan Lambert:Interconnects(RSS)
精选
Nvidia 为何构建开源模型:对话 Bryan Catanzaro

Interconnects 第17期访谈中,Nvidia 副总裁 Bryan Catanzaro 系统回顾了 Nemotron 开源模型项目的技术演进与战略定位。访谈涵盖该系列模型从研发初期到当前版本的迭代历程,剖析了英伟达在开源 AI 领域的布局逻辑,并披露了 Nemotron 在合成数据生成与模型训练效率方面的最新进展及未来规划。

大佬观点开源生态数据/训练

推荐理由:NVIDIA副总裁亲述开源模型战略,揭示芯片巨头如何通过开放生态锁定行业标准
2月3日
12:18
腾讯混元:Research(API)
从上下文学习比我们想象的更难

上下文学习(in-context learning)的实际效果存在明显局限。研究表明,大语言模型难以从提示示例中真正提取任务规则,往往依赖表面模式匹配而非深层理解。单纯增加示例数量无法线性提升性能,模型容易受到示例顺序和分布的影响,需要重新评估该能力的实际边界。

数据/训练论文/研究
1月30日
00:00
字节 Seed:Research Papers(网页内嵌数据)
Post-LayerNorm 回归:稳定、高表达力与深度

提供的正文内容为 PDF 二进制流数据及乱码,无法提取有效信息(如具体方法、实验指标或模型发布细节),因此无法撰写准确摘要。请提供可读的文本内容(如论文摘要或正文段落),以便提取关键信息点完成摘要撰写。

数据/训练论文/研究
1月27日
09:53
Hugging Face:Blog(RSS)
精选83
解锁GPT-OSS的智能体强化学习训练:一项实践回顾

LinkedIn团队探索了将GPT-OSS模型作为智能体应用核心进行强化学习的可行性。实验发现,由于GPT-OSS采用的混合专家架构在两次前向传播中可能产生路由差异,导致在同策略PPO训练中出现重要性采样比率偏离、KL散度爆炸及奖励不增长的问题。团队通过一个关键修复——在同策略条件下强制将旧对数概率设置为新计算值(并分离梯度),确保了重要性采样比率为1,从而恢复了PPO同策略训练的完整性。该修复方案适用于GPT-OSS-20B及GPT-OSS-120B模型。

智能体Hugging Face教程/实践数据/训练

推荐理由:为MoE模型RL训练提供实用调试方案,提升代理AI开发效率。
1月26日
00:00
LMSYS:Blog(Chatbot Arena 团队)
单卡H200部署1TB模型:INT4 QAT RL端到端实践

SGLang RL团队联合多家机构开源INT4量化感知训练端到端方案。受Kimi K2启发,训练阶段采用伪量化,推理阶段使用W4A16(INT4权重、BF16激活)真实量化,实现与BF16全精度相当的稳定性。该方案将约1TB模型压缩至单张H200(141GB)GPU即可完成rollout,彻底消除跨节点通信瓶颈,显著提升推理效率,为大规模模型训练提供高性能、低成本的开源实践参考。

数据/训练论文/研究部署/工程
1月24日
06:53
Saining Xie@sainingxie
喜欢这段预告片哈哈(而且是真的) 学术界把我们限制得太紧了,差点崩溃,但我们挣扎着爬了出来,在另一边发现了一个全新的宇宙😅 感谢 Google 支持我们这些缺 GPU 的叛逆者,带我们踏上这段旅程,帮助我们建立了我认为是 Google 之外最好的 TPU/GCP 基础设施团队之一 【引用 @TongPetersb】:我们已经在学术界用 TPU 训练两年了(非常感谢 Google TRC!)。像 Cambrian-1、Cambrian-S、RAE 和 Scale-RAE 这样的工作没有 TPU 是不可能的。 我们写了一篇博客文章分享我们的经验、优化和教训:https://cambrian-mllm.github.io/blog/tpu-training-experiments.html 我们希望这能帮助更多人更顺畅地使用 TPU,它们非常强大!

Peter Tong: We have been training with TPUs in academia for two years now (huge thanks to Google TRC!). Works like Cambrian-1, Cambr...

Google多模态教程/实践数据/训练
1月11日
04:30
Dwarkesh Patel:Podcast & Blog(RSS)
近期阅读清单 - 2026年1月10日

作者发布2026年1月10日阅读清单,涵盖非线性动力学与混沌理论、探讨AI自动化的《Machines of Loving Grace》、Neuralink联合创始人Max Hodak关于意识的理论假说,以及神经网络训练过程中产生精美分形图案的现象。内容横跨复杂系统、神经科学与机器学习可视化等多个前沿领域。

大佬观点数据/训练
1月8日
08:00
HuggingFace Daily Papers(社区热门论文)
面向高效低成本 RAG 系统的网页检索感知分块(W-RAC)

研究团队提出专为网页文档设计的 W-RAC 分块框架,将文本提取与语义分块规划解耦,以结构化 ID 寻址单元管理内容,并仅利用 LLM 执行检索感知分组决策而非文本生成。该方法在消除幻觉风险、提升系统可观测性的同时,将分块相关 LLM 成本降低一个数量级,且保持或优于传统方法的检索性能。

arXiv检索增强数据/训练论文/研究
12月31日
01:07
Dwarkesh Patel:Podcast & Blog(RSS)
精选
Adam Marblestone - AI 缺失了关于大脑的根本认知

Adam Marblestone 指出,当前人工智能研究忽略了大脑运作的核心机制。与业界普遍关注神经网络架构不同,大脑的真正优势在于其奖励函数而非结构本身。这一观点挑战了主流 AI 研究范式,暗示未来突破可能来自对大脑激励系统的深入理解,而非单纯的架构模仿。该论断为人工智能发展提供了新的思考维度。

大佬观点数据/训练

推荐理由:AI研发或应转向奖励函数设计,而非一味堆叠架构复杂度
‹ 上一页
1…3637383940…42
下一页 ›