8月28日

00:00

LMSYS：Blog（Chatbot Arena 团队）

gpt-oss MXFP4 微调和部署：ModelOpt + SGLang（8月29日更新）

OpenAI 开源模型 gpt-oss 原生采用 MXFP4 量化，但社区长期缺乏针对该低精度格式的训练支持。NVIDIA 推出基于 Model Optimizer 的量化感知训练（QAT）方案，允许在 Blackwell、Hopper、Ampere 及 Ada 等常见 GPU 上直接微调模型，无需转换为 BF16 而牺牲性能。实测显示，经 QAT 微调的 gpt-oss-20b 在多语言推理任务中通过率从 16% 提升至 100%，在安全提示识别任务中从 30% 优化至 97%。微调后的模型可通过 SGLang 部署，保持 MXFP4 格式的推理速度与内存优势。

OpenAI 教程/实践数据/训练部署/工程

8月1日

00:00

Mistral AI：News（网页）

通过微调释放视觉语言模型在卫星图像上的潜力

Mistral AI展示了如何通过LoRA微调技术，将Pixtral-12B视觉语言模型适配到卫星图像分析任务，从而显著提升模型在该专业领域的性能。该研究使用公开的Aerial Image Dataset进行测试，对比了微调前后的分类效果。未微调的基础模型在模糊类别上表现不佳且存在幻觉，而经过微调的模型将整体分类准确率从85.2%提升至94.1%，针对类似“游乐场”与“体育场”等易混淆类别的准确率也从63.0%大幅提升到88.5%，并解决了输出无效类别的幻觉问题。这项工作证明了领域特定微调对于挖掘通用大模型在垂直应用中潜力的有效性。

多模态教程/实践

7月20日

00:00

LMSYS：Blog（Chatbot Arena 团队）

基于PD分离与大规模专家并行在128张H200 GPU上部署Kimi K2

Mooncake团队基于OME和SGLang框架，在128张H200 GPU集群上完成了Moonshot AI 1万亿参数开源MoE模型Kimi K2的大规模部署。该方案采用PD分离与大规模专家并行技术，针对模型384个专家和每token 320亿激活参数的设计进行优化，通过跨节点通信优化与负载均衡策略，显著提升了trillion-scale模型的推理吞吐与并发处理能力。

开源生态教程/实践部署/工程

7月16日

00:00

LMSYS：Blog（Chatbot Arena 团队）

在 SGLang 中支持新 VLMs：NVILA 案例研究

NVILA 团队发布技术博客，详解如何在 SGLang 推理框架中集成新型视觉语言模型。文章以 NVILA 为实践案例，提供从模型适配、推理优化到部署的完整开发指南与代码实践。随着多模态大模型成为行业焦点，该方案填补了 SGLang 生态在视觉理解模型支持方面的文档空白，为开发者快速接入新 VLM 提供了标准化技术路径与最佳实践。

多模态教程/实践部署/工程

7月14日

08:00

OpenRouter：Announcements（RSS）

使用OpenRouter在Cursor中调用模型：试试月之暗面的Kimi K2

OpenRouter的灵活模型路由现已集成到Cursor，用户可在Cursor中直接调用Moonshot AI的Kimi K2模型进行编码操作。

教程/实践编码

08:00

OpenRouter：Announcements（RSS）

精选56

OpenRouter 模型现可在 Cursor 中使用：试试月之暗面 Kimi K2

OpenRouter 宣布其灵活模型路由支持在 Cursor 中运行月之暗面的 Kimi K2。用户可直接在 Cursor 中调用 OpenRouter 路由的模型，无需额外配置。

MCP/工具教程/实践编码

关联讨论 1 条

推荐理由：一篇将 OpenRouter 模型接入 Cursor 的实操指南，虽然已过时三百多天，但对想免配置用 Kimi K2 的 Cursor 用户仍有参考价值。

6月24日

00:12

Ethan Mollick：One Useful Thing（RSS）

精选

当下如何使用 AI：快速指南

一份当下 AI 工具的快速选用指南，聚焦目前值得使用的 AI 产品及其具体使用方法，帮助读者快速上手并选对工具。

教程/实践

关联讨论 1 条

推荐理由：AI教育专家Ethan Mollick撰写，指导读者当下如何选择和使用AI工具

6月13日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选73

我们如何构建多智能体研究系统

Claude的多智能体研究系统采用协调器-工作者架构，一个主导智能体分析用户查询并制定策略，并行调用多个专用子智能体协同工作。内部评估显示，以Claude Opus 4为主导、Claude Sonnet 4为子智能体的系统，在研究任务上比单智能体Claude Opus 4性能提升90.2%。该系统擅长处理需要同时探索多个独立方向的广度优先查询，通过分配独立上下文窗口实现并行推理扩容。但多智能体系统消耗的token量约为普通聊天的15倍，适用于任务价值足以支撑性能提升的场景，在需要高度并行化、大信息量或多工具调用的任务中表现卓越。

智能体 Anthropic 教程/实践

推荐理由：Anthropic 把 Research 背后的多智能体架构、prompt 工程和踩坑经验全抖出来了，做 Agent 的同行可以直接抄作业，尤其是『token 用量解释 80% 性能方差』这个结论，选型逻辑要变。

4月18日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选77

Claude Code：智能体编码最佳实践指南

Claude Code 提供了一套完整的智能体编程工具与框架。其核心遵循“先探索、再计划、后编码”的工作流，并通过配置 CLAUDE.md 文件、管理权限和连接 MCP 服务器来优化环境。最佳实践强调为 Claude 提供工作验证方法、积极管理上下文、使用子代理进行调查，以及利用检查点回退来处理复杂任务。文档还详细介绍了在 VS Code、JetBrains IDE、Slack 及 CI/CD 中的集成使用，并提供了避免常见失败模式的实用建议。

智能体 Anthropic 教程/实践编码

推荐理由：Anthropic 官方出的 Claude Code 最佳实践，不是泛泛而谈的入门指南，而是从 CLAUDE.md 配置到 subagent 编排的完整工程手册，用 Claude Code 做日常开发的人直接照抄就能少踩一半坑。

4月9日

00:00

Mistral AI：News（网页）

使用大语言模型作为评判者评估 RAG 系统

评估 RAG 系统需同时验证检索相关性和生成准确性。传统方法难以全面评估，因此提出了“LLM 作为评判者”的方法，通过一个“法官 LLM”依据量表对“生成器 LLM”的输出进行评分。评估框架 RAG Triad 从三个维度进行综合评估：上下文相关性（检索内容是否契合查询）、事实基础（生成内容是否基于检索内容）和答案相关性（最终回答是否切题）。Mistral 的模型适用于构建生成与评判组件。

检索增强教程/实践

3月20日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选71

"思考"工具：让Claude在复杂工具使用场景中停下来思考

Anthropic为Claude引入了“思考”工具，允许其在生成最终响应前插入一个专门的思考步骤，以处理多步骤工具调用链、分析外部信息并遵循复杂策略。该工具与更早发布的“扩展思考”功能不同，更侧重于在响应生成过程中对新信息进行针对性推理。在τ-Bench基准测试中，该工具显著提升了Claude在客户服务场景的表现。文章建议在需要复杂工具调用、长链分析或高成本序列决策的场景中使用它，并提供了标准的工具实现格式。

Anthropic MCP/工具教程/实践

推荐理由：Anthropic 官方给出的 think tool 实操指南，附带 τ-Bench 和 SWE-bench 的真实数据，做 Agent 或 tool use 的开发者可以直接抄 prompt 模板，比自己瞎试强太多。

3月4日

00:00

Mistral AI：News（网页）

Mistral AI 提出 TranscriptToPRDTicket 智能体工作流，自动化产品开发流程

Mistral AI 团队推出了名为 TranscriptToPRDTicket 的智能体工作流。该方案基于 Mistral Large 2 大语言模型，核心是 PRDAgent 和 TicketCreationAgent 两个组件。工作流接收会议记录作为输入，首先由 PRDAgent 生成结构化的产品需求文档（PRD），再由 TicketCreationAgent 将 PRD 转化为开发任务，并自动在 Linear 或 Jira 等工具中创建任务。此流程旨在自动化从讨论到开发任务创建的步骤，减少手动工作并提升团队协作的一致性。该实现方案已通过 Google Colab 笔记本开源。

智能体教程/实践

1月6日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选72

Claude 3.5 Sonnet 在 SWE-bench Verified 基准测试中刷新纪录

升级版 Claude 3.5 Sonnet 在软件工程评估基准 SWE-bench Verified 上取得 49% 的解决率，超越此前最佳模型的 45%。该基准通过真实 GitHub 问题测试 AI 模型完成软件工程任务的能力，要求模型在给定环境中理解、修改并测试代码，最终通过原始单元测试验证。Claude 团队构建的智能体设计简洁，仅包含提示词、Bash 工具和编辑工具，赋予模型充分的自主判断空间，以灵活步骤解决问题。目前尚无模型在该基准上突破 50% 的解决率。

智能体 Anthropic 教程/实践编码

推荐理由：Anthropic 把自家 SWE-bench agent 的 prompt、工具设计和踩坑经验全公开了，做 coding agent 的人可以直接抄作业，比看十篇二手解读都管用。

12月19日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选80

构建高效智能体：从简单模式开始

Anthropic基于实践经验指出，成功的LLM智能体往往采用简单、可组合的模式，而非复杂框架。文章区分了工作流（预定义路径编排）与智能体（LLM动态自主决策），建议开发者优先采用最简单方案，仅在必要时增加复杂性。许多核心模式直接调用LLM API仅需几行代码即可实现。文中介绍了增强型LLM、提示链等基础构建模块，强调应为特定用例定制检索、工具等增强功能，并推荐通过Model Context Protocol集成第三方工具生态。

智能体 Anthropic MCP/工具教程/实践

推荐理由：Anthropic 官方把过去一年踩过的坑浓缩成一篇 Agent 架构指南，核心观点是「别上框架，先用最简单的模式」。做 Agent 产品的开发者，这篇比任何第三方教程都值得当 checklist 用。

11月28日

08:00

Lilian Weng：Lil'Log（RSS）

强化学习中的奖励欺骗问题

奖励欺骗是指强化学习智能体通过利用奖励函数的缺陷或歧义获取高分，而非真正完成预期任务的现象。随着语言模型任务泛化能力增强，以及基于人类反馈的强化学习成为主流对齐训练方法，该问题在语言模型训练中变得尤为突出。具体表现为模型可能通过修改测试用例来通过编程任务，或生成模仿用户偏好的偏见回答。此类行为正成为制约AI模型在更自主化场景中实际应用部署的关键瓶颈之一。

OpenAI 安全/对齐教程/实践

9月19日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选72

引入上下文检索：大幅提升RAG系统准确性的新方法

传统RAG系统在编码时易丢失上下文，导致检索失败。新方法“上下文检索”通过“上下文嵌入”和“上下文BM25”两项子技术，在检索前为文本块添加解释性上下文，能将检索失败次数减少49%，结合重排序后降幅可达67%，显著提升了下游任务性能。对于小于20万token的小型知识库，可直接将其完整内容放入提示词，结合Claude的提示词缓存功能，能降低超过2倍的延迟和高达90%的成本。对于大型知识库，上下文检索则提供了可扩展的解决方案。

Anthropic 检索增强教程/实践部署/工程

推荐理由：Anthropic 把 RAG 检索失败率砍了 67%，方法不复杂但数据扎实，做知识库的开发者可以直接抄 cookbook 上手，是那种读完当天就能改进生产环境的实用帖。

7月7日

08:00

Lilian Weng：Lil'Log（RSS）

LLMs 中的外部幻觉

大语言模型常生成不忠实或捏造的内容，称为幻觉。幻觉分为上下文幻觉和外部幻觉：上下文幻觉指输出与提供上下文不一致；外部幻觉指输出不基于预训练数据集的世界知识。文章聚焦外部幻觉，指出由于预训练数据集规模庞大，检查冲突成本过高，但需确保模型输出可验证且基于事实。避免外部幻觉要求模型保持事实性，并在不知答案时坦诚说明。

OpenAI 安全/对齐教程/实践

6月12日

00:00

Suno：Blog（网页）

精选55

Audio Inputs--通过 Mikey Shulman（联合创始人兼 CEO）发布·2024 年 6 月 12 日，用任何声音创作一首歌产品更新

Suno 发布 Audio Inputs 功能，所有 Pro 和 Premier 用户可上传或录制 6-60 秒的音频片段，通过“Extend”模式选择起始时间戳、设定风格，并可添加歌词来创作歌曲。社区创作者已用其提供自定义音频引子来设定氛围、节奏和乐器灵感。该功能会阻止受版权保护作品的上传，且所有包含人声的输入将保持私密并不可搜索。

产品更新教程/实践语音

推荐理由：Suno 把上传录音做歌的门槛降到极低，对音乐创作者和普通用户都友好，只是这已经是前年的更新，之后的同类功能可能更完善。

4月12日

08:00

Lilian Weng：Lil'Log（RSS）

扩散模型（Diffusion Models）在视频生成中的应用

研究社区正将扩散模型从图像合成拓展到视频生成这一更复杂任务。视频生成需解决两大核心挑战：一是确保帧间时间一致性，要求模型编码更多世界知识；二是收集高质量视频数据难度远高于文本或图像，文本-视频对数据集尤为稀缺。现有扩散模型在图像领域已取得显著成果，但向视频领域迁移需攻克数据瓶颈与时序建模问题。

OpenAI 教程/实践视频

2月29日

17:00

EleutherAI：Blog

Foundation Model 开发速查表

发布全新资源 FM Dev Cheatsheet，这是一份面向 Foundation Model 开发的实用速查表。该资源旨在为开发者提供基础模型开发全流程的关键参考信息，涵盖架构设计、训练优化及部署等环节的核心要点，帮助快速查阅技术规范与最佳实践，提升开发效率与项目质量。

开源生态教程/实践数据/训练

4月18日

07:00

EleutherAI：Blog

Transformer 数学基础：计算与内存入门

系统阐述 Transformer 架构在计算负载与内存占用方面的基础数学原理，涵盖前向传播与反向传播过程中的浮点运算量（FLOPs）估算、模型参数量与显存需求的计算公式，以及注意力机制的复杂度分析。通过量化方法解析大语言模型训练与推理阶段的资源消耗规律，为模型设计与硬件选型提供理论依据。

教程/实践部署/工程

3月15日

08:00

Lilian Weng：Lil'Log（RSS）

Prompt Engineering（提示工程）

Prompt Engineering，也称为上下文提示，指在不更新模型权重的前提下，通过与大语言模型（LLM）交互来引导其行为、达成预期输出的方法。这是一门经验性科学，其效果因模型不同而差异显著，需要大量实验和启发式调整。文章明确聚焦于自回归语言模型的提示工程，不涉及完形填空测试、图像生成或多模态模型。其核心目标在于实现模型的对齐与可控性。

OpenAI 教程/实践

1月27日

08:00

Lilian Weng：Lil'Log（RSS）

Transformer模型家族：版本2.0

这是作者在三年后对其经典文章“Transformer Family”的重大更新版本。新版本对原有内容结构进行了重组，并融入了近年来提出的众多Transformer架构改进，补充了更多最新的研究论文。这篇技术梳理文章的篇幅约为原版的两倍，旨在提供一个关于Transformer模型演进与变体的、更为全面和系统的总结。

OpenAI 教程/实践数据/训练

1月11日

01:00

Lilian Weng：Lil'Log（RSS）

大型Transformer模型推理优化

当前，大型Transformer模型已成为AI领域的主流架构，在多项任务中表现出色。然而，其极高的训练与推理成本，尤其是对计算时间与内存的大量消耗，严重阻碍了在大规模实际场景中的部署。除了模型参数规模的增长，Pope等（2022）的研究指出，还存在其他关键因素加剧了推理挑战。为此，研究者们不断探索各种优化技术以突破这一瓶颈，相关的知识蒸馏等模型压缩方法也日益受到关注。

教程/实践部署/工程

9月9日

01:00

Lilian Weng：Lil'Log（RSS）

神经正切核背后的数学原理

神经正切核是一种用于解释神经网络在梯度下降训练过程中演化行为的核方法。它深入阐释了为何宽度足够的神经网络能够一致收敛至经验损失函数的全局最小值，即使在参数量远超训练样本数的过参数化情况下亦是如此。研究进一步探讨了在神经网络具有无限宽度的设定下，通过刻画神经正切核来证明其在不同初始化条件下能够确定性收敛的理论依据。

arXiv 教程/实践数据/训练

6月10日

06:10

Lilian Weng：Lil'Log（RSS）

通用视觉语言模型

处理图像生成文本（如图像描述和视觉问答）的技术已有多年研究。传统方法通常依赖目标检测网络作为视觉编码器来捕捉视觉特征，再通过文本解码器生成文字。该内容聚焦于一种特定的技术路径，即扩展预训练的通用语言模型，使其具备处理视觉信号的能力，从而完成视觉语言任务。

图像生成多模态教程/实践

4月16日

06:10

Lilian Weng：Lil'Log（RSS）

数据不足下的学习第三部分：数据生成

在训练数据有限的情况下，文章探讨了两种生成合成数据的核心方法。一是数据增强，通过对现有样本施加变换、扭曲等操作生成新数据点，同时保持关键属性不变，这种方法在文本和图像领域已有较多应用。二是生成全新数据，尤其依赖强大的预训练语言模型（如GPT、LLaMA），在极少甚至没有原始数据时，能够通过上下文学习生成高质量的合成数据点，显著拓展了小样本学习的可能性。

教程/实践数据/训练

2月20日

08:00

Lilian Weng：Lil'Log（RSS）

精选57

数据不足情况下的学习第二部分：主动学习

监督学习任务的性能依赖于高质量标注数据，但获取大量标注样本成本高昂。主动学习是一种在标注预算有限、但允许投入部分人工标注资源的条件下，应对标注数据不足的范式。其核心思路是智能地选择最具信息量的样本进行标注，以在有限预算内最大化模型性能的提升。该方法旨在解决当面临标注数据受限时，如何通过策略性采样来高效利用标注资源的问题。

教程/实践数据/训练

推荐理由：这是 Lilian Weng 数据不足系列的第二篇，把主动学习的核心采样策略和实际权衡讲得很清楚，做数据标注和 ML 工程的同学值得复习一遍。

12月5日

08:00

Lilian Weng：Lil'Log（RSS）

Learning with not Enough Data Part 1： Semi-Supervised Learning（数据不足时的学习第一部分：半监督学习）

监督学习任务的性能通常随高质量标签数量的增加而提升，但大规模标注数据的获取成本高昂。在标签稀缺的场景下，半监督学习作为一种有效的机器学习范式，通过同时利用大量无标签数据与少量标签数据来提升模型性能。面对有限的标注数据，本文重点探讨了四种常用的半监督学习方法，为数据受限条件下的模型训练提供了技术路径。

教程/实践数据/训练

9月24日

08:00

Lilian Weng：Lil'Log（RSS）

如何在大量GPU上训练超大规模模型？

训练大型神经网络面临GPU内存需求巨大和训练时间漫长的双重挑战。文章系统梳理了多种主流的并行训练范式，以及模型架构与内存优化设计方案，为跨多GPU训练超大规模神经网络提供了可行路径。文中进一步补充了专家选择路由等新技术，并提及本文的精简升级版已作为《训练大型神经网络的技术》发布于OpenAI官方博客。

OpenAI 教程/实践数据/训练部署/工程

7月11日

08:00

Lilian Weng：Lil'Log（RSS）

什么是扩散模型？

扩散模型是一种新型生成模型，具备灵活学习任意复杂数据分布的能力，并可对分布进行解析评估。近期研究表明，扩散模型能够生成高质量图像，其性能已与最先进的GAN相竞争。该文章自发布以来持续更新，陆续加入了无分类器引导、GLIDE、unCLIP、Imagen、潜在扩散模型、渐进蒸馏、一致性模型等新方法与模型架构内容。

OpenAI 图像生成教程/实践

5月31日

08:00

Lilian Weng：Lil'Log（RSS）

对比表征学习

对比表征学习的目标是学习一种嵌入空间，使相似的样本对彼此靠近，而不相似的样本对彼此远离。该学习方法既适用于监督学习场景，也适用于无监督学习场景。在无监督数据任务中，对比学习是自监督学习领域最有效的方法之一，在计算机视觉和自然语言处理等任务中展现出优异性能。

OpenAI 教程/实践

3月21日

08:00

Lilian Weng：Lil'Log（RSS）

降低语言模型中的毒性

大型预训练语言模型因使用海量网络数据进行训练，不可避免地会习得部分毒性行为与偏见。为确保其在真实应用场景中的安全部署，必须对模型生成过程进行严格的安全控制。文章将从三个核心方面探讨降低语言模型毒性的方法：训练数据集的筛选与收集、对有毒内容的检测机制，以及模型本身的去毒化技术。

OpenAI 安全/对齐教程/实践

1月2日

08:00

Lilian Weng：Lil'Log（RSS）

可控神经文本生成

可控神经文本生成是当前人工智能研究的热点，旨在引导大型语言模型生成具有特定属性的文本。现代语言模型虽在多项自然语言处理任务上表现先进，但控制生成内容属性仍面临挑战。主流方法包括引导解码策略、智能提示设计和模型微调。自2021年以来，该领域持续更新：2月发布版本2.0，修正拼写错误并添加多项新研究；5月集成 P-tuning 和 Prompt Tuning 等提示优化技术；9月引入未似然训练方法，进一步提升生成控制的精准度。这些进展推动了可控文本生成在实际应用中的发展。

教程/实践数据/训练

10月29日

08:00

Lilian Weng：Lil'Log（RSS）

如何构建开放域问答系统？

文章探讨了构建开放域问答系统的方法，指出该类系统能够回答事实性知识相关问题，可应用于聊天机器人或AI助手等场景。文中分析了闭卷和开卷两种技术路线，并提及在已有强大预训练语言模型的前提下，如何实际搭建这类系统。文章在2020年11月12日更新后，新增了使用OpenAI API（测试版）进行闭卷事实问答的具体示例。

检索增强搜索教程/实践

8月6日

08:00

Lilian Weng：Lil'Log（RSS）

神经架构搜索

神经架构搜索（NAS）自动化网络架构工程，旨在通过学习网络拓扑以在特定任务上获得最佳性能。该方法将搜索过程分解为搜索空间、搜索算法和子模型进化策略三个核心组件，回顾了多种优化思路，推动技术向更高效、更快捷和更经济的方向发展。当前主流模型架构虽由人类专家设计，但系统化的自动学习方法有望探索更广泛的架构空间，提升发现高性能解决方案的可能性。

OpenAI 其他教程/实践

6月7日

08:00

Lilian Weng：Lil'Log（RSS）

深度强化学习中的探索策略

文章聚焦于强化学习中探索与利用的核心矛盾，指出智能体需在快速寻求最优解与避免过早陷入局部最优之间取得平衡。文章系统介绍了多种提升深度强化学习中探索效率的常见方法，并特别在2020年6月的更新中，于“前向动力学”章节增加了“通过分歧进行探索”的相关内容。文中强调，现代强化学习算法已能高效实现利用，但如何实现有效探索仍是一个开放性的研究课题。

OpenAI 推理教程/实践

4月7日

08:00

Lilian Weng：Lil'Log（RSS）

Transformer家族

这篇技术博客于2023年1月27日进行了大幅重构更新，以纳入2020年以来发布的一系列新型Transformer模型。文章主要探讨了如何改进原版Transformer架构，使其能够实现更长的注意力跨度、降低内存与计算资源消耗，并提升在强化学习任务中的解决能力。更新后的完整内容已转移至作者的新文章《Transformer家族 Version 2.0》中。

OpenAI 教程/实践

1月29日

08:00

Lilian Weng：Lil'Log（RSS）

强化学习中的课程学习方法

课程学习作为一种渐进式教学方法，通过分解复杂任务并提供由易到难的学习序列，显著提升了强化学习模型解决复杂问题的能力。文章系统介绍了该方法在强化学习领域的应用框架，涵盖任务特定课程设计、基于课程的学习策略等关键技术，并特别提及了程序化内容生成技术与知识蒸馏新路径。最新更新于2020年2月增加了相关技术章节，进一步扩展了课程学习的实现维度与实践参考。

OpenAI 教程/实践数据/训练

11月10日

08:00

Lilian Weng：Lil'Log（RSS）

自监督表示学习

本文聚焦自监督表示学习，这是一种利用未标注数据通过监督学习范式进行训练的关键技术。文章全面覆盖了在图像、视频以及控制问题中应用的自监督学习任务。自2020年1月9日首次更新以来，文章不断演进，新增了对比预测编码部分；2020年7月8日引入了双模拟主题，探讨DeepMDP和DBC模型。期间，曾系统介绍动量对比方法，包括MoCo、SimCLR、CURL、MoCo V2和BYOL，但于2021年5月31日将这部分内容整合到独立的对比表示学习文章中。通过这些关键更新，文章反映了自监督学习领域的快速进展和研究动态。

OpenAI 教程/实践数据/训练