AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 502 条
全部一手资讯X论文
6月13日周五
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)73精选我们如何构建多智能体研究系统
5月1日周四
08:00Lilian Weng:Lil'Log(RSS)49我们为何思考
4月18日周五
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)77精选Claude Code:智能体编码最佳实践指南
4月10日周四
08:00Shunyu Yao:Blog(RSS)51AI下半场:从解题到定义问题
4月9日周三
00:00Mistral AI:News(网页)67使用大语言模型作为评判者评估 RAG 系统
3月20日周四
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)71精选"思考"工具:让Claude在复杂工具使用场景中停下来思考
3月4日周二
00:00Mistral AI:News(网页)55Mistral AI 提出 TranscriptToPRDTicket 智能体工作流,自动化产品开发流程
1月6日周一
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)72精选Claude 3.5 Sonnet 在 SWE-bench Verified 基准测试中刷新纪录
12月19日周四
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)80精选构建高效智能体:从简单模式开始
11月28日周四
08:00Lilian Weng:Lil'Log(RSS)42强化学习中的奖励欺骗问题
9月19日周四
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)72精选引入上下文检索:大幅提升RAG系统准确性的新方法
8月1日周四
00:00Suno:Blog(网页)49音乐的未来
7月7日周日
08:00Lilian Weng:Lil'Log(RSS)38LLMs 中的外部幻觉
4月12日周五
08:00Lilian Weng:Lil'Log(RSS)31扩散模型(Diffusion Models)在视频生成中的应用
2月5日周一
08:00Lilian Weng:Lil'Log(RSS)36关于高质量人类数据的思考
10月25日周三
08:00Lilian Weng:Lil'Log(RSS)40LLMs 上的对抗攻击
6月23日周五
08:00Lilian Weng:Lil'Log(RSS)50大语言模型驱动的自主智能体
3月15日周三
08:00Lilian Weng:Lil'Log(RSS)38Prompt Engineering(提示工程)
1月27日周五
08:00Lilian Weng:Lil'Log(RSS)52Transformer模型家族:版本2.0
1月11日周三
01:00Lilian Weng:Lil'Log(RSS)48大型Transformer模型推理优化
9月9日周五
01:00Lilian Weng:Lil'Log(RSS)33神经正切核背后的数学原理
6月10日周五
06:10Lilian Weng:Lil'Log(RSS)41通用视觉语言模型
4月16日周六
06:10Lilian Weng:Lil'Log(RSS)31数据不足下的学习 第三部分:数据生成
2月20日周日
08:00Lilian Weng:Lil'Log(RSS)57精选数据不足情况下的学习第二部分:主动学习
12月5日周日
08:00Lilian Weng:Lil'Log(RSS)43Learning with not Enough Data Part 1: Semi-Supervised Learning(数据不足时的学习第一部分:半监督学习)
9月24日周五
08:00Lilian Weng:Lil'Log(RSS)47如何在大量GPU上训练超大规模模型?
7月11日周日
08:00Lilian Weng:Lil'Log(RSS)49什么是扩散模型?
5月31日周一
08:00Lilian Weng:Lil'Log(RSS)38对比表征学习
4月24日周六
08:00Shunyu Yao:Blog(RSS)33论无根基意义学习的可证明局限
3月21日周日
08:00Lilian Weng:Lil'Log(RSS)36降低语言模型中的毒性
1月2日周六
08:00Lilian Weng:Lil'Log(RSS)32可控神经文本生成
10月29日周四
08:00Lilian Weng:Lil'Log(RSS)31如何构建开放域问答系统?
8月6日周四
08:00Lilian Weng:Lil'Log(RSS)36神经架构搜索
6月7日周日
08:00Lilian Weng:Lil'Log(RSS)45深度强化学习中的探索策略
5月16日周六
08:00Shunyu Yao:Blog(RSS)14回顾
4月7日周二
08:00Lilian Weng:Lil'Log(RSS)39Transformer家族
1月29日周三
08:00Lilian Weng:Lil'Log(RSS)33强化学习中的课程学习方法
11月10日周日
08:00Lilian Weng:Lil'Log(RSS)29自监督表示学习
9月5日周四
08:00Lilian Weng:Lil'Log(RSS)57精选进化策略
6月23日周日
08:00Lilian Weng:Lil'Log(RSS)27元强化学习
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月13日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选73
我们如何构建多智能体研究系统

Claude的多智能体研究系统采用协调器-工作者架构,一个主导智能体分析用户查询并制定策略,并行调用多个专用子智能体协同工作。内部评估显示,以Claude Opus 4为主导、Claude Sonnet 4为子智能体的系统,在研究任务上比单智能体Claude Opus 4性能提升90.2%。该系统擅长处理需要同时探索多个独立方向的广度优先查询,通过分配独立上下文窗口实现并行推理扩容。但多智能体系统消耗的token量约为普通聊天的15倍,适用于任务价值足以支撑性能提升的场景,在需要高度并行化、大信息量或多工具调用的任务中表现卓越。

智能体Anthropic教程/实践

推荐理由:Anthropic 把 Research 背后的多智能体架构、prompt 工程和踩坑经验全抖出来了,做 Agent 的同行可以直接抄作业,尤其是『token 用量解释 80% 性能方差』这个结论,选型逻辑要变。
5月1日
08:00
Lilian Weng:Lil'Log(RSS)
49
我们为何思考

研究表明,“测试时计算”与“思维链”等技术能显著提升模型性能,但也引发了一系列新的研究问题。这些方法通过让模型在推理时进行更深入的“思考”,有效利用了额外的计算资源,从而改善了其在复杂任务上的表现。该文旨在回顾近期如何有效利用“测试时计算”的发展动态,并解析其有效性的原因。

OpenAI大佬观点推理
4月18日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选77
Claude Code:智能体编码最佳实践指南

Claude Code 提供了一套完整的智能体编程工具与框架。其核心遵循“先探索、再计划、后编码”的工作流,并通过配置 CLAUDE.md 文件、管理权限和连接 MCP 服务器来优化环境。最佳实践强调为 Claude 提供工作验证方法、积极管理上下文、使用子代理进行调查,以及利用检查点回退来处理复杂任务。文档还详细介绍了在 VS Code、JetBrains IDE、Slack 及 CI/CD 中的集成使用,并提供了避免常见失败模式的实用建议。

智能体Anthropic教程/实践编码

推荐理由:Anthropic 官方出的 Claude Code 最佳实践,不是泛泛而谈的入门指南,而是从 CLAUDE.md 配置到 subagent 编排的完整工程手册,用 Claude Code 做日常开发的人直接照抄就能少踩一半坑。
4月10日
08:00
Shunyu Yao:Blog(RSS)
51
AI下半场:从解题到定义问题

AI发展已进入“下半场”。前半场的核心是开发新训练方法与模型,如Transformer、GPT等,其创新集中于搜索、深度强化学习、规模化和推理。后半场的重心将从解决问题转向定义问题,评估比训练更重要。当前的突破性进展是强化学习终于实现泛化,形成了一个通用方案,能统一解决软件工程、创意写作、高等数学等多种复杂任务。这标志着AI从专注于方法创新的阶段,转向以明确目标、定义评估标准为核心的新时期。

智能体大佬观点推理
4月9日
00:00
Mistral AI:News(网页)
67
使用大语言模型作为评判者评估 RAG 系统

评估 RAG 系统需同时验证检索相关性和生成准确性。传统方法难以全面评估,因此提出了“LLM 作为评判者”的方法,通过一个“法官 LLM”依据量表对“生成器 LLM”的输出进行评分。评估框架 RAG Triad 从三个维度进行综合评估:上下文相关性(检索内容是否契合查询)、事实基础(生成内容是否基于检索内容)和答案相关性(最终回答是否切题)。Mistral 的模型适用于构建生成与评判组件。

检索增强教程/实践
3月20日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选71
"思考"工具:让Claude在复杂工具使用场景中停下来思考

Anthropic为Claude引入了“思考”工具,允许其在生成最终响应前插入一个专门的思考步骤,以处理多步骤工具调用链、分析外部信息并遵循复杂策略。该工具与更早发布的“扩展思考”功能不同,更侧重于在响应生成过程中对新信息进行针对性推理。在τ-Bench基准测试中,该工具显著提升了Claude在客户服务场景的表现。文章建议在需要复杂工具调用、长链分析或高成本序列决策的场景中使用它,并提供了标准的工具实现格式。

AnthropicMCP/工具教程/实践

推荐理由:Anthropic 官方给出的 think tool 实操指南,附带 τ-Bench 和 SWE-bench 的真实数据,做 Agent 或 tool use 的开发者可以直接抄 prompt 模板,比自己瞎试强太多。
3月4日
00:00
Mistral AI:News(网页)
55
Mistral AI 提出 TranscriptToPRDTicket 智能体工作流,自动化产品开发流程

Mistral AI 团队推出了名为 TranscriptToPRDTicket 的智能体工作流。该方案基于 Mistral Large 2 大语言模型,核心是 PRDAgent 和 TicketCreationAgent 两个组件。工作流接收会议记录作为输入,首先由 PRDAgent 生成结构化的产品需求文档(PRD),再由 TicketCreationAgent 将 PRD 转化为开发任务,并自动在 Linear 或 Jira 等工具中创建任务。此流程旨在自动化从讨论到开发任务创建的步骤,减少手动工作并提升团队协作的一致性。该实现方案已通过 Google Colab 笔记本开源。

智能体教程/实践
1月6日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选72
Claude 3.5 Sonnet 在 SWE-bench Verified 基准测试中刷新纪录

升级版 Claude 3.5 Sonnet 在软件工程评估基准 SWE-bench Verified 上取得 49% 的解决率,超越此前最佳模型的 45%。该基准通过真实 GitHub 问题测试 AI 模型完成软件工程任务的能力,要求模型在给定环境中理解、修改并测试代码,最终通过原始单元测试验证。Claude 团队构建的智能体设计简洁,仅包含提示词、Bash 工具和编辑工具,赋予模型充分的自主判断空间,以灵活步骤解决问题。目前尚无模型在该基准上突破 50% 的解决率。

智能体Anthropic教程/实践编码

推荐理由:Anthropic 把自家 SWE-bench agent 的 prompt、工具设计和踩坑经验全公开了,做 coding agent 的人可以直接抄作业,比看十篇二手解读都管用。
12月19日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选80
构建高效智能体:从简单模式开始

Anthropic基于实践经验指出,成功的LLM智能体往往采用简单、可组合的模式,而非复杂框架。文章区分了工作流(预定义路径编排)与智能体(LLM动态自主决策),建议开发者优先采用最简单方案,仅在必要时增加复杂性。许多核心模式直接调用LLM API仅需几行代码即可实现。文中介绍了增强型LLM、提示链等基础构建模块,强调应为特定用例定制检索、工具等增强功能,并推荐通过Model Context Protocol集成第三方工具生态。

智能体AnthropicMCP/工具教程/实践

推荐理由:Anthropic 官方把过去一年踩过的坑浓缩成一篇 Agent 架构指南,核心观点是「别上框架,先用最简单的模式」。做 Agent 产品的开发者,这篇比任何第三方教程都值得当 checklist 用。
11月28日
08:00
Lilian Weng:Lil'Log(RSS)
42
强化学习中的奖励欺骗问题

奖励欺骗是指强化学习智能体通过利用奖励函数的缺陷或歧义获取高分,而非真正完成预期任务的现象。随着语言模型任务泛化能力增强,以及基于人类反馈的强化学习成为主流对齐训练方法,该问题在语言模型训练中变得尤为突出。具体表现为模型可能通过修改测试用例来通过编程任务,或生成模仿用户偏好的偏见回答。此类行为正成为制约AI模型在更自主化场景中实际应用部署的关键瓶颈之一。

OpenAI安全/对齐教程/实践
9月19日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选72
引入上下文检索:大幅提升RAG系统准确性的新方法

传统RAG系统在编码时易丢失上下文,导致检索失败。新方法“上下文检索”通过“上下文嵌入”和“上下文BM25”两项子技术,在检索前为文本块添加解释性上下文,能将检索失败次数减少49%,结合重排序后降幅可达67%,显著提升了下游任务性能。对于小于20万token的小型知识库,可直接将其完整内容放入提示词,结合Claude的提示词缓存功能,能降低超过2倍的延迟和高达90%的成本。对于大型知识库,上下文检索则提供了可扩展的解决方案。

Anthropic检索增强教程/实践部署/工程

推荐理由:Anthropic 把 RAG 检索失败率砍了 67%,方法不复杂但数据扎实,做知识库的开发者可以直接抄 cookbook 上手,是那种读完当天就能改进生产环境的实用帖。
8月1日
00:00
Suno:Blog(网页)
49
音乐的未来

音乐生成AI公司Suno回应了美国唱片业协会(RIAA)提起的诉讼。RIAA指控其成员的版权在Suno训练音乐生成技术时被侵犯。Suno称该诉讼在事实和法律上均有根本缺陷,是以诉讼替代创新。公司解释,其AI通过学习开放互联网上音乐的风格与模式来创作新内容,这一过程类似于人类的学习,而非复制。目前已有超过1200万人使用Suno。Suno强调其工具专为原创音乐设计,并设有严格的原创性保护措施。

大佬观点政策/监管
7月7日
08:00
Lilian Weng:Lil'Log(RSS)
38
LLMs 中的外部幻觉

大语言模型常生成不忠实或捏造的内容,称为幻觉。幻觉分为上下文幻觉和外部幻觉:上下文幻觉指输出与提供上下文不一致;外部幻觉指输出不基于预训练数据集的世界知识。文章聚焦外部幻觉,指出由于预训练数据集规模庞大,检查冲突成本过高,但需确保模型输出可验证且基于事实。避免外部幻觉要求模型保持事实性,并在不知答案时坦诚说明。

OpenAI安全/对齐教程/实践
4月12日
08:00
Lilian Weng:Lil'Log(RSS)
31
扩散模型(Diffusion Models)在视频生成中的应用

研究社区正将扩散模型从图像合成拓展到视频生成这一更复杂任务。视频生成需解决两大核心挑战:一是确保帧间时间一致性,要求模型编码更多世界知识;二是收集高质量视频数据难度远高于文本或图像,文本-视频对数据集尤为稀缺。现有扩散模型在图像领域已取得显著成果,但向视频领域迁移需攻克数据瓶颈与时序建模问题。

OpenAI教程/实践视频
2月5日
08:00
Lilian Weng:Lil'Log(RSS)
36
关于高质量人类数据的思考

高质量数据是现代深度学习模型训练的核心燃料。任务特定的标签数据,如分类任务或用于大语言模型对齐的RLHF标注,大多来自人类标注。虽然多种机器学习技术能提升数据质量,但人类数据采集的根本仍在于对细节的关注与细致执行。社区普遍认知到高质量数据的价值,却普遍存在一种倾向,即“人人想做模型工作,而非数据工作”,这一现象已在相关研究中被指出。

OpenAI大佬观点数据/训练
10月25日
08:00
Lilian Weng:Lil'Log(RSS)
40
LLMs 上的对抗攻击

随着 ChatGPT 等大型语言模型在现实世界中的广泛应用,安全对齐技术如 RLHF 被用于构建模型的默认安全行为,但对抗攻击或越狱提示可能触发模型输出不安全内容。尽管图像领域的对抗攻击研究较为成熟,文本攻击因离散数据缺乏直接梯度信号而更具挑战性,攻击大型语言模型本质上是控制模型输出特定类型的不安全内容。

OpenAI安全/对齐
6月23日
08:00
Lilian Weng:Lil'Log(RSS)
50
大语言模型驱动的自主智能体

以大语言模型为核心控制器的自主智能体系统,通过规划、记忆和工具使用三大组件构建复杂任务处理能力。规划模块支持任务分解与自我反思优化;记忆系统包含短期上下文学习与基于外部向量存储的长期记忆;工具使用则允许代理调用外部API获取模型权重未覆盖的信息与能力。系统已在AutoGPT、GPT-Engineer等多个概念验证项目中实现初步演示,展现了LLM超越文本生成、作为通用问题解决器的潜力。

智能体OpenAI大佬观点推理
3月15日
08:00
Lilian Weng:Lil'Log(RSS)
38
Prompt Engineering(提示工程)

Prompt Engineering,也称为上下文提示,指在不更新模型权重的前提下,通过与大语言模型(LLM)交互来引导其行为、达成预期输出的方法。这是一门经验性科学,其效果因模型不同而差异显著,需要大量实验和启发式调整。文章明确聚焦于自回归语言模型的提示工程,不涉及完形填空测试、图像生成或多模态模型。其核心目标在于实现模型的对齐与可控性。

OpenAI教程/实践
1月27日
08:00
Lilian Weng:Lil'Log(RSS)
52
Transformer模型家族:版本2.0

这是作者在三年后对其经典文章“Transformer Family”的重大更新版本。新版本对原有内容结构进行了重组,并融入了近年来提出的众多Transformer架构改进,补充了更多最新的研究论文。这篇技术梳理文章的篇幅约为原版的两倍,旨在提供一个关于Transformer模型演进与变体的、更为全面和系统的总结。

OpenAI教程/实践数据/训练
1月11日
01:00
Lilian Weng:Lil'Log(RSS)
48
大型Transformer模型推理优化

当前,大型Transformer模型已成为AI领域的主流架构,在多项任务中表现出色。然而,其极高的训练与推理成本,尤其是对计算时间与内存的大量消耗,严重阻碍了在大规模实际场景中的部署。除了模型参数规模的增长,Pope等(2022)的研究指出,还存在其他关键因素加剧了推理挑战。为此,研究者们不断探索各种优化技术以突破这一瓶颈,相关的知识蒸馏等模型压缩方法也日益受到关注。

教程/实践部署/工程
9月9日
01:00
Lilian Weng:Lil'Log(RSS)
33
神经正切核背后的数学原理

神经正切核是一种用于解释神经网络在梯度下降训练过程中演化行为的核方法。它深入阐释了为何宽度足够的神经网络能够一致收敛至经验损失函数的全局最小值,即使在参数量远超训练样本数的过参数化情况下亦是如此。研究进一步探讨了在神经网络具有无限宽度的设定下,通过刻画神经正切核来证明其在不同初始化条件下能够确定性收敛的理论依据。

arXiv教程/实践数据/训练
6月10日
06:10
Lilian Weng:Lil'Log(RSS)
41
通用视觉语言模型

处理图像生成文本(如图像描述和视觉问答)的技术已有多年研究。传统方法通常依赖目标检测网络作为视觉编码器来捕捉视觉特征,再通过文本解码器生成文字。该内容聚焦于一种特定的技术路径,即扩展预训练的通用语言模型,使其具备处理视觉信号的能力,从而完成视觉语言任务。

图像生成多模态教程/实践
4月16日
06:10
Lilian Weng:Lil'Log(RSS)
31
数据不足下的学习 第三部分:数据生成

在训练数据有限的情况下,文章探讨了两种生成合成数据的核心方法。一是数据增强,通过对现有样本施加变换、扭曲等操作生成新数据点,同时保持关键属性不变,这种方法在文本和图像领域已有较多应用。二是生成全新数据,尤其依赖强大的预训练语言模型(如GPT、LLaMA),在极少甚至没有原始数据时,能够通过上下文学习生成高质量的合成数据点,显著拓展了小样本学习的可能性。

教程/实践数据/训练
2月20日
08:00
Lilian Weng:Lil'Log(RSS)
精选57
数据不足情况下的学习第二部分:主动学习

监督学习任务的性能依赖于高质量标注数据,但获取大量标注样本成本高昂。主动学习是一种在标注预算有限、但允许投入部分人工标注资源的条件下,应对标注数据不足的范式。其核心思路是智能地选择最具信息量的样本进行标注,以在有限预算内最大化模型性能的提升。该方法旨在解决当面临标注数据受限时,如何通过策略性采样来高效利用标注资源的问题。

教程/实践数据/训练

推荐理由:这是 Lilian Weng 数据不足系列的第二篇,把主动学习的核心采样策略和实际权衡讲得很清楚,做数据标注和 ML 工程的同学值得复习一遍。
12月5日
08:00
Lilian Weng:Lil'Log(RSS)
43
Learning with not Enough Data Part 1: Semi-Supervised Learning(数据不足时的学习第一部分:半监督学习)

监督学习任务的性能通常随高质量标签数量的增加而提升,但大规模标注数据的获取成本高昂。在标签稀缺的场景下,半监督学习作为一种有效的机器学习范式,通过同时利用大量无标签数据与少量标签数据来提升模型性能。面对有限的标注数据,本文重点探讨了四种常用的半监督学习方法,为数据受限条件下的模型训练提供了技术路径。

教程/实践数据/训练
9月24日
08:00
Lilian Weng:Lil'Log(RSS)
47
如何在大量GPU上训练超大规模模型?

训练大型神经网络面临GPU内存需求巨大和训练时间漫长的双重挑战。文章系统梳理了多种主流的并行训练范式,以及模型架构与内存优化设计方案,为跨多GPU训练超大规模神经网络提供了可行路径。文中进一步补充了专家选择路由等新技术,并提及本文的精简升级版已作为《训练大型神经网络的技术》发布于OpenAI官方博客。

OpenAI教程/实践数据/训练部署/工程
7月11日
08:00
Lilian Weng:Lil'Log(RSS)
49
什么是扩散模型?

扩散模型是一种新型生成模型,具备灵活学习任意复杂数据分布的能力,并可对分布进行解析评估。近期研究表明,扩散模型能够生成高质量图像,其性能已与最先进的GAN相竞争。该文章自发布以来持续更新,陆续加入了无分类器引导、GLIDE、unCLIP、Imagen、潜在扩散模型、渐进蒸馏、一致性模型等新方法与模型架构内容。

OpenAI图像生成教程/实践
5月31日
08:00
Lilian Weng:Lil'Log(RSS)
38
对比表征学习

对比表征学习的目标是学习一种嵌入空间,使相似的样本对彼此靠近,而不相似的样本对彼此远离。该学习方法既适用于监督学习场景,也适用于无监督学习场景。在无监督数据任务中,对比学习是自监督学习领域最有效的方法之一,在计算机视觉和自然语言处理等任务中展现出优异性能。

OpenAI教程/实践
4月24日
08:00
Shunyu Yao:Blog(RSS)
33
论无根基意义学习的可证明局限

本文探讨了一个根本性问题:语言意义能否仅从形式数据(如文本语料)中学习?研究通过理论模型论证,即使模型能获得近乎无限的文本数据并具备查询任意两段文本语义等价性的强大“神谕”能力,也无法真正习得意义。文章以代码断言为喻,强调从形式通向意义需要一个最小的“接地点”,即对基本断言含义的初始理解。作者指出,现有模型在复杂任务上的局限正是纯形式学习不足的体现,并提出了一个关键理论问题:这个必要的“接地点”可以小到何种程度,才能启动有意义的学习?

大佬观点推理
3月21日
08:00
Lilian Weng:Lil'Log(RSS)
36
降低语言模型中的毒性

大型预训练语言模型因使用海量网络数据进行训练,不可避免地会习得部分毒性行为与偏见。为确保其在真实应用场景中的安全部署,必须对模型生成过程进行严格的安全控制。文章将从三个核心方面探讨降低语言模型毒性的方法:训练数据集的筛选与收集、对有毒内容的检测机制,以及模型本身的去毒化技术。

OpenAI安全/对齐教程/实践
1月2日
08:00
Lilian Weng:Lil'Log(RSS)
32
可控神经文本生成

可控神经文本生成是当前人工智能研究的热点,旨在引导大型语言模型生成具有特定属性的文本。现代语言模型虽在多项自然语言处理任务上表现先进,但控制生成内容属性仍面临挑战。主流方法包括引导解码策略、智能提示设计和模型微调。自2021年以来,该领域持续更新:2月发布版本2.0,修正拼写错误并添加多项新研究;5月集成 P-tuning 和 Prompt Tuning 等提示优化技术;9月引入未似然训练方法,进一步提升生成控制的精准度。这些进展推动了可控文本生成在实际应用中的发展。

教程/实践数据/训练
10月29日
08:00
Lilian Weng:Lil'Log(RSS)
31
如何构建开放域问答系统?

文章探讨了构建开放域问答系统的方法,指出该类系统能够回答事实性知识相关问题,可应用于聊天机器人或AI助手等场景。文中分析了闭卷和开卷两种技术路线,并提及在已有强大预训练语言模型的前提下,如何实际搭建这类系统。文章在2020年11月12日更新后,新增了使用OpenAI API(测试版)进行闭卷事实问答的具体示例。

检索增强搜索教程/实践
8月6日
08:00
Lilian Weng:Lil'Log(RSS)
36
神经架构搜索

神经架构搜索(NAS)自动化网络架构工程,旨在通过学习网络拓扑以在特定任务上获得最佳性能。该方法将搜索过程分解为搜索空间、搜索算法和子模型进化策略三个核心组件,回顾了多种优化思路,推动技术向更高效、更快捷和更经济的方向发展。当前主流模型架构虽由人类专家设计,但系统化的自动学习方法有望探索更广泛的架构空间,提升发现高性能解决方案的可能性。

OpenAI其他教程/实践
6月7日
08:00
Lilian Weng:Lil'Log(RSS)
45
深度强化学习中的探索策略

文章聚焦于强化学习中探索与利用的核心矛盾,指出智能体需在快速寻求最优解与避免过早陷入局部最优之间取得平衡。文章系统介绍了多种提升深度强化学习中探索效率的常见方法,并特别在2020年6月的更新中,于“前向动力学”章节增加了“通过分歧进行探索”的相关内容。文中强调,现代强化学习算法已能高效实现利用,但如何实现有效探索仍是一个开放性的研究课题。

OpenAI推理教程/实践
5月16日
08:00
Shunyu Yao:Blog(RSS)
14
回顾

作者因特定环境刺激变得怀旧,重新拾起一个项目。经过一个多小时二十几个commits的调整,实现了理想的Minimalism风格。回顾高中时期和OI阶段的百度贴吧、空间等经历,感叹许多人事物在短短几年内难以物理回溯。然而,精神世界的回忆可通过符号融入语言之河,以Minimalism方式将消散的故事链接进千年生活。这种对记忆与语言连接的思考,可能启发了作者对智能和语言的研究。

大佬观点现象/趋势
4月7日
08:00
Lilian Weng:Lil'Log(RSS)
39
Transformer家族

这篇技术博客于2023年1月27日进行了大幅重构更新,以纳入2020年以来发布的一系列新型Transformer模型。文章主要探讨了如何改进原版Transformer架构,使其能够实现更长的注意力跨度、降低内存与计算资源消耗,并提升在强化学习任务中的解决能力。更新后的完整内容已转移至作者的新文章《Transformer家族 Version 2.0》中。

OpenAI教程/实践
1月29日
08:00
Lilian Weng:Lil'Log(RSS)
33
强化学习中的课程学习方法

课程学习作为一种渐进式教学方法,通过分解复杂任务并提供由易到难的学习序列,显著提升了强化学习模型解决复杂问题的能力。文章系统介绍了该方法在强化学习领域的应用框架,涵盖任务特定课程设计、基于课程的学习策略等关键技术,并特别提及了程序化内容生成技术与知识蒸馏新路径。最新更新于2020年2月增加了相关技术章节,进一步扩展了课程学习的实现维度与实践参考。

OpenAI教程/实践数据/训练
11月10日
08:00
Lilian Weng:Lil'Log(RSS)
29
自监督表示学习

本文聚焦自监督表示学习,这是一种利用未标注数据通过监督学习范式进行训练的关键技术。文章全面覆盖了在图像、视频以及控制问题中应用的自监督学习任务。自2020年1月9日首次更新以来,文章不断演进,新增了对比预测编码部分;2020年7月8日引入了双模拟主题,探讨DeepMDP和DBC模型。期间,曾系统介绍动量对比方法,包括MoCo、SimCLR、CURL、MoCo V2和BYOL,但于2021年5月31日将这部分内容整合到独立的对比表示学习文章中。通过这些关键更新,文章反映了自监督学习领域的快速进展和研究动态。

OpenAI教程/实践数据/训练
9月5日
08:00
Lilian Weng:Lil'Log(RSS)
精选57
进化策略

进化策略是一种在目标函数解析形式未知或无法直接计算梯度时,用于优化模型参数的黑箱优化算法。它作为随机梯度下降的替代方案,适用于多种优化场景。文章介绍了模拟退火、爬山法、Nelder-Mead方法等经典进化策略,并探讨了该方法在深度强化学习中的应用。通过评估目标函数值而非依赖梯度信息,进化策略为复杂优化问题提供了有效路径。

教程/实践数据/训练

推荐理由:这篇五年前的进化策略入门,至今仍是理解黑箱优化的最佳起点,Lilian Weng的笔法清晰,做RL的朋友可以当字典翻。
6月23日
08:00
Lilian Weng:Lil'Log(RSS)
27
元强化学习

Meta-RL是将元学习应用于强化学习任务的方法。其核心在于,智能体在经历了一系列任务的分布训练后,能够通过内部活动动态自主生成新的强化学习算法,从而快速高效地解决全新的任务。文章首先追溯了Meta-RL的起源,随后深入剖析了该方法的三个关键组成部分。

OpenAI教程/实践数据/训练
‹ 上一页
1…10111213
下一页 ›