AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「开源/仓库」清除
6月22日周日
23:54Yann LeCunSandboxAQ 发布全新开源数据集 SAIR
6月20日周五
22:53Yann LeCunSandboxAQ 开源最大结合亲和力数据集 SAIR
6月16日周一
00:00LMSYS:Blog(Chatbot Arena 团队)在GB200 NVL72上部署DeepSeek 671B:PD与大规模EP架构实现2.7倍解码加速
6月6日周五
04:00EleutherAI:BlogCommon Pile v0.1 正式发布
5月22日周四
01:19Hacker News:AI 热帖精选将Agent封装为MCP服务器示例
5月5日周一
00:00LMSYS:Blog(Chatbot Arena 团队)技术博客:在96块H100 GPU上通过PD分离与大规模专家并行部署DeepSeek
4月24日周四
11:27Saining Xie最近由 @TongPetersb、@DavidJFan 和 Meta FAIR 团队开源的项目。
3月25日周二
21:23公众号:DeepSeek(深度求索)64同事件精选DeepSeek-V3 模型更新,各项能力全面进阶同一事件,精选展示《DeepSeek-V3 正式发布》
3月21日周五
01:01Hacker News:AI 热帖Show HN: Hyperbrowser MCP Server - 通过浏览器将 AI agent 连接至网络
2月28日周五
09:06DeepSeekDeepSeek开源3FS并行文件系统与Smallpond框架
2月27日周四
10:05DeepSeek59开源周第四日:优化并行策略发布
2月26日周三
09:00DeepSeek🚀 #OpenSourceWeek 第三天:DeepGEMM 推出 DeepGEMM - 一个支持 dense 和 MoE GEMM 的 FP8 GEMM 库,为 V3/R1 的训练和推理提供支持。 ⚡ 在 Hopper GPU 上可达 1350+ FP8 TFLOPS ✅ 无繁重依赖,简洁如教程 ✅ 完全 Just-In-Time 编译 ✅ 核心逻辑仅约 300 行 - 却在大多数矩阵尺寸上超越专家调优的 kernel ✅ 支持 dense 布局及两种 MoE 布局 🔗 GitHub: https://github.com/deepseek-ai/DeepGEMM
2月25日周二
10:24DeepSeekDeepSeek开源DeepEP:首个MoE专家并行通信库
2月24日周一
09:34DeepSeek🚀 #OpenSourceWeek 第一天:FlashMLA 很荣幸分享 FlashMLA -- 我们针对 Hopper GPU 的高效 MLA 解码内核,针对变长序列优化,现已投入生产。 ✅ 支持 BF16 ✅ 分页 KV 缓存(块大小 64) ⚡ 在 H800 上达 3000 GB/s 内存受限与 580 TFLOPS 计算受限 🔗 在 GitHub 上探索:https://github.com/deepseek-ai/FlashMLA
2月21日周五
12:00DeepSeekDeepSeek 启动开源周:将开源 5 个 AGI 探索代码库
12月26日周四
19:17公众号:DeepSeek(深度求索)67精选DeepSeek-V3 正式发布
12月13日周五
23:05Hacker News:AI 热帖Show HN: 我制作了最慢、最贵的 GPT
12月4日周三
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang v0.4:零开销批处理调度器、缓存感知负载均衡器及更快的结构化输出
11月18日周一
00:00Mistral AI:News(网页)60Mistral AI 开源多模态模型 Pixtral Large 发布
9月6日周五
19:38公众号:DeepSeek(深度求索)61精选DeepSeek-V2.5:融合通用与代码能力的全新开源模型
9月4日周三
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang v0.3 发布:DeepSeek MLA 吞吐量提升 7 倍,支持多模态视频理解
8月16日周五
20:46公众号:DeepSeek(深度求索)53DeepSeek 发布开源数学定理证明模型
7月25日周四
00:00LMSYS:Blog(Chatbot Arena 团队)使用 SGLang Runtime 实现更快的开源 Llama3 推理(对比 TensorRT-LLM、vLLM)
7月16日周二
00:00Mistral AI:News(网页)37Mistral AI 发布数学推理模型 Mathstral 7B
7月1日周一
00:00LMSYS:Blog(Chatbot Arena 团队)RouteLLM:面向高性价比 LLM 路由的开源框架
5月29日周三
00:00Mistral AI:News(网页)57Codestral:Mistral AI团队2024年5月29日发布
3月17日周日
08:00xAI:News(网页)Grok-1 开源发布
2月5日周一
00:00LMSYS:Blog(Chatbot Arena 团队)基于压缩有限状态机实现本地LLM快速JSON解码
1月17日周三
00:00LMSYS:Blog(Chatbot Arena 团队)利用 RadixAttention 与 SGLang 实现快速且灵活的 LLM 推理
11月26日周日
23:00EleutherAI:Blog第三届新英格兰 RLHF Hackers 黑客松
11月15日周三
00:00LMSYS:Blog(Chatbot Arena 团队)服务数千个并发 LoRA 适配器的方案
7月8日周六
08:00EleutherAI:BlogMinetester:基于 Minetest 构建的完全开放 RL 环境
5月23日周二
09:00EleutherAI:BlogSafetensors 通过安全审计并将成为默认格式
5月5日周六
08:00Lilian Weng:Lil'Log(RSS)31使用Tensorflow + OpenAI Gym实现深度强化学习模型
没有更多了
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月22日
23:54
Yann LeCun@ylecun
SandboxAQ 开源 SAIR 数据集,包含超500万个蛋白质-配体3D结构及结合亲和力标注,为目前最大规模开源结合亲和力数据集。基于NVIDIA DGX Cloud构建,现已在Google Cloud公开可用,旨在为药物发现AI模型提供训练与评估数据。

SandboxAQ: Today we're releasing SAIR, the Structurally Augmented IC50 Repository. SAIR is the Largest Open-Sourced Binding Affinit...

Google开源/仓库数据/训练
6月20日
22:53
Yann LeCun@ylecun
SandboxAQ 发布开源数据集 SAIR(Structurally Augmented IC50 Repository),收录逾 500 万个共折叠蛋白质-配体 3D 结构及结合亲和力数据,为目前规模最大的开源结合亲和力数据集。数据由大型定量模型生成,旨在为药物发现 AI 模型提供高质量训练数据,弥合分子结构与药效预测间的鸿沟。该数据集基于 NVIDIA DGX Cloud 构建,现已在 Google Cloud Platform 公开发布,供全球研究人员下载使用。

SandboxAQ: Today we're releasing SAIR, the Structurally Augmented IC50 Repository. SAIR is the Largest Open-Sourced Binding Affinit...

Google开源/仓库数据/训练
6月16日
00:00
LMSYS:Blog(Chatbot Arena 团队)
在GB200 NVL72上部署DeepSeek 671B:PD与大规模EP架构实现2.7倍解码加速

SGLang团队在GB200 NVL72集群部署DeepSeek 671B模型,采用预填充-解码分离(PD)与大规模专家并行(EP)架构,结合Blackwell专用优化组件(DeepGEMM、DeepEP等),实现单GPU解码吞吐7,583 tokens/秒。在2,000 token输入下,性能较H100提升2.7倍,整体加速比达2.5-3.4倍。系统利用NVLink全互联降低通信延迟,依托更大显存支持高批次处理,显著提升MoE模型推理效率。

DeepSeek开源/仓库推理部署/工程
6月6日
04:00
EleutherAI:Blog
Common Pile v0.1 正式发布

Common Pile v0.1 正式发布,这是一个规模达 8TB 的文本数据集,专门收录公共领域及开放许可的文本内容。该数据集提供了海量可合法自由使用的语料资源,适用于大规模语言模型训练等需要合规数据源的场景,旨在解决 AI 训练中的数据版权合规问题。

开源/仓库数据/训练
5月22日
01:19
Hacker News:AI 热帖
精选
将Agent封装为MCP服务器示例

MCP Agent Server示例展示了将Agent工作流封装为MCP服务器的"Agent即服务"架构。提供asyncio(轻量级内存执行,适合开发测试)和Temporal(生产级持久化、支持暂停恢复)两种实现。通过装饰器暴露Agent能力,支持多Agent互操作,可与Claude Desktop等任意MCP客户端集成,实现复杂工作流的标准化封装与跨平台复用。

智能体MCP/工具开源/仓库

推荐理由:展示 Agent 即 MCP 服务器新范式,支持多 Agent 协作与主流客户端集成
5月5日
00:00
LMSYS:Blog(Chatbot Arena 团队)
技术博客:在96块H100 GPU上通过PD分离与大规模专家并行部署DeepSeek

SGLang团队开源了基于96块H100 GPU(12节点×8卡)的DeepSeek推理系统实现,采用PD分离(Prefill-Decode Disaggregation)与大规模专家并行(EP)架构,集成DeepEP、DeepGEMM和EPLB完整功能,在2000 token输入序列下达成每节点每秒52.3k输入token和22.3k输出token的吞吐量。该方案较传统张量并行提升输出吞吐量5倍,将成本压缩至每百万输出token仅0.20美元,约为官方API价格的五分之一,是首个在开源实现中接近官方DeepSeek报告性能的大规模部署方案。

开源/仓库开源生态部署/工程
4月24日
11:27
Saining Xie@sainingxie
最近由 @TongPetersb、@DavidJFan 和 Meta FAIR 团队开源的项目。

Peter Tong: We are open-sourcing all the models in Web-SSL, from ViT-L to ViT-7B! It was super fun to train and play with these mass...

Meta开源/仓库数据/训练
3月25日
21:23
公众号:DeepSeek(深度求索)
同事件精选64
DeepSeek-V3 模型更新,各项能力全面进阶

DeepSeek-V3 新版已发布,关闭深度思考模式即可体验,模型权重同步开源。

DeepSeek开源/仓库推理模型发布
同一事件,精选展示《DeepSeek-V3 正式发布》
推荐理由:DeepSeek-V3 发布时是开源模型的有力竞争者,但这条一年多前的旧闻如今毫无新意,对关注 AI 动态的你来说,可以直接跳过。
3月21日
01:01
Hacker News:AI 热帖
Show HN: Hyperbrowser MCP Server - 通过浏览器将 AI agent 连接至网络

Hyperbrowser 发布 MCP Server,为 AI agent 提供网页抓取、结构化数据提取和爬取能力。支持集成 OpenAI CUA、Claude Computer Use 和 Browser Use 等浏览器自动化工具,兼容 Cursor、Windsurf 和 Claude Desktop,可通过 npx 一键安装,MIT 协议开源。

智能体AnthropicMCP/工具OpenAI
2月28日
09:06
DeepSeek@deepseek_ai
DeepSeek开源3FS并行文件系统与Smallpond框架

DeepSeek发布开源并行文件系统3FS(Fire-Flyer File System),专为现代SSD和RDMA网络优化。180节点集群可实现6.6 TiB/s聚合读取吞吐量,25节点GraySort测试达3.66 TiB/min,单节点KVCache查找峰值超40 GiB/s。采用分离式架构与强一致性语义,支持训练数据预处理、检查点存取及V3/R1推理的KVCache查找。同步开源Smallpond数据处理框架。

DeepSeek开源/仓库数据/训练部署/工程
2月27日
10:05
DeepSeek@deepseek_ai
59
🚀 #开源周 第4天:优化的并行策略 ✅ DualPipe - 一种用于V3/R1训练中计算-通信重叠的双向流水线并行算法。 🔗 https://github.com/deepseek-ai/DualPipe ✅ EPLB - 适用于V3/R1的专家并行负载均衡器。 🔗 https://github.com/deepseek-ai/eplb 📊 分析V3/R1中的计算-通信重叠情况。 🔗 https://github.com/deepseek-ai/profile-data
DeepSeek开源/仓库部署/工程
2月26日
09:00
DeepSeek@deepseek_ai
🚀 #OpenSourceWeek 第三天:DeepGEMM 推出 DeepGEMM - 一个支持 dense 和 MoE GEMM 的 FP8 GEMM 库,为 V3/R1 的训练和推理提供支持。 ⚡ 在 Hopper GPU 上可达 1350+ FP8 TFLOPS ✅ 无繁重依赖,简洁如教程 ✅ 完全 Just-In-Time 编译 ✅ 核心逻辑仅约 300 行 - 却在大多数矩阵尺寸上超越专家调优的 kernel ✅ 支持 dense 布局及两种 MoE 布局 🔗 GitHub: https://github.com/deepseek-ai/DeepGEMM
DeepSeek开源/仓库部署/工程
2月25日
10:24
DeepSeek@deepseek_ai
DeepSeek开源DeepEP:首个MoE专家并行通信库

DeepSeek开源周第二日推出DeepEP,这是首个面向MoE模型训练与推理的开源EP通信库。该库针对专家并行场景优化,支持NVLink和RDMA的all-to-all通信,既提供高吞吐kernel用于训练与推理预填充,也提供低延迟kernel用于解码阶段。同时原生支持FP8精度,并允许灵活的GPU资源控制以实现计算与通信重叠,显著提升MoE模型效率。

DeepSeek开源/仓库部署/工程
2月24日
09:34
DeepSeek@deepseek_ai
🚀 #OpenSourceWeek 第一天:FlashMLA 很荣幸分享 FlashMLA -- 我们针对 Hopper GPU 的高效 MLA 解码内核,针对变长序列优化,现已投入生产。 ✅ 支持 BF16 ✅ 分页 KV 缓存(块大小 64) ⚡ 在 H800 上达 3000 GB/s 内存受限与 580 TFLOPS 计算受限 🔗 在 GitHub 上探索:https://github.com/deepseek-ai/FlashMLA
DeepSeek开源/仓库推理部署/工程
2月21日
12:00
DeepSeek@deepseek_ai
DeepSeek 启动开源周:将开源 5 个 AGI 探索代码库

DeepSeek AI 预告开源周活动,将于下周起陆续开源 5 个代码仓库。作为探索 AGI 的小团队,他们计划透明分享那些已在生产环境中实战验证的代码模块。团队相信开源社区的集体力量能加速行业进步,强调此次发布将摒弃象牙塔式的封闭开发,以"车库能量"和社区驱动创新的形式呈现。

DeepSeek开源/仓库开源生态部署/工程
12月26日
19:17
公众号:DeepSeek(深度求索)
精选67
DeepSeek-V3 正式发布

深度求索正式发布 DeepSeek-V3 模型,性能比肩世界顶尖模型,速度跃升,价格更新。

DeepSeek开源/仓库模型发布
关联讨论 1 条公众号:DeepSeek(深度求索)
推荐理由:DeepSeek-V3 是 2024 年底国产模型的一次真正跃迁,首次亮剑就逼近闭源顶尖,开源权重更是直接改变了开发者生态。时隔一年半回头看,它仍是理解 DeepSeek 路径的起点。
12月13日
23:05
Hacker News:AI 热帖
Show HN: 我制作了最慢、最贵的 GPT

作者展示了一个刻意追求极致低效的 GPT 实现,通过极慢的响应机制(如逐字符渲染或人工模拟)和昂贵的运行架构,打造出单次请求耗时极长、调用成本极高的反讽式大语言模型服务。

开源/仓库
12月4日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang v0.4:零开销批处理调度器、缓存感知负载均衡器及更快的结构化输出

SGLang v0.4版本正式发布,通过零开销批处理调度器将CPU调度与GPU计算重叠,吞吐量提升1.1倍,较其他基线快1.3倍。新版本引入缓存感知负载均衡器,预测KV缓存命中率,使吞吐量最高提升1.9倍,缓存命中率从20%提升至75%。针对DeepSeek模型的数据并行注意力机制带来1.9倍解码吞吐量提升,XGrammar结构化输出速度提升达10倍。

DeepSeek开源/仓库部署/工程
11月18日
00:00
Mistral AI:News(网页)
60
Mistral AI 开源多模态模型 Pixtral Large 发布

Mistral AI 基于 Mistral Large 2 发布了开源多模态模型 Pixtral Large。该模型包含 123B 多模态解码器和 1B 视觉编码器,支持 128K 上下文窗口。性能方面,它在 MathVista、DocVQA、ChartQA 和 MM-MT-Bench 等基准测试中超越 GPT-4o 与 Gemini-1.5 Pro,并在 LMSYS Vision Leaderboard 上成为得分最高的开源模型。需要注意的是,该模型已停止维护,并被更新的视觉模型所取代。

多模态开源/仓库模型发布评测/基准
9月6日
19:38
公众号:DeepSeek(深度求索)
精选61
DeepSeek-V2.5:融合通用与代码能力的全新开源模型

DeepSeek-V2.5 保留原有 Chat 模型的通用对话能力和 Coder 模型的代码处理能力,并更好地对齐人类偏好。

DeepSeekOpenAI开源/仓库模型发布

推荐理由:DeepSeek首次将通用对话与代码能力合一的开源模型,当时直接拉低了多任务成本,今天看仍是模型混合能力演变的早期标杆。
9月4日
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang v0.3 发布:DeepSeek MLA 吞吐量提升 7 倍,支持多模态视频理解

SGLang v0.3 正式发布,实现显著性能提升与新架构支持。针对 DeepSeek MLA 机制深度优化,采用权重吸收、FP8 量化等技术,在 H100 GPU 上吞吐量最高提升 7 倍。集成 torch.compile 使批量 1-32 场景延迟降低 1.5 倍。新增 LLaVA-OneVision 支持,可处理交错文本、多图像及视频输入,速度提升 4.5 倍。同时全面支持 Gemma-2 的 8K 上下文与交错窗口注意力,突破 4K 限制。

DeepSeek开源/仓库部署/工程
8月16日
20:46
公众号:DeepSeek(深度求索)
53
DeepSeek 发布开源数学定理证明模型

DeepSeek 发布了一款开源数学定理证明模型,目标是加速“数学定理证明的 AlphaGo 时代”的到来。

DeepSeek开源/仓库推理模型发布
7月25日
00:00
LMSYS:Blog(Chatbot Arena 团队)
使用 SGLang Runtime 实现更快的开源 Llama3 推理(对比 TensorRT-LLM、vLLM)

LMSYS.org 推出 SGLang Runtime v0.2,一个纯 Python 开发的开源 LLM 推理引擎。在覆盖 Llama-8B 至 405B 的基准测试中,该系统在 A100 和 H100 GPU 上展现出优于 vLLM 最高 3.1 倍的离线吞吐量(Llama-70B 场景),并与 TensorRT-LLM 性能相当。SGLang 支持 FP8/FP16 精度,核心调度器仅约 4000 行代码,已在 Chatbot Arena 等平台累计生成数万亿 token。

开源/仓库开源生态部署/工程
7月16日
00:00
Mistral AI:News(网页)
37
Mistral AI 发布数学推理模型 Mathstral 7B

Mistral AI 发布了专注于数学推理的 7B 参数模型 Mathstral 7B。该模型基于 Mistral 7B 构建,旨在解决需要复杂多步推理的高级数学问题。它在 MATH 和 MMLU 基准上分别达到 56.6% 和 63.47%,在同等参数规模中实现 SOTA 性能。通过增加推理时计算,其在 MATH 上的分数可借助多数投票提升至 68.37%,使用强奖励模型则可达 74.59%。该模型为指令模型,权重已托管于 HuggingFace。

开源/仓库推理模型发布
7月1日
00:00
LMSYS:Blog(Chatbot Arena 团队)
RouteLLM:面向高性价比 LLM 路由的开源框架

RouteLLM 是一个基于偏好数据训练的开源 LLM 路由框架,通过智能分配查询至强模型(如 GPT-4)或弱模型(如 Mixtral 8x7B)来平衡成本与性能。该框架提供四种路由器,其中矩阵分解模型在 MT Bench 上表现最优,仅需调用 14% 的 GPT-4 即可达到其 95% 的性能,整体成本降低 75%。在 MMLU 和 GSM8K 基准测试中,RouteLLM 分别实现 45% 和 35% 的成本削减,同时保持 95% 的 GPT-4 水平。项目已开源全部代码与数据集。

开源/仓库数据/训练部署/工程
5月29日
00:00
Mistral AI:News(网页)
57
Codestral:Mistral AI团队2024年5月29日发布

Mistral AI推出其首个专用代码模型Codestral。该模型拥有22B参数,开源权重,专为代码生成任务设计,支持80+编程语言,并具备32k的上下文窗口,在RepoBench评测中表现优于竞品。开发者可通过专用端点 codestral.mistral.ai 获得为期8周的免费Beta测试,也可通过 api.mistral.ai 按token计费使用。该模型已集成至LlamaIndex、LangChain以及Continue.dev和Tabnine等IDE工具。

开源/仓库推理模型发布编码
3月17日
08:00
xAI:News(网页)
Grok-1 开源发布

xAI 宣布开源 Grok-1 模型权重,采用 Apache 2.0 协议。该模型拥有 3140 亿参数,基于 MoE 架构,是迄今参数量最大的开源大模型之一。权重已上传至 GitHub 和 Hugging Face,可自由下载用于本地部署与商用。

xAI开源/仓库
2月5日
00:00
LMSYS:Blog(Chatbot Arena 团队)
基于压缩有限状态机实现本地LLM快速JSON解码

SGLang团队提出Jump-Forward Decoding算法,通过压缩有限状态机中的单一路径,将多token预填充合并为单步执行,突破传统方法逐token解码的限制。该技术兼容任意正则表达式与JSON/YAML schema,相比guidance+llama.cpp和outlines+vLLM等现有方案,延迟降低2倍,吞吐量提升2.5倍,使约束解码速度超越普通解码。

开源/仓库部署/工程
1月17日
00:00
LMSYS:Blog(Chatbot Arena 团队)
利用 RadixAttention 与 SGLang 实现快速且灵活的 LLM 推理

研究团队发布 SGLang 结构化生成语言及后端技术 RadixAttention,通过基数树数据结构自动管理并重用 KV 缓存,显著减少多轮生成调用中的冗余计算。在 NVIDIA A10G GPU 上运行 Llama-7B 和 Mixtral-8x7B 模型的测试显示,该系统吞吐量较 Guidance 和 vLLM 等现有系统提升最高达 5 倍。前端提供嵌入 Python 的领域特定语言,支持解释器与编译器双模式执行,有效提升复杂 LLM 程序的编程与执行效率。

开源/仓库部署/工程
11月26日
23:00
EleutherAI:Blog
第三届新英格兰 RLHF Hackers 黑客松

第三届新英格兰 RLHF Hackers 黑客松近期举办,集中展示了多个聚焦机器学习与强化学习不同领域的创新项目。重点项目 Pink Elephants Pt 3 采用 ILQL(Inverse Learning from Q-learning)方法,基于标准 trlX 实现框架训练粉色大象模型。主办方鼓励参与者加入 Discord 社区,以获取未来活动更新与更多技术资讯。

开源/仓库数据/训练
11月15日
00:00
LMSYS:Blog(Chatbot Arena 团队)
服务数千个并发 LoRA 适配器的方案

S-LoRA 是一个专为大规模并发 LoRA 适配器服务设计的系统,通过统一分页技术动态管理 KV 缓存与适配器权重内存以减少碎片,并采用异构批处理优化不同秩的 LoRA 计算。该系统支持张量并行扩展至多 GPU,相比 HuggingFace PEFT 和 vLLM,吞吐量提升最高达 4 倍,可同时服务的适配器数量增加数个数量级。

开源/仓库数据/训练部署/工程
7月8日
08:00
EleutherAI:Blog
Minetester:基于 Minetest 构建的完全开放 RL 环境

Minetester 是一个基于开源游戏 Minetest 构建的完全开放强化学习(RL)环境。该项目概述了 Minetest 平台的技术架构及早期开发工作,为研究人员提供了一个代码完全开放、可自由修改的 AI 训练与测试平台,填补了现有 Minecraft 类 RL 环境在开放性方面的空白。

具身智能开源/仓库数据/训练
5月23日
09:00
EleutherAI:Blog
Safetensors 通过安全审计并将成为默认格式

Hugging Face 联合 EleutherAI 与 Stability AI 委托 Trail of Bits 对 Safetensors 库完成独立安全审计,结果证实该库安全可靠,具备成为默认格式的条件。三方组织宣布将推动 Safetensors 作为模型保存的默认格式。完整审计报告已公开发布,相关博客文章将进一步阐述该库的技术背景与后续实施计划。

Hugging Face开源/仓库开源生态部署/工程
5月5日
08:00
Lilian Weng:Lil'Log(RSS)
31
使用Tensorflow + OpenAI Gym实现深度强化学习模型

该教程详细展示了如何在Tensorflow和OpenAI Gym环境中实现多种经典深度强化学习算法。文章提供了完整的实践代码,并已开源在GitHub仓库“lilianweng/deep-reinforcement-learning-gym”。内容聚焦于将理论转化为实际编程操作,旨在指导读者通过动手实践掌握模型的具体实现方法。

智能体OpenAI开源/仓库教程/实践
‹ 上一页
1…232425
下一页 ›