AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 520 条
全部一手资讯X论文
标签「教程/实践」清除
12月11日周四
18:00公众号:小红书技术(dots.llm)52小红书技术提出细粒度激活卸载:大模型训练显存与吞吐性能联合最优方案
12月10日周三
18:00公众号:蚂蚁百灵(Ling)37蚂蚁百灵提出 IcePop 与 C3PO++ 方案,应对万亿参数 RLVR 稳定性与效率挑战
12月9日周二
18:06公众号:蚂蚁百灵(Ling)31Ming-Flash-Omni 全模态模型发布:视觉、语音、图像、文本理解与生成全面领先
12月4日周四
08:00Hugging Face:Blog(RSS)76精选利用Claude微调开源大语言模型的新途径
11月26日周三
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)75精选为长时运行智能体设计有效约束方案
11月25日周二
08:00Hugging Face:Blog(RSS)76精选从第一性原理看连续批处理
01:40Hugging Face:Blog(RSS)83精选构建深度研究智能体:实现顶尖水平的经验
11月17日周一
08:00Hugging Face:Blog(RSS)73精选使用Hugging Face轻松构建和共享ROCm内核
11月12日周三
10:46Ethan Mollick:One Useful Thing(RSS)精选给AI一场工作面试
00:00Claude:Blog(网页)精选通过 Skills 改进前端设计
11月4日周二
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)74精选通过代码执行提升MCP智能体效率
11月3日周一
00:00LMSYS:Blog(Chatbot Arena 团队)精选在 NVIDIA DGX Spark 上优化 GPT-OSS:实现本地大模型部署
10月30日周四
00:00Claude:Blog(网页)精选金融服务领域构建 AI 代理指南
10月23日周四
08:00OpenRouter:Announcements(RSS)45OpenRouter 探讨隐式缓存是否等同于 ZDR
9月29日周一
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)78精选为AI智能体实施有效的上下文工程
9月11日周四
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)73精选为智能体编写高效工具--与智能体协作
9月10日周三
15:01Thinking Machines Lab:官方博客(RSS)60精选破解LLM推理中的非确定性
8月28日周四
00:00LMSYS:Blog(Chatbot Arena 团队)gpt-oss MXFP4 微调和部署:ModelOpt + SGLang(8月29日更新)
8月1日周五
00:00Mistral AI:News(网页)59通过微调释放视觉语言模型在卫星图像上的潜力
7月20日周日
00:00LMSYS:Blog(Chatbot Arena 团队)基于PD分离与大规模专家并行在128张H200 GPU上部署Kimi K2
7月16日周三
00:00LMSYS:Blog(Chatbot Arena 团队)在 SGLang 中支持新 VLMs:NVILA 案例研究
7月14日周一
08:00OpenRouter:Announcements(RSS)49使用OpenRouter在Cursor中调用模型:试试月之暗面的Kimi K2
08:00OpenRouter:Announcements(RSS)56精选OpenRouter 模型现可在 Cursor 中使用:试试月之暗面 Kimi K2
6月24日周二
00:12Ethan Mollick:One Useful Thing(RSS)精选当下如何使用 AI:快速指南
6月13日周五
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)73精选我们如何构建多智能体研究系统
4月18日周五
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)77精选Claude Code:智能体编码最佳实践指南
4月9日周三
00:00Mistral AI:News(网页)67使用大语言模型作为评判者评估 RAG 系统
3月20日周四
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)71精选"思考"工具:让Claude在复杂工具使用场景中停下来思考
3月4日周二
00:00Mistral AI:News(网页)55Mistral AI 提出 TranscriptToPRDTicket 智能体工作流,自动化产品开发流程
1月6日周一
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)72精选Claude 3.5 Sonnet 在 SWE-bench Verified 基准测试中刷新纪录
12月19日周四
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)80精选构建高效智能体:从简单模式开始
11月28日周四
08:00Lilian Weng:Lil'Log(RSS)42强化学习中的奖励欺骗问题
9月19日周四
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)72精选引入上下文检索:大幅提升RAG系统准确性的新方法
7月7日周日
08:00Lilian Weng:Lil'Log(RSS)38LLMs 中的外部幻觉
6月12日周三
00:00Suno:Blog(网页)55精选Audio Inputs--通过 Mikey Shulman(联合创始人兼 CEO)发布·2024 年 6 月 12 日,用任何声音创作一首歌 产品更新
4月12日周五
08:00Lilian Weng:Lil'Log(RSS)31扩散模型(Diffusion Models)在视频生成中的应用
2月29日周四
17:00EleutherAI:BlogFoundation Model 开发速查表
4月18日周二
07:00EleutherAI:BlogTransformer 数学基础:计算与内存入门
3月15日周三
08:00Lilian Weng:Lil'Log(RSS)38Prompt Engineering(提示工程)
1月27日周五
08:00Lilian Weng:Lil'Log(RSS)52Transformer模型家族:版本2.0
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
12月11日
18:00
公众号:小红书技术(dots.llm)
52
小红书技术提出细粒度激活卸载:大模型训练显存与吞吐性能联合最优方案

细粒度激活卸载(Fine-grained Activation Offloading)采用模块级粒度,将计算与内存传输重叠,并兼容全并行设计,在主流大模型训练中同时降低峰值显存开销并提升吞吐性能,实现显存开销与吞吐性能的联合最优,获得显著性能收益和显存收益。

教程/实践数据/训练部署/工程
12月10日
18:00
公众号:蚂蚁百灵(Ling)
37
蚂蚁百灵提出 IcePop 与 C3PO++ 方案,应对万亿参数 RLVR 稳定性与效率挑战

蚂蚁百灵发布 IcePop 与 C3PO++ 方案,旨在解决万亿参数级强化学习模型 RLVR 在训练稳定性与计算效率方面的关键技术挑战。

教程/实践数据/训练
12月9日
18:06
公众号:蚂蚁百灵(Ling)
31
Ming-Flash-Omni 全模态模型发布:视觉、语音、图像、文本理解与生成全面领先

Ming-Flash-Omni 在视觉、语音、图像、文本四种模态上同时实现了领先的理解与生成能力,覆盖音视图文全模态场景。该模型无需拆分为独立子模型即可统一处理多模态输入与输出,标志着全模态 AI 的重要进展。

多模态教程/实践
12月4日
08:00
Hugging Face:Blog(RSS)
精选76
利用Claude微调开源大语言模型的新途径

Anthropic的研究人员探索了一种新方法:使用其强大的闭源AI助手Claude来生成高质量的指令遵循数据,并用这些数据对较小的开源模型(如LLaMA系列)进行监督微调。这项实验旨在展示如何利用尖端闭源模型的能力来指导和改进可公开访问的开源模型性能,从而推动AI技术的进步与民主化。

AnthropicHugging Face教程/实践数据/训练

推荐理由:用闭源模型蒸馏能力给开源模型,一条低成本微调的新路径值得关注
11月26日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选75
为长时运行智能体设计有效约束方案

为解决AI智能体在跨越多上下文窗口执行长期任务时的“记忆丢失”与进展不一致问题,Anthropic为Claude Agent SDK开发了一套双重方案。该方案包含一个初始化智能体,负责在首次运行时建立基础环境并生成功能清单;以及一个编码智能体,负责在后续会话中进行增量开发并提交清晰可合并的代码。通过结构化的进度日志和Git历史等机制,引导智能体避免“试图一次性完成所有功能”或“过早宣布完成”的失败模式,从而实现跨会话的持续有效协作。

智能体Anthropic教程/实践

推荐理由:Anthropic 把 Claude Agent SDK 跑长任务踩过的坑全摊开了,初始化 agent + 增量进度文件这套方案不复杂但极实用,做 Agent 产品的团队可以直接抄作业。
11月25日
08:00
Hugging Face:Blog(RSS)
精选76
从第一性原理看连续批处理

连续批处理是优化大型语言模型推理吞吐量的核心技术,通过并行处理多个对话并在生成完成后动态交换任务,以最大化硬件利用率。从注意力机制和KV缓存的基础原理出发,文章推导了如何通过优化批处理提升性能。注意力层具有二次复杂度,但连续批处理允许查询、键和值张量容纳不同长度的令牌序列,从而同时处理预填充和解码阶段。该技术能显著降低生成每个令牌的计算成本,适用于高负载服务场景,提升响应速度。

Hugging Face推理教程/实践部署/工程

推荐理由:深入理解LLM推理优化原理,助力高效模型部署。
01:40
Hugging Face:Blog(RSS)
精选83
构建深度研究智能体:实现顶尖水平的经验

Tavily团队因模型迭代重建了深度研究系统,核心是从工作流转向智能体架构,并聚焦上下文工程。通过Tavily Advanced Search进行上下文管理的网络检索,高效获取高相关度内容,避免信息过载。智能体设计模仿人类研究模式:收集信息、提炼要点、决策下一步,仅在生成最终交付物时引用原始资料,大幅减少令牌消耗,实现线性增长而非传统二次方增长。团队遵循简化编排逻辑、关注模型与工具优化方向、强化上下文工程等原则,以构建能随模型进化而持续改进的智能体系统。

智能体Hugging Face教程/实践部署/工程

推荐理由:分享构建高效 AI 代理的实战技巧,优化上下文工程以提升性能。
11月17日
08:00
Hugging Face:Blog(RSS)
精选73
使用Hugging Face轻松构建和共享ROCm内核

Hugging Face的kernels库简化了高性能深度学习内核的构建与共享,支持CUDA、ROCm等多种后端。本文以ROCm兼容内核为例,展示如何利用kernel-builder工具构建、测试并共享内核。以RadeonFlow的GEMM内核为具体案例,该内核是针对AMD Instinct MI300X GPU优化的FP8块状矩阵乘法实现,采用e4m3fnuz浮点格式和每块缩放因子以保持低精度计算准确性,并在2025年AMD开发者挑战赛中获最高奖。指南涵盖项目设置、构建配置及通过kernels社区分享的完整步骤。

Hugging Face开源生态教程/实践部署/工程

推荐理由:AMD GPU开发者可快速上手构建高性能AI内核,提升部署效率。
11月12日
10:46
Ethan Mollick:One Useful Thing(RSS)
精选
给AI一场工作面试

AI建议愈发关键,亟需建立系统化评估机制。通过工作面试般的严格测试,全面检验AI的实际能力与可靠性,确保其建议值得信赖。

教程/实践

推荐理由:Ethan Mollick 分享通过'工作面试'法系统评估 AI 能力的实用框架
00:00
Claude:Blog(网页)
精选
通过 Skills 改进前端设计

LLM 生成界面常因"分布收敛"而陷入 Inter 字体配紫色渐变的同质化设计。Anthropic 建议通过 Skills 功能解决:将排版、动画、配色等设计规范存入独立 Markdown 文件,Claude 可在构建页面时动态加载,无需永久占用系统提示词。这种按需加载机制既保持上下文窗口精简以维持模型性能,又能让 AI 生成摆脱默认审美、更具品牌辨识度的定制化界面。

智能体Anthropic教程/实践编码

推荐理由:Claude官方分享通过Skills解决AI生成界面同质化问题的实践技巧,附字体与主题优化Prompt示例。
11月4日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选74
通过代码执行提升MCP智能体效率

随着AI智能体通过模型上下文协议(MCP)连接的工具数量激增,传统预先加载所有工具定义并通过上下文传递中间结果的方法,导致处理速度变慢、成本增加。问题核心在于工具定义占用大量上下文空间,且中间结果(如完整会议记录)在多次工具调用间重复传递,额外消耗数万令牌。文章提出解决方案:将MCP服务器呈现为代码API,使智能体能按需加载工具,并在执行环境中处理数据,仅将精简结果传回模型,从而显著减少令牌消耗、提升效率并降低成本。

智能体AnthropicMCP/工具教程/实践

推荐理由:Anthropic 官方把 MCP 从「能连」推进到「连多了怎么办」,用代码执行替代直接工具调用,token 省 98.7% 这个数字不是吹的。做 Agent 工程的人如果还在暴力塞 tool definition,这篇是必读的架构升级指南。
11月3日
00:00
LMSYS:Blog(Chatbot Arena 团队)
精选
在 NVIDIA DGX Spark 上优化 GPT-OSS:实现本地大模型部署

与 NVIDIA 合作,在 DGX Spark 上通过 SGLang 成功支持 GPT-OSS 20B 与 120B 模型,实现 20B 版本约 70 tokens/s、120B 版本约 50 tokens/s 的生成速度,达到目前最优水平。用户可通过 Docker 部署 SGLang 服务,接入 Open WebUI 实现本地聊天,或借助 LMRouter 转换请求格式以完全本地化运行 Claude Code。该方案使在 DGX Spark 上部署多百亿参数本地编码智能体成为现实。

智能体OpenAI教程/实践端侧

推荐理由:DGX Spark本地跑通Claude Code完全离线,隐私敏感开发者的新选择
10月30日
00:00
Claude:Blog(网页)
精选
金融服务领域构建 AI 代理指南

Claude 发布金融服务 AI 代理构建指南,分享 NBIM、Brex 等机构实践。NBIM 员工每周节省数百小时,McKinsey 研究显示欺诈检测生产力可提升 200% 至 2000%。AI 代理能自主整合多源数据、执行跨系统操作,在合规框架下处理客户服务与风险分析,将传统分析工具升级为可独立完成交易的自主系统。

智能体Anthropic教程/实践

推荐理由:Anthropic官方分享金融AI智能体落地实践,含NBIM、Brex等真实案例与效率数据。
10月23日
08:00
OpenRouter:Announcements(RSS)
45
OpenRouter 探讨隐式缓存是否等同于 ZDR

OpenRouter 在公告中提出问题:是否应将提供隐式缓存(implicit caching)的供应商视为“ZDR”?

教程/实践部署/工程
9月29日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选78
为AI智能体实施有效的上下文工程

随着AI应用从单次提示转向构建长期运行的智能体,焦点正从“提示工程”演进为“上下文工程”。后者旨在为大型语言模型优化有限的上下文窗口内的全部信息,包括指令、工具、外部数据和对话历史。其核心挑战在于模型存在“注意力预算”限制和“上下文腐化”现象——随着上下文增长,模型回忆信息的准确性会下降。因此,上下文工程要求精心编排高价值信息,以有限的资源最大化产出期望结果,这已成为构建高性能、可操控智能体的关键。

智能体AnthropicMCP/工具教程/实践

推荐理由:Anthropic 亲自下场定义 context engineering 这个新范式,把 prompt engineering 之后的工程方法论讲透了。做 Agent 的人如果还在死磕 prompt,这篇会让你重新审视整个技术栈。
9月11日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选73
为智能体编写高效工具--与智能体协作

文章探讨如何为基于大语言模型的智能体设计高效工具。核心方法是通过与智能体(如Claude Code)协作,采用快速原型构建和全面评估的迭代流程来优化工具性能。关键设计原则包括:选择适当的工具实现范围,使用命名空间明确功能边界,从工具向智能体返回有意义的上下文,优化响应以提高token效率,以及对工具描述进行提示词工程。工具本质上是确定性系统与非确定性智能体之间的新契约,设计应优先考虑智能体的使用体验,而非传统开发者导向的API思路,以扩大智能体解决实际任务的能力。

智能体AnthropicMCP/工具教程/实践

推荐理由:Anthropic 把自家内部反复打磨的 agent 工具开发方法论完整公开了,从评估流程到 prompt 工程细节全是实操干货,做 MCP server 或 agent 工具链的人可以直接抄作业。
9月10日
15:01
Thinking Machines Lab:官方博客(RSS)
精选60
破解LLM推理中的非确定性

LLM推理的再现性是科学进步的基础,但即使在温度设为0的贪心采样下,ChatGPT等API以及vLLM、SGLang等自托管推理引擎仍无法保证确定性结果。常见的“并发+浮点非结合性”假设并不完整——GPU上重复执行相同矩阵乘法结果完全一致。真正原因在于:部分GPU内核是非确定性的,但LLM前向传播使用的内核均为确定性;推理服务器前向传播本身是确定性的,用户感知的非确定性源于浮点运算非结合性在不同聚合顺序下导致的细微数值差异。文章揭示了这一误解,并探讨如何实现真正可重现的LLM推理输出。

开源/仓库推理教程/实践部署/工程

推荐理由:Horace He 把 LLM 推理非确定性的锅从并发浮点转向 batch-size,并给出了可落地的 batch-invariant 内核实现,做推理部署和 RL 的工程师都该看看。
8月28日
00:00
LMSYS:Blog(Chatbot Arena 团队)
gpt-oss MXFP4 微调和部署:ModelOpt + SGLang(8月29日更新)

OpenAI 开源模型 gpt-oss 原生采用 MXFP4 量化,但社区长期缺乏针对该低精度格式的训练支持。NVIDIA 推出基于 Model Optimizer 的量化感知训练(QAT)方案,允许在 Blackwell、Hopper、Ampere 及 Ada 等常见 GPU 上直接微调模型,无需转换为 BF16 而牺牲性能。实测显示,经 QAT 微调的 gpt-oss-20b 在多语言推理任务中通过率从 16% 提升至 100%,在安全提示识别任务中从 30% 优化至 97%。微调后的模型可通过 SGLang 部署,保持 MXFP4 格式的推理速度与内存优势。

OpenAI教程/实践数据/训练部署/工程
8月1日
00:00
Mistral AI:News(网页)
59
通过微调释放视觉语言模型在卫星图像上的潜力

Mistral AI展示了如何通过LoRA微调技术,将Pixtral-12B视觉语言模型适配到卫星图像分析任务,从而显著提升模型在该专业领域的性能。该研究使用公开的Aerial Image Dataset进行测试,对比了微调前后的分类效果。未微调的基础模型在模糊类别上表现不佳且存在幻觉,而经过微调的模型将整体分类准确率从85.2%提升至94.1%,针对类似“游乐场”与“体育场”等易混淆类别的准确率也从63.0%大幅提升到88.5%,并解决了输出无效类别的幻觉问题。这项工作证明了领域特定微调对于挖掘通用大模型在垂直应用中潜力的有效性。

多模态教程/实践
7月20日
00:00
LMSYS:Blog(Chatbot Arena 团队)
基于PD分离与大规模专家并行在128张H200 GPU上部署Kimi K2

Mooncake团队基于OME和SGLang框架,在128张H200 GPU集群上完成了Moonshot AI 1万亿参数开源MoE模型Kimi K2的大规模部署。该方案采用PD分离与大规模专家并行技术,针对模型384个专家和每token 320亿激活参数的设计进行优化,通过跨节点通信优化与负载均衡策略,显著提升了trillion-scale模型的推理吞吐与并发处理能力。

开源生态教程/实践部署/工程
7月16日
00:00
LMSYS:Blog(Chatbot Arena 团队)
在 SGLang 中支持新 VLMs:NVILA 案例研究

NVILA 团队发布技术博客,详解如何在 SGLang 推理框架中集成新型视觉语言模型。文章以 NVILA 为实践案例,提供从模型适配、推理优化到部署的完整开发指南与代码实践。随着多模态大模型成为行业焦点,该方案填补了 SGLang 生态在视觉理解模型支持方面的文档空白,为开发者快速接入新 VLM 提供了标准化技术路径与最佳实践。

多模态教程/实践部署/工程
7月14日
08:00
OpenRouter:Announcements(RSS)
49
使用OpenRouter在Cursor中调用模型:试试月之暗面的Kimi K2

OpenRouter的灵活模型路由现已集成到Cursor,用户可在Cursor中直接调用Moonshot AI的Kimi K2模型进行编码操作。

教程/实践编码
08:00
OpenRouter:Announcements(RSS)
精选56
OpenRouter 模型现可在 Cursor 中使用:试试月之暗面 Kimi K2

OpenRouter 宣布其灵活模型路由支持在 Cursor 中运行月之暗面的 Kimi K2。用户可直接在 Cursor 中调用 OpenRouter 路由的模型,无需额外配置。

MCP/工具教程/实践编码
关联讨论 1 条X:OpenRouter (@OpenRouter)
推荐理由:一篇将 OpenRouter 模型接入 Cursor 的实操指南,虽然已过时三百多天,但对想免配置用 Kimi K2 的 Cursor 用户仍有参考价值。
6月24日
00:12
Ethan Mollick:One Useful Thing(RSS)
精选
当下如何使用 AI:快速指南

一份当下 AI 工具的快速选用指南,聚焦目前值得使用的 AI 产品及其具体使用方法,帮助读者快速上手并选对工具。

教程/实践
关联讨论 1 条Ethan Mollick:One Useful Thing(RSS)
推荐理由:AI教育专家Ethan Mollick撰写,指导读者当下如何选择和使用AI工具
6月13日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选73
我们如何构建多智能体研究系统

Claude的多智能体研究系统采用协调器-工作者架构,一个主导智能体分析用户查询并制定策略,并行调用多个专用子智能体协同工作。内部评估显示,以Claude Opus 4为主导、Claude Sonnet 4为子智能体的系统,在研究任务上比单智能体Claude Opus 4性能提升90.2%。该系统擅长处理需要同时探索多个独立方向的广度优先查询,通过分配独立上下文窗口实现并行推理扩容。但多智能体系统消耗的token量约为普通聊天的15倍,适用于任务价值足以支撑性能提升的场景,在需要高度并行化、大信息量或多工具调用的任务中表现卓越。

智能体Anthropic教程/实践

推荐理由:Anthropic 把 Research 背后的多智能体架构、prompt 工程和踩坑经验全抖出来了,做 Agent 的同行可以直接抄作业,尤其是『token 用量解释 80% 性能方差』这个结论,选型逻辑要变。
4月18日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选77
Claude Code:智能体编码最佳实践指南

Claude Code 提供了一套完整的智能体编程工具与框架。其核心遵循“先探索、再计划、后编码”的工作流,并通过配置 CLAUDE.md 文件、管理权限和连接 MCP 服务器来优化环境。最佳实践强调为 Claude 提供工作验证方法、积极管理上下文、使用子代理进行调查,以及利用检查点回退来处理复杂任务。文档还详细介绍了在 VS Code、JetBrains IDE、Slack 及 CI/CD 中的集成使用,并提供了避免常见失败模式的实用建议。

智能体Anthropic教程/实践编码

推荐理由:Anthropic 官方出的 Claude Code 最佳实践,不是泛泛而谈的入门指南,而是从 CLAUDE.md 配置到 subagent 编排的完整工程手册,用 Claude Code 做日常开发的人直接照抄就能少踩一半坑。
4月9日
00:00
Mistral AI:News(网页)
67
使用大语言模型作为评判者评估 RAG 系统

评估 RAG 系统需同时验证检索相关性和生成准确性。传统方法难以全面评估,因此提出了“LLM 作为评判者”的方法,通过一个“法官 LLM”依据量表对“生成器 LLM”的输出进行评分。评估框架 RAG Triad 从三个维度进行综合评估:上下文相关性(检索内容是否契合查询)、事实基础(生成内容是否基于检索内容)和答案相关性(最终回答是否切题)。Mistral 的模型适用于构建生成与评判组件。

检索增强教程/实践
3月20日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选71
"思考"工具:让Claude在复杂工具使用场景中停下来思考

Anthropic为Claude引入了“思考”工具,允许其在生成最终响应前插入一个专门的思考步骤,以处理多步骤工具调用链、分析外部信息并遵循复杂策略。该工具与更早发布的“扩展思考”功能不同,更侧重于在响应生成过程中对新信息进行针对性推理。在τ-Bench基准测试中,该工具显著提升了Claude在客户服务场景的表现。文章建议在需要复杂工具调用、长链分析或高成本序列决策的场景中使用它,并提供了标准的工具实现格式。

AnthropicMCP/工具教程/实践

推荐理由:Anthropic 官方给出的 think tool 实操指南,附带 τ-Bench 和 SWE-bench 的真实数据,做 Agent 或 tool use 的开发者可以直接抄 prompt 模板,比自己瞎试强太多。
3月4日
00:00
Mistral AI:News(网页)
55
Mistral AI 提出 TranscriptToPRDTicket 智能体工作流,自动化产品开发流程

Mistral AI 团队推出了名为 TranscriptToPRDTicket 的智能体工作流。该方案基于 Mistral Large 2 大语言模型,核心是 PRDAgent 和 TicketCreationAgent 两个组件。工作流接收会议记录作为输入,首先由 PRDAgent 生成结构化的产品需求文档(PRD),再由 TicketCreationAgent 将 PRD 转化为开发任务,并自动在 Linear 或 Jira 等工具中创建任务。此流程旨在自动化从讨论到开发任务创建的步骤,减少手动工作并提升团队协作的一致性。该实现方案已通过 Google Colab 笔记本开源。

智能体教程/实践
1月6日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选72
Claude 3.5 Sonnet 在 SWE-bench Verified 基准测试中刷新纪录

升级版 Claude 3.5 Sonnet 在软件工程评估基准 SWE-bench Verified 上取得 49% 的解决率,超越此前最佳模型的 45%。该基准通过真实 GitHub 问题测试 AI 模型完成软件工程任务的能力,要求模型在给定环境中理解、修改并测试代码,最终通过原始单元测试验证。Claude 团队构建的智能体设计简洁,仅包含提示词、Bash 工具和编辑工具,赋予模型充分的自主判断空间,以灵活步骤解决问题。目前尚无模型在该基准上突破 50% 的解决率。

智能体Anthropic教程/实践编码

推荐理由:Anthropic 把自家 SWE-bench agent 的 prompt、工具设计和踩坑经验全公开了,做 coding agent 的人可以直接抄作业,比看十篇二手解读都管用。
12月19日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选80
构建高效智能体:从简单模式开始

Anthropic基于实践经验指出,成功的LLM智能体往往采用简单、可组合的模式,而非复杂框架。文章区分了工作流(预定义路径编排)与智能体(LLM动态自主决策),建议开发者优先采用最简单方案,仅在必要时增加复杂性。许多核心模式直接调用LLM API仅需几行代码即可实现。文中介绍了增强型LLM、提示链等基础构建模块,强调应为特定用例定制检索、工具等增强功能,并推荐通过Model Context Protocol集成第三方工具生态。

智能体AnthropicMCP/工具教程/实践

推荐理由:Anthropic 官方把过去一年踩过的坑浓缩成一篇 Agent 架构指南,核心观点是「别上框架,先用最简单的模式」。做 Agent 产品的开发者,这篇比任何第三方教程都值得当 checklist 用。
11月28日
08:00
Lilian Weng:Lil'Log(RSS)
42
强化学习中的奖励欺骗问题

奖励欺骗是指强化学习智能体通过利用奖励函数的缺陷或歧义获取高分,而非真正完成预期任务的现象。随着语言模型任务泛化能力增强,以及基于人类反馈的强化学习成为主流对齐训练方法,该问题在语言模型训练中变得尤为突出。具体表现为模型可能通过修改测试用例来通过编程任务,或生成模仿用户偏好的偏见回答。此类行为正成为制约AI模型在更自主化场景中实际应用部署的关键瓶颈之一。

OpenAI安全/对齐教程/实践
9月19日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选72
引入上下文检索:大幅提升RAG系统准确性的新方法

传统RAG系统在编码时易丢失上下文,导致检索失败。新方法“上下文检索”通过“上下文嵌入”和“上下文BM25”两项子技术,在检索前为文本块添加解释性上下文,能将检索失败次数减少49%,结合重排序后降幅可达67%,显著提升了下游任务性能。对于小于20万token的小型知识库,可直接将其完整内容放入提示词,结合Claude的提示词缓存功能,能降低超过2倍的延迟和高达90%的成本。对于大型知识库,上下文检索则提供了可扩展的解决方案。

Anthropic检索增强教程/实践部署/工程

推荐理由:Anthropic 把 RAG 检索失败率砍了 67%,方法不复杂但数据扎实,做知识库的开发者可以直接抄 cookbook 上手,是那种读完当天就能改进生产环境的实用帖。
7月7日
08:00
Lilian Weng:Lil'Log(RSS)
38
LLMs 中的外部幻觉

大语言模型常生成不忠实或捏造的内容,称为幻觉。幻觉分为上下文幻觉和外部幻觉:上下文幻觉指输出与提供上下文不一致;外部幻觉指输出不基于预训练数据集的世界知识。文章聚焦外部幻觉,指出由于预训练数据集规模庞大,检查冲突成本过高,但需确保模型输出可验证且基于事实。避免外部幻觉要求模型保持事实性,并在不知答案时坦诚说明。

OpenAI安全/对齐教程/实践
6月12日
00:00
Suno:Blog(网页)
精选55
Audio Inputs--通过 Mikey Shulman(联合创始人兼 CEO)发布·2024 年 6 月 12 日,用任何声音创作一首歌 产品更新

Suno 发布 Audio Inputs 功能,所有 Pro 和 Premier 用户可上传或录制 6-60 秒的音频片段,通过“Extend”模式选择起始时间戳、设定风格,并可添加歌词来创作歌曲。社区创作者已用其提供自定义音频引子来设定氛围、节奏和乐器灵感。该功能会阻止受版权保护作品的上传,且所有包含人声的输入将保持私密并不可搜索。

产品更新教程/实践语音

推荐理由:Suno 把上传录音做歌的门槛降到极低,对音乐创作者和普通用户都友好,只是这已经是前年的更新,之后的同类功能可能更完善。
4月12日
08:00
Lilian Weng:Lil'Log(RSS)
31
扩散模型(Diffusion Models)在视频生成中的应用

研究社区正将扩散模型从图像合成拓展到视频生成这一更复杂任务。视频生成需解决两大核心挑战:一是确保帧间时间一致性,要求模型编码更多世界知识;二是收集高质量视频数据难度远高于文本或图像,文本-视频对数据集尤为稀缺。现有扩散模型在图像领域已取得显著成果,但向视频领域迁移需攻克数据瓶颈与时序建模问题。

OpenAI教程/实践视频
2月29日
17:00
EleutherAI:Blog
Foundation Model 开发速查表

发布全新资源 FM Dev Cheatsheet,这是一份面向 Foundation Model 开发的实用速查表。该资源旨在为开发者提供基础模型开发全流程的关键参考信息,涵盖架构设计、训练优化及部署等环节的核心要点,帮助快速查阅技术规范与最佳实践,提升开发效率与项目质量。

开源生态教程/实践数据/训练
4月18日
07:00
EleutherAI:Blog
Transformer 数学基础:计算与内存入门

系统阐述 Transformer 架构在计算负载与内存占用方面的基础数学原理,涵盖前向传播与反向传播过程中的浮点运算量(FLOPs)估算、模型参数量与显存需求的计算公式,以及注意力机制的复杂度分析。通过量化方法解析大语言模型训练与推理阶段的资源消耗规律,为模型设计与硬件选型提供理论依据。

教程/实践部署/工程
3月15日
08:00
Lilian Weng:Lil'Log(RSS)
38
Prompt Engineering(提示工程)

Prompt Engineering,也称为上下文提示,指在不更新模型权重的前提下,通过与大语言模型(LLM)交互来引导其行为、达成预期输出的方法。这是一门经验性科学,其效果因模型不同而差异显著,需要大量实验和启发式调整。文章明确聚焦于自回归语言模型的提示工程,不涉及完形填空测试、图像生成或多模态模型。其核心目标在于实现模型的对齐与可控性。

OpenAI教程/实践
1月27日
08:00
Lilian Weng:Lil'Log(RSS)
52
Transformer模型家族:版本2.0

这是作者在三年后对其经典文章“Transformer Family”的重大更新版本。新版本对原有内容结构进行了重组,并融入了近年来提出的众多Transformer架构改进,补充了更多最新的研究论文。这篇技术梳理文章的篇幅约为原版的两倍,旨在提供一个关于Transformer模型演进与变体的、更为全面和系统的总结。

OpenAI教程/实践数据/训练
‹ 上一页
1…10111213
下一页 ›