AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 497 条
全部一手资讯X论文
标签「部署/工程」清除
4月20日周一
00:00Anthropic:Newsroom(网页)Anthropic与Amazon扩大合作,承诺投入超千亿美元获取5吉瓦算力
4月17日周五
21:05Cloudflare BlogAgent Readiness 评分正式发布:你的网站是否已做好 agent 准备?
21:02Cloudflare Blog共享字典:适应代理式网络的压缩技术
21:00Cloudflare Blog推出 Flagship:面向 AI 时代的功能标志服务
21:00Cloudflare BlogUnweight:我们如何在不牺牲质量的情况下将 LLM 压缩 22%
4月16日周四
22:05Cloudflare BlogCloudflare AI 平台:专为智能体设计的推理层
22:00Cloudflare Blog构建超大型语言模型运行基础架构
21:01Cloudflare BlogArtifacts:兼容 Git 的版本化存储
4月15日周三
21:01Cloudflare BlogProject Think:基于 Cloudflare 打造下一代 AI 智能体平台
21:00Cloudflare BlogAgent Lee 正式发布:Cloudflare 技术栈的全新交互界面
08:00OpenRouter:Announcements(RSS)57精选宣布推出视频生成功能
4月14日周二
20:00Cursor Blog62精选多智能体系统将GPU内核性能提升38%
4月10日周五
08:00OpenAI:官网动态(RSS · 排除企业/客户案例)金融服务业AI资源
00:00LMSYS:Blog(Chatbot Arena 团队)HiSparse:分层内存系统加速稀疏注意力
4月9日周四
19:11公众号:生数科技(Vidu·视频)51生数科技Vidu正式上线阿里云百炼
4月7日周二
17:26蚂蚁 inclusionAI:GitHub 新仓库54inclusionAI/TC-AE
4月6日周一
20:00Cursor Blog66精选通过warp decode提升MoE模型推理效率
00:00Anthropic:Newsroom(网页)Anthropic与Google、Broadcom扩大合作,获多千兆瓦下一代算力
4月3日周五
03:59Meta Engineering Blog(RSS)82精选KernelEvolve:Meta的Ranking Engineer Agent如何优化AI基础设施
00:00Google Blog:AI(RSS)Gemini API 推出 Flex 与 Priority 层级,平衡成本与可靠性
4月2日周四
15:05蚂蚁 inclusionAI:GitHub 新仓库40inclusionAI/cuLA:基于CuTe DSL与CUTLASS C++的线性注意力变体CUDA内核
4月1日周三
08:00Google Developers Blog(RSS)71精选开发者指南:使用技能构建ADK智能体
08:00Hugging Face:Blog(RSS)83精选使用Gradio后端支持任意自定义前端
00:00Meta Engineering Blog(RSS)81精选Meta Adaptive Ranking Model:弯曲推理扩展曲线,为广告提供LLM规模模型服务
3月31日周二
15:06Steve Yegge:Medium(RSS)49氛围维护者
08:00Google Developers Blog(RSS)81精选Boost Training Goodput: 连续检查点功能如何优化 Orbax 和 MaxText 的训练可靠性
00:00Meta Engineering Blog(RSS)71精选AI助力美国产水泥与混凝土
00:00Mistral AI:News(网页)80面向双重用户:Mistral AI 如何改进CLI工具以同时服务人类与AI智能体
3月27日周五
20:00Cursor Blog72精选Composer 2技术报告:面向智能体软件工程的代码模型训练
3月25日周三
00:00LMSYS:Blog(Chatbot Arena 团队)Elastic EP:实现DeepSeek MoE部署的部分故障容忍
00:00LMSYS:Blog(Chatbot Arena 团队)SGLang亮相NVIDIA GTC 2026:三天五场活动展示开源AI基础设施实力
3月24日周二
00:00Google Research:Blog(网页)TurboQuant:以极端压缩重新定义AI效率
3月19日周四
19:58公众号:龙猫LongCat(美团)39美团 BI 在指标平台和分析引擎上的探索和实践
3月17日周二
00:00LMSYS:Blog(Chatbot Arena 团队)Miles RL框架正式支持ROCm:基于AMD Instinct GPU的大规模后训练
3月14日周六
00:00Dwarkesh Patel:Podcast & Blog(RSS)精选Dylan Patel - 深度剖析 AI 算力扩展的三大瓶颈
3月12日周四
14:54公众号:阶跃星辰(Step)26阶跃AI 能一键部署 OpenClaw了!5 万个免费体验名额,先到先得
08:00OpenRouter:Announcements(RSS)37OpenRouter 推出 Auto Exacto:自适应质量路由,默认开启
08:00OpenRouter:Announcements(RSS)38Auto Exacto:自适应质量路由,默认开启
08:00OpenRouter:Announcements(RSS)54Auto Exacto: 自适应质量路由,现已默认开启
00:00Anthropic:Newsroom(网页)Anthropic投资1亿美元成立Claude合作伙伴网络
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月20日
00:00
Anthropic:Newsroom(网页)
Anthropic与Amazon扩大合作,承诺投入超千亿美元获取5吉瓦算力

Anthropic与Amazon签署十年协议,承诺向AWS投入超1000亿美元以获取高达5吉瓦算力,用于Claude训练与部署。Amazon追加投资50亿美元(未来可达200亿美元),新容量包括上半年上线的Trainium2及2026年底前部署的近1GW Trainium2与Trainium3。Claude Platform将直接集成AWS,目前超10万客户通过Bedrock使用Claude,Anthropic年化收入已突破300亿美元。

Anthropic行业动态部署/工程
4月17日
21:05
Cloudflare Blog
Agent Readiness 评分正式发布:你的网站是否已做好 agent 准备?

Cloudflare 推出 Agent Readiness 评分体系,帮助网站所有者量化评估其网站对 AI agent 的支持能力。该体系建立全新技术标准,并基于 Radar 数据监测分析。Cloudflare 通过重构文档站点,将其打造为全网对 agent 最友好的网站,为行业提供了可复现的优化范例,推动网站基础设施向 AI 代理友好型架构升级。

智能体产品更新部署/工程
21:02
Cloudflare Blog
共享字典:适应代理式网络的压缩技术

技术团队预告了共享压缩字典功能的上线计划,这项压缩技术专为适应代理式网络的发展需求而设计,能够显著缩短页面加载时间并提升传输效率。该功能目前处于预览阶段,具体的 beta 测试开放时间即将公布,用户很快就能亲自体验这项新技术。

智能体产品更新部署/工程
21:00
Cloudflare Blog
推出 Flagship:面向 AI 时代的功能标志服务

Cloudflare 发布原生功能标志服务 Flagship,直接构建于其全球网络之上,旨在消除第三方供应商的延迟。该服务利用 KV 和 Durable Objects 技术,实现亚毫秒级的 flag 评估速度,满足 AI 时代对实时性能的需求,为开发者提供低延迟的功能开关能力。

产品更新部署/工程
21:00
Cloudflare Blog
Unweight:我们如何在不牺牲质量的情况下将 LLM 压缩 22%

Cloudflare 发布无损推理时压缩系统 Unweight,可在不牺牲模型质量的前提下,将大语言模型(LLM)的占用空间减少 22%。该系统针对 GPU 内存带宽进行优化,使推理速度更快、成本更低,解决了在网络边缘大规模部署 LLM 时的内存效率挑战,实现了模型体积与计算资源的高效平衡。

论文/研究部署/工程
4月16日
22:05
Cloudflare Blog
Cloudflare AI 平台:专为智能体设计的推理层

Cloudflare 将 AI Gateway 重构为统一的 AI 推理层,开发者可通过单一接口调用 14 家以上提供商的模型。新版本集成 Workers AI 绑定功能,并扩充了多模态模型目录,专为 AI 智能体优化设计。该平台旨在简化跨服务商的模型调用流程,降低多模型集成的技术门槛。

智能体产品更新部署/工程
22:00
Cloudflare Blog
构建超大型语言模型运行基础架构

Cloudflare 针对超大型语言模型推理需求打造了专属技术栈,通过在其全球基础设施上部署定制化高性能 AI 推理系统,实现了大模型的低延迟运行。该方案深入剖析了工程权衡与技术优化路径,解决了超大规模模型部署中的性能瓶颈,使企业无需自建复杂基础设施即可获取高性能 AI 推理能力。

产品更新部署/工程
21:01
Cloudflare Blog
Artifacts:兼容 Git 的版本化存储

Artifacts 正式发布,这是一款专为智能体(agents)打造的版本化存储服务,完全兼容 Git 协议。该平台支持创建数千万个仓库,允许从任意远程仓库 fork,并可通过 URL 提供给任何 Git 客户端访问。Artifacts 旨在为智能体、开发者和自动化工具提供代码与数据的统一存储空间,实现大规模仓库管理与无缝的 Git 操作集成。

智能体产品更新部署/工程
4月15日
21:01
Cloudflare Blog
Project Think:基于 Cloudflare 打造下一代 AI 智能体平台

Cloudflare 发布 Project Think 及 Agents SDK 下一版本预览,该平台从轻量级原语转型为功能完备的一站式开发平台,支持 AI 智能体实现思考、行动与状态持久化。新版本提供开箱即用的基础设施,帮助开发者构建具备持续认知能力的下一代 AI 应用。

智能体产品更新部署/工程
21:00
Cloudflare Blog
Agent Lee 正式发布:Cloudflare 技术栈的全新交互界面

Cloudflare 推出仪表盘内置代理 Agent Lee,将传统多标签页手动操作界面革新为单一提示词交互模式。基于沙盒化 TypeScript 构建,该工具以技术协作者身份协助用户排查故障、管理 Cloudflare 技术栈,实现从繁琐手动配置向智能化对话式运维的转变,提升基础设施管理效率与体验。

智能体产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
精选57
宣布推出视频生成功能

OpenRouter平台现已上线视频生成服务。用户可通过单一API接口,直接调用顶级的视频生成模型。这一集成简化了开发流程,使开发者无需分别对接不同厂商,即可便捷地访问和使用当前领先的视频AI模型能力。

产品更新视频部署/工程

推荐理由:OpenRouter 把视频生成塞进统一 API,对已经在用它做多模型路由的开发者来说是零成本扩展,但对大多数人只是又一个聚合入口,不算必须关注的节点。
4月14日
20:00
Cursor Blog
精选62
多智能体系统将GPU内核性能提升38%

我们与NVIDIA合作,利用自主运行的多智能体系统,在为期三周内对235个真实CUDA内核进行了优化。该系统从零开始构建并优化Blackwell GPU内核直至汇编级别,实现了38%的几何平均速度提升,其中63%的问题超越基线,19%实现超2倍优化。这些内核直接影响AI训练与推理效率,传统上需资深工程师耗时数月乃至数年的优化工作,该系统在数周内即自主完成,并能探索更广阔解决方案空间,突破了人工逐项优化的限制。

智能体现象/趋势编码部署/工程

推荐理由:Cursor 把自家多 Agent 系统拉去优化 CUDA 内核,38% 的 geomean 提速不算炸裂,但真正值得看的是它证明了 Agent 可以在无人干预下跑三周啃硬骨头,这对做 Agent 产品的人是个强信号。
4月10日
08:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
金融服务业AI资源

专为金融服务业打造的AI资源合集,涵盖提示词包、GPT模型、实用指南及专业工具,助力金融机构安全、高效地部署和扩展人工智能应用,推动行业智能化升级与数字化转型。

OpenAI产品更新部署/工程
00:00
LMSYS:Blog(Chatbot Arena 团队)
HiSparse:分层内存系统加速稀疏注意力

LMSYS Org推出HiSparse分层内存系统,针对稀疏注意力仍受限于GPU内存容量的问题,将非活跃KV缓存卸载至主机内存,仅在GPU HBM保留热缓冲区,并通过专用CUDA内核高效管理数据交换(采用LRU策略与页表更新)。该系统在256并发请求下实现超3倍吞吐量提升,GLM-5.1-FP8模型长上下文场景性能提升达5倍,支持DeepSeek-V3.2等采用DeepSeek Sparse Attention架构的模型。

开源/仓库推理部署/工程
4月9日
19:11
公众号:生数科技(Vidu·视频)
51
生数科技Vidu正式上线阿里云百炼

生数科技旗下视频生成模型Vidu已正式上线阿里云百炼平台,标志着从“模型领先”向“生态领先”的转变。双方将联合加速行业发展。

产品更新视频部署/工程
4月7日
17:26
蚂蚁 inclusionAI:GitHub 新仓库
54
inclusionAI/TC-AE

研究团队发布了TC-AE,一种用于深度压缩自动编码器的新方法,旨在突破现有模型的令牌容量限制。该方法通过创新的架构设计,显著提升了模型在压缩表示中保留信息的能力,实现了更高的压缩效率与重建质量。具体指标显示,TC-AE在多个基准测试中,相较于传统深度压缩自动编码器,将有效令牌容量提升了约30%,同时保持了较低的计算开销。这项工作为高密度数据压缩与表示学习提供了新的技术路径。

开源/仓库数据/训练论文/研究部署/工程
4月6日
20:00
Cursor Blog
精选66
通过warp decode提升MoE模型推理效率

针对Blackwell GPU上的小批量解码,研究提出了一种名为“warp decode”的新方法。该方法颠覆了传统以专家为中心的计算路径,改为让每个GPU warp负责计算一个输出神经元。这一根本性改变消除了原有流程中五个纯数据管理的“簿记”步骤,将整个MoE计算层压缩为仅两个内核。其优势在于避免了填充、分散和中间缓冲区的读写,并通过warp独立性实现了更好的调度。在Blackwell GPU上,该方法实现了1.84倍的吞吐量提升,同时输出精度更高,与全FP32参考值的差距缩小了1.4倍,有效加速了模型研发流程。

推理论文/研究部署/工程

推荐理由:Cursor 把 MoE 推理的并行轴从专家翻转到输出神经元,Blackwell 上吞吐涨 1.84 倍还顺带提精度,这种同时赢性能和精度的内核优化极其罕见,做推理引擎的值得逐行读。
00:00
Anthropic:Newsroom(网页)
Anthropic与Google、Broadcom扩大合作,获多千兆瓦下一代算力

Anthropic宣布与Google、Broadcom达成新协议,将获得多千兆瓦下一代TPU算力,预计2027年上线。这是其迄今最大的算力投资,用以支持Claude模型及激增的客户需求。数据显示,Claude年收入运行率已突破300亿美元,年消费超百万美元的企业客户两个月内从500家翻倍至超1000家。新设施主要位于美国,符合其500亿美元投资美国基础设施的承诺。公司强调将继续保持多硬件平台策略,AWS仍是主要云服务商。

AnthropicGoogle行业动态部署/工程
4月3日
03:59
Meta Engineering Blog(RSS)
精选82
KernelEvolve:Meta的Ranking Engineer Agent如何优化AI基础设施

Meta的Ranking Engineer Agent系列博客第二篇,聚焦其底层基础设施优化能力。该自主AI代理能够优化支撑广告排名模型运行的低层基础设施,旨在提升系统性能与效率。本篇承接首篇介绍的机器学习实验自主探索功能,进一步展示了该代理在硬件与系统层面的自动化优化实践。

智能体Meta产品更新部署/工程

推荐理由:Meta 内部工具展示 AI 自动化优化基础设施,工程师可借鉴实践。
00:00
Google Blog:AI(RSS)
Gemini API 推出 Flex 与 Priority 层级,平衡成本与可靠性

Google 为 Gemini API 新增 Flex 和 Priority 两个推理层级,帮助开发者在成本与延迟之间灵活取舍。

Google产品更新部署/工程
4月2日
15:05
蚂蚁 inclusionAI:GitHub 新仓库
40
inclusionAI/cuLA:基于CuTe DSL与CUTLASS C++的线性注意力变体CUDA内核

inclusionAI发布了cuLA项目,这是一套为线性注意力变体编写的CUDA内核。该内核完全采用NVIDIA的CuTe DSL和CUTLASS C++库进行开发,旨在高效实现Transformer模型中的线性注意力机制。此举专注于底层计算优化,通过利用先进的CUDA编程抽象和高效模板库,有望提升大语言模型在推理和训练过程中的计算性能与效率。

开源/仓库数据/训练部署/工程
4月1日
08:00
Google Developers Blog(RSS)
精选71
开发者指南:使用技能构建ADK智能体

Agent Development Kit (ADK) SkillToolset 推出了“渐进式披露”架构,使AI智能体能够按需加载领域专业知识,与传统单体提示相比,可减少高达90%的令牌使用量。该系统通过四种模式——从简单的内联清单到智能体可自行编写代码的“技能工厂”——使智能体能在运行时利用通用的 agentskills.io 规范动态扩展其能力。这种模块化方法确保了复杂的指令和外部资源仅在相关时被访问,从而为现代AI开发构建了一个可扩展且能自我扩展的框架。

智能体Google教程/实践部署/工程

推荐理由:开发者可借鉴此架构,构建更智能、更经济的AI代理。
08:00
Hugging Face:Blog(RSS)
精选83
使用Gradio后端支持任意自定义前端

Gradio推出的gradio.Server组件,允许开发者完全使用React、Svelte或原生HTML/JS等自定义前端框架构建应用,同时无缝继承Grio的后端基础设施优势。该组件基于FastAPI扩展,集成了Gradio的队列系统、并发控制、SSE流式传输及gradio_client兼容性。以“Text Behind Image”应用为例,其后端仅需约50行Python代码,通过@app.api()装饰器封装函数,即可自动管理请求队列与GPU并发,并能在Hugging Face Spaces上获得ZeroGPU支持,极大简化了复杂全栈Web应用在Spaces上的部署流程。

Hugging Face产品更新部署/工程

推荐理由:开发者可自由选择前端框架,同时利用Gradio的队列和GPU管理,简化AI应用部署。
00:00
Meta Engineering Blog(RSS)
精选81
Meta Adaptive Ranking Model:弯曲推理扩展曲线,为广告提供LLM规模模型服务

Meta将其广告推荐系统的运行时模型扩展至LLM的规模和复杂度,旨在更深入理解用户兴趣与意图,以提升广告效果。这一举措通过自适应排序模型,优化了推理阶段的扩展曲线,使部署大规模模型服务成为可能,标志着推荐系统性能向新前沿迈进。

Meta产品更新推理部署/工程

推荐理由:Meta的工程实践展示了如何优化LLM规模模型的推理效率,对AI系统设计有参考价值。
3月31日
15:06
Steve Yegge:Medium(RSS)
49
氛围维护者

一位开源项目维护者分享应对AI生成PR浪潮的“氛围维护者”工作流。他维护Beads(2万星)和Gas Town(1.3万星)两个项目,每天收到约50个PR。通过自动化处理超过半数简单PR,整体合入率约88%,中位解决时间15小时。即便如此,每周仍需投入15-20小时审核。他认为高效率是开源项目生存关键,拒绝贡献可能导致项目被分叉或取代。

智能体大佬观点开源生态部署/工程
08:00
Google Developers Blog(RSS)
精选81
Boost Training Goodput: 连续检查点功能如何优化 Orbax 和 MaxText 的训练可靠性

Orbax 和 MaxText 引入了连续检查点新功能,旨在优化模型训练中可靠性与性能的平衡。它改变了传统固定频率检查点的模式,通过在前一个保存操作成功完成后才异步启动新操作,最大化I/O带宽并降低故障风险。基准测试表明,该方法显著缩短了检查点间隔,并实现了可观的资源节约,这在平均故障间隔时间较短的大规模训练任务中效果尤为突出。

Google产品更新数据/训练部署/工程

推荐理由:大规模模型训练的可靠性和效率提升,开发者可优化资源使用。
00:00
Meta Engineering Blog(RSS)
精选71
AI助力美国产水泥与混凝土

Meta发布了名为贝叶斯优化的新AI模型,用于设计混凝土配比。该模型旨在帮助建筑行业生产更高质量、更可持续的混凝土混合物,并特别聚焦于美国本土生产的产品。此次发布与2026年美国混凝土学会春季大会同步进行,是Meta长期路线图的一部分,旨在推动建筑业利用人工智能优化材料性能与环保指标。

Meta模型发布部署/工程

推荐理由:Meta 将 AI 应用于传统建筑行业,展示垂直领域落地案例,启发其他行业探索 AI 应用。
00:00
Mistral AI:News(网页)
80
面向双重用户:Mistral AI 如何改进CLI工具以同时服务人类与AI智能体

Mistral AI 在改进内部CLI工具时发现,原本为人类开发者设计的交互式提示会阻碍AI智能体使用。核心解决方案是将每个交互式提示都转化为对应的命令行标志位,确保所有必要信息都能通过非交互方式提供。他们建立了插件系统,使组件可自省和序列化,并为智能体生成结构化的上下文指南。这些改进使得智能体能够自主完成从项目初始化到部署的全流程,例如将博客项目部署为Space仅需不到10分钟。面向智能体的设计最终也提升了人机协作的效率。

智能体教程/实践部署/工程
3月27日
20:00
Cursor Blog
精选72
Composer 2技术报告:面向智能体软件工程的代码模型训练

本报告介绍了代码模型Composer 2的训练过程。该模型基于开源基础模型Kimi K2.5,通过两阶段训练:首先进行侧重代码的持续预训练以深化编码知识,随后在高度模拟真实Cursor环境的大规模强化学习中提升端到端智能体性能。在自建的真实任务评估集CursorBench上,Composer 2得分为61.3,较前代提升37%,与前沿模型性能相当。在公开基准SWE-bench Multilingual和Terminal-Bench上分别获得73.7和61.7分,并在保持高精度的同时实现了显著更低的推理成本。训练依托为Blackwell GPU定制的高效MoE训练内核、跨区域异步强化学习管道等大规模基础设施完成。

智能体编码论文/研究部署/工程

推荐理由:Cursor 把 Composer 2 的训练全流程摊开讲了,从 Kimi K2.5 继续预训练到大规模 RL,关键是 RL 在真实 Cursor 会话里跑,不是玩具环境。做 coding agent 的团队,这份报告值得逐段拆。
3月25日
00:00
LMSYS:Blog(Chatbot Arena 团队)
Elastic EP:实现DeepSeek MoE部署的部分故障容忍

Mooncake团队与Volcano Engine在SGLang框架中推出Elastic EP功能,解决大规模DeepSeek MoE模型"宽"专家并行部署的可靠性瓶颈。该技术通过解耦专家与GPU的刚性绑定并维护冗余副本,可在32 GPU集群中容忍最多16个rank故障,将服务恢复时间从2-3分钟缩短至10秒以内,降幅达90%。基准测试显示,该方案在实现极端韧性的同时,吞吐量、TTFT和TPOT等关键指标与标准DeepEP持平,实现零静态性能损耗。

DeepSeek开源/仓库部署/工程
00:00
LMSYS:Blog(Chatbot Arena 团队)
SGLang亮相NVIDIA GTC 2026:三天五场活动展示开源AI基础设施实力

SGLang亮相Jensen Huang主题演讲AI生态图谱,三天内密集举办五场活动。团队与RadixArk合办200人技术聚会,在LinkedIn总部举办搜索与推荐LLM系统研讨,并参与700人规模的Novita行业论坛。官方培训实验室发布Miles RL框架,解决生产环境训练-推理不匹配难题;LinkedIn工程师分享预填充优化方案,在H100上实现2–3倍吞吐量提升并回馈上游。

开源/仓库数据/训练部署/工程
3月24日
00:00
Google Research:Blog(网页)
TurboQuant:以极端压缩重新定义AI效率

Google Research推出TurboQuant压缩算法(将发表于ICLR 2026),通过融合PolarQuant与QJL技术实现大模型与向量搜索的极端压缩。PolarQuant通过随机旋转数据向量并转换为极坐标,消除传统量化的内存开销;QJL则利用Johnson-Lindenstrauss变换以1比特零开销压缩残差误差。该方法在零精度损失下显著缩减模型体积,有效缓解KV缓存瓶颈,适用于高维向量搜索等场景。

Google论文/研究部署/工程
3月19日
19:58
公众号:龙猫LongCat(美团)
39
美团 BI 在指标平台和分析引擎上的探索和实践

以指标平台为核心的新一代BI架构,通过建设自动语义和增强计算两种核心能力,部分解决了传统BI平台在个性化数据集驱动下产生的数据口径混乱、查询性能差等问题。

教程/实践部署/工程
3月17日
00:00
LMSYS:Blog(Chatbot Arena 团队)
Miles RL框架正式支持ROCm:基于AMD Instinct GPU的大规模后训练

开源RL框架Miles正式支持ROCm,可在AMD Instinct MI300/350 GPU上原生运行大规模语言模型后训练。该框架采用解耦架构分离rollout生成与模型优化,针对RL工作负载中占比70-90%的推理场景优化。在单节点8卡MI300X上训练Qwen3-30B-A3B的实测显示,rollout吞吐达1.1k-1.3k tok/GPU/s,AIME准确率从66.5%提升至72.9%。现提供预构建容器,支持GRPO、Megatron-LM和FSDP后端。

开源/仓库数据/训练部署/工程
3月14日
00:00
Dwarkesh Patel:Podcast & Blog(RSS)
精选
Dylan Patel - 深度剖析 AI 算力扩展的三大瓶颈

Dylan Patel 深度解析了制约 AI 算力规模扩张的三大核心瓶颈:电力基础设施限制、先进制程芯片产能不足以及网络互联带宽瓶颈。尽管 NVIDIA H100 已发布三年,受供需严重失衡及新一代芯片交付延迟影响,其市场价格与战略价值持续攀升,当前实际价值甚至超过发布初期。文章指出,这些结构性约束正重塑 AI 基础设施的投资逻辑与部署节奏。

大佬观点数据/训练部署/工程

推荐理由:顶尖硬件分析师拆解AI算力扩张的三大瓶颈,揭示H100为何比三年前更值钱
3月12日
14:54
公众号:阶跃星辰(Step)
26
阶跃AI 能一键部署 OpenClaw了!5 万个免费体验名额,先到先得
智能体产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
37
OpenRouter 推出 Auto Exacto:自适应质量路由,默认开启

Auto Exacto 每隔 5 分钟基于吞吐量、工具调用遥测和基准分数重新评估各提供商。对于包含工具的请求,该功能默认处于开启状态。

智能体MCP/工具产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
38
Auto Exacto:自适应质量路由,默认开启

Auto Exacto 每隔5分钟根据吞吐量、工具调用遥测数据和基准分数重新评估提供商。对于包含工具的请求,该功能默认开启。

智能体MCP/工具产品更新部署/工程
08:00
OpenRouter:Announcements(RSS)
54
Auto Exacto: 自适应质量路由,现已默认开启

Auto Exacto 功能现已默认开启,尤其适用于包含工具调用的请求。该系统每 5 分钟对服务提供商进行一次全面重评估,评估维度包括吞吐量、工具调用遥测数据和基准测试分数。这一自适应路由机制旨在根据实时性能数据,自动将请求导向当前最优的模型提供商。

MCP/工具产品更新部署/工程
00:00
Anthropic:Newsroom(网页)
Anthropic投资1亿美元成立Claude合作伙伴网络

Anthropic宣布投入1亿美元成立Claude合作伙伴网络,为帮助企业采用Claude的合作伙伴提供培训、技术支持和联合市场开发。该网络免费开放,合作伙伴可获得Claude Certified Architect等技术认证,并优先使用代码现代化入门套件。Anthropic还将合作伙伴支持团队扩大五倍,配备Applied AI工程师和技术架构师,协助企业完成从概念验证到生产部署的过渡。

智能体Anthropic行业动态部署/工程
‹ 上一页
1…56789…13
下一页 ›