AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 497 条
全部一手资讯X论文
标签「部署/工程」清除
5月30日周六
18:39公众号:小米 MiMo59MiMo-V2.5 系列推理全链路优化:将 Hybrid SWA 效率推向极致
07:19OpenRouter:Announcements(RSS)69精选Guardrails:保护你的智能体、数据与成本
5月29日周五
19:30Hugging Face:Blog(RSS)71精选PyTorch 性能分析系列(一):torch.profiler 入门指南
00:34LMSYS:Blog(Chatbot Arena 团队)69精选SGLang 团队与 AMD 合作,使 AMD InstinctTM MI355X GPU 的大规模 DeepSeek-R1 分离式推理在总拥有成本上具备竞争力
00:00LMSYS:Blog(Chatbot Arena 团队)61精选LMSYS与Intel合作通过异构CPU+GPU EPD架构提升视觉语言模型服务性能
5月28日周四
22:00OpenRouter:Announcements(RSS)54OpenRouter 完成 1.13 亿美元 B 轮融资
22:00OpenRouter:Announcements(RSS)63同事件精选OpenRouter 完成 1.13 亿美元 B 轮融资同一事件,精选展示《OpenRouter 获得1.13亿美元B轮融资》
21:11Cloudflare Blog41我们如何构建Cloudflare的数据平台及其上的AI智能体
18:47Mistral AI:News(网页)61Mistral AI推出物理AI模型,加速工业工程
12:41OpenRouter:Announcements(RSS)72精选OpenRouter 获得1.13亿美元B轮融资
11:35公众号:面壁智能(MiniCPM)61精选PilotDeck 开源:以 WorkSpace 为核心的智能体操作系统
09:36Claude Code:GitHub Releases(RSS)67同事件精选Claude Code v2.1.153 版本更新同一事件,精选展示《Claude Code v2.1.163 发布》
5月27日周三
22:20Hugging Face:Blog(RSS)61精选TRL 新增 Delta Weight Sync:通过 Hub Bucket 传输权重变化,每步从 1.2 GB 降至 20-35 MB
11:35公众号:面壁智能(MiniCPM)64精选AI 制造 AI:面壁智能发布并开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain
02:11Anthropic:Engineering(事故复盘 + 工程实践 · 网页)70精选我们如何对不同产品中的Claude进行隔离控制
00:15公众号:小米 MiMo57MiMo-V2.5 系列调价公告丨百万亿 Token 创造者激励计划收官
5月26日周二
20:12公众号:百度智能云(文心)50百度伐谋2.0赋能排产排程,产能提升20%
5月24日周日
12:00公众号:腾讯混元43清华联合腾讯混元在MLSys 2026 MoE推理优化竞赛中夺冠,NPU推理提速4.1倍
5月23日周六
19:46Mistral AI:News(网页)68Emmi加入Mistral以加速原生AI工业发展
17:46Mistral AI:News(网页)64加倍投入科学以赢得工业AI
00:30Dwarkesh Patel:Podcast & Blog(RSS)51Reiner Pope - 从底层构建芯片设计
5月22日周五
09:41公众号:智谱(GLM)63同事件精选智谱推出GLM-5.1高速版同一事件,精选展示《GLM-5.1开源:一个独立工作8小时的模型》
03:28Tomer Tunguz 博客(VC 分析)69精选SpaceX的无限野心:AI企业集团
01:43Claude:Blog(网页)65精选Claude现已支持更多安全合规工具
01:09OpenAI:官网动态(RSS · 排除企业/客户案例)41AdventHealth携手OpenAI推进全人医疗
5月21日周四
10:30公众号:智谱(GLM)44下一代大模型推理网络架构:ZCube如何有效破解网络瓶颈?
10:16Claude Code:GitHub Releases(RSS)51Claude Code v2.1.146 更新
06:44智谱:研究(网页内嵌数据)69精选ZCube:超大规模大模型推理的网络优化
00:48Claude:Blog(网页)59精选Anthropic销售负责人如何利用Claude Cowork管理4000个客户账户
5月20日周三
11:38OpenAI:官网动态(RSS · 排除企业/客户案例)48介绍 OpenAI for Singapore
06:10Claude Code:GitHub Releases(RSS)64精选Claude Code v2.1.145版本更新
5月19日周二
20:57Anthropic:Newsroom(网页)62精选毕马威与Anthropic建立全球联盟,全面整合Claude AI模型
17:09Claude:Blog(网页)77精选Claude智能体托管平台新增自托管沙箱与MCP隧道功能
08:00Apple Machine Learning Research(RSS)46EpiCache:面向资源受限环境的长程对话场景式KV Cache管理
03:14Runway:News(网页)57精选分布式训练为何艰难:DTensor、正确性与抽象的代价
5月18日周一
21:45Cloudflare Blog59精选玻璃翼项目:Mythos向我们展示了什么
20:01公众号:百度智能云(文心)47百度Q1财报:智能云增长势头强劲
18:00公众号:小红书技术(dots.llm)49小红书引擎架构团队ICDE 2026新成果:CCD感知编排突破多核CPU向量搜索性能天花板
5月17日周日
03:54Dwarkesh Patel:Podcast & Blog(RSS)50关于预训练并行化与失败训练运行的笔记
5月16日周六
01:01Claude:Blog(网页)67精选在法律行业全面部署Claude:产品指南与实施路线图
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月30日
18:39
公众号:小米 MiMo
59
MiMo-V2.5 系列推理全链路优化:将 Hybrid SWA 效率推向极致

小米发布 MiMo-V2.5 系列模型(含 MiMo-V2.5、MiMo-V2.5-Pro),采用 Hybrid Sliding Window Attention(Hybrid SWA)架构,KVCache 存储与计算量均降至 Full Attention 的约 1/7。以 MiMo-V2.5-Pro 为例,70 层中仅 10 层为 Full Attention,60 层为 SWA(窗口大小 128)。团队围绕 KVCache 系统重构(双池管理、按层异步拉取、SWA-aware 前缀缓存树)及分布式缓存 GCache 等环节优化,使存储效率提升约 7×,显著降低长上下文推理成本。

推理教程/实践部署/工程
07:19
OpenRouter:Announcements(RSS)
精选69
Guardrails:保护你的智能体、数据与成本

Guardrails 是一套可配置的安全与治理工具,提供预算执行、零数据保留、模型与提供商限制、提示词注入防御及数据丢失预防等功能,旨在保护智能体(Agents)、数据与控制成本。

智能体产品更新安全/对齐部署/工程
关联讨论 2 条OpenRouter:Announcements(RSS)X:OpenRouter (@OpenRouter)
推荐理由:OpenRouter 把预算管控、注入防御和敏感信息脱敏打包成一套 guardrail 配置,让投喂给 Agent 的流量有了护栏,用 OpenRouter 做生产级应用的团队可以立刻用上,不用自己搞中间件。
5月29日
19:30
Hugging Face:Blog(RSS)
精选71
PyTorch 性能分析系列(一):torch.profiler 入门指南

本文是 PyTorch profiling 系列的开篇,从最简单的矩阵乘法加偏置操作出发,逐步讲解如何使用 torch.profiler 进行性能分析。涵盖 profiler 设置、导出统计表格与 Chrome trace、解读 CPU 和 GPU 活动的时序关系,以及 torch.compile 对底层 CUDA kernel 调用链的影响。实验基于 NVIDIA A100-SXM4-80GB GPU 运行,面向基本掌握 PyTorch 但缺乏 profiling 经验的读者。

Hugging Face教程/实践部署/工程

推荐理由:PyTorch profiling 的陡峭学习曲线劝退了很多人,这篇用从零开始的方式把 trace 拆解得明明白白,想做性能优化的同学该收藏。
00:34
LMSYS:Blog(Chatbot Arena 团队)
精选69
SGLang 团队与 AMD 合作,使 AMD InstinctTM MI355X GPU 的大规模 DeepSeek-R1 分离式推理在总拥有成本上具备竞争力

SGLang 与 AMD 团队合作,通过一系列全栈优化,使 AMD Instinct™ MI355X GPU 在运行 DeepSeek-R1 大模型推理时实现了极具竞争力的总拥有成本。在 129 tok/s/user 的交互延迟下,其成本为每百万 token $0.169,比 NVIDIA B200(Dynamo TRT-LLM)方案低 5%,比 B200(SGLang)方案低 40%。吞吐量方面,24 块 AMD GPU 达到 2,436 tok/s/GPU,比使用 48 块 GPU 的 B200 SGLang 方案每 GPU 吞吐量高 1.25 倍。核心优化包括:MoRI 混合 FP4/FP8 量化全到全通信、MoRI-IO KV Cache 后端、两批重叠与 SDMA、ROCm 上的 Specv2 MTP 以及 CPU 流式处理优化。

推理论文/研究部署/工程

推荐理由:AMD MI355X跑DeepSeek-R1的TCO比NVIDIA B200低5%,吞吐还高出1.25倍,这是开源框架SGLang对闭源生态的一次真实挑战,做推理部署的应该点开看看完整的全栈优化。
00:00
LMSYS:Blog(Chatbot Arena 团队)
精选61
LMSYS与Intel合作通过异构CPU+GPU EPD架构提升视觉语言模型服务性能

LMSYS团队(Intel与SGLang)通过Dynamo和SGLang框架,为视觉语言模型(VLM)启用了异构编码-预填充-解耦(EPD)架构。该方案将视觉编码任务从GPU卸载至CPU(如Intel Xeon 6747P),与GPU协同工作。在Qwen3-VL-8B-Instruct模型的测试中,采用4 CPU + 1 GPU作为编码器、4 GPU作为预填充解码器(能力比R=12)的配置,在ISL/OSL 128/256、1080p 8张图像的负载下,实现了P99 TTFT和请求吞吐量约1.2倍至1.3倍的提升,并将P99 TPOT降低了约1.3倍至30倍。

多模态推理教程/实践部署/工程

推荐理由:做VLM服务部署的可以认真看一下,用CPU头节点做异构EPD分离,几乎零成本换来了TTFT和TPOT的显著提升,有完整脚本和benchmark,能直接上手试。
5月28日
22:00
OpenRouter:Announcements(RSS)
54
OpenRouter 完成 1.13 亿美元 B 轮融资

OpenRouter 完成 1.13 亿美元 B 轮融资,由 CapitalG 领投,多家机构跟投,现有投资者 Andreessen Horowitz 和 Menlo Ventures 继续参与。

行业动态部署/工程
22:00
OpenRouter:Announcements(RSS)
同事件精选63
OpenRouter 完成 1.13 亿美元 B 轮融资

OpenRouter 宣布获得 1.13 亿美元 B 轮融资,由 CapitalG 领投,NVentures、ServiceNow Ventures 等多家机构参投,现有投资者 Andreessen Horowitz 和 Menlo Ventures 继续跟投。

行业动态部署/工程
同一事件,精选展示《OpenRouter 获得1.13亿美元B轮融资》
推荐理由:OpenRouter融了1.13亿美元,领投方CapitalG,跟投名单里几乎全是云计算巨头,这不是一家公司的钱,是基础设施层的一次战略布局,开发者选模型的路由成本可能因此改写。
21:11
Cloudflare Blog
41
我们如何构建Cloudflare的数据平台及其上的AI智能体

Cloudflare构建了名为Town Lake的统一分析平台,并基于此开发了内部AI智能体Skipper。

智能体教程/实践数据/训练部署/工程
18:47
Mistral AI:News(网页)
61
Mistral AI推出物理AI模型,加速工业工程

Mistral AI通过整合Emmi AI团队,推出了专注于工业工程的物理AI基础模型。该模型旨在突破传统计算流体动力学(CFD)和有限元分析(FEM)模拟的瓶颈,后者设计周期长、成本高昂且探索的设计空间有限。物理AI能够从几何结构、边界条件或测量数据中直接学习,并在单个GPU上以秒级速度预测完整的物理场。Mistral将其构建为与现有模型及工具链并列的企业级解决方案新基石,以支持ASML、Airbus、Safran及Siemens Energy等合作伙伴在国防、能源转型、可持续航空等领域的硬件加速研发。

产品更新部署/工程
12:41
OpenRouter:Announcements(RSS)
精选72
OpenRouter 获得1.13亿美元B轮融资

AI模型聚合平台OpenRouter宣布完成1.13亿美元B轮融资。本轮融资由CapitalG领投,NVentures、ServiceNow Ventures等多家机构参投,现有投资者Andreessen Horowitz与Menlo Ventures也参与了本轮融资。

行业动态部署/工程
关联讨论 1 条X:OpenRouter (@OpenRouter)
推荐理由:OpenRouter 融了 1.13 亿美元,说明模型路由从「小工具」变成正经防线了,开发者选模型不再单一绑定,这个方向钱和战略意义都上来了。
11:35
公众号:面壁智能(MiniCPM)
精选61
PilotDeck 开源:以 WorkSpace 为核心的智能体操作系统

清华大学 THUNLP 实验室、面壁智能、OpenBMB 与 AI9stars 联合研发并开源的智能体操作系统 PilotDeck,以 WorkSpace(工作舱)替代传统对话框,每个工作舱拥有独立文件系统、记忆和技能,实现项目隔离。三大核心能力:记忆白盒化,全链路可见可控,支持一键修改和回滚;智能路由,自动识别任务难度动态分配模型,开启后成本节省近 70%,复杂任务仅用 1/6 成本即可反超顶级模型方案;Always-on 常驻任务,AI 主动发现并持续推进工作。支持端云协同,可调用端侧模型作为子 Agent,自动部署 VoxCPM 等模型完成多语言播客等任务。

智能体产品更新端侧部署/工程

推荐理由:PilotDeck把Agent从对话框解放进「工作舱」,记忆可见、成本锐减、能无人值守运行。已开源,值得所有被多任务折磨的开发者试试。
09:36
Claude Code:GitHub Releases(RSS)
同事件精选67
Claude Code v2.1.153 版本更新

Claude Code 发布 v2.1.153 版本。主要新增 skipLfs 选项以跳过 Git LFS 下载;优化了 claude agents 的自动补全建议和 PR 列显示格式。本次更新修复了大量问题,包括:MCP 服务器的连接与重连、子代理的配置策略与严格模式行为、后台会话的管理与权限提示(如恢复、输入响应、临时文件处理),以及跨 macOS/Windows/VSCode 平台的稳定性。此外,还修复了 Windows 更新回滚、内存占用、会话恢复等多个具体问题。/model 命令现在会将选择设为新会话的默认模型。

AnthropicMCP/工具产品更新部署/工程
同一事件,精选展示《Claude Code v2.1.163 发布》
推荐理由:Claude Code 的一次日常小修小补,但修复了 OAuth 凭证泄露和内存泄漏这种真影响使用的 bug,且 /model 现在可以记住默认模型了,升级一下不亏。
5月27日
22:20
Hugging Face:Blog(RSS)
精选61
TRL 新增 Delta Weight Sync:通过 Hub Bucket 传输权重变化,每步从 1.2 GB 降至 20-35 MB

异步强化学习中,训练器每步需将完整模型权重(如1T参数checkpoint约1 TB)传输给推理引擎。TRL新增PR利用相邻RL优化步骤间约99%的bf16权重比特相同的特点,仅将变化的权重编码为稀疏safetensors文件,上传至Hugging Face Bucket并通知vLLM获取。在Qwen3-0.6B上,每步传输从1.2 GB降至20–35 MB。实验还展示了完全分离的训练场景:训练器、vLLM和Wordle环境分别位于不同机器和Hugging Face Space中,权重通过单个Hub bucket流动,无需共享集群、RDMA或VPN。

Hugging Face教程/实践数据/训练部署/工程

推荐理由:异步RL训练中权重同步的瓶颈被HuggingFace用稀疏增量方案解决了,带宽直接省了两个数量级,还给了可运行的TRL分支,做RL训练的可以直接上手试。
11:35
公众号:面壁智能(MiniCPM)
精选64
AI 制造 AI:面壁智能发布并开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain

面壁智能联合清华大学、OpenBMB发布ForgeTrain,全球首个完全由AI编写、零人类代码介入的生产级大模型训练框架。在英伟达H100上训练速度超越Megatron 10%,节省10%算力;在华为昇腾上完整跑通预训练,并训出MiniCPM5-1B模型,综合性能在AA榜单2B规模以下Top1。框架及Agent Harness工具链一并开源。

开源/仓库数据/训练部署/工程
关联讨论 1 条IT之家(RSS)
推荐理由:面壁这波把 AI 写代码从玩具推进到了生产车间,ForgeTrain 跑得比英伟达 Megatron 还快 10%,而且直接在昇腾上训出了 MiniCPM5-1B,国产算力跟 AI 自举这两条线在这一刻交汇了,做训练的可以认真看看。
02:11
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选70
我们如何对不同产品中的Claude进行隔离控制

Anthropic通过三重机制控制Claude智能体的部署风险,包括用户误用、模型异常行为和外部攻击。其防护策略聚焦于三个层面:通过沙箱、虚拟机和网络出口控制限制智能体运行环境;利用系统提示词和模型训练引导其行为;以及对MCP服务器、第三方插件等外部内容实施细粒度权限管理。文章以Claude Code、claude.ai和Claude Cowork为例,阐述了不同产品如何设计对应的隔离架构。

智能体Anthropic安全/对齐部署/工程

推荐理由:Anthropic 这次没画饼,实打实把 Claude 三款产品两年来的安全坑和架构演变全摊开讲了,从沙箱逃逸到钓鱼攻击,做 agent 的人读一遍能少踩很多坑。
00:15
公众号:小米 MiMo
57
MiMo-V2.5 系列调价公告丨百万亿 Token 创造者激励计划收官

MiMo-V2.5 系列 API 永久降价,新定价最高降幅达 99%,不再区分上下文窗口长度,于北京时间 5 月 27 日 0 点生效。Token Plan 计费优化,用量提升至原来 5-8 倍,计费规则更清晰。百万亿 Token 创造者激励计划提前收官,100T Tokens 已全部发放。现有 Token Plan 用户额度于 5 月 27 日 0 点全量重置,按新规则执行。推理优化基于 SGLang HiCache 支持 SWA,KV Cache 搬运量降至近 1/7,可缓存 token 数量提升至近 5 倍。

产品更新推理部署/工程
5月26日
20:12
公众号:百度智能云(文心)
50
百度伐谋2.0赋能排产排程,产能提升20%

百度伐谋2.0产业决策智能体落地排产场景,业务人员用自然语言描述优先级和现场变化(如设备故障、工人请假),系统自动将约束转化为优化模型并迭代求解,将顾问数小时的建模压缩到对话内完成。每次纠偏实时调整方案,隐性经验被结构化沉淀为企业可复用模型。在日均数百订单、十几条产线的大型家具制造企业中,产能提升20%。

智能体教程/实践部署/工程
5月24日
12:00
公众号:腾讯混元
43
清华联合腾讯混元在MLSys 2026 MoE推理优化竞赛中夺冠,NPU推理提速4.1倍

在MLSys 2026 MoE模型推理优化竞赛中,清华联合腾讯混元获得冠军。针对MoE架构在异构芯片(NPU)上面临的推理性能挑战,其提出的优化方案在NPU上实现4.1倍推理速度提升。

推理论文/研究部署/工程
5月23日
19:46
Mistral AI:News(网页)
68
Emmi加入Mistral以加速原生AI工业发展

Mistral AI已与物理学AI先驱Emmi AI达成收购协议,旨在巩固其作为工业企业首要AI转型伙伴的地位。通过整合Emmi AI的先进模型及其超过30人的顶尖研究员和工程师团队,Mistral AI将大幅提升其在工程物理建模、实时仿真和数字孪生方面的能力,打造业界领先的工程师智能体。此次收购将加速Mistral AI的科学研究路线图,使其能为航空航天、汽车和半导体等高风险行业的客户提供全面集成的平台,以解决复杂工程挑战并革新核心研发流程。

行业动态部署/工程
17:46
Mistral AI:News(网页)
64
加倍投入科学以赢得工业AI

Mistral AI宣布与物理AI先驱Emmi AI达成最终收购协议,旨在加强其在工业AI领域的领导地位。通过整合Emmi AI在物理仿真与数字孪生方面的专长,Mistral AI将提升其工程解决方案能力,并加速科学研发路线。Emmi AI的30余名研究员与工程师将加入Mistral AI团队,共同构建由物理AI驱动的综合技术栈。此次合作将为航空航天、汽车等高风险行业提供实时仿真与复杂问题解决平台,推动工业研发的突破性进展。

行业动态部署/工程
00:30
Dwarkesh Patel:Podcast & Blog(RSS)
51
Reiner Pope - 从底层构建芯片设计

Reiner Pope 讲解了芯片设计如何从最基础的逻辑门开始,逐步构建并解释了GPU、TPU、FPGA以及人脑这几种计算架构在形态与功能上存在差异的根本原因。内容以自下而上的视角,剖析不同硬件的设计逻辑与演化路径。

推理教程/实践部署/工程
5月22日
09:41
公众号:智谱(GLM)
同事件精选63
智谱推出GLM-5.1高速版

智谱发布GLM-5.1高速版,推理速度达400 tokens/s,在顶尖模型中生成速度最快。

推理模型发布部署/工程
同一事件,精选展示《GLM-5.1开源:一个独立工作8小时的模型》
推荐理由:智谱把GLM-5.1做到了400 tokens/s,虽然发布已半个月,但这是国产模型在推理速度上的新标杆,做实时应用的可以看看。
03:28
Tomer Tunguz 博客(VC 分析)
精选69
SpaceX的无限野心:AI企业集团

SpaceX在提交S-1文件后,展现为一家AI时代的企业集团。公司由三大业务构成:Starlink(星链)、太空业务与AI业务。2025年总营收达187亿美元。其中,星链是绝对的核心与现金引擎,贡献了61%的营收并实现39%的营业利润率。太空业务收入占比22%,而AI业务(含X平台与xAI)虽仅占17%且处于巨额投入阶段,但代表了未来的战略方向。整体上,星链的强劲盈利为公司的太空探索与AI雄心提供了关键的资金支持。

xAI行业动态部署/工程
关联讨论 1 条TechCrunch:AI(RSS)
推荐理由:SpaceX的S-1文件罕见披露了AI业务的财务底牌,Tunguz的拆解很精炼,让你看懂Starlink怎么为烧钱的AI和Starship供血,太空AI算力这个叙事值得关注。
01:43
Claude:Blog(网页)
精选65
Claude现已支持更多安全合规工具

Anthropic宣布为Claude企业版及平台新增28项安全与合规工具集成。这些集成均通过Claude Compliance API实现,允许企业安全团队统一获取Claude的对话内容与活动事件,从而将其纳入现有的DLP、SIEM等监控与合规流程。新增合作伙伴包括Cloudflare、CrowdStrike、Microsoft Purview等28家供应商,覆盖数据安全、身份验证等多个关键领域,帮助企业快速将Claude接入现有安全平台,实现跨组织工具的统一治理与可视化监控。

Anthropic产品更新部署/工程
关联讨论 1 条Cloudflare Blog
推荐理由:企业安全团队终于能像治理其他SaaS一样治理Claude了,28个主流安全工具集成,说明Anthropic认真在打企业牌,CSO们可以打开文档了。
01:09
OpenAI:官网动态(RSS · 排除企业/客户案例)
41
AdventHealth携手OpenAI推进全人医疗

AdventHealth正在采用OpenAI的ChatGPT for Healthcare解决方案,旨在优化医疗工作流程,减轻医务人员行政负担,从而将更多时间还给患者护理。该合作利用人工智能技术处理文档、协调等非临床任务,以提升整体医疗效率与患者体验。

OpenAI行业动态部署/工程
5月21日
10:30
公众号:智谱(GLM)
44
下一代大模型推理网络架构:ZCube如何有效破解网络瓶颈?

智谱(GLM)提出ZCube,这是一种专为下一代大模型设计的推理网络架构,目标在于有效破解大规模模型推理时面临的网络瓶颈问题。

推理教程/实践部署/工程
10:16
Claude Code:GitHub Releases(RSS)
51
Claude Code v2.1.146 更新

本次更新主要调整了功能命名与交互逻辑,将 /simplify 命令更名为 /code-review 并支持分级,同时优化了自动模式与用户提问的交互。重点修复了多项影响稳定性与体验的 Bug,包括 Windows 系统上通过 winget 安装 PowerShell 后工具失效、终端全屏闪烁、后台会话权限重复请求、主题编辑器响应异常,以及 MCP 分页数据丢失等关键问题。此外,更新还改进了自动更新功能的网络容错能力,并提升了大文件差异渲染的性能。

Anthropic产品更新编码部署/工程
06:44
智谱:研究(网页内嵌数据)
精选69
ZCube:超大规模大模型推理的网络优化

针对超大规模大模型推理,ZCube网络架构通过取消Spine层、将Leaf交换机分组并全互联等创新设计,有效解决了推理网络的拥塞问题。该架构在集群实测中,实现了交换机与光模块资本支出减少33%、GPU平均推理吞吐提升15%,同时将首token延迟的P99值大幅降低40.6%,在降低成本的同时显著提升了推理性能。

推理论文/研究部署/工程
关联讨论 1 条X:智谱 Z.ai (@Zai_org)
推荐理由:千卡以上推理集群的团队该看一眼,智谱这个网络设计砍掉三分之一交换机成本,吞吐还涨15%,尾时延降四成,有实测数据不是白皮书。
00:48
Claude:Blog(网页)
精选59
Anthropic销售负责人如何利用Claude Cowork管理4000个客户账户

Anthropic美国中端市场业务负责人Travis Bryant利用Claude Cowork自动化销售管理工作。该工具帮助他高效完成客户倾向性评分、每日客户简报准备及每周销售预测报告生成,每晚自动处理4000个账户数据,替代了以往跨部门团队需数百小时完成的工作。通过自动化日常任务调度,他每天节省约90分钟,并将数据整合为可交互的销售仪表板,使其能更专注于客户沟通与战略决策。

Anthropic教程/实践部署/工程

推荐理由:Travis 把 4000 个账户的评分一夜跑通,比自动报表更值得关注,中小销售团队照抄就能省掉跨部门数百小时,这是 Claude Cowork 在企业场景最落地的实践之一。
5月20日
11:38
OpenAI:官网动态(RSS · 排除企业/客户案例)
48
介绍 OpenAI for Singapore

OpenAI for Singapore 宣布启动一项多年期人工智能合作计划,重点扩展 AI 技术在新加坡的部署范围,加强本地人才队伍建设,并为企业及公共服务部门提供 AI 支持。该合作旨在通过资源整合,推动新加坡在 AI 领域的竞争力提升,加速技术创新和应用落地,覆盖商业与公共领域的数字化转型需求。

OpenAI行业动态部署/工程
06:10
Claude Code:GitHub Releases(RSS)
精选64
Claude Code v2.1.145版本更新

本次更新为Claude Code工具带来了多项功能增强与问题修复。新功能包括:新增JSON格式的会话列表命令以便脚本化操作,并在OTEL追踪中完善了Agent父子关系。插件浏览界面现可预览详细信息。在稳定性方面,修复了权限提示被绕过的安全问题、MCP参数校验错误、终端窗口调整后的显示冻结,以及非ASCII名称导致的API调用失败等问题。同时改进了Read工具的文件超限处理,并优化了任务列表排序和状态栏信息显示等交互细节,整体提升了工具的易用性与可靠性。

智能体Anthropic产品更新部署/工程

推荐理由:Claude Code 这次版本把可编程性和可观测性提升了一大截,尤其 `claude agents --json` 和 OTEL 改进,做自动化脚本和监控的可以直接更新了。
5月19日
20:57
Anthropic:Newsroom(网页)
精选62
毕马威与Anthropic建立全球联盟,全面整合Claude AI模型

毕马威宣布与Anthropic建立全球联盟,将Claude人工智能模型全面整合至其核心业务与数字平台。此举将向毕马威全球超过27.6万名员工开放Claude访问权限,并率先应用于税务与法律等领域的客户工具开发。双方还将合作开发面向私募股权投资组合公司及网络安全漏洞检测的新产品。毕马威强调此次合作基于其可信AI框架,旨在通过负责任、可治理的AI部署,加速企业数字化转型。

Anthropic行业动态部署/工程

推荐理由:KPMG 不是在做实验,而是直接把 Claude 嵌进 Digital Gateway 并推向 27.6 万员工,这是四大里 AI 落地最扎实的案例,企业服务领域的 AI 渗透正在从口号变成真动作。
17:09
Claude:Blog(网页)
精选77
Claude智能体托管平台新增自托管沙箱与MCP隧道功能

Anthropic为其Claude智能体托管平台推出两项更新:自托管沙箱允许用户在自有基础设施或合作云平台上运行工具,确保敏感数据与服务保留在用户控制范围内;MCP隧道则通过轻量网关,使智能体能安全连接企业私有网络内的数据库与API,无需暴露于公网。目前沙箱功能已进入公测,隧道处于研究预览阶段。这两项更新进一步增强了企业用户对智能体执行环境与内部资源访问的安全管控能力。

AnthropicMCP/工具产品更新部署/工程

推荐理由:自托管沙箱把agent执行挪到企业自己的基础设施里,敏感数据不再离开边界,这是让金融医疗等合规行业敢用AI agent的关键能力。MCP隧道补上了内网服务连接,组件已经完整。
08:00
Apple Machine Learning Research(RSS)
46
EpiCache:面向资源受限环境的长程对话场景式KV Cache管理

现有大语言模型虽能处理超长对话,但随对话历史线性增长的KV Cache会导致内存占用迅速超出设备限制。当前KV Cache压缩方法大多在处理完整上下文后才进行缓存淘汰,造成无界峰值内存占用。此外,基于查询的淘汰机制将缓存语义狭窄化至单次查询,导致失效。

论文/研究部署/工程
03:14
Runway:News(网页)
精选57
分布式训练为何艰难:DTensor、正确性与抽象的代价

本文探讨了分布式训练中的正确性难题及DTensor方案的权衡。DTensor通过为张量附加放置元数据(如Shard、Replicate)来自动管理通信,确保计算正确性。文章通过一个并行化案例,展示了不使用DTensor时手动处理梯度计算可能引发的静默错误(如梯度为零或倍增),从而凸显了正确性的复杂性。然而,DTensor的抽象层在简化开发的同时,也可能在大规模场景下引入隐性的性能开销。因此,在设计分布式系统时,需要在抽象的开发便利与底层的计算效率之间做出审慎权衡。

教程/实践部署/工程

推荐理由:Runway 工程师用四次失败的并行化尝试把分布式训练的正确性难题拆解得明明白白,还给出了 DTensor 在规模下吃掉的 MFU 和编译陷阱的一手数据,做大模型训练的人值得从头读到尾。
5月18日
21:45
Cloudflare Blog
精选59
玻璃翼项目:Mythos向我们展示了什么

近期,团队将Mythos及其他聚焦安全的大语言模型应用于关键基础设施的实时代码测试。测试揭示了模型在识别漏洞和代码审计方面的优势,例如在复杂逻辑中发现潜在风险的能力,同时也暴露了其存在的局限性,包括产生误报以及对上下文理解的不稳定。文章指出,在将这些安全LLM的能力扩展到更大规模之前,必须围绕其建立一套可靠的工作流程,包括持续验证和人工复核机制。

教程/实践部署/工程

推荐理由:Cloudflare 用安全 LLM 扫自家代码这事,比很多安全厂商的营销稿实在得多。虽然还没到能规模化的时候,但哪些模型好用、哪里会踩坑,做 DevSecOps 的可以直接抄作业。
20:01
公众号:百度智能云(文心)
47
百度Q1财报:智能云增长势头强劲
行业动态部署/工程
18:00
公众号:小红书技术(dots.llm)
49
小红书引擎架构团队ICDE 2026新成果:CCD感知编排突破多核CPU向量搜索性能天花板

小红书引擎架构团队在ICDE 2026提出一种面向多核CPU的CCD级负载感知和线程编排向量检索框架,通过感知CCD(Core Complex Die)层级负载并优化线程编排,突破多核CPU向量搜索的性能天花板。

搜索论文/研究部署/工程
5月17日
03:54
Dwarkesh Patel:Podcast & Blog(RSS)
50
关于预训练并行化与失败训练运行的笔记

近期访谈揭示了大规模语言模型预训练中的并行化策略与失败案例。关键变化包括从数据并行转向更复杂的模型并行、流水线并行及混合策略,以应对万亿参数模型的内存与计算挑战。具体指标显示,某些失败训练运行因硬件故障或超参数设置不当,导致数百GPU小时损失。成功案例则通过优化通信开销与负载均衡,将训练效率提升约15-30%。这些经验为GPT、Claude、LLaMA等模型的稳定训练提供了重要技术参考。

OpenAI教程/实践数据/训练部署/工程
5月16日
01:01
Claude:Blog(网页)
精选67
在法律行业全面部署Claude:产品指南与实施路线图

2026年报告显示,法律团队生成式AI使用率已从44%跃升至87%。为应对日益复杂的工作,法律行业正将Claude应用于合同审阅、并购尽调及诉讼准备等核心流程,并通过多款产品组合提升效率:Chat用于即时研究,Claude Cowork处理跨文件协作,Microsoft 365插件集成办公套件,Platform支持定制应用开发。Anthropic同步发布法律行业部署指南,涵盖产品矩阵、12个预设业务领域插件及三阶段实施路线图,并解答数据托管与权限保护等关键问题。

智能体Anthropic教程/实践部署/工程

推荐理由:Anthropic法律团队亲自下场写路线图,从合同红笔到隐私评估,把Claude全家桶怎么用、什么时候用讲透了,律所和法务部可以直接照着推。
‹ 上一页
123456…13
下一页 ›