AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 497 条
全部一手资讯X论文
标签「部署/工程」清除
今天7月3日 周五
05:50Runway:News(网页)51借用夜晚:将闲置推理GPU回收用于研究
02:37LMSYS:Blog(Chatbot Arena 团队)59精选Agent辅助的SGLang开发:初步探索
02:03Claude:Blog(网页)61精选Claude Enterprise 新增用量与成本分析及支出管控功能
7月2日周四
18:31公众号:千问APP(阿里)62精选千问团队朱达:C端Agent Harness的"多快好省"工程哲学与主动服务探索
04:35Tomer Tunguz 博客(VC 分析)60精选构建AI智能体应优先设计路由
01:39Meta Engineering Blog(RSS)71精选Meta 大规模 AI 存储蓝图
01:17Google Developers Blog(RSS)68精选Google Cloud Workbench Notebooks 扩展发布:在 VS Code 中连接云端 Jupyter 环境
00:17Google Developers Blog(RSS)52用 Genkit 构建智能体全栈应用
7月1日周三
22:20Cloudflare Blog42Cloudflare 推出 Monetization Gateway:通过 x402 协议为任何资源收费
21:00公众号:面壁智能(MiniCPM)22面壁智能亮相2026政法装备展:以AI原生路径推动政法智能化走向业务深处
01:17Google Developers Blog(RSS)67精选ADK Go 2.0 发布:构建可靠的多智能体应用,新增基于图的工作流引擎、人工参与循环与动态编排
6月30日周二
05:22Claude:Blog(网页)66精选为 Amazon Bedrock 和 Google Cloud 推出的 Claude apps gateway
02:22Claude:Blog(网页)64精选Claude 在 Microsoft Foundry 正式可用
6月29日周一
23:55Google Blog:AI(RSS)39问AI专家:全栈AI到底是什么?
19:10公众号:小红书技术(dots.llm)72精选小红书 RedKnot 推理引擎:将 KV Cache 按注意力头拆解实现长文本加速
08:03OpenAI:官网动态(RSS · 排除企业/客户案例)41惠普与OpenAI启动Frontier战略合作伙伴关系
6月28日周日
03:25Hugging Face:Blog(RSS)62精选一条命令在HF Jobs上启动vLLM服务器
6月26日周五
20:00公众号:面壁智能(MiniCPM)42面壁智能亮相链博会,展示端侧AI全链能力
16:20公众号:百度智能云(文心)36千帆Coding Plan产品升级公告
07:35Meta Engineering Blog(RSS)54Meta 隐私感知基础设施的资产分类:混合模式将 LLM 蒸馏为确定性规则
01:37Google Research:Blog(网页)48用线性弹性缓存优化云经济
00:00Google Research:Blog(网页)55精选冻结多token预测加速Pixel上的Gemini Nano模型
00:00LMSYS:Blog(Chatbot Arena 团队)58精选SGLang 引入 Waterfill 与 LPLB 提升 DeepEP MoE 负载均衡
6月25日周四
19:30公众号:百度智能云(文心)40浦发银行携手百度智能云:超2500个金融智能体上岗,覆盖营销风控等核心场景
01:32Tomer Tunguz 博客(VC 分析)32防御AI驱动的攻击者
6月24日周三
21:01OpenAI:官网动态(RSS · 排除企业/客户案例)61精选OpenAI 与 Broadcom 联合发布 LLM 推理芯片 Jalapeño
18:31公众号:火山引擎66精选火山引擎推出Agent Ready基础设施,AgentKit与ArkClaw企业版升级
17:50公众号:火山引擎56三大Agent开发运营产品升级,帮企业建好"1+N+X"Agent体系
16:11公众号:百度智能云(文心)56百度千帆Token Plan企业版发布,接入GLM-5.2
15:20公众号:蚂蚁百灵(Ling)49Ling-2.6-1T TPU 推理优化:用 Pallas Kernel 隐藏 MoE 数据搬运
02:26Hugging Face:Blog(RSS)64精选在 Transformers.js 中实验提议的跨源存储 API
01:14Claude:Blog(网页)42Claude Tag 的 Agent Identity 访问模型
6月23日周二
16:12Hugging Face:Blog(RSS)67精选huggingface_hub 实现每周发布:AI、开源工具、人工审核闭环
14:10公众号:京东JoyAI73精选京东全栈开源JoyAI-VL-Interaction,从"一问一答"走向"边看边说"
09:14OpenRouter:Announcements(RSS)72精选OpenRouter:通过API路由实现AI数据驻留合规
09:14OpenRouter:Announcements(RSS)62精选AI 治理清单:LLM 架构先行
05:19Claude:Blog(网页)55精选在 AWS、Google Cloud 和 Microsoft Foundry 上使用完整版 Claude Desktop
6月22日周一
22:11Hugging Face:Blog(RSS)69精选PP-OCRv6 on Hugging Face:50 语言 OCR,参数规模 1.5M 至 34.5M
22:00公众号:百度智能云(文心)46百度智能云亮相张江EAI:百舸AI Infra加速具身模型,安全方案护航产业落地
07:13OpenAI:官网动态(RSS · 排除企业/客户案例)47三星电子向员工部署ChatGPT和Codex
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月3日
05:50
Runway:News(网页)
51
借用夜晚:将闲置推理GPU回收用于研究

Runway 开发了名为 deckard 的容量控制器,在生产推理集群与研究集群间动态重分配 GPU。生产流量在北美工作日上午 9 点 ET 达峰,晚 8 点 ET 跌至不足一半。控制器基于预计算的时间窗口(如工作日 8:30–12:30 ET 高峰子窗口)提前扩容和回收,每次集群间转移耗时 20–60 分钟。利用排队论(Erlang‑C、Little's Law)确定目标利用率,避免接近 85% 后的队列发散(90% 利用率下等待时间约为服务时间的 10 倍)。此方案使夜间闲置 GPU 回归研究、白天排队等待缩短。

推理教程/实践部署/工程
02:37
LMSYS:Blog(Chatbot Arena 团队)
精选59
Agent辅助的SGLang开发:初步探索

SGLang团队将LLM服务、分布式运行时、GPU内核、扩散管道等工作流编码为可执行的SKILL.md文件、脚本、基准合约和审查循环。现有技能包括:SGLang .claude/skills(CUDA调试、内核集成、性能分析等)、SGLang diffusion .claude/skills(扩散模型添加与调优)、BBuf/AI-Infra-Auto-Driven-SKILLS(跨框架SOTA循环)、KDA(MLSys 2026 FlashInfer内核竞赛获胜方案)以及BBuf/KDA-Pilot(已合并三个SGLang集成PR)。Profile证据是性能工作的核心,长期优化转向Loop Engineering——SGLang SOTA Performance Loop将追求SOTA分解为公平基准测试、差距决策、性能分析、补丁和再验证,Humanize/RLCR添加外部审查,Codex Goal以更低协调开销运行相同循环。评审重要性提升,开发者需定义问题、选择证据、设计工作流并判断结果是否可用于生产。

推理教程/实践部署/工程

推荐理由:这不是一篇普通的开发经验总结,而是 SGLang 团队把调试、基准测试和性能调优等重复劳动变成可执行 agent 技能的实操手册,对于做推理框架和复杂工程的人非常值得一看。
02:03
Claude:Blog(网页)
精选61
Claude Enterprise 新增用量与成本分析及支出管控功能

Claude Enterprise 推出更丰富的管理分析工具和成本控制功能。仪表板现可按群组和用户分析用量与成本,支持按 SCIM 群组筛选,展示制品创建、文件编辑、技能和连接器对应的成本。Claude Code 管理控制台新增“使用量”和“价值”选项卡,分别显示活跃开发者、会话次数、常用命令,以及生产力提升估算、每次提交成本和年度价值估算。分析聊天支持自然语言查询并返回可导出图表。Analytics API 可将数据接入 Datadog Cloud Cost Management 和 CloudZero。管理员可设置模型默认和权限控制,并配置组织级支出限额的 75%、90% 告警通知;用户在 75% 和 95% 时收到应用内提醒。Admin API 支持自动审批额度增加、标记接近限额用户及快速变化的用量。

Anthropic产品更新部署/工程

推荐理由:企业版管理员终于有了按群组和用户的成本明细、模型权限和花费警告。我觉得规模化部署 Claude 的团队会很看重这些,尤其能把 Claude Code 的价值量化成 ROI,财务团队可以直接拉进现有系统,不是一次性噱头。
7月2日
18:31
公众号:千问APP(阿里)
精选62
千问团队朱达:C端Agent Harness的"多快好省"工程哲学与主动服务探索

千问团队2026年1月上线通用复杂任务Agent(千问App胶囊入口),总结“多快好省”方法论:支持信息搜集、研究分析等任务;执行时间降至初始1/3;通过搜索范式与上下文管理优化交付质量;Token消耗仅为海外产品1/10。团队探索从被动响应转向主动服务,构建User Memory、Environment、Task System、Assistant四大组件,指出“情商”是主动服务最难环节。朱达提出Agent工程从Prompt Engineering演进至Harness Engineering,下一站是A IWare Engineering,强调“低功耗,够用就行”。

智能体大佬观点部署/工程

推荐理由:千问C端团队分享的Agent工程实践很务实,从“多快好省”到AIWare Engineering的演进思路,对正在做复杂任务Agent的团队是一个有价值的参考系。
04:35
Tomer Tunguz 博客(VC 分析)
精选60
构建AI智能体应优先设计路由

构建AI智能体时,应优先设计路由(router)而非选择模型。路由决定每个请求由哪层模型处理。正确路由可使70-80%流量运行在免费本地模型或异步推理上,将AI开销降低90%+。Brian Armstrong指出Coinbase通过更好的默认设置、路由和缓存,在token使用量增长的同时将AI支出减半。路由分三层:技能分类器、路由器、模型选择器。本地计算近乎零成本,异步批量推理比实时推理便宜两个数量级。大多数工作无需秒级返回。同步预测器标记复杂任务,夜间批量评估器更新路由权重。技能蒸馏后,非编码类任务中70-80%智能体流量可由本地模型处理。

大佬观点部署/工程

推荐理由:Tunguz 把代理架构的设计重心从模型选择拉回到路由上,三层分类器-路由器-选择器的划分很清晰,做 AI 应用的团队可以参考,但其中的新东西不多。
01:39
Meta Engineering Blog(RSS)
精选71
Meta 大规模 AI 存储蓝图

Meta 运营数百 EB 级存储集群,基于 Tectonic 分层存储层构建 BLOB 存储架构,以应对两大挑战:最大化 GPU 利用率与研究迭代速度。传统 BLOB 架构的多层元数据查询可导致数百毫秒延迟,使 GPU 因 I/O 等待停顿。新架构将训练栈逐步迁移到 BLOB 存储接口上,利用闪存提供可预测的低 pMax 延迟,避免单 GPU 慢速拖慢整批任务。同时,统一的数据湖访问支持地理分布 GPU 间的数据高速注入与跨区移动,提升研究效率。

Meta数据/训练现象/趋势部署/工程

推荐理由:Meta的存储架构复盘给出了一条明确路径,从重写元数据到分层缓存,他们把GPU利用率和研究者迭代速度同时提升了一个档次,做AI训练平台的值得细读。
01:17
Google Developers Blog(RSS)
精选68
Google Cloud Workbench Notebooks 扩展发布:在 VS Code 中连接云端 Jupyter 环境

Google Cloud Workbench Notebooks 扩展正式上线,开发者可在 VS Code 中直接连接可扩展的云端 Jupyter 环境,无需切换上下文即可利用高性能 Google Cloud 基础设施完成机器学习全流程。该扩展已完全开源,可在 GitHub 和 VS Code Marketplace 获取。

Google产品更新部署/工程

推荐理由:这个扩展把Google Cloud的Jupyter环境直接嵌进VS Code,做ML的开发者不用再切换窗口,工作流会流畅不少,但对行业格局影响不大。
00:17
Google Developers Blog(RSS)
52
用 Genkit 构建智能体全栈应用

开源框架 Genkit 推出 Agents API,将消息历史、工具循环和流式传输封装为单一接口,简化对话 AI 开发。该 API 支持服务器或客户端管理的状态持久化,可实现历史分支、长时间运行的分离任务及多智能体协调等高级工作流,并通过统一线协议连接前后端。目前以 TypeScript 和 Go 预览版发布,集成 Genkit Developer UI,开发者无需编写客户端代码即可测试、调试和检查智能体快照。

智能体Google产品更新部署/工程
7月1日
22:20
Cloudflare Blog
42
Cloudflare 推出 Monetization Gateway:通过 x402 协议为任何资源收费

Cloudflare 开放 Monetization Gateway 候补名单,允许对 Cloudflare 背后的任何网页、数据集、API 或 MCP 工具收费。费用通过 x402 开放协议以稳定币结算,用户无需自建支付栈。

MCP/工具产品更新部署/工程
21:00
公众号:面壁智能(MiniCPM)
22
面壁智能亮相2026政法装备展:以AI原生路径推动政法智能化走向业务深处
行业动态部署/工程
01:17
Google Developers Blog(RSS)
精选67
ADK Go 2.0 发布:构建可靠的多智能体应用,新增基于图的工作流引擎、人工参与循环与动态编排

Agent Development Kit (ADK) for Go 2.0 发布,引入了一类基于图的工作流引擎,用于组合复杂多智能体应用。新版本内置人工参与循环(HITL)编排、使用纯 Go 代码的动态执行、以及指数退避重试等自动弹性特性。统一执行模型后,单智能体应用与复杂图均运行在同一运行时上,简化了遥测与状态持久化。

智能体Google产品更新部署/工程

推荐理由:Google 给 Go 生态补上了多智能体编排的关键一环,图工作流引擎和人机协同直接内置,比之前拼积木的方式可靠很多,做 Agent 的 Go 开发者值得跟进。
6月30日
05:22
Claude:Blog(网页)
精选66
为 Amazon Bedrock 和 Google Cloud 推出的 Claude apps gateway

Anthropic 今日推出 Claude apps gateway,一个自托管控制平面,让企业能在 Amazon Bedrock 和 Google Cloud 上运行 Claude Code。它作为单个无状态容器部署于 Linux,后端使用 PostgreSQL,提供企业级 SSO 登录(通过 OIDC 对接 Google Workspace、Microsoft Entra ID、Okta 等)、集中策略管理、角色权限、路由(支持故障转移)以及按日/周/月、按组织/群组/用户的消费上限。遥测数据通过 OTLP 发送至用户配置的收集器。gateway 不会向 Anthropic 发送推理流量或使用数据(除非配置使用 Claude API)。即日起可用。

AnthropicGoogle产品更新编码

推荐理由:Claude Code企业版有了统一管理入口,SSO和成本控制是团队落地AI编程的关键,对CTO来说值得关注。
02:22
Claude:Blog(网页)
精选64
Claude 在 Microsoft Foundry 正式可用

从今天起,Claude 模型在 Microsoft Foundry 上正式可用,托管于 Azure 环境,运行在 NVIDIA GB300 GPU 上。首批提供 Claude Opus 4.8 和 Claude Haiku 4.5,通过 Messages API 调用,支持提示缓存和扩展思考。用户可选择推理处理位置,包括美国数据区域,由 Anthropic 负责推理运营。Azure 用户可使用现有身份验证、计费与治理控制,并获得统一账单;符合条件的 Enterprise Agreement 客户可将 Claude 用量计入 Azure 承诺消费。

AnthropicMicrosoft产品更新部署/工程

推荐理由:Claude 正式登陆 Azure Foundry 企业版,对于看重数据主权和现有 Azure 合约的企业是个好消息,但本质上是一次渠道铺开而非能力突破。
6月29日
23:55
Google Blog:AI(RSS)
39
问AI专家:全栈AI到底是什么?

一位Google专家解释了全栈AI方法的含义,并指出这一方法长期以来一直是Google AI工作的基础。

Google教程/实践部署/工程
19:10
公众号:小红书技术(dots.llm)
精选72
小红书 RedKnot 推理引擎:将 KV Cache 按注意力头拆解实现长文本加速

RedKnot 将 KV Cache 沿注意力头维度拆解,通过头分类稀疏(局部头占 83.4%–96.8%)、稀疏 FFN 和 SegPagedAttention 三个机制统一算法与存储粒度。在 8 卡 H800 上,TTFT 最高加速 1.6–3.54×,单卡并发提升 4.7–7.8×,预填充 FLOPs 削减 67%–79.5%。DeepSeek-V4-Flash 上 128K 上下文 TTFT 加速达 5.16×,KV 传输最多省 6.3×。精度通常不低于稠密 F1 的 95%。

arXivGitHub产品更新推理

推荐理由:小红书把 KV Cache 从 token 级拆成按头分家,这个思路让长文本推理的 TTFT 和并发都有数量级提升,开源出来对做推理引擎的同学是个福音。
08:03
OpenAI:官网动态(RSS · 排除企业/客户案例)
41
惠普与OpenAI启动Frontier战略合作伙伴关系

惠普宣布与OpenAI达成Frontier战略合作伙伴关系,此前试点中一名工程师数周内用OpenAI模型处理了43个项目中的122个pull requests,安全团队一天修复多个软件bug(原估计需一个月)。惠普将把Frontier作为统一平台整合访问、上下文、部署与评估,覆盖定价、合作伙伴门户、客户支持、员工体验平台(WXP)及网络安全等场景,同时使用ChatGPT支持知识工作、Codex加速软件现代化与交付。Frontier提供从试点到生产环境的治理型运营模型。

智能体OpenAI行业动态部署/工程
6月28日
03:25
Hugging Face:Blog(RSS)
精选62
一条命令在HF Jobs上启动vLLM服务器

HuggingFace Jobs 支持一条命令启动 vLLM 服务器,用于测试、评估或批量生成。使用 hf jobs run 命令,指定官方 vllm/vllm-openai 镜像、GPU flavor(如 a10g-large)、暴露端口 8000 并设置超时。服务器启动后可通过 OpenAI 兼容 API 访问,每次请求需携带 HF token 作为 bearer token(仅限有读权限的用户)。示例部署了 Qwen/Qwen3-4B(多 GPU 需 --tensor-parallel-size)。a10g-large 价格为 $1.50/小时,按分钟计费,可通过 hf jobs cancel 停止。

Hugging Face教程/实践部署/工程

推荐理由:这是一条命令在HF上启动vLLM的完整教程,适合快速测试模型的开发者,但方案完全绑定Hugging Face平台,通用性有限。
6月26日
20:00
公众号:面壁智能(MiniCPM)
42
面壁智能亮相链博会,展示端侧AI全链能力

面壁智能在第四届链博会上展示端侧AI全链能力,涵盖模型研发、芯片适配、终端部署到产业应用和生态协同。以“密度定律”提升单位参数智能密度,已围绕高效模型、端侧推理、软硬协同、多模态交互形成系统能力,完成多类主流芯片适配。现场展出智能体平台PilotDeck,可根据任务难度自动调度模型、控制推理成本,并能挂载端侧模型处理隐私敏感任务。面壁智能正与芯片、终端、行业伙伴共同推动端侧AI在汽车、手机、PC、机器人等设备上规模化落地。

端侧行业动态部署/工程
16:20
公众号:百度智能云(文心)
36
千帆Coding Plan产品升级公告

百度千帆宣布Coding Plan产品升级,后续将逐步迁移至Token Plan个人版。即日起现有Coding Plan套餐停止续费,7月初通过Token Plan提供更丰富模型选择和灵活使用方式。已购买用户可继续使用至当前周期结束;自动续费用户自公告发布30日后自动失效。升级用户可一键迁移,获得Token Plan对应套餐完整权益,已使用的Coding Plan额度重置,原套餐剩余有效期顺延一个月。

产品更新部署/工程
07:35
Meta Engineering Blog(RSS)
54
Meta 隐私感知基础设施的资产分类:混合模式将 LLM 蒸馏为确定性规则

Meta 在 Privacy-Aware Infrastructure (PAI) 的资产分类中采用混合模式:先构建含代码、血缘、语义标注的上下文证据,再调用 LLM 处理歧义、冷启动和新颖资产;人工审核标签与模型推荐严格隔离。LLM 不直接做生产决策,其稳定行为被蒸馏为版本化确定性规则用于生产执行,LLM 角色随规则积累逐步缩小。核心原则:上下文比提示词更重要、解耦评估与优化、将稳定行为规则化。

Meta教程/实践部署/工程
01:37
Google Research:Blog(网页)
48
用线性弹性缓存优化云经济

Google Research 与 Google Cloud 提出线性弹性缓存,将缓存管理转为线性成本优化问题,动态调整大小以最小化总拥有成本。为每条数据引入“滑雪租赁”决策框架,在租用内存(持续付费)与购买缺失(缓存未命中惩罚)间选择,并用轻量级机器学习实时优化内存占用与缺失率权衡。无服务器云场景下(每 GiB 内存每天 $3),该技术可在不牺牲性能的同时显著降本。论文发表于 CIDR。

Google论文/研究部署/工程
00:00
Google Research:Blog(网页)
精选55
冻结多token预测加速Pixel上的Gemini Nano模型

Google Research提出一种新架构,在已冻结的Gemini Nano v3模型上改造Multi-Token Prediction(MTP),以加速Pixel 9和10系列上的设备端推理。该方法基于EAGLE框架和CALM,无需单独训练占用内存的草稿模型,通过“晚期退出”策略实现加速。AI通知摘要和校对功能因此生成文本速度显著提升、能耗降低,开发者无需为每个新任务微调独立模型。

Google推理端侧论文/研究

推荐理由:谷歌这篇技术博客值得端侧开发者细读,他们把多令牌预测硬是装进了已部署的 Nano 模型,Pixel 上生成加速五成,还省了 130MB 内存,零拷贝架构的想法挺巧,但没法直接复现,主要是开脑洞用的。
00:00
LMSYS:Blog(Chatbot Arena 团队)
精选58
SGLang 引入 Waterfill 与 LPLB 提升 DeepEP MoE 负载均衡

SGLang 为 DeepEP MoE 推理新增两种调度时负载均衡方法:Waterfill 将共享专家分配给负载更低的 rank,在 DeepSeek-V3/R1 服务负载下使总吞吐量提升 1.48% 至 4.66%,在 DeepSeek V4 上最佳点从 49,253 tok/s 提升至 51,677 tok/s(+4.92%);LPLB 基于线性规划优化冗余专家副本的 token 路由,配合 EPLB 在相同集群上实现吞吐量提升 0.84% 至 7.34%。

产品更新推理部署/工程

推荐理由:SGLang 引入 Waterfill 和 LPLB 两种负载均衡算法,实测 DeepSeek V3/R1 和 V4 吞吐提升最高 7%,用 SGLang 跑 MoE 推理的开发者值得一试。
6月25日
19:30
公众号:百度智能云(文心)
40
浦发银行携手百度智能云:超2500个金融智能体上岗,覆盖营销风控等核心场景

浦发银行全行已上线超2500个金融智能体,近200个深度嵌入真实业务流程,覆盖营销、风控、运营等核心场景。智能体采用低代码与高代码结合、商用与开源模型互补的研发模式,并首创“三态管理”(创设、发布、运行)适配金融强监管。财报智能识别分析智能体将企业财报录入、校验与分析流程从数小时压缩至分钟级。百度智能云提供四层金融AI基础设施,包括昆仑芯国产芯片、异构算力平台、金融专精大模型及全流程AI治理平台。浦发银行计划推出面向C端的数字客户经理与数字分身,以对话交互实现“对话即服务”。

智能体行业动态部署/工程
01:32
Tomer Tunguz 博客(VC 分析)
32
防御AI驱动的攻击者

7月9日,Glean首席信息安全官Sunil Agrawal将做客Office Hours,探讨安全团队如何防御AI驱动的攻击。AI压缩了攻击者了解目标、绘制攻击面及个性化发起攻击所需的时间。传统攻击中可暴露的语法、语气和上下文线索正逐渐消失。深度伪造电话和合成媒体正在改变审批、支付和信任的控制平面。安全团队需要新的流程、工具和组织能力,以跟上模型驱动攻击的速度。

安全/对齐部署/工程
6月24日
21:01
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选61
OpenAI 与 Broadcom 联合发布 LLM 推理芯片 Jalapeño

OpenAI 与 Broadcom 发布首款自研推理加速器 Jalapeño,专为当前及未来 LLM 从头设计。早期测试显示,其性能功耗比大幅优于现有 SOTA。工程样片已在实验室以目标频率和功耗运行 GPT‑5.3‑Codex‑Spark 等负载。芯片从设计到流片仅用 9 个月,并利用 OpenAI 模型加速部分流程。OpenAI 计划从 2026 年起与 Microsoft 等合作伙伴部署千兆瓦级数据中心,推出多代计算平台。

OpenAI产品更新推理部署/工程

推荐理由:OpenAI 首次亲自设计芯片,和 Broadcom 联手推出专为 LLM 推理优化的 Jalapeño,从设计到流片仅 9 个月。虽然还只是早期测试,但性能功耗比大幅领先,一旦大规模部署,推理成本可能跳水,用 ChatGPT 的每个人都能感知到更快更便宜。
18:31
公众号:火山引擎
精选66
火山引擎推出Agent Ready基础设施,AgentKit与ArkClaw企业版升级

火山引擎在FORCE大会推出面向企业智能应用的Agent Ready基础设施,构建AI云与Agent三层架构。AgentKit升级提供Identity、Runtime、Sandbox、Evaluation等模块,实现Agent可靠、可控、可衡量。Identity已接入数千家身份体系,Runtime支持长程任务和分钟级12万沙箱并发。ArkClaw企业版集成Agent广场、技能中心与企业知识库,支持IDP/SSO/OAuth及飞书、钉钉等IM入口统一管控。实践案例:海底捞门店经营Agent将小时级工作压缩到分钟级,人工跟进时长缩减70%,巡检满意度提升50%;创维酷开借助ArkClaw终端版打造AIOS,Token消耗节省50%,支撑百万级终端。

智能体产品更新部署/工程

推荐理由:Agent 从聊天机器人到企业生产工具,缺的不是模型能力而是基础设施。火山引擎这套 AgentReady 架构把身份、沙箱、评测串了起来,是企业 AI 落地的关键一步。
17:50
公众号:火山引擎
56
三大Agent开发运营产品升级,帮企业建好"1+N+X"Agent体系

火山引擎在FORCE大会上提出企业Agent落地“1+N+X”体系:“1”是AgentSphere数字员工派遣站,“N”是开箱即用应用,“X”是基于TRAE、扣子、HiAgent持续进化的业务应用。TRAE企业版上线TRAE Work,实现一个账号切换IDE与办公端、一个后台统一管理,内部开发94%代码由AI贡献。亚信科技应用后单人日均节省约1.8小时,代码贡献率提升42%,千行代码缺陷率降低35%。扣子升级3.0,强化多端协同与行业知识沉淀。HiAgent 3.0构建开发-运行-管理闭环,引入Learning Loop实现Agent持续进化。某车企经AgentSphere统一纳管后,活动筹备周期从4周压缩至5个工作日,效率提升约3.5倍。

智能体产品更新部署/工程
16:11
公众号:百度智能云(文心)
56
百度千帆Token Plan企业版发布,接入GLM-5.2

百度千帆发布企业级AI生产力订阅服务Token Plan企业版,采用“席位制+企业共享积分包”模式,支持按需采购席位、统一额度池共享调度,并提供成员管理、用量统计、告警等运营能力。模型方面聚合DeepSeek-V4系列、GLM-5系列、Kimi-K2.6等,已率先接入智谱GLM-5.2,开箱即用。提供轻享版、标准版、高级版等多档位,承诺不使用用户数据训练,支持企业级SLA。

产品更新部署/工程
15:20
公众号:蚂蚁百灵(Ling)
49
Ling-2.6-1T TPU 推理优化:用 Pallas Kernel 隐藏 MoE 数据搬运

蚂蚁 ASystem Core 与 SGLang-JAX 团队在 TPU v7x 上优化了 1T 参数稀疏 MoE 模型 Ling-2.6-1T 的推理性能。核心是 Fused MoE V2 Pallas kernel,将 scatter、expert FFN 和 gather 合并,通过计算与数据搬运重叠降低延迟。相比 V1,MoE prefill latency 从 5.16 ms 降至 2.42 ms(降 53%),decode kernel latency 从 0.249 ms 降至 0.211 ms。仅替换 MoE kernel 即可使 prefill throughput 提升 24.8%,decode throughput 提升 18.5%–35.3%。在 SGLang decode benchmark 下,16 颗 TPU v7x 的 output throughput 达到 16 张 H200 的 1.29x–1.77x。该工作还完整支持 hybrid backbone,包括 hybrid KV/recurrent memory pools、GLA linear attention 及 single-controller data parallelism。

推理教程/实践部署/工程
02:26
Hugging Face:Blog(RSS)
精选64
在 Transformers.js 中实验提议的跨源存储 API

Transformers.js 在浏览器中运行 AI 模型时,不同来源的 Web 应用会重复下载并缓存相同的模型资源(如 Xenova/whisper-tiny.en)和 Wasm 运行时文件(如 4,733 kB 的 ort-wasm-simd-threaded.asyncify.wasm),即使资源 URL 相同,浏览器因 Network Isolation Key 隔离缓存,单次 demo 就产生 177 MB 冗余下载和存储。Cross-Origin Storage API 是一项早期提案,旨在让跨来源应用共享缓存的模型和运行时资源。目前该 API 尚未在浏览器原生实现,但可通过 Chrome 扩展注入 polyfill 进行实验。

Hugging Face开源生态教程/实践部署/工程

推荐理由:这个Chrome提案让不同网站的AI模型共享缓存,对用Transformers.js的Web开发者是切实的性能改进,但还只是早期实验。
01:14
Claude:Blog(网页)
42
Claude Tag 的 Agent Identity 访问模型

Claude Tag 推出 agent identity(智能体身份)访问模型,让 Claude 在共享频道中以独立身份工作,而非模拟某个用户。管理员在工作区级配置连接器、仓库访问、技能插件和固定指令等权限,每个频道可覆盖继承的基线设置。私有频道拥有独立身份,记忆和访问不跨频道流转;公共频道共享工作区级身份。该模型为自主多玩家 AI 场景设计,允许频道成员通过 Claude 访问已授权工具和数据,同时通过按身份撤销简化权限管理。

智能体Anthropic教程/实践部署/工程
6月23日
16:12
Hugging Face:Blog(RSS)
精选67
huggingface_hub 实现每周发布:AI、开源工具、人工审核闭环

Hugging Face 将 huggingface_hub 的发布周期从每 4‑6 周缩短至每周,全部由单个 GitHub Actions 工作流自动完成。流程依赖开源工具和开权重模型(当前为 Z.ai 的 GLM‑5.2)来起草发布说明和 Slack 公告,但保留人类在最终审核环节的决定权。自动步骤包括版本号更新、提交标签推送、PyPI 发布、下游测试分支创建、发布说明草稿、Slack 公告草稿、归档、后置版本提升以及对合入 PR 的评论。所有组件均基于开源生态构建,任何维护者都可直接复制使用。

智能体Hugging Face开源/仓库教程/实践

推荐理由:Hugging Face 把周更流程完全开源,用 GLM-5.2 生成发布说明初稿,再加确定性校验和人工修订,成本低到两毛五一次。想提高发版频率的 Python 库维护者可以直接 fork 适配。
14:10
公众号:京东JoyAI
精选73
京东全栈开源JoyAI-VL-Interaction,从"一问一答"走向"边看边说"

京东近日开源全球首个全栈交互模型JoyAI-VL-Interaction,获vLLM-Omni原生支持。该模型能持续观察视频流、主动判断关键事件并实时响应,支持将复杂任务委托后台Agent处理。在58个真人盲评中,对比豆包视频通话助手胜率77.6%,对比Gemini视频通话助手胜率87.9%,监控预警场景达100%胜率。开源内容包括模型权重、交互数据集、训练方案及完整可部署系统,支持摄像头、直播流等视频输入及语音交互、长期记忆、vLLM部署,适用于安防监控、老人看护、直播讲解等实时场景。

多模态开源生态模型发布部署/工程
关联讨论 2 条HuggingFace Daily Papers(社区热门论文)IT之家(RSS)
推荐理由:京东这个实时交互模型不是又一个刷榜模型,它把「什么时候该说话」变成了模型自己的判断。全栈开源且对比豆包、Gemini 胜率惊人,做安防、看护、直播的开发者可以直接试了。
09:14
OpenRouter:Announcements(RSS)
精选72
OpenRouter:通过API路由实现AI数据驻留合规

Deloitte 报告显示 77% 的公司将供应商国籍纳入 AI 选型考量。OpenRouter 将数据驻留视为路由决策:通过 API 请求中的 provider 对象设置 order 或 only 限定服务商、allow_fallbacks 为 false 禁止回退、data_collection 为 deny 禁止数据存储或训练、zdr 为 true 要求零数据保留。示例以 anthropic/claude-sonnet-4.6 调用,首选 Anthropic 直连和 Amazon Bedrock。针对欧盟需求,可限制仅 Mistral 等欧盟总部供应商。若无可合规供应商,API 返回错误而非路由至不合规服务商。

教程/实践部署/工程

推荐理由:OpenRouter 这篇指南把数据驻留从一个基建难题退化成一次 API 请求里的路由配置,对需要合规的团队是直接可抄的实操手册。
09:14
OpenRouter:Announcements(RSS)
精选62
AI 治理清单:LLM 架构先行

Deloitte 报告显示企业 AI 抱负与治理成熟度之间差 53 个百分点,74% 计划两年内部署智能体 AI,仅 21% 拥有成熟治理模型。路由架构是首个治理层。三种姿态——托管网关(如 OpenRouter、Portkey)、自托管网关(如 LiteLLM)和直接 API——默认治理能力不同,直接 API 缺乏统一控制面,造成治理盲区。治理清单可映射为资产盘点、问责制、访问控制、证据记录与合规性五大支柱。路由层能提供跨团队可见性与审计证据,而电子表格不能。

教程/实践部署/工程

推荐理由:这不是另一篇泛泛的治理框架文章,它把合规差距直接映射到路由架构上,三张对比表格比政策文档更有用,做 LLM 平台或 infra 的团队值得对照检查自己的堆栈。
05:19
Claude:Blog(网页)
精选55
在 AWS、Google Cloud 和 Microsoft Foundry 上使用完整版 Claude Desktop

通过 AWS、Google Cloud 和 Microsoft Foundry 使用 Claude Desktop 的组织现已获得 Chat、Claude Cowork 和 Claude Code 集成的完整桌面体验。IT 团队可将推理保留在自己的云环境中,对话历史本地存储。支持 IAM Identity Center、Workforce Identity Federation、Microsoft Entra ID 或 Okta 登录;策略模板可导出至 Intune、GPO 或 Jamf;提供离线安装器。Chat、Claude Cowork 和 Claude Code 各有独立策略键,支持精细访问控制。M365 连接器通过 Entra 应用访问邮件和文档,并支持 GCC High/DoD 端点。

Anthropic产品更新部署/工程

推荐理由:Anthropic 把 Claude Desktop 的完整体验带到了自家云环境之外,对于已经在 AWS 或 Azure 上跑推理的团队,终于可以从同一入口覆盖聊天、协作和编码,不用再切工具了。
6月22日
22:11
Hugging Face:Blog(RSS)
精选69
PP-OCRv6 on Hugging Face:50 语言 OCR,参数规模 1.5M 至 34.5M

PP-OCRv6 是 PaddleOCR 最新一代通用 OCR 模型族,提供 tiny(1.5M)、small(7.7M)和 medium(34.5M)三级。medium 和 small 支持 50 种语言(简体/繁体中文、英文、日文及 46 种拉丁语系)。在官方多场景基准上,medium 检测 Hmean 86.2%,识别准确率 83.2%,较 PP-OCRv5_server 分别提升 +4.6 和 +5.1 个百分点。模型采用 PPLCNetV4 统一骨干、RepLKFPN 检测模块和 EncoderWithLightSVTR 识别模块,可通过 PaddleOCR、Transformers、ONNX Runtime 等后端灵活部署。

Hugging Face多模态模型发布部署/工程

推荐理由:OCR模型并没有因为VLM的兴起而消失,PP-OCRv6用1.5M到34.5M参数覆盖50种语言,对需要轻量、准确OCR的产品来说,这是一个务实的选择。
22:00
公众号:百度智能云(文心)
46
百度智能云亮相张江EAI:百舸AI Infra加速具身模型,安全方案护航产业落地

6月16日至17日,2026张江EAI大会上,百度智能云展示百度百舸全栈AI Infra平台,针对VLA和WAM模型优化训练与推理,将开源WAM模型推理延迟降至原来的1/2甚至1/4;与上海交通大学合作的AHA-WAM模型延迟压缩至约41毫秒。百度智能云还总结具身智能三类核心安全风险(远程劫持、知识产权泄露、行为决策诱导),推出体系化安全解决方案。同时,人形机器人产业创新联盟已集聚120余家成员,百度智能云与宇树科技、乐聚机器人等获授牌。

具身智能行业动态部署/工程
07:13
OpenAI:官网动态(RSS · 排除企业/客户案例)
47
三星电子向员工部署ChatGPT和Codex

三星电子近日向韩国全体员工及全球DX部门部署ChatGPT Enterprise与Codex,成为OpenAI迄今最大规模企业部署之一。ChatGPT Enterprise用于信息检索、文档起草、数据分析等知识型任务,提供数据保护与安全控制。Codex可提升代码编写、审查和调试效率,非技术团队也能将创意转化为软件、网站和自动化工作流。Codex每周活跃用户超500万,韩国自2026年2月以来增长近800%。三星计划将AI应用于研发、制造、营销等全业务流程,并与OpenAI在AI基础设施方面深化合作。

OpenAI行业动态部署/工程
‹ 上一页
123…13
下一页 ›