AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 497 条
全部一手资讯X论文
标签「部署/工程」清除
6月13日周六
05:40OpenRouter:Announcements(RSS)64精选如何在OpenRouter上获得最低成本的LLM推理
6月12日周五
12:25Claude Code:GitHub Releases(RSS)52Claude Code v2.1.175 发布:新增 enforceAvailableModels 管理设置
09:25Claude Code:GitHub Releases(RSS)44Claude Code v2.1.174 发布
05:05OpenRouter:Announcements(RSS)54什么是 LLM 网关?应用与 AI 模型之间缺失的一层
03:35OpenRouter:Announcements(RSS)48什么是 LLM Gateway?你的应用与 AI 模型之间的缺失层
01:39OpenAI:官网动态(RSS · 排除企业/客户案例)51BBVA 将 AI 置于银行业务核心,与 OpenAI 合作
00:39OpenAI:官网动态(RSS · 排除企业/客户案例)61精选OpenAI 将收购 Ona
00:00OpenRouter:Announcements(RSS)55精选OpenRouter:企业应转向多模型路由,放弃单一LLM供应商
6月11日周四
18:59Hugging Face:Blog(RSS)46PyTorch 剖析系列(二):从 nn.Linear 到融合 MLP
16:50公众号:腾讯混元78精选腾讯混元 AI Infra 新开源:HPC-Ops 推理核心算子全面升级
06:34OpenAI:官网动态(RSS · 排除企业/客户案例)45通过 Oracle 云承诺访问 OpenAI 模型和 Codex
04:29OpenRouter:Announcements(RSS)64精选Gemini 2.5 Flash API - 定价、快速入门与提供商比较
02:40xAI:News(网页)69精选eToro AI 智能体 Tori 集成 SpaceXAI 文本模型实现实时市场情绪分析
02:10Claude:Blog(网页)75同事件精选智能体表面的演进:使用 Claude Managed Agents 构建同一事件,精选展示《Code w/ Claude 伦敦活动:重塑开发体验》
00:39Google Developers Blog(RSS)78DiffusionGemma 开发者指南
6月10日周三
05:55Hugging Face:Blog(RSS)74精选将 GitHub CI 迁移到 Hugging Face Jobs
00:00OpenRouter:Announcements(RSS)60同事件精选Gemini 2.5 Flash API:定价、快速入门与提供商对比同一事件,精选展示《Gemini 2.5 Flash API - 定价、快速入门与提供商比较》
6月9日周二
21:39Cloudflare Blog51对抗前沿网络模型:Cloudflare 作为"客户零"的架构实践
17:40公众号:通义实验室(千问)67同事件精选仅凭一份文档,Qwen3.7-Max 从 0 交付双端应用同一事件,精选展示《Qwen3.7-Max:面向智能体时代的最新专有模型》
11:40公众号:小米 MiMo80精选小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s
6月8日周一
20:00OpenRouter:Announcements(RSS)63同事件精选OpenRouter Agent SDK 推出 HITL 工具:满足 EU AI Act、Colorado ADMT 与 NIST AI RMF 合规要求同一事件,精选展示《OpenRouter Agent SDK 发布 `create-agent-tui` 与 `create-headless-agent` 技能,可快速搭建个性化编码智能体》
6月7日周日
08:09Claude Code:GitHub Releases(RSS)31Claude Code v2.1.168 发布
6月6日周六
09:07Claude Code:GitHub Releases(RSS)64同事件精选Claude Code v2.1.166 发布同一事件,精选展示《Claude Code v2.1.163 发布》
06:47Hugging Face:Blog(RSS)74精选用Qwen2.5-3B构建多智能体经济体:工程报告
01:12Google Developers Blog(RSS)75精选Google Colab CLI 发布
6月5日周五
22:30Cloudflare Blog71精选你的AI账单失控了。Cloudflare现在可以解决这个问题。
19:22公众号:腾讯混元62精选腾讯混元提出Stem稀疏注意力算法,被ICML 2026收录
00:53LMSYS:Blog(Chatbot Arena 团队)77精选Boson AI 与 LMSYS 发布基于 SGLang-Omni 的 Higgs Audio v3 TTS 端到端服务
6月4日周四
23:42Hugging Face:Blog(RSS)66精选Hugging Face 为编码智能体重塑 hf CLI 输出格式
07:26OpenAI:官网动态(RSS · 排除企业/客户案例)39Wasmer 使用 Codex 构建边缘 Node.js 运行时
6月3日周三
21:30Anthropic:Newsroom(网页)59精选介绍 Claude Partner Network 的 Services Track 和 Partner Hub
00:45Claude:Blog(网页)74精选Claude Code团队实践:智能体编程如何重塑工程组织与流程
00:13OpenAI:官网动态(RSS · 排除企业/客户案例)70精选Codex 赋能每一种角色、工具和工作流
6月2日周二
17:55蚂蚁 inclusionAI:HuggingFace 新模型54蚂蚁 inclusionAI 发布 Ling-2.6-flash-base 基础模型
12:19OpenRouter:Announcements(RSS)77精选OpenRouter 5月发布亮点
05:48OpenAI:官网动态(RSS · 排除企业/客户案例)66精选OpenAI前沿模型与Codex现可在AWS上使用
03:16OpenAI:官网动态(RSS · 排除企业/客户案例)65精选OpenAI在密歇根州启动Stargate 1GW数据中心建设
6月1日周一
22:38Hugging Face:Blog(RSS)60精选超越LLM:为何可扩展的企业AI采用取决于智能体逻辑
08:00OpenRouter:Announcements(RSS)77同事件精选OpenRouter 五月发布亮点:语音API、模型融合、企业控制及20个新模型上架同一事件,精选展示《OpenRouter 5月发布亮点》
08:00OpenRouter:Announcements(RSS)71同事件精选OpenRouter 5月发布亮点:语音与转录API、模型融合及20款新模型同一事件,精选展示《OpenRouter 5月发布亮点》
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月13日
05:40
OpenRouter:Announcements(RSS)
精选64
如何在OpenRouter上获得最低成本的LLM推理

在OpenRouter上追加:floor可获取最便宜提供商,通过max_price设定花费上限,并可免费使用20多个零成本模型。同时需注意避免计费陷阱。

教程/实践部署/工程

推荐理由:如果你是 OpenRouter 的开发者,这篇教程把成本控制的开关全摆出来了,从 :floor 到免费模型再到 BYOK 的成本账,看完就能立刻调配置省钱。
6月12日
12:25
Claude Code:GitHub Releases(RSS)
52
Claude Code v2.1.175 发布:新增 enforceAvailableModels 管理设置

Claude Code v2.1.175 新增 enforceAvailableModels 管理设置。启用该设置后,availableModels 允许列表也会约束 Default 模型——若 Default 模型解析到被禁用的模型,则自动回退至第一个允许的模型;用户或项目设置无法再扩大受管理的 availableModels 列表。

Anthropic产品更新编码部署/工程
09:25
Claude Code:GitHub Releases(RSS)
44
Claude Code v2.1.174 发布

新增 wheelScrollAccelerationEnabled 设置,全屏禁用鼠标滚轮加速。修复 /model 选择器:Opus 在 Max/Team Premium/Enterprise 独立行,Sonnet 在 Pro/Team,Opus 在 API 按量付费账户;修复固定 Sonnet 版本时的硬编码标签;企业账户误显示积分横幅;Bedrock GovCloud 区域前缀错误导致 400 错误;后台会话继承另一会话环境变量;macOS/Linux 退出时 1-2 秒暂停;git co-author 模型名错误;/advisor 预选被 availableModels 屏蔽;skill 热重载仅发送变更;Workflow tool 子智能体缺失归属头;预温后台 worker 空闲后认证失败。[VSCode] 在 /usage 新增过去 24h/7d 的缓存未命中、长上下文、子智能体及 skill/agent/plugin/MCP 分解归因。

Anthropic产品更新编码部署/工程
05:05
OpenRouter:Announcements(RSS)
54
什么是 LLM 网关?应用与 AI 模型之间缺失的一层

缺少 LLM 网关时,供应商中断会直接变成用户可见的错误,AI 支出也难以追踪。文章从路由、合规性和设置时间三个维度比较了最佳方案。

教程/实践部署/工程
03:35
OpenRouter:Announcements(RSS)
48
什么是 LLM Gateway?你的应用与 AI 模型之间的缺失层

LLM Gateway 能防止 API 提供商故障变成用户端可见错误,并让 AI 费用变得透明。通过路由、合规性和设置时间等维度,可以对比市面上最佳的网关方案。

教程/实践部署/工程
01:39
OpenAI:官网动态(RSS · 排除企业/客户案例)
51
BBVA 将 AI 置于银行业务核心,与 OpenAI 合作

BBVA 将 ChatGPT Enterprise 推广至 10 万名员工,并与 OpenAI 达成合作,加速全球银行业 AI 驱动的转型。

OpenAI行业动态部署/工程
00:39
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选61
OpenAI 将收购 Ona

OpenAI 计划收购 Ona,以拓展 Codex 的功能,提供安全、持久的云端环境,从而支持企业工作流中长时间运行的 AI 智能体。

智能体OpenAI行业动态部署/工程
关联讨论 1 条X:小北 (@frxiaobei)
推荐理由:OpenAI收购Ona,给Codex补上持久化云环境,让Agent能长时间自主工作。这是把AI Agent从会话工具变成企业级生产平台的一个基础设施信号。
00:00
OpenRouter:Announcements(RSS)
精选55
OpenRouter:企业应转向多模型路由,放弃单一LLM供应商

OpenRouter指出,企业不应只依赖一家LLM供应商,而应采用多模型路由策略以平衡成本与效果。Anthropic Opus 4.7的“tokenizer税”导致输入token增加35%,新模型Fable定价$10/M输入、$50/M输出,OpenAI GPT-5.5 Pro更高达$30/M输入、$180/M输出。用户正主动跨模型族分配任务,平台3月至4月新增90个模型。OpenRouter作为统一市场,通过标准化API消除切换成本,使路由成为“一等公民”。

AnthropicOpenAI产品更新部署/工程
关联讨论 1 条OpenRouter:Announcements(RSS)
推荐理由:OpenRouter 放出的多模型使用数据很实在,成本压力正推动企业从专一走向多模型路由,新分析 API 让这个趋势可度量。
6月11日
18:59
Hugging Face:Blog(RSS)
46
PyTorch 剖析系列(二):从 nn.Linear 到融合 MLP

本部分将手写 matmul-add 对替换为 nn.Linear(bias=True),堆叠三层 Linear 与激活函数构成多层感知机(MLP)块,在 NVIDIA A100 GPU 上剖析。Profile trace 显示 nn.Linear 内部调用 aten::addmm,将 bias 加法作为 epilogue 融合进矩阵乘法核,避免额外 HBM 访问;transpose 操作(aten::t)仅改写 CPU 端张量元数据(shape 和 stride),不启动 GPU 核。

Hugging Face教程/实践部署/工程
16:50
公众号:腾讯混元
精选78
腾讯混元 AI Infra 新开源:HPC-Ops 推理核心算子全面升级

腾讯混元 AI Infra 团队开源升级 HPC-Ops 推理算子库,推出五大核心算子。Attention 采用运行时动态负载调度,长文本最高加速 2.95x,端到端 QPM 提升 17%;Router GEMM 以双 BF16 组合实现 FP32 精度,对比 CuBLAS FP32 最高提速 3.22x;FusedMoE 相对 vLLM、SGLang 性能提升 1.2x~1.6x;Fused AllReduce+Norm 对比主流方案最高提速 1.68x;Sampler 将解码采样融合为 2 个 CUDA Kernel,相对 vLLM 提速 4.0x~7.5x。所有能力均来自生产实践并完全开源。

产品更新开源/仓库推理部署/工程

推荐理由:腾讯混元把推理全链路的瓶颈都加速了一遍,Sampler 算子比 vLLM 快 4-7 倍,Attention 动态调度根治长尾延迟,这套开源算子库可以直接用,做推理部署的可以抄作业。
06:34
OpenAI:官网动态(RSS · 排除企业/客户案例)
45
通过 Oracle 云承诺访问 OpenAI 模型和 Codex

OpenAI 与 Oracle 合作,用户可利用现有 Oracle 云服务承诺(commitment)额度,在 Oracle 云上访问 OpenAI 模型和 Codex,用于构建和部署 AI 应用,同时获得企业级安全与治理能力。

OpenAI行业动态部署/工程
04:29
OpenRouter:Announcements(RSS)
精选64
Gemini 2.5 Flash API - 定价、快速入门与提供商比较

Gemini 2.5 Flash API 支持配置思考预算(thinking budgets),用户可跨提供商进行比较,并在5分钟内完成首次API调用。

Google推理教程/实践部署/工程

推荐理由:这是 OpenRouter 上接入 Gemini 2.5 Flash 的保姆级指南,把三家 Google 提供商的延迟和定价差异摆在明面上,需要做模型选型和成本估算的开发者可以直接抄里面的 quickstart 代码。
02:40
xAI:News(网页)
精选69
eToro AI 智能体 Tori 集成 SpaceXAI 文本模型实现实时市场情绪分析

6 月 10 日,eToro 宣布其 AI 智能体 Tori 集成来自 SpaceXAI 的文本模型,能够从 X 平台实时读取市场情绪变化、追踪信号并分析信息。Tori 现已在 eToro 的投资流程中嵌入该能力,支持用户以自然语言查询和解读市场情绪。eToro 拥有超过 4000 万注册用户,覆盖 75 个国家。该功能基于 SpaceXAI API 构建,其他开发团队也可通过 API 控制台在数分钟内搭建类似应用,如研究助手或情绪看板。

xAI行业动态部署/工程

推荐理由:xAI 的实时 X 数据能力正式嵌入 eToro 投资助手 Tori,4000 万散户第一次能用上基于社交情绪的智能分析,虽然只是一个 API 集成案例,但把‘市场脉搏’塞进 AI 助手的方向对了。
02:10
Claude:Blog(网页)
同事件精选75
智能体表面的演进:使用 Claude Managed Agents 构建

Anthropic 推出 Claude Managed Agents,一套可组合 API 套件,用于构建和部署生产级智能体。该产品从早期简单 API 演进至 Claude Agent SDK,再到将智能体调度层与代码执行沙箱解耦的 Managed Agents。通过只追加日志的会话机制,Managed Agents 解决了托管伸缩、会话持久化、文件系统管理、执行隔离、凭证安全与可观测性等生产部署挑战。团队借助该方案可在数天内完成从原型到生产环境的转化,无需自建基础设施。

智能体AnthropicMCP/工具产品更新
同一事件,精选展示《Code w/ Claude 伦敦活动:重塑开发体验》
推荐理由:Claude Managed Agents 把代理部署的复杂基础设施打包成了 API,让团队从原型到上线只需几天而不是几个月,尤其凭证隔离和延迟优化对生产环境很关键,想部署可靠代理的团队可以认真看看。
00:39
Google Developers Blog(RSS)
78
DiffusionGemma 开发者指南

DiffusionGemma 是 Google 基于 Gemma 4 架构的实验性文本生成模型,采用扩散式并行生成替代逐 token 自回归,实现更快推理、双向上下文感知和实时自我修正,并可在消费级 GPU 上部署。模型通过迭代去噪并行生成并细化 256-token 块,在处理数独等复杂约束任务上优于传统语言模型,且微调效果显著。它已集成 vLLM 等推理框架,为开发者提供一种高性能、高效长上下文扩展且易于定制部署的非自回归新方法。

Google推理模型发布部署/工程
关联讨论 6 条Google DeepMind:Blog(RSS)X:Google DeepMind (@GoogleDeepMind)X:Demis Hassabis (@demishassabis)X:Testing Catalog (@testingcatalog)X:Google AI for Developers (@googleaidevs)MarkTechPost(RSS)
6月10日
05:55
Hugging Face:Blog(RSS)
精选74
将 GitHub CI 迁移到 Hugging Face Jobs

本文介绍了如何将 GitHub Actions 的 CI 作业迁移到 Hugging Face Jobs 上运行,以解决 GitHub Actions 速度慢、缺乏 GPU 支持等问题。通过使用 huggingface/jobs-actions 桥接,将 GitHub Actions 的 job 转为临时自托管运行器:GitHub App 监听 workflow_job.queued webhook,dispatcher Space 验证后启动对应硬件(CPU 或 t4-small、h200 等 GPU)的 HF Job,由 ephemeral runner 执行 CI 并上报结果。作者基于 Trackio 项目实际落地,CPU 作业时间减少约 30%,并新增了 GPU 测试套件。文章分步说明了复制 dispatcher Space、创建并安装 GitHub App、配置 webhook 和 HF_TOKEN 的具体步骤。

Hugging Face教程/实践部署/工程

推荐理由:HF 直接把 CI 桥接器开源了出来,教你把 GitHub Actions 迁到 HF Jobs 上跑 GPU 测试,ML 项目终于可以低成本配上显卡 CI,步骤清晰到能直接抄作业。
00:00
OpenRouter:Announcements(RSS)
同事件精选60
Gemini 2.5 Flash API:定价、快速入门与提供商对比

Gemini 2.5 Flash API 的定价与快速入门指南,指导用户配置 thinking budgets、比较不同提供商,并在 5 分钟内完成首次 API 调用。

Google推理教程/实践部署/工程
同一事件,精选展示《Gemini 2.5 Flash API - 定价、快速入门与提供商比较》
推荐理由:Gemini 2.5 Flash 最值得关注的是 thinking budget,这篇教程把怎么用、怎么省都讲清楚了,但对早已熟悉文档的开发者来说新东西有限。
6月9日
21:39
Cloudflare Blog
51
对抗前沿网络模型:Cloudflare 作为"客户零"的架构实践

Cloudflare 在 Project Glasswing 一文中提出,漏洞周围的架构比补丁速度更重要。本文详细阐述了这一架构的设计、它防御的威胁类型,以及 Cloudflare 如何以自家产品作为“客户零”(customer zero)来实际运行这套防御体系。

安全/对齐部署/工程
17:40
公众号:通义实验室(千问)
同事件精选67
仅凭一份文档,Qwen3.7-Max 从 0 交付双端应用

在无设计稿和后端代码的条件下,Qwen3.7-Max 仅凭一份约 15 万字的产品调研文档,于隔离环境中全自动完成移动端与 Web 端两套真实应用从 0 到 1 交付,单端耗时约 4 小时,中途无人工接管。模型不具备图像理解能力,通过像素坐标反推布局约束实现界面还原。实验采用“分阶段注入约束→逐层验收→带错纠正”的闭环控制系统:任务拆分为规划、架构、编码等阶段,验收覆盖静态检查、编译自检(0 error)、路由完整性(Web 端 34 条路由全部可达)、功能扫描及真机冷启动冒烟。失败时错误文本自动注入下一轮重试,使模型数小时内收敛。移动端产出可安装 APK,Web 端 typecheck 与构建均通过。

智能体教程/实践部署/工程
同一事件,精选展示《Qwen3.7-Max:面向智能体时代的最新专有模型》
推荐理由:通义实验室没有炫技分数,而是把 Agent 逼到了长程交付的极限,约束闭环这套方法论比模型本身更值钱,所有做 Agent 开发的都该读一遍。
11:40
公众号:小米 MiMo
精选80
小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s

小米 MiMo 与 TileRT 联合发布 MiMo-V2.5-Pro-UltraSpeed 模式,使 1T 参数旗舰模型输出速度首次突破 1000 tokens/s。模型侧采用 FP4 混合量化(仅量化 MoE Expert)与 DFlash 块级 masked 并行推测解码(coding 场景平均接受长度 6.30 tokens);系统侧 TileRT 引入常驻内核引擎与异构流水线协作。API 限时开放(2026 年 6 月 9 日至 23 日),定价为 MiMo-V2.5-Pro 的 3 倍,速度提升约 10 倍。FP4 权重与 DFlash 模型 checkpoint 已开源至 HuggingFace。

开源生态推理模型发布部署/工程
关联讨论 3 条X:小米 MiMo (@XiaomiMiMo)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)
推荐理由:万亿模型首次在通用GPU上突破1000 tokens/s,不是专用硬件的胜利而是模型与系统Codesign的胜利,做实时AI应用的都应该盯紧这一套方案。
6月8日
20:00
OpenRouter:Announcements(RSS)
同事件精选63
OpenRouter Agent SDK 推出 HITL 工具:满足 EU AI Act、Colorado ADMT 与 NIST AI RMF 合规要求

OpenRouter 的 Agent SDK 新增人类参与循环(HITL)工具,用于 AI 智能体的合规监督。该工具可帮助 AI 智能体满足欧盟 AI 法案、科罗拉多州自动化决策技术法(SB26-189)以及 NIST AI 风险框架(NIST AI RMF)的监管要求。

智能体教程/实践部署/工程
同一事件,精选展示《OpenRouter Agent SDK 发布 `create-agent-tui` 与 `create-headless-agent` 技能,可快速搭建个性化编码智能体》
推荐理由:8 月就是欧盟 AI 法案高风险的生效日,这个教程把三个监管框架的 HITL 要求变成可直接复用的代码,做金融医疗代理的开发者该收藏。
6月7日
08:09
Claude Code:GitHub Releases(RSS)
31
Claude Code v2.1.168 发布

Claude Code v2.1.168 版本发布,更新内容仅为错误修复和可靠性改进。因原文较短,无法达成 50-100 字。

Anthropic产品更新部署/工程
6月6日
09:07
Claude Code:GitHub Releases(RSS)
同事件精选64
Claude Code v2.1.166 发布

Claude Code v2.1.166 新增 fallbackModel 设置,最多配置三个后备模型在主模型过载或不可用时按序尝试;--fallback-model 现也适用于交互会话。deny rule 中工具名位置支持 glob 模式("*"拒绝所有工具),未知工具名启动时警告。跨会话消息中继不再携带用户权限,接收方拒绝被中继的权限请求。MAX_THINKING_TOKENS=0、--thinking disabled 及逐模型 thinking 开关可禁用默认开启思考的模型(仅 Claude API,第三方不变)。API 返回非预期不可重试错误时,在后备模型上重试一次。修复了图像处理失败、远程会话卡死、JetBrains IDE 终端闪烁、Kitty 键盘协议下 Shift+非 ASCII 字符丢失、PowerShell 命令验证挂起、macOS 后台进程孤儿化等问题。

智能体Anthropic产品更新部署/工程
同一事件,精选展示《Claude Code v2.1.163 发布》
推荐理由:Claude Code 重度用户该升级了,fallbackModel 让你设三个备用模型防止高峰期罢工,跨会话安全加固也让自动模式更敢放任跑了。
06:47
Hugging Face:Blog(RSS)
精选74
用Qwen2.5-3B构建多智能体经济体:工程报告

开发者用Qwen2.5-3B构建了五人森林生物多智能体经济体,每个智能体独立运行,通过vLLM部署在Modal,以Gradio为交互窗口。3B模型在100%调用中输出有效JSON,但经济判断能力弱。通过设计稀缺性(食物品种限制、易腐坏、冬季燃料危机)和优化提示词(禁止买入自产物品、给出示例)提升决策质量。15轮模拟中,蜜价从10跌至3、柴价从4涨至7、财富基尼系数从0.14扩至0.38。项目展示了小模型可靠格式化与不可靠推理之间的工程填补。

智能体Hugging Face教程/实践部署/工程

推荐理由:我觉得这是近期最诚实的小模型工程复盘,把为什么不换大模型、怎么靠提示修正推理、怎样设计系统稀缺性讲透了,比看十篇论文有实操价值。
01:12
Google Developers Blog(RSS)
精选75
Google Colab CLI 发布

Google 推出 Colab 命令行界面(CLI),允许开发者和 AI 智能体将本地终端连接到远程 Colab 运行时,实现无摩擦执行。该轻量级 CLI 支持请求高性能 GPU、远程运行本地 Python 脚本,并检索工件日志或模型(如微调后的 Gemma 3 适配器)。工具可直接集成到标准终端环境,可被 Antigravity、Claude Code 等 AI 智能体调用以管理复杂机器学习流水线。

GoogleMCP/工具产品更新部署/工程
关联讨论 1 条MarkTechPost(RSS)
推荐理由:对于习惯在 Colab 上薅免费 GPU 的开发者,这个 CLI 把本地开发、远程跑训练这套流程的摩擦降到了几乎为零,而且直接对接 AI agent,实验自动化往前迈了一大步。
6月5日
22:30
Cloudflare Blog
精选71
你的AI账单失控了。Cloudflare现在可以解决这个问题。

Cloudflare AI Gateway新增实时消费限制功能,防止跨多个AI提供商的token账单失控。通过与Cloudflare Access集成,企业可以使用基于身份的预算和策略管理AI使用成本。

产品更新部署/工程

推荐理由:Cloudflare AI Gateway 新加的实时花费限制,直接掐住 token 账单失控的命门,对重度依赖多模型的团队来说,这比任何新模型发布都更实在。
19:22
公众号:腾讯混元
精选62
腾讯混元提出Stem稀疏注意力算法,被ICML 2026收录

Stem算法通过Token位置衰减(TPD)和输出感知度量(OAM)两项创新,仅用25%算力即逼近稠密注意力精度。配套HPC算子针对Hopper架构优化,支持FP8量化与vLLM的Paged KV Cache,在混元Hy3 preview上实现首字延迟降低3.6倍。HPC-BSA相比MIT-BSA稳定保持约3倍加速,在8K至256K序列长度上表现一致。

开源生态推理论文/研究部署/工程

推荐理由:把稀疏注意力从一刀切升级成按信息流分配预算,算子在Hopper上把理论加速几乎无损转化,3.6倍首字延迟下降不是灌水——做长上下文应用的值得照着开源代码试。
00:53
LMSYS:Blog(Chatbot Arena 团队)
精选77
Boson AI 与 LMSYS 发布基于 SGLang-Omni 的 Higgs Audio v3 TTS 端到端服务

Boson AI 与 LMSYS 联合推出基于 SGLang-Omni 推理框架的 Higgs Audio v3 TTS 端到端服务。该模型约 4B 参数,基于 Qwen3-4B 骨干,支持 100 种语言(内部评测覆盖 111 种),在 Seed-TTS、CV3、MiniMax-Multilingual 及 Higgs-Multilingual 零样本语音克隆任务中达到单字级 WER/CER。开发者可通过文本内控制标签实时调整情感(20+种)、风格、韵律(语速/音高/停顿)及音效。模型支持流式合成,文本未完整时即可开始生成语音并保持一致性。SGLang-Omni 专为多阶段生成模型设计,统一调度 AR 解码与轻量计算,实现低延迟推理。

开源/仓库教程/实践语音部署/工程

推荐理由:Higgs v3 把多语言和实时可控制整合进一个流式 TTS 模型,SGLang-Omni 为它搭好了多阶段推理的底座,做语音 Agent 的可以直接抄作业,这比多数论文落地快半拍。
6月4日
23:42
Hugging Face:Blog(RSS)
精选66
Hugging Face 为编码智能体重塑 hf CLI 输出格式

Hugging Face 重新设计 hf CLI,使其同时服务人类用户和编码智能体(Claude Code、Codex 等)。CLI 通过环境变量自动检测智能体驱动,输出紧凑无截断的 TSV 格式,避免 ANSI 和交互提示,大幅降低 token 消耗。复杂多步任务中,不使用 CLI 的智能体 token 消耗最高达 hf CLI 的 6 倍。2026 年 4 月起,Hugging Face 追踪 Hub 智能体流量,Claude Code 约 4 万用户、近 4900 万次请求,Codex 紧随其后。

Hugging FaceMCP/工具产品更新编码

推荐理由:HF CLI 现在会自动检测 agent 并切换输出,复杂任务上 token 消耗比 curl/SDK 节省 2-6 倍。如果你在用 Claude Code 或 Codex 操作 Hugging Face Hub,这是必读的升级指南。
07:26
OpenAI:官网动态(RSS · 排除企业/客户案例)
39
Wasmer 使用 Codex 构建边缘 Node.js 运行时

Wasmer 借助 Codex(基于 GPT-5.5)构建了一个用于边缘计算的 Node.js 运行时,将开发速度提升 10 到 20 倍,交付周期从数月缩短至数周。

OpenAI编码行业动态部署/工程
6月3日
21:30
Anthropic:Newsroom(网页)
精选59
介绍 Claude Partner Network 的 Services Track 和 Partner Hub

Anthropic 扩展 Claude Partner Network,推出 Services Track 分级体系和 Partner Hub 门户。Services Track 设 Select、Preferred、Global Premier 三级,按认证人数、投产客户数及客户推荐信量化评定。Partner Hub 提供每日更新仪表盘和公开目录,方便合作伙伴查看进展、客户寻找供应商。该网络三月启动以来已有超 4 万家公司申请,逾 1 万顾问获认证;Accenture 训练 3 万人,Cognizant 部署约 35 万员工,Deloitte 惠及 47 万人,KPMG 覆盖 27.6 万,Infosys 构建行业智能体,PwC 先在美推广再扩至全球。

Anthropic产品更新行业动态部署/工程

推荐理由:Anthropic 给合作伙伴画了一条明确的爬升阶梯,从 Select 到 Global Premier,企业客户终于有个公开透明的渠道找靠谱的实施团队,做 AI 咨询的可以认真评估入局了。
00:45
Claude:Blog(网页)
精选74
Claude Code团队实践:智能体编程如何重塑工程组织与流程

在Code w/ Claude SF 2026活动上,Claude Code工程团队分享了将智能体编程设为默认工作方式后带来的流程与结构变革。核心变化包括:规划转向即时(JIT)模式,强调快速原型与反馈;上下文收集变为“先问Claude”;代码审查中Claude处理风格与测试,人工专注于法律、安全等专业判断。新范式下,工程瓶颈从编写代码转向验证、审查与安全维护。

Anthropic大佬观点现象/趋势部署/工程
关联讨论 2 条公众号:数字生命卡兹克X:邵猛 (@shao__meng)
推荐理由:Anthropic 工程总监把 Claude Code 团队流程全晒了出来,从抛弃半年路线图到代码审查只留专家复审,每一步都反直觉但实战有效,工程领导者直接抄作业。
00:13
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选70
Codex 赋能每一种角色、工具和工作流

OpenAI 的 Codex 新增了插件、站点和注释等功能。这些新功能旨在帮助分析师、营销人员、设计师、投资者等各类团队,利用 AI 完成更多工作。Codex 进一步拓展其作为 AI 编码工具的应用场景,以支持更广泛的角色、集成更多工具并优化现有工作流。

MCP/工具OpenAI产品更新部署/工程
关联讨论 5 条X:Rohan Paul (@rohanpaul_ai)X:OpenAI (@OpenAI)X:Sam Altman (@sama)IT之家(RSS)X:OpenAI Developers (@OpenAIDevs)
推荐理由:Codex不再只是开发者工具,六个角色插件和Sites功能把AI带进了营销、销售、投资等日常流,非技术团队可以直接上手,这是大企业AI落地的实用一步。
6月2日
17:55
蚂蚁 inclusionAI:HuggingFace 新模型
54
蚂蚁 inclusionAI 发布 Ling-2.6-flash-base 基础模型

Ling-2.6-flash-base 是蚂蚁 inclusionAI 发布的基础模型,采用闪速规模 MoE 与混合线性注意力架构(7:1 融合 Lightning Attention 与 MLA),总参数量约 104B、激活约 7.4B。模型从 Ling-2.0 检查点改造而来,经约 9.6T token 的迁移预训练、继续预训练和中段训练,上下文窗口从 4K 扩展至 256K。在知识、推理、数学、代码和长上下文基准上相比前代均有提升(如 MMLU 84.13,GSM8K 91.89)。该模型面向研究用途开放,支持继续预训练、微调和蒸馏,未经聊天对齐。

推理模型发布部署/工程
12:19
OpenRouter:Announcements(RSS)
精选77
OpenRouter 5月发布亮点

OpenRouter 发布5月更新,推出语音与转录API、模型融合(Model Fusion)功能,并为平台添加了私有模型和企业工作区管控能力。此次更新共上线20个新模型,其中包括 Gemini 3.5 Flash 和 Claude Opus 4.8。

智能体MCP/工具产品更新部署/工程

推荐理由:OpenRouter 五月交付了一整套平台级能力,从安全护栏到语音 API 再到模型融合,Pareto Code Router 按质量阈值选廉价模型这个思路,对 coding agent 的成本控制很实用。如果你重度依赖 OpenRouter,这次更新值得细读。
05:48
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选66
OpenAI前沿模型与Codex现可在AWS上使用

OpenAI的前沿模型与Codex现已在AWS上全面可用。企业客户可通过其现有的AWS环境、控制与采购流程来使用OpenAI的AI技术,从而加速从评估到生产部署的过程。

智能体OpenAI产品更新编码
关联讨论 3 条X:Testing Catalog (@testingcatalog)X:OpenAI Developers (@OpenAIDevs)X:OpenAI (@OpenAI)
推荐理由:这不是模型发布,而是渠道开闸,企业拿着现有 AWS 安全体系就能用上 GPT-5.5,合规部门终于不用再纠结。Codex 也直接嵌入开发流程,落地阻力小了一大截。
03:16
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选65
OpenAI在密歇根州启动Stargate 1GW数据中心建设

OpenAI在密歇根州启动了名为Stargate的1GW数据中心项目。作为AI基础设施建设的一部分,该项目旨在扩大人工智能技术的可及性、为当地创造就业机会并支持社区发展。

OpenAI行业动态部署/工程
关联讨论 1 条X:Rohan Paul (@rohanpaul_ai)
推荐理由:Stargate 的首个 GW 级数据中心真的动工了,算力基建从 PPT 变成推土机,对这个行业的长期供给比任何单点模型都有分量。密歇根州的学生还能拿到 Codex 额度,算是一点落地的小甜头。
6月1日
22:38
Hugging Face:Blog(RSS)
精选60
超越LLM:为何可扩展的企业AI采用取决于智能体逻辑

可扩展的企业AI采用需超越大语言模型,依靠智能体逻辑来引导模型执行动态、长周期且受约束的企业工作流,从而提升质量、降低成本并建立信任。文中以IBM watsonx Code Assistant for Z为例,展示了智能体逻辑如何通过程序分析等技术,在理解大型遗留代码库时,相比纯LLM基线方法,能以约30倍更低的token消耗达到更优性能。在加速测试生成任务中,该方法亦能使代码覆盖度提升20%-45%,同时token消耗降低最高达15倍。

智能体推理现象/趋势部署/工程

推荐理由:不是又一篇炒作 agent 的文章,IBM 拿真实项目数据说清楚了‘agent logic’怎么让大模型在企业落地时既降本又增效。
08:00
OpenRouter:Announcements(RSS)
同事件精选77
OpenRouter 五月发布亮点:语音API、模型融合、企业控制及20个新模型上架

OpenRouter 推出语音与转录 API、模型融合(Model Fusion)、私有模型部署和企业级工作空间控制功能。平台同时新增 20 个模型,其中包括 Gemini 3.5 Flash 和 Claude Opus 4.8。语音 API 支持实时语音识别与合成,模型融合允许用户组合多个模型的输出结果。企业工作空间提供更细粒度的权限管理与审计日志。

智能体产品更新部署/工程
同一事件,精选展示《OpenRouter 5月发布亮点》
推荐理由:OpenRouter五月更新不只是加模型,护栏、语音、模型融合全打包成API,开发团队读完就能用。月流量破百亿token还拿了1.13亿融资,平台稳定性会更强。
08:00
OpenRouter:Announcements(RSS)
同事件精选71
OpenRouter 5月发布亮点:语音与转录API、模型融合及20款新模型

OpenRouter 发布5月更新,推出语音与转录API、模型融合功能、私有模型支持和企业工作区控制,并新增20款模型,包括Gemini 3.5 Flash和Claude Opus 4.8。

智能体产品更新部署/工程
同一事件,精选展示《OpenRouter 5月发布亮点》
推荐理由:OpenRouter 这次月度发布把安全护栏、多模型融合和语音 API 全补上了,Model Fusion 和 Pareto Code Router 对做 agent 的团队尤其实用,成本控制与质量权衡变得更直接。
‹ 上一页
12345…13
下一页 ›