AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 497 条
全部一手资讯X论文
标签「部署/工程」清除
6月21日周日
18:20公众号:火山引擎26火山引擎×千行百业:让每一个Token,都落地有声
6月20日周六
04:26OpenRouter:Announcements(RSS)68精选OpenRouter vs LiteLLM:如何选择 LLM 网关
04:26OpenRouter:Announcements(RSS)59精选OpenRouter vs Portkey:你的团队该选哪个LLM网关?
6月19日周五
23:00CMU:Machine Learning Blog51医疗保健基准测试的质量取决于其隐含假设
22:00Cloudflare Blog62精选Cloudflare 为 AI 智能体推出临时账户
09:27OpenRouter:Announcements(RSS)60精选OpenClaw 接入 OpenRouter
03:18Cloudflare Blog52Cloudflare 发布多阶段漏洞发现工具,详解对抗性审查与上下文绕过技术
03:16Google Developers Blog(RSS)48Google 庆祝A2A协议发布一周年:协作智能体生态
03:08OpenAI:官网动态(RSS · 排除企业/客户案例)58精选企业版新用量分析与更新的支出控制
01:51Claude:Blog(网页)68精选Claude Enterprise 推出企业托管 MCP 连接器授权管理
00:25xAI:News(网页)45Grok 现集成 Databricks Agent Bricks
6月18日周四
21:19Google DeepMind:Blog(RSS)65精选保障AI智能体的未来安全
13:56LMSYS:Blog(Chatbot Arena 团队)67精选MOSS-TTS-Local-Transformer-v1.5 在 SGLang-Omni 上:原生流式 48 kHz 语音服务
09:20OpenRouter:Announcements(RSS)64使用OpenRouter连接Claude Code
06:55Claude Code:GitHub Releases(RSS)57精选Claude Code v2.1.181 发布
06:14Cloudflare Blog64精选Cloudflare 将更多智能体框架引入平台,以 Flue 为首
04:44Claude:Blog(网页)65精选借助 Workload Identity Federation 安全访问 Claude Platform
01:53LMSYS:Blog(Chatbot Arena 团队)69精选用SGLang-JAX在TPU上优化Ling-2.6-1T:一个Pallas核将MoE数据移动隐藏在计算中
6月17日周三
23:28Anthropic:Newsroom(网页)50Anthropic 在首尔开设办公室并宣布多项韩国AI生态合作
22:08Cloudflare Blog61精选Cloudflare 发布 Cloudflare One stack:智能体驱动的部署工具集
20:30公众号:百度智能云(文心)45中国银联与百度智能云展示金融AI全栈方案,发布智能体白皮书
18:39Hugging Face:Blog(RSS)66精选Strands Robots SDK:用单一智能体打通 Hugging Face Hub 到物理机器人
05:58Google DeepMind:Blog(RSS)34Google DeepMind 基于 Gemini 与英国政府合作开发 AI 规划原型,目标将家庭申请处理时间减半
04:53Claude Code:GitHub Releases(RSS)48Claude Code v2.1.179 发布
02:03OpenRouter:Announcements(RSS)62精选OpenRouter Presets:当模型下线时保持 AI 智能体运行
00:04Google Developers Blog(RSS)46TPU Developer Hub 正式发布:助力开发者解锁 Google Cloud TPU 全部性能
6月16日周二
18:30公众号:百度智能云(文心)43百度智能云成立能源行业生态联盟,发布全栈AI能力
14:30公众号:火山引擎40双第一!火山引擎领跑中国智能体开发平台市场
13:58OpenRouter:Announcements(RSS)68精选智能体AI治理:你的API密钥就是护栏
13:58OpenRouter:Announcements(RSS)75精选免费LLM API比较:速率限制、模型与真实成本(2026)
02:33xAI:News(网页)47xAI 宣布 Grok 集成至 Warp 终端开发环境
01:25LMSYS:Blog(Chatbot Arena 团队)67精选下一代投机解码:DFlash 与 Spec V2
6月15日周一
21:55Cloudflare Blog50Cloudflare 引入 Ensemble AI 团队,加速 AI 基础设施研发
21:30公众号:百度智能云(文心)49百度搭子DuMate Harness引擎升级:复杂任务积分消耗最高降低75%
21:30公众号:火山引擎38安谋科技×火山引擎:芯片IP设计云端弹性算力与AI运营实践
08:14OpenAI:官网动态(RSS · 排除企业/客户案例)59精选OpenAI 推出合作伙伴网络 OpenAI Partner Network
6月13日周六
10:10OpenRouter:Announcements(RSS)59OpenRouter 可靠性与自动故障转移:请求如何持续成功
10:10OpenRouter:Announcements(RSS)66精选OpenRouter 模型路由工作原理
10:10OpenRouter:Announcements(RSS)74精选Hermes Agent 在 OpenRouter 上的使用指南:设置、模型与路由
06:26Claude Code:GitHub Releases(RSS)42Claude Code v2.1.176 发布
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月21日
18:20
公众号:火山引擎
26
火山引擎×千行百业:让每一个Token,都落地有声
行业动态部署/工程
6月20日
04:26
OpenRouter:Announcements(RSS)
精选68
OpenRouter vs LiteLLM:如何选择 LLM 网关

OpenRouter 是托管在 Cloudflare 边缘的 LLM 网关,无需管理基础设施,收取 5.5% 平台费(前 100 万次请求免费),支持 70+ 提供商和自动故障转移。LiteLLM 是自部署代理(Docker/PostgreSQL/Redis),数据不离开内网,免费开源,但需承担基础设施成本(生产部署约数百美元/月)。当模型月支出超过约 $3,600(基础设施 $200/月)或 $9,100(基础设施 $500/月)时自托管更划算。LiteLLM 提供六种路由策略和自定义 Python 路由;OpenRouter 具备 SOC 2、GDPR 认证和零数据保留选项。两者可串联使用。

开源生态评测/基准部署/工程

推荐理由:OpenRouter 这份官方对比很坦诚,把成本、延迟、合规的权衡掰开了讲,自建 LiteLLM 和托管谁更划算的算术也给清楚了,做 LLM 网关选型的直接看这篇就够了。
04:26
OpenRouter:Announcements(RSS)
精选59
OpenRouter vs Portkey:你的团队该选哪个LLM网关?

OpenRouter是托管路由网络,买credits后通过一个API路由至70+供应商,自动故障转移,无需自有密钥;覆盖300+模型(含20+免费),按用量收费(零加成+5.5%平台费,首100万免费),支持零数据保留和欧盟路由。Portkey是AI控制平面(2026年被Palo Alto收购),置于用户密钥之上,增加治理、提示管理、护栏和可观测性;提供1600+ LLM统一API,按日志计费(Developer免费,Production $49/月),支持HIPAA、SSO、私有部署。两者均可组合使用。

教程/实践部署/工程

推荐理由:OpenRouter自己下场写对比,虽然立场明显,但对「路由网络 vs. 控制平面」的定位拆解很清晰,选网关的时候可以当决策清单看。
6月19日
23:00
CMU:Machine Learning Blog
51
医疗保健基准测试的质量取决于其隐含假设

LLM在作为医疗助手时,评估与部署场景下的性能存在显著差距——Bean等人(2025)发现准确率相差61个百分点。这一差距并非源于基准测试设计缺陷,而是因为评估协议中嵌入的隐含假设在部署时不再成立。研究提出将假设分为任务假设和结果假设两类,用以诊断差距成因并明确弥合路径:需将假设显式化、检验哪些假设在部署中成立,并据此更新评估协议。

现象/趋势部署/工程
22:00
Cloudflare Blog
精选62
Cloudflare 为 AI 智能体推出临时账户

Cloudflare 在 Workers 上推出临时账户(Temporary Accounts),允许 AI 智能体直接运行 wrangler deploy --temporary,在数秒内获取一个可用的实时 Worker,无需绕开面向人类设计的部署流程。该功能旨在降低智能体部署门槛。

智能体MCP/工具产品更新部署/工程
关联讨论 1 条Simon Willison 博客
推荐理由:Cloudflare 给 agent 开临时账号这个功能很聪明,一步解决了身份验证和资源清理的麻烦,做智能体部署的可以认真试试。
09:27
OpenRouter:Announcements(RSS)
精选60
OpenClaw 接入 OpenRouter

OpenClaw 已内置 OpenRouter 支持,一条命令即可为 AI 智能体配置统一密钥、统一账单,并实现跨 300 多个模型的自动故障转移。同时提供具体设置步骤以及常见错误的修复方法。

智能体教程/实践部署/工程

推荐理由:给用 OpenClaw 搭 agent 的人一个直接可用的集成指南,还附带了常见报错修复,比零散摸索省时间。
03:18
Cloudflare Blog
52
Cloudflare 发布多阶段漏洞发现工具,详解对抗性审查与上下文绕过技术

Cloudflare 分享了其多阶段漏洞发现工具的技术架构,包含自动化分类循环。该系统通过管理状态控制、引入对抗性审查来压制误报,并围绕 LLM 上下文窗口限制设计路由策略。

安全/对齐教程/实践部署/工程
03:16
Google Developers Blog(RSS)
48
Google 庆祝A2A协议发布一周年:协作智能体生态

Google 庆祝Agent-to-Agent(A2A)协议发布一周年。A2A专为生成式AI设计,相比传统REST API提供安全边界、零上下文污染、动态自主性和工作负载分布四大架构优势。应用实例FoldRun是一个独立的智能体接口,可在Gemini Enterprise或Gemini CLI等A2A兼容环境中部署,自动管理蛋白质结构预测任务,动态选择AlphaFold 2、OpenFold 3或Boltz-2等模型,无需自定义胶水代码。

智能体Google教程/实践部署/工程
03:08
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选58
企业版新用量分析与更新的支出控制

OpenAI 为 ChatGPT Enterprise 推出信用额度用量分析与更新的支出控制功能。全局管理控制台(Global Admin Console)统一展示 ChatGPT 和 Codex 的信用消耗,支持按时间、用户、产品、模型追踪用量趋势。管理员可为整个工作区设置默认限额,按群组配置额度,并为个人设置叠加限制。员工可查看个人用量并申请增加额度(附工作上下文)。这些功能即日起可用。

OpenAI产品更新部署/工程

推荐理由:仅面向ChatGPT Enterprise管理员的使用分析和预算控制更新,帮助企业追踪团队用量、控制成本,但并非行业级事件,管理者可当即启用。
01:51
Claude:Blog(网页)
精选68
Claude Enterprise 推出企业托管 MCP 连接器授权管理

Claude Enterprise 推出企业托管授权功能,管理员可通过身份提供商(率先支持 Okta)为整个组织配置 MCP 连接器。用户首次登录 Claude 时自动获得授权,无需手动操作,实现零接触设置。该功能基于 Model Context Protocol 的 Enterprise-Managed Authorization 扩展构建,支持 Asana、Atlassian、Canva、Figma、Granola、Linear、Supabase 等 MCP 提供商,Slack 即将支持。授权管理集成到现有 IdP 工作流中,可按组限定范围、通过 IdP 快速撤销授权,并支持要求连接器仅通过 IdP 连接以隔离工作与个人使用。

AnthropicMCP/工具产品更新部署/工程

推荐理由:企业 MCP 连接器不再需要每个用户手动授权,这是 MCP 生态从个人扩展到组织的关键一步,管理员终于可以像管理其他 SaaS 一样管理 Claude 的工具链。
00:25
xAI:News(网页)
45
Grok 现集成 Databricks Agent Bricks

Grok 模型现已原生集成到 Databricks Agent Bricks 平台。在 2026 年 Data + AI Summit 上,Databricks 宣布与 SpaceXAI 合作,使 Grok 与其他前沿及开源模型在同一受控平台中可用。Agent Bricks 结合 Lakehouse 数据上下文与控制和选择,帮助工程团队构建处理大规模数据的 AI 智能体。此外,企业也可在 Amazon Bedrock 上运行 Grok 模型。

xAI行业动态部署/工程
6月18日
21:19
Google DeepMind:Blog(RSS)
精选65
保障AI智能体的未来安全

Google DeepMind发布AI Control Roadmap,这是一套针对内部先进AI智能体的系统级安全框架。该框架在传统模型对齐之上增加防线,假设AI智能体可能不对齐,通过威胁建模、沙箱隔离、端点安全、提示注入防御以及基于已验证行为逐步授予权限的机制建立信任。据估算,到2030年仅美国市场AI智能体就能创造2.9万亿美元经济价值。

智能体DeepMind安全/对齐部署/工程

推荐理由:DeepMind 首次系统性地公开了内部 AI 代理安全控制路线图,把代理当潜在「内鬼」来防的思路很务实,分析了 100 万个任务轨迹的监控实践尤其值得做 Agent 安全的人细看。
13:56
LMSYS:Blog(Chatbot Arena 团队)
精选67
MOSS-TTS-Local-Transformer-v1.5 在 SGLang-Omni 上:原生流式 48 kHz 语音服务

MOSS-TTS-Local-Transformer-v1.5 是一款开源 TTS 模型,支持 48 kHz 立体声、零样本声音克隆、最长 10 分钟长文本合成、时长控制及 31 种语言。其核心采用 Qwen3-4B 骨干与约 2B 参数的 MOSS-Audio-Tokenizer-v2 音频编解码器,通过 12 个 RVQ 码本运行。SGLang-Omni 以三阶段流水线部署该模型。在 Seed-TTS-Eval 上词错误率 5.10%、语音相似度 69.23%,CV3-Eval 上 WER 7.48%、SIM 61.59%,MiniMax Multilingual 上 WER 6.37%、SIM 75.31%,X Voice 上 WER 20.48%、SIM 63.00%。

产品更新语音部署/工程

推荐理由:SGLang-Omni 把 MOSS-TTS 的端到端服务拆成三阶段并做了大量底层优化,对想落地实时语音合成的团队是现成的技术方案,技术细节扎实,可以直接照着搭。
09:20
OpenRouter:Announcements(RSS)
64
使用OpenRouter连接Claude Code

设置三个环境变量即可将Claude Code连至OpenRouter,无需本地代理或Docker。OpenRouter提供供应商故障转移、预算控制与用量监控,支持Anthropic Skin原生协议,保留Thinking、工具调用、流式输出。可为Opus(架构推理)、Sonnet(日常编码)、Haiku(快速转换)分别指定模型。Fast Mode最高2.5倍速度,仅限Claude Opus 4.6/4.7/4.8,需Claude Code v2.1.96+。团队场景:一个OpenRouter密钥统一计费、设置每密钥限额,活动仪表板查看会话成本。

教程/实践编码部署/工程
关联讨论 1 条OpenRouter:Announcements(RSS)
06:55
Claude Code:GitHub Releases(RSS)
精选57
Claude Code v2.1.181 发布

Claude Code v2.1.181 发布,新增 /config key=value 语法允许在提示中直接设置任意配置项,新增 sandbox.allowAppleEvents 选项使沙盒命令支持 Apple Events,新增 CLAUDE_CLIENT_PRESENCE_FILE 环境变量用于抑制移动端推送通知。内置 Bun 运行时升级至 1.4,改进了长段落流式输出(逐行显示)和 API 连接中断后自动重试。子 agent 面板优化:空闲 agent 30 秒自动隐藏、列表最多 5 行。修复了提示缓存读取、Write/Edit 在网络驱动器产生 0 字节文件、启动性能回归(约 120ms)、启动阻塞(最长 15 秒)、macOS TUI 冻结、子 agent 时长显示错误、API 重试指示器残留、AWS 凭证刷新等问题。

智能体Anthropic产品更新部署/工程

推荐理由:一次工程师式的磨刀更新,修复了网络驱动器写入、macOS TUI 冻结等一批痛感明显的 bug,新增的 /config 快捷语法也顺手,但对非 Claude Code 用户来说就是一串技术细节。
06:14
Cloudflare Blog
精选64
Cloudflare 将更多智能体框架引入平台,以 Flue 为首

Cloudflare Agents SDK 现已成为任何智能体框架均可构建的运行时。Cloudflare 开放了 Agents SDK 原语,Flue 成为首个针对该 SDK 的框架,同时仪表盘中已推出智能体功能。

智能体产品更新部署/工程

推荐理由:Cloudflare 将 Agents SDK 开放为中性运行时,Flue 首个接入,本质还是为 Workers 拉流量,非 Cloudflare 用户不必费心。
04:44
Claude:Blog(网页)
精选65
借助 Workload Identity Federation 安全访问 Claude Platform

Workload Identity Federation (WIF) 已在 Claude Platform 上全面可用。WIF 兼容任何 OIDC 身份提供者,覆盖所有 Claude API 端点(包括第一方 SDK 和 Claude Code)。WIF 用短生命期凭证替代静态 API 密钥,并引入服务账户,每个工作负载拥有独立身份、角色和审计日志。Claude Console 提供引导设置流程,支持 Admin API 进行组织管理。API 密钥可并行使用以便逐步迁移。

Anthropic产品更新部署/工程

推荐理由:这个功能真正解决了企业在生产环境中用 Claude 的最大痛点,现在团队可以完全抛掉静态密钥,用现成的身份体系接入,安全审计也变得顺手。
01:53
LMSYS:Blog(Chatbot Arena 团队)
精选69
用SGLang-JAX在TPU上优化Ling-2.6-1T:一个Pallas核将MoE数据移动隐藏在计算中

SGLang-JAX现已支持inclusionAI的Ling-2.6-1T(1T稀疏MoE,63B激活参数,256路由专家,top-8路由加共享专家)在TPU v7x上高效推理。团队开发了Fused MoE V2——一个融合scatter、专家FFN和gather的Pallas核,通过将MoE数据移动隐藏在计算中,使MoE预填充延迟从5.16ms降至2.42ms(降幅53%),解码核延迟从0.249ms降至0.211ms(降幅约15%)。仅替换MoE核即提升预填充吞吐量24.8%,解码吞吐量18.5%–35.3%。在SGLang解码基准测试中,16块TPU v7x芯片输出吞吐量达16块H200 GPU的1.29倍(mc=128)至1.77倍(mc=512)。完整上线还包含混合KV/循环内存池、GLA线性注意力和单控制器数据并行支持。

推理论文/研究部署/工程

推荐理由:这是针对TPU上MoE推理的硬核优化复盘,用成本模型定位瓶颈,通过单内核融合把延迟砍半,对做大规模推理工程的团队是高质量参考。
6月17日
23:28
Anthropic:Newsroom(网页)
50
Anthropic 在首尔开设办公室并宣布多项韩国AI生态合作

Anthropic 正式启用首尔办公室,并宣布与韩国AI生态的多项合作。NAVER 在全公司部署 Claude Code,数千工程师用于提升编码效率;Nexon 工程团队用 Claude Code 编写游戏代码。LG CNS 将 Claude 推广至数千员工并计划覆盖整个 LG 集团;Hanwha Solutions 通过 AWS Bedrock 部署 Claude 满足数据驻留与安全要求;Samsung SDS 向三星电子员工部署 Claude(包括 Claude Cowork 和 Claude Code)。初创公司 Channel Corp 用 Claude 驱动客户AI平台 Channel Talk。Anthropic 与韩国国家AI研究实验室合作,向至多60名研究员提供 Claude 用于AI安全等研究。非营利组织 Good Neighbors Korea 部署 Claude 减轻行政工作。Claude for Startups 已在韩国上线,并计划与 Replit 等合办黑客马拉松。

Anthropic行业动态部署/工程
22:08
Cloudflare Blog
精选61
Cloudflare 发布 Cloudflare One stack:智能体驱动的部署工具集

6月17日,Cloudflare 推出 Cloudflare One stack,一组可直接赋予 AI 智能体的技能文件,用于自动配置、部署和管理 Zero Trust 环境。工具集包含两个轻量级 skill:cloudflare-one 负责通用产品指导(VPN 替换、网络连接、安全策略等),cloudflare-one-migration 提供从 Zscaler、Palo Alto Networks 等厂商迁移的明确引导。技能内置决策树与结构化知识,智能体可自动执行云环境评估、网络拓扑生成及 Digital Experience Monitoring 排障。该 stack 基于 Cloudflare 员工数万小时客户经验提炼,降低学习与迁移门槛。

智能体产品更新部署/工程

推荐理由:Cloudflare把多年零信任迁移经验打包成agent技能,让AI直接帮你部署和管理安全堆栈,对正忙着切到Zero Trust的团队是个即插即用的省力工具,但仍是垂直领域的效率提升,不算广谱AI大事。
20:30
公众号:百度智能云(文心)
45
中国银联与百度智能云展示金融AI全栈方案,发布智能体白皮书

6月16日,2026中国金融展上,百度智能云与中国银联展示金融行业AI应用解决方案。AI Infra方面,银联云提供搭载昆仑芯的国产算力环境,已累计支持30余家机构进行DeepSeek、MiniMax、GLM等模型测试。Agent Infra方面,百度千帆大模型平台为银联云用户提供模型开发、部署、推理服务及国产异构算力纳管、金融级数据安全与多租户隔离方案。百度智能云已服务超800家金融机构,覆盖100%系统重要性银行。双方将聚焦AI基础设施共建与金融智能体联合研发,推动支付、清算、风控等核心场景智能化。同期发布《金融行业场景智能体白皮书》,提出“知识-流程”双维分类框架及落地优先级建议。

智能体行业动态部署/工程
18:39
Hugging Face:Blog(RSS)
精选66
Strands Robots SDK:用单一智能体打通 Hugging Face Hub 到物理机器人

AWS(Apache 2.0)开源的 Strands Robots SDK 将 LeRobot 栈封装为 AgentTools,构建统一智能体。默认用 MuJoCo 模拟(无需硬件),mode="real" 切换至真实机器人。可记录演示数据为 LeRobotDataset 并推送 Hugging Face Hub,运行 GR00T 或 LerobotLocal 策略推理,经 Zenoh mesh 广播命令到多台机器人。模拟与硬件代码完全一致,只需改一个关键字参数。示例可在笔记本(Python 3.12+,Linux/macOS)无硬件、无 GPU 运行。

Hugging Face产品更新具身智能开源生态

推荐理由:AWS 的 Strands Robots 把 LeRobot 仿真和硬件部署装进同一个 Agent 里,代码几乎不变就能从模拟切到物理机器人,对具身智能开发者是省掉胶水代码的实用工具。
05:58
Google DeepMind:Blog(RSS)
34
Google DeepMind 基于 Gemini 与英国政府合作开发 AI 规划原型,目标将家庭申请处理时间减半

Google DeepMind 与英国政府合作,基于 Gemini 构建 AI 规划原型,旨在将家庭规划申请处理时间减半。该工具可整合数据、识别本地政策、总结公众反馈并起草评估报告,但规划官员保留最终决策权。原型已在 Barnet、Camden 和 Dorset 试点,计划 2027 年向全英议会开放。此前推出的 Extract 工具(同样基于 Gemini)已向英格兰所有议会开放,能将非结构化 PDF 转为可用数据,预计为每个议会每年节省约 255 小时人工。家庭规划申请占每年规划申请的近 70%,AI 工具旨在让官员聚焦更复杂的公共利益申请。

DeepMindGoogle产品更新部署/工程
04:53
Claude Code:GitHub Releases(RSS)
48
Claude Code v2.1.179 发布

本次次要版本修复了多项问题:流式连接中断后保留部分响应并修复 spinner 卡死;修复 WSL2(Windows Terminal / VS Code)中鼠标滚轮失效(v2.1.172 引入的回归);修复 Linux 上 sandbox denyRead/allowRead glob 覆盖大目录树导致 Bash 工具描述膨胀、会话不可用;修复反馈调查在单次回复后立即捕获评分;修复欢迎界面每会话最多显示一个促销横幅;修复查看子 agent 时 Ctrl+O 不显示其对话记录;修复点击输入框无法从子 agent/底栏面板恢复焦点;修复远程会话后台任务轮次间显示“正在运行”但实际卡住;改进了远程会话中插件加载性能。

Anthropic产品更新编码部署/工程
02:03
OpenRouter:Announcements(RSS)
精选62
OpenRouter Presets:当模型下线时保持 AI 智能体运行

Anthropic 在 Claude Fable 5 发布仅数天后便对其进行了限制。如果代码硬编码模型 slug,该限制也会导致服务中断。OpenRouter 的 Presets 功能将模型选择移至服务器端,使用户无需重新部署即可切换模型、设置回退策略并强制执行数据策略。

智能体教程/实践部署/工程

推荐理由:给 Agent 开发者的实用提醒,硬编码模型名会在供应商限制时塌方,用 Presets 换模型、设降级方案比现改代码省心。
00:04
Google Developers Blog(RSS)
46
TPU Developer Hub 正式发布:助力开发者解锁 Google Cloud TPU 全部性能

谷歌今日推出 TPU Developer Hub,面向模型构建者与开发者提供端到端教育资源。内容覆盖预训练、后训练及推理工作负载,涵盖硬件架构、软件栈(XLA、PyTorch 零成本迁移)、追踪调试(XProf 工具)、并行优化(Pallas 内核、KV cache 卸载)及网络安全实践。资源形式包括交互式 Colab、开源代码配方与深度技术文档,支持 AI 智能体辅助集成,帮助用户充分发挥 Cloud TPU 性能。

Google产品更新部署/工程
6月16日
18:30
公众号:百度智能云(文心)
43
百度智能云成立能源行业生态联盟,发布全栈AI能力

2026年6月9日,百度智能云与产业联盟在广州举办能源合作伙伴交流会,成立“百度智能云能源行业生态联盟”,首批21家成员覆盖算力基础设施、软件平台、解决方案及服务交付等领域。百度智能云依托文心大模型、飞桨深度学习平台、昆仑芯及百舸异构算力平台,形成全栈AI能力,并在电力巡检、风电场管理、电力交易等场景落地。黄埔区“黄埔1号”智算集群算力超12000P,推出算力券、模型券、场景券等扶持政策。国家人工智能应用中试基地已梳理出设备智能巡检、电力市场交易等数十个共性场景。

行业动态部署/工程
14:30
公众号:火山引擎
40
双第一!火山引擎领跑中国智能体开发平台市场

IDC《2025中国智能体开发平台市场份额报告》显示,火山引擎以17.8%和19.3%的份额位居中国智能体开发平台私有化、公有云市场双第一。竞争焦点从Agent开发/编排延伸至全生命周期管理。火山引擎提供HiAgent(支持低/高/无代码、评测观测、数据回流、多模型接入、企业级扩展与私有化安全集成)和扣子(Coze)3.0(零代码开发部署、多人多Agent协作、跨多端协同、电脑桌面端和手机App端)两大产品,并推出AgentSphere实现多Agent统一管理。客户覆盖金融(9成头部券商、8成系统重要性银行)、教育(超八成985高校)、零售、能源等行业。

智能体行业动态部署/工程
13:58
OpenRouter:Announcements(RSS)
精选68
智能体AI治理:你的API密钥就是护栏

智能体AI使用量将在未来两年急剧上升,但治理滞后——仅五分之一企业拥有成熟治理模型。典型事故:销售智能体重试失败调用后自行升级到GPT-5.5,一夜消耗200美元。API路由层位于智能体与模型之间,是强制执行预算上限、模型白名单、提供方准入和请求日志的理想点。IBM报告指出97%遭遇AI安全事件的组织缺乏AI访问控制。最小可行治理方案:为每个智能体工作流分配独立API密钥,在API密钥层面实现预算控制、模型准入和审计追踪。

智能体现象/趋势部署/工程

推荐理由:现在代理失控的风险越来越真实,这篇文章把复杂的治理问题简化为五个 API 密钥控制,五分钟就能落地,比那些大而无当的框架实用得多。
13:58
OpenRouter:Announcements(RSS)
精选75
免费LLM API比较:速率限制、模型与真实成本(2026)

13个平台提供免费LLM API,含永久免费层与试用额度。OpenRouter拥有20+免费模型,单密钥无需信用卡;Groq以约320 tokens/秒运行Llama 3.3 70B;Google AI Studio支持1M上下文;Mistral实验层约10亿token/月但需同意数据训练;Cerebras约1M token/天;GitHub Models提供GPT-4o、Claude 3.5 Sonnet等前沿模型。各免费层有速率限制、数据训练授权、上下文缩减等隐藏成本,建议早期测试2-3个方案并设置故障转移。

评测/基准部署/工程

推荐理由:免费 LLM API 不是免费的,这篇文章把 13 家平台的隐藏成本、速率限制和真实可用性都算清楚了,想省钱的开发者值得花五分钟看一遍。
02:33
xAI:News(网页)
47
xAI 宣布 Grok 集成至 Warp 终端开发环境

xAI 宣布与 Warp 集成,Warp 是一个基于终端的智能体开发环境,拥有近百万开发者。用户可使用 Grok 或 X Premium 订阅在 Warp 中访问 Grok 模型,包括驱动 Grok Build CLI 的 grok-build-0.1 模型。设置方式:下载 Warp,在 Agent 设置页连接 SuperGrok 订阅,切换至 grok-build-0.1 模型。更多智能体与集成即将推出。

智能体行业动态部署/工程
01:25
LMSYS:Blog(Chatbot Arena 团队)
精选67
下一代投机解码:DFlash 与 Spec V2

Z Lab、Modal 与 SGLang 团队联合发布 DFlash 投机解码模型和 SGLang 的默认 Spec V2 引擎。DFlash 采用块扩散+KV 注入并行生成整块 draft token,在 Qwen 3.5 397B-A17B(BF16)的 HumanEval 数据集上、并发 1 时吞吐量达到基线的 4.3

Hugging Face推理模型发布部署/工程

推荐理由:DFlash 用并行起草和 KV 注入实现了实测 4.3 倍吞吐,再加上 SGLang Spec V2 引擎优化,推理加速不再是纸上谈兵。做 LLM 部署和推理服务的人,可以直接用这个组合试试。
6月15日
21:55
Cloudflare Blog
50
Cloudflare 引入 Ensemble AI 团队,加速 AI 基础设施研发

Cloudflare 宣布 Ensemble AI 团队关键成员加入,以加速 AI 基础设施研发。Ensemble 专注于模型压缩与高效推理,开发了 NdLinear(可直接替换 Transformer 标准线性层并保持多维激活结构)和 NdLinear-LoRA(降低大模型微调所需可训练参数)。这些技术与量化等方法互补,旨在降低大语言模型和多模态架构的内存、计算与部署开销。Cloudflare 将把 Ensemble 的成果整合到 Workers AI 平台,通过全球网络与 serverless GPU 推理服务,进一步提升推理效率、GPU 利用率和部署经济性。

推理行业动态部署/工程
21:30
公众号:百度智能云(文心)
49
百度搭子DuMate Harness引擎升级:复杂任务积分消耗最高降低75%

百度搭子DuMate完成Harness引擎系统性升级,复杂任务积分消耗最高降低75%。以行业深度调研报告为例,积分从约400降至约100;电商运营周报从近300降至约78。降本不降质源于三项优化:自研安全沙箱资源消耗降低、模型推理效率提升(非替换低成本模型)、Harness执行链路工程升级(提升任务规划精度与工具调用效率)。

智能体产品更新部署/工程
21:30
公众号:火山引擎
38
安谋科技×火山引擎:芯片IP设计云端弹性算力与AI运营实践

安谋科技与火山引擎合作,通过云端弹性算力补充本地资源,应对芯片IP设计峰值需求。采用存算分离架构,核心数据本地化,仅弹性调用云端算力。已实现峰值8万多核,月均稳定5万核以上;新增约2万核需求3天内上线。同时探索AI运营,测试ArkClaw、TRAE、Agent Plan等能力,提升研发与办公效率。方案满足EDA高主频大内存需求,按需供给降低成本。

行业动态部署/工程
08:14
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选59
OpenAI 推出合作伙伴网络 OpenAI Partner Network

OpenAI 宣布推出 OpenAI Partner Network,并投资 1.5 亿美元支持全球合作伙伴构建、销售和交付 AI 解决方案。该计划设立 Select、Advanced、Elite 三级合作伙伴层级,提供 Codex、网络安全、智能体等专业方向认证,并试点 Forward Deployed Experts 项目以支持复杂企业部署。目标在 2026 年底前培训认证 30 万名顾问。案例显示,Paychex 借助 Bain 和 OpenAI 的方案将等待时间降低 80%,人工审核时间减少 30%。

OpenAI行业动态部署/工程

推荐理由:OpenAI 砸 1.5 亿建合作伙伴网络,企业落地从模型能力转向生态整合,但这事离普通用户比较远,更像是给咨询公司派活。
6月13日
10:10
OpenRouter:Announcements(RSS)
59
OpenRouter 可靠性与自动故障转移:请求如何持续成功

OpenRouter 默认启用提供商故障转移(provider failover),模型回退(model fallbacks)则为选择加入。这两层机制分别应对不同类型的故障:提供商故障转移在 API 调用失败时自动切换至其他提供商,模型回退则在指定模型不可用时切换到备选模型。公告详细说明了各层的工作原理以及故障转移的停止条件。

教程/实践部署/工程
10:10
OpenRouter:Announcements(RSS)
精选66
OpenRouter 模型路由工作原理

OpenRouter 将每个请求路由到 60 多家提供商,用户可自定义提供商顺序、价格上限和回退链,从而灵活控制路由策略。

教程/实践部署/工程

推荐理由:如果你在用 OpenRouter,这篇把默认的逆向平方权重、:nitro/:floor 快捷方式和 model fallback 逻辑讲得很清楚,读完就能调整请求策略。
10:10
OpenRouter:Announcements(RSS)
精选74
Hermes Agent 在 OpenRouter 上的使用指南:设置、模型与路由

Hermes Agent 已通过 OpenRouter 处理超过 17 万亿 tokens。使用指南包括设置流程、选择支持 64K 上下文窗口的模型,以及调整路由策略以兼顾成本与可靠性。

智能体教程/实践部署/工程

推荐理由:OpenRouter 这篇教程把 Hermes Agent 的配置、路由和降本技巧都讲透了,刚上手的人照着走就能跑起来,而且给出了廉价辅助模型的省钱套路,实用性强。
06:26
Claude Code:GitHub Releases(RSS)
42
Claude Code v2.1.176 发布

Claude Code v2.1.176 更新:会话标题现按对话语言生成;新增 footerLinksRegexes 设置支持正则匹配页脚行链接徽章;优化 Bedrock 凭证缓存。修复多项问题:环境变量不可再绕过 availableModels 限制;/fast 切换至白名单外模型时拒绝;auto 模式退化为可用 Opus 模型;修正路径 hook 条件匹配;修复 Linux 沙箱内符号链接启动问题;修复 tmux 内 SSH 剪贴板问题;修复 Remote Control 多项连接问题。

智能体Anthropic产品更新编码
‹ 上一页
1234…13
下一页 ›