OpenRouter 是托管在 Cloudflare 边缘的 LLM 网关,无需管理基础设施,收取 5.5% 平台费(前 100 万次请求免费),支持 70+ 提供商和自动故障转移。LiteLLM 是自部署代理(Docker/PostgreSQL/Redis),数据不离开内网,免费开源,但需承担基础设施成本(生产部署约数百美元/月)。当模型月支出超过约 $3,600(基础设施 $200/月)或 $9,100(基础设施 $500/月)时自托管更划算。LiteLLM 提供六种路由策略和自定义 Python 路由;OpenRouter 具备 SOC 2、GDPR 认证和零数据保留选项。两者可串联使用。
OpenRouter是托管路由网络,买credits后通过一个API路由至70+供应商,自动故障转移,无需自有密钥;覆盖300+模型(含20+免费),按用量收费(零加成+5.5%平台费,首100万免费),支持零数据保留和欧盟路由。Portkey是AI控制平面(2026年被Palo Alto收购),置于用户密钥之上,增加治理、提示管理、护栏和可观测性;提供1600+ LLM统一API,按日志计费(Developer免费,Production $49/月),支持HIPAA、SSO、私有部署。两者均可组合使用。
LLM在作为医疗助手时,评估与部署场景下的性能存在显著差距——Bean等人(2025)发现准确率相差61个百分点。这一差距并非源于基准测试设计缺陷,而是因为评估协议中嵌入的隐含假设在部署时不再成立。研究提出将假设分为任务假设和结果假设两类,用以诊断差距成因并明确弥合路径:需将假设显式化、检验哪些假设在部署中成立,并据此更新评估协议。
Cloudflare 在 Workers 上推出临时账户(Temporary Accounts),允许 AI 智能体直接运行 wrangler deploy --temporary,在数秒内获取一个可用的实时 Worker,无需绕开面向人类设计的部署流程。该功能旨在降低智能体部署门槛。
OpenClaw 已内置 OpenRouter 支持,一条命令即可为 AI 智能体配置统一密钥、统一账单,并实现跨 300 多个模型的自动故障转移。同时提供具体设置步骤以及常见错误的修复方法。
Cloudflare 分享了其多阶段漏洞发现工具的技术架构,包含自动化分类循环。该系统通过管理状态控制、引入对抗性审查来压制误报,并围绕 LLM 上下文窗口限制设计路由策略。
Google 庆祝Agent-to-Agent(A2A)协议发布一周年。A2A专为生成式AI设计,相比传统REST API提供安全边界、零上下文污染、动态自主性和工作负载分布四大架构优势。应用实例FoldRun是一个独立的智能体接口,可在Gemini Enterprise或Gemini CLI等A2A兼容环境中部署,自动管理蛋白质结构预测任务,动态选择AlphaFold 2、OpenFold 3或Boltz-2等模型,无需自定义胶水代码。
OpenAI 为 ChatGPT Enterprise 推出信用额度用量分析与更新的支出控制功能。全局管理控制台(Global Admin Console)统一展示 ChatGPT 和 Codex 的信用消耗,支持按时间、用户、产品、模型追踪用量趋势。管理员可为整个工作区设置默认限额,按群组配置额度,并为个人设置叠加限制。员工可查看个人用量并申请增加额度(附工作上下文)。这些功能即日起可用。
Claude Enterprise 推出企业托管授权功能,管理员可通过身份提供商(率先支持 Okta)为整个组织配置 MCP 连接器。用户首次登录 Claude 时自动获得授权,无需手动操作,实现零接触设置。该功能基于 Model Context Protocol 的 Enterprise-Managed Authorization 扩展构建,支持 Asana、Atlassian、Canva、Figma、Granola、Linear、Supabase 等 MCP 提供商,Slack 即将支持。授权管理集成到现有 IdP 工作流中,可按组限定范围、通过 IdP 快速撤销授权,并支持要求连接器仅通过 IdP 连接以隔离工作与个人使用。
Grok 模型现已原生集成到 Databricks Agent Bricks 平台。在 2026 年 Data + AI Summit 上,Databricks 宣布与 SpaceXAI 合作,使 Grok 与其他前沿及开源模型在同一受控平台中可用。Agent Bricks 结合 Lakehouse 数据上下文与控制和选择,帮助工程团队构建处理大规模数据的 AI 智能体。此外,企业也可在 Amazon Bedrock 上运行 Grok 模型。
Google DeepMind发布AI Control Roadmap,这是一套针对内部先进AI智能体的系统级安全框架。该框架在传统模型对齐之上增加防线,假设AI智能体可能不对齐,通过威胁建模、沙箱隔离、端点安全、提示注入防御以及基于已验证行为逐步授予权限的机制建立信任。据估算,到2030年仅美国市场AI智能体就能创造2.9万亿美元经济价值。
MOSS-TTS-Local-Transformer-v1.5 是一款开源 TTS 模型,支持 48 kHz 立体声、零样本声音克隆、最长 10 分钟长文本合成、时长控制及 31 种语言。其核心采用 Qwen3-4B 骨干与约 2B 参数的 MOSS-Audio-Tokenizer-v2 音频编解码器,通过 12 个 RVQ 码本运行。SGLang-Omni 以三阶段流水线部署该模型。在 Seed-TTS-Eval 上词错误率 5.10%、语音相似度 69.23%,CV3-Eval 上 WER 7.48%、SIM 61.59%,MiniMax Multilingual 上 WER 6.37%、SIM 75.31%,X Voice 上 WER 20.48%、SIM 63.00%。
设置三个环境变量即可将Claude Code连至OpenRouter,无需本地代理或Docker。OpenRouter提供供应商故障转移、预算控制与用量监控,支持Anthropic Skin原生协议,保留Thinking、工具调用、流式输出。可为Opus(架构推理)、Sonnet(日常编码)、Haiku(快速转换)分别指定模型。Fast Mode最高2.5倍速度,仅限Claude Opus 4.6/4.7/4.8,需Claude Code v2.1.96+。团队场景:一个OpenRouter密钥统一计费、设置每密钥限额,活动仪表板查看会话成本。
关联讨论 1 条OpenRouter:Announcements(RSS)Claude Code v2.1.181 发布,新增 /config key=value 语法允许在提示中直接设置任意配置项,新增 sandbox.allowAppleEvents 选项使沙盒命令支持 Apple Events,新增 CLAUDE_CLIENT_PRESENCE_FILE 环境变量用于抑制移动端推送通知。内置 Bun 运行时升级至 1.4,改进了长段落流式输出(逐行显示)和 API 连接中断后自动重试。子 agent 面板优化:空闲 agent 30 秒自动隐藏、列表最多 5 行。修复了提示缓存读取、Write/Edit 在网络驱动器产生 0 字节文件、启动性能回归(约 120ms)、启动阻塞(最长 15 秒)、macOS TUI 冻结、子 agent 时长显示错误、API 重试指示器残留、AWS 凭证刷新等问题。
Cloudflare Agents SDK 现已成为任何智能体框架均可构建的运行时。Cloudflare 开放了 Agents SDK 原语,Flue 成为首个针对该 SDK 的框架,同时仪表盘中已推出智能体功能。
Workload Identity Federation (WIF) 已在 Claude Platform 上全面可用。WIF 兼容任何 OIDC 身份提供者,覆盖所有 Claude API 端点(包括第一方 SDK 和 Claude Code)。WIF 用短生命期凭证替代静态 API 密钥,并引入服务账户,每个工作负载拥有独立身份、角色和审计日志。Claude Console 提供引导设置流程,支持 Admin API 进行组织管理。API 密钥可并行使用以便逐步迁移。
SGLang-JAX现已支持inclusionAI的Ling-2.6-1T(1T稀疏MoE,63B激活参数,256路由专家,top-8路由加共享专家)在TPU v7x上高效推理。团队开发了Fused MoE V2——一个融合scatter、专家FFN和gather的Pallas核,通过将MoE数据移动隐藏在计算中,使MoE预填充延迟从5.16ms降至2.42ms(降幅53%),解码核延迟从0.249ms降至0.211ms(降幅约15%)。仅替换MoE核即提升预填充吞吐量24.8%,解码吞吐量18.5%–35.3%。在SGLang解码基准测试中,16块TPU v7x芯片输出吞吐量达16块H200 GPU的1.29倍(mc=128)至1.77倍(mc=512)。完整上线还包含混合KV/循环内存池、GLA线性注意力和单控制器数据并行支持。
Anthropic 正式启用首尔办公室,并宣布与韩国AI生态的多项合作。NAVER 在全公司部署 Claude Code,数千工程师用于提升编码效率;Nexon 工程团队用 Claude Code 编写游戏代码。LG CNS 将 Claude 推广至数千员工并计划覆盖整个 LG 集团;Hanwha Solutions 通过 AWS Bedrock 部署 Claude 满足数据驻留与安全要求;Samsung SDS 向三星电子员工部署 Claude(包括 Claude Cowork 和 Claude Code)。初创公司 Channel Corp 用 Claude 驱动客户AI平台 Channel Talk。Anthropic 与韩国国家AI研究实验室合作,向至多60名研究员提供 Claude 用于AI安全等研究。非营利组织 Good Neighbors Korea 部署 Claude 减轻行政工作。Claude for Startups 已在韩国上线,并计划与 Replit 等合办黑客马拉松。
6月17日,Cloudflare 推出 Cloudflare One stack,一组可直接赋予 AI 智能体的技能文件,用于自动配置、部署和管理 Zero Trust 环境。工具集包含两个轻量级 skill:cloudflare-one 负责通用产品指导(VPN 替换、网络连接、安全策略等),cloudflare-one-migration 提供从 Zscaler、Palo Alto Networks 等厂商迁移的明确引导。技能内置决策树与结构化知识,智能体可自动执行云环境评估、网络拓扑生成及 Digital Experience Monitoring 排障。该 stack 基于 Cloudflare 员工数万小时客户经验提炼,降低学习与迁移门槛。
6月16日,2026中国金融展上,百度智能云与中国银联展示金融行业AI应用解决方案。AI Infra方面,银联云提供搭载昆仑芯的国产算力环境,已累计支持30余家机构进行DeepSeek、MiniMax、GLM等模型测试。Agent Infra方面,百度千帆大模型平台为银联云用户提供模型开发、部署、推理服务及国产异构算力纳管、金融级数据安全与多租户隔离方案。百度智能云已服务超800家金融机构,覆盖100%系统重要性银行。双方将聚焦AI基础设施共建与金融智能体联合研发,推动支付、清算、风控等核心场景智能化。同期发布《金融行业场景智能体白皮书》,提出“知识-流程”双维分类框架及落地优先级建议。
AWS(Apache 2.0)开源的 Strands Robots SDK 将 LeRobot 栈封装为 AgentTools,构建统一智能体。默认用 MuJoCo 模拟(无需硬件),mode="real" 切换至真实机器人。可记录演示数据为 LeRobotDataset 并推送 Hugging Face Hub,运行 GR00T 或 LerobotLocal 策略推理,经 Zenoh mesh 广播命令到多台机器人。模拟与硬件代码完全一致,只需改一个关键字参数。示例可在笔记本(Python 3.12+,Linux/macOS)无硬件、无 GPU 运行。
Google DeepMind 与英国政府合作,基于 Gemini 构建 AI 规划原型,旨在将家庭规划申请处理时间减半。该工具可整合数据、识别本地政策、总结公众反馈并起草评估报告,但规划官员保留最终决策权。原型已在 Barnet、Camden 和 Dorset 试点,计划 2027 年向全英议会开放。此前推出的 Extract 工具(同样基于 Gemini)已向英格兰所有议会开放,能将非结构化 PDF 转为可用数据,预计为每个议会每年节省约 255 小时人工。家庭规划申请占每年规划申请的近 70%,AI 工具旨在让官员聚焦更复杂的公共利益申请。
本次次要版本修复了多项问题:流式连接中断后保留部分响应并修复 spinner 卡死;修复 WSL2(Windows Terminal / VS Code)中鼠标滚轮失效(v2.1.172 引入的回归);修复 Linux 上 sandbox denyRead/allowRead glob 覆盖大目录树导致 Bash 工具描述膨胀、会话不可用;修复反馈调查在单次回复后立即捕获评分;修复欢迎界面每会话最多显示一个促销横幅;修复查看子 agent 时 Ctrl+O 不显示其对话记录;修复点击输入框无法从子 agent/底栏面板恢复焦点;修复远程会话后台任务轮次间显示“正在运行”但实际卡住;改进了远程会话中插件加载性能。
Anthropic 在 Claude Fable 5 发布仅数天后便对其进行了限制。如果代码硬编码模型 slug,该限制也会导致服务中断。OpenRouter 的 Presets 功能将模型选择移至服务器端,使用户无需重新部署即可切换模型、设置回退策略并强制执行数据策略。
谷歌今日推出 TPU Developer Hub,面向模型构建者与开发者提供端到端教育资源。内容覆盖预训练、后训练及推理工作负载,涵盖硬件架构、软件栈(XLA、PyTorch 零成本迁移)、追踪调试(XProf 工具)、并行优化(Pallas 内核、KV cache 卸载)及网络安全实践。资源形式包括交互式 Colab、开源代码配方与深度技术文档,支持 AI 智能体辅助集成,帮助用户充分发挥 Cloud TPU 性能。
2026年6月9日,百度智能云与产业联盟在广州举办能源合作伙伴交流会,成立“百度智能云能源行业生态联盟”,首批21家成员覆盖算力基础设施、软件平台、解决方案及服务交付等领域。百度智能云依托文心大模型、飞桨深度学习平台、昆仑芯及百舸异构算力平台,形成全栈AI能力,并在电力巡检、风电场管理、电力交易等场景落地。黄埔区“黄埔1号”智算集群算力超12000P,推出算力券、模型券、场景券等扶持政策。国家人工智能应用中试基地已梳理出设备智能巡检、电力市场交易等数十个共性场景。
IDC《2025中国智能体开发平台市场份额报告》显示,火山引擎以17.8%和19.3%的份额位居中国智能体开发平台私有化、公有云市场双第一。竞争焦点从Agent开发/编排延伸至全生命周期管理。火山引擎提供HiAgent(支持低/高/无代码、评测观测、数据回流、多模型接入、企业级扩展与私有化安全集成)和扣子(Coze)3.0(零代码开发部署、多人多Agent协作、跨多端协同、电脑桌面端和手机App端)两大产品,并推出AgentSphere实现多Agent统一管理。客户覆盖金融(9成头部券商、8成系统重要性银行)、教育(超八成985高校)、零售、能源等行业。
智能体AI使用量将在未来两年急剧上升,但治理滞后——仅五分之一企业拥有成熟治理模型。典型事故:销售智能体重试失败调用后自行升级到GPT-5.5,一夜消耗200美元。API路由层位于智能体与模型之间,是强制执行预算上限、模型白名单、提供方准入和请求日志的理想点。IBM报告指出97%遭遇AI安全事件的组织缺乏AI访问控制。最小可行治理方案:为每个智能体工作流分配独立API密钥,在API密钥层面实现预算控制、模型准入和审计追踪。
13个平台提供免费LLM API,含永久免费层与试用额度。OpenRouter拥有20+免费模型,单密钥无需信用卡;Groq以约320 tokens/秒运行Llama 3.3 70B;Google AI Studio支持1M上下文;Mistral实验层约10亿token/月但需同意数据训练;Cerebras约1M token/天;GitHub Models提供GPT-4o、Claude 3.5 Sonnet等前沿模型。各免费层有速率限制、数据训练授权、上下文缩减等隐藏成本,建议早期测试2-3个方案并设置故障转移。
xAI 宣布与 Warp 集成,Warp 是一个基于终端的智能体开发环境,拥有近百万开发者。用户可使用 Grok 或 X Premium 订阅在 Warp 中访问 Grok 模型,包括驱动 Grok Build CLI 的 grok-build-0.1 模型。设置方式:下载 Warp,在 Agent 设置页连接 SuperGrok 订阅,切换至 grok-build-0.1 模型。更多智能体与集成即将推出。
Z Lab、Modal 与 SGLang 团队联合发布 DFlash 投机解码模型和 SGLang 的默认 Spec V2 引擎。DFlash 采用块扩散+KV 注入并行生成整块 draft token,在 Qwen 3.5 397B-A17B(BF16)的 HumanEval 数据集上、并发 1 时吞吐量达到基线的 4.3
Cloudflare 宣布 Ensemble AI 团队关键成员加入,以加速 AI 基础设施研发。Ensemble 专注于模型压缩与高效推理,开发了 NdLinear(可直接替换 Transformer 标准线性层并保持多维激活结构)和 NdLinear-LoRA(降低大模型微调所需可训练参数)。这些技术与量化等方法互补,旨在降低大语言模型和多模态架构的内存、计算与部署开销。Cloudflare 将把 Ensemble 的成果整合到 Workers AI 平台,通过全球网络与 serverless GPU 推理服务,进一步提升推理效率、GPU 利用率和部署经济性。
百度搭子DuMate完成Harness引擎系统性升级,复杂任务积分消耗最高降低75%。以行业深度调研报告为例,积分从约400降至约100;电商运营周报从近300降至约78。降本不降质源于三项优化:自研安全沙箱资源消耗降低、模型推理效率提升(非替换低成本模型)、Harness执行链路工程升级(提升任务规划精度与工具调用效率)。
安谋科技与火山引擎合作,通过云端弹性算力补充本地资源,应对芯片IP设计峰值需求。采用存算分离架构,核心数据本地化,仅弹性调用云端算力。已实现峰值8万多核,月均稳定5万核以上;新增约2万核需求3天内上线。同时探索AI运营,测试ArkClaw、TRAE、Agent Plan等能力,提升研发与办公效率。方案满足EDA高主频大内存需求,按需供给降低成本。
OpenAI 宣布推出 OpenAI Partner Network,并投资 1.5 亿美元支持全球合作伙伴构建、销售和交付 AI 解决方案。该计划设立 Select、Advanced、Elite 三级合作伙伴层级,提供 Codex、网络安全、智能体等专业方向认证,并试点 Forward Deployed Experts 项目以支持复杂企业部署。目标在 2026 年底前培训认证 30 万名顾问。案例显示,Paychex 借助 Bain 和 OpenAI 的方案将等待时间降低 80%,人工审核时间减少 30%。
OpenRouter 默认启用提供商故障转移(provider failover),模型回退(model fallbacks)则为选择加入。这两层机制分别应对不同类型的故障:提供商故障转移在 API 调用失败时自动切换至其他提供商,模型回退则在指定模型不可用时切换到备选模型。公告详细说明了各层的工作原理以及故障转移的停止条件。
OpenRouter 将每个请求路由到 60 多家提供商,用户可自定义提供商顺序、价格上限和回退链,从而灵活控制路由策略。
Hermes Agent 已通过 OpenRouter 处理超过 17 万亿 tokens。使用指南包括设置流程、选择支持 64K 上下文窗口的模型,以及调整路由策略以兼顾成本与可靠性。
Claude Code v2.1.176 更新:会话标题现按对话语言生成;新增 footerLinksRegexes 设置支持正则匹配页脚行链接徽章;优化 Bedrock 凭证缓存。修复多项问题:环境变量不可再绕过 availableModels 限制;/fast 切换至白名单外模型时拒绝;auto 模式退化为可用 Opus 模型;修正路径 hook 条件匹配;修复 Linux 沙箱内符号链接启动问题;修复 tmux 内 SSH 剪贴板问题;修复 Remote Control 多项连接问题。