6月21日

18:20

公众号：火山引擎

火山引擎×千行百业：让每一个Token，都落地有声

行业动态部署/工程

6月20日

04:26

OpenRouter：Announcements（RSS）

精选68

OpenRouter vs LiteLLM：如何选择 LLM 网关

OpenRouter 是托管在 Cloudflare 边缘的 LLM 网关，无需管理基础设施，收取 5.5% 平台费（前 100 万次请求免费），支持 70+ 提供商和自动故障转移。LiteLLM 是自部署代理（Docker/PostgreSQL/Redis），数据不离开内网，免费开源，但需承担基础设施成本（生产部署约数百美元/月）。当模型月支出超过约 $3,600（基础设施 $200/月）或 $9,100（基础设施 $500/月）时自托管更划算。LiteLLM 提供六种路由策略和自定义 Python 路由；OpenRouter 具备 SOC 2、GDPR 认证和零数据保留选项。两者可串联使用。

开源生态评测/基准部署/工程

推荐理由：OpenRouter 这份官方对比很坦诚，把成本、延迟、合规的权衡掰开了讲，自建 LiteLLM 和托管谁更划算的算术也给清楚了，做 LLM 网关选型的直接看这篇就够了。

04:26

OpenRouter：Announcements（RSS）

精选59

OpenRouter vs Portkey：你的团队该选哪个LLM网关？

OpenRouter是托管路由网络，买credits后通过一个API路由至70+供应商，自动故障转移，无需自有密钥；覆盖300+模型（含20+免费），按用量收费（零加成+5.5%平台费，首100万免费），支持零数据保留和欧盟路由。Portkey是AI控制平面（2026年被Palo Alto收购），置于用户密钥之上，增加治理、提示管理、护栏和可观测性；提供1600+ LLM统一API，按日志计费（Developer免费，Production $49/月），支持HIPAA、SSO、私有部署。两者均可组合使用。

教程/实践部署/工程

推荐理由：OpenRouter自己下场写对比，虽然立场明显，但对「路由网络 vs. 控制平面」的定位拆解很清晰，选网关的时候可以当决策清单看。

6月19日

23:00

CMU：Machine Learning Blog

医疗保健基准测试的质量取决于其隐含假设

LLM在作为医疗助手时，评估与部署场景下的性能存在显著差距——Bean等人（2025）发现准确率相差61个百分点。这一差距并非源于基准测试设计缺陷，而是因为评估协议中嵌入的隐含假设在部署时不再成立。研究提出将假设分为任务假设和结果假设两类，用以诊断差距成因并明确弥合路径：需将假设显式化、检验哪些假设在部署中成立，并据此更新评估协议。

现象/趋势部署/工程

22:00

Cloudflare Blog

精选62

Cloudflare 为 AI 智能体推出临时账户

Cloudflare 在 Workers 上推出临时账户（Temporary Accounts），允许 AI 智能体直接运行 wrangler deploy --temporary，在数秒内获取一个可用的实时 Worker，无需绕开面向人类设计的部署流程。该功能旨在降低智能体部署门槛。

智能体 MCP/工具产品更新部署/工程

关联讨论 1 条

推荐理由：Cloudflare 给 agent 开临时账号这个功能很聪明，一步解决了身份验证和资源清理的麻烦，做智能体部署的可以认真试试。

09:27

OpenRouter：Announcements（RSS）

精选60

OpenClaw 接入 OpenRouter

OpenClaw 已内置 OpenRouter 支持，一条命令即可为 AI 智能体配置统一密钥、统一账单，并实现跨 300 多个模型的自动故障转移。同时提供具体设置步骤以及常见错误的修复方法。

智能体教程/实践部署/工程

推荐理由：给用 OpenClaw 搭 agent 的人一个直接可用的集成指南，还附带了常见报错修复，比零散摸索省时间。

03:18

Cloudflare Blog

Cloudflare 发布多阶段漏洞发现工具，详解对抗性审查与上下文绕过技术

Cloudflare 分享了其多阶段漏洞发现工具的技术架构，包含自动化分类循环。该系统通过管理状态控制、引入对抗性审查来压制误报，并围绕 LLM 上下文窗口限制设计路由策略。

安全/对齐教程/实践部署/工程

03:16

Google Developers Blog（RSS）

Google 庆祝A2A协议发布一周年：协作智能体生态

Google 庆祝Agent-to-Agent（A2A）协议发布一周年。A2A专为生成式AI设计，相比传统REST API提供安全边界、零上下文污染、动态自主性和工作负载分布四大架构优势。应用实例FoldRun是一个独立的智能体接口，可在Gemini Enterprise或Gemini CLI等A2A兼容环境中部署，自动管理蛋白质结构预测任务，动态选择AlphaFold 2、OpenFold 3或Boltz-2等模型，无需自定义胶水代码。

智能体 Google 教程/实践部署/工程

03:08

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选58

企业版新用量分析与更新的支出控制

OpenAI 为 ChatGPT Enterprise 推出信用额度用量分析与更新的支出控制功能。全局管理控制台（Global Admin Console）统一展示 ChatGPT 和 Codex 的信用消耗，支持按时间、用户、产品、模型追踪用量趋势。管理员可为整个工作区设置默认限额，按群组配置额度，并为个人设置叠加限制。员工可查看个人用量并申请增加额度（附工作上下文）。这些功能即日起可用。

OpenAI 产品更新部署/工程

推荐理由：仅面向ChatGPT Enterprise管理员的使用分析和预算控制更新，帮助企业追踪团队用量、控制成本，但并非行业级事件，管理者可当即启用。

01:51

Claude：Blog（网页）

精选68

Claude Enterprise 推出企业托管 MCP 连接器授权管理

Claude Enterprise 推出企业托管授权功能，管理员可通过身份提供商（率先支持 Okta）为整个组织配置 MCP 连接器。用户首次登录 Claude 时自动获得授权，无需手动操作，实现零接触设置。该功能基于 Model Context Protocol 的 Enterprise-Managed Authorization 扩展构建，支持 Asana、Atlassian、Canva、Figma、Granola、Linear、Supabase 等 MCP 提供商，Slack 即将支持。授权管理集成到现有 IdP 工作流中，可按组限定范围、通过 IdP 快速撤销授权，并支持要求连接器仅通过 IdP 连接以隔离工作与个人使用。

Anthropic MCP/工具产品更新部署/工程

推荐理由：企业 MCP 连接器不再需要每个用户手动授权，这是 MCP 生态从个人扩展到组织的关键一步，管理员终于可以像管理其他 SaaS 一样管理 Claude 的工具链。

00:25

xAI：News（网页）

Grok 现集成 Databricks Agent Bricks

Grok 模型现已原生集成到 Databricks Agent Bricks 平台。在 2026 年 Data + AI Summit 上，Databricks 宣布与 SpaceXAI 合作，使 Grok 与其他前沿及开源模型在同一受控平台中可用。Agent Bricks 结合 Lakehouse 数据上下文与控制和选择，帮助工程团队构建处理大规模数据的 AI 智能体。此外，企业也可在 Amazon Bedrock 上运行 Grok 模型。

xAI 行业动态部署/工程

6月18日

21:19

Google DeepMind：Blog（RSS）

精选65

保障AI智能体的未来安全

Google DeepMind发布AI Control Roadmap，这是一套针对内部先进AI智能体的系统级安全框架。该框架在传统模型对齐之上增加防线，假设AI智能体可能不对齐，通过威胁建模、沙箱隔离、端点安全、提示注入防御以及基于已验证行为逐步授予权限的机制建立信任。据估算，到2030年仅美国市场AI智能体就能创造2.9万亿美元经济价值。

智能体 DeepMind 安全/对齐部署/工程

推荐理由：DeepMind 首次系统性地公开了内部 AI 代理安全控制路线图，把代理当潜在「内鬼」来防的思路很务实，分析了 100 万个任务轨迹的监控实践尤其值得做 Agent 安全的人细看。

13:56

LMSYS：Blog（Chatbot Arena 团队）

精选67

MOSS-TTS-Local-Transformer-v1.5 在 SGLang-Omni 上：原生流式 48 kHz 语音服务

MOSS-TTS-Local-Transformer-v1.5 是一款开源 TTS 模型，支持 48 kHz 立体声、零样本声音克隆、最长 10 分钟长文本合成、时长控制及 31 种语言。其核心采用 Qwen3-4B 骨干与约 2B 参数的 MOSS-Audio-Tokenizer-v2 音频编解码器，通过 12 个 RVQ 码本运行。SGLang-Omni 以三阶段流水线部署该模型。在 Seed-TTS-Eval 上词错误率 5.10%、语音相似度 69.23%，CV3-Eval 上 WER 7.48%、SIM 61.59%，MiniMax Multilingual 上 WER 6.37%、SIM 75.31%，X Voice 上 WER 20.48%、SIM 63.00%。

产品更新语音部署/工程

推荐理由：SGLang-Omni 把 MOSS-TTS 的端到端服务拆成三阶段并做了大量底层优化，对想落地实时语音合成的团队是现成的技术方案，技术细节扎实，可以直接照着搭。

09:20

OpenRouter：Announcements（RSS）

使用OpenRouter连接Claude Code

设置三个环境变量即可将Claude Code连至OpenRouter，无需本地代理或Docker。OpenRouter提供供应商故障转移、预算控制与用量监控，支持Anthropic Skin原生协议，保留Thinking、工具调用、流式输出。可为Opus（架构推理）、Sonnet（日常编码）、Haiku（快速转换）分别指定模型。Fast Mode最高2.5倍速度，仅限Claude Opus 4.6/4.7/4.8，需Claude Code v2.1.96+。团队场景：一个OpenRouter密钥统一计费、设置每密钥限额，活动仪表板查看会话成本。

教程/实践编码部署/工程

关联讨论 1 条

06:55

Claude Code：GitHub Releases（RSS）

精选57

Claude Code v2.1.181 发布

Claude Code v2.1.181 发布，新增 /config key=value 语法允许在提示中直接设置任意配置项，新增 sandbox.allowAppleEvents 选项使沙盒命令支持 Apple Events，新增 CLAUDE_CLIENT_PRESENCE_FILE 环境变量用于抑制移动端推送通知。内置 Bun 运行时升级至 1.4，改进了长段落流式输出（逐行显示）和 API 连接中断后自动重试。子 agent 面板优化：空闲 agent 30 秒自动隐藏、列表最多 5 行。修复了提示缓存读取、Write/Edit 在网络驱动器产生 0 字节文件、启动性能回归（约 120ms）、启动阻塞（最长 15 秒）、macOS TUI 冻结、子 agent 时长显示错误、API 重试指示器残留、AWS 凭证刷新等问题。

智能体 Anthropic 产品更新部署/工程

推荐理由：一次工程师式的磨刀更新，修复了网络驱动器写入、macOS TUI 冻结等一批痛感明显的 bug，新增的 /config 快捷语法也顺手，但对非 Claude Code 用户来说就是一串技术细节。

06:14

Cloudflare Blog

精选64

Cloudflare 将更多智能体框架引入平台，以 Flue 为首

Cloudflare Agents SDK 现已成为任何智能体框架均可构建的运行时。Cloudflare 开放了 Agents SDK 原语，Flue 成为首个针对该 SDK 的框架，同时仪表盘中已推出智能体功能。

智能体产品更新部署/工程

推荐理由：Cloudflare 将 Agents SDK 开放为中性运行时，Flue 首个接入，本质还是为 Workers 拉流量，非 Cloudflare 用户不必费心。

04:44

Claude：Blog（网页）

精选65

借助 Workload Identity Federation 安全访问 Claude Platform

Workload Identity Federation (WIF) 已在 Claude Platform 上全面可用。WIF 兼容任何 OIDC 身份提供者，覆盖所有 Claude API 端点（包括第一方 SDK 和 Claude Code）。WIF 用短生命期凭证替代静态 API 密钥，并引入服务账户，每个工作负载拥有独立身份、角色和审计日志。Claude Console 提供引导设置流程，支持 Admin API 进行组织管理。API 密钥可并行使用以便逐步迁移。

Anthropic 产品更新部署/工程

推荐理由：这个功能真正解决了企业在生产环境中用 Claude 的最大痛点，现在团队可以完全抛掉静态密钥，用现成的身份体系接入，安全审计也变得顺手。

01:53

LMSYS：Blog（Chatbot Arena 团队）

精选69

用SGLang-JAX在TPU上优化Ling-2.6-1T：一个Pallas核将MoE数据移动隐藏在计算中

SGLang-JAX现已支持inclusionAI的Ling-2.6-1T（1T稀疏MoE，63B激活参数，256路由专家，top-8路由加共享专家）在TPU v7x上高效推理。团队开发了Fused MoE V2——一个融合scatter、专家FFN和gather的Pallas核，通过将MoE数据移动隐藏在计算中，使MoE预填充延迟从5.16ms降至2.42ms（降幅53%），解码核延迟从0.249ms降至0.211ms（降幅约15%）。仅替换MoE核即提升预填充吞吐量24.8%，解码吞吐量18.5%–35.3%。在SGLang解码基准测试中，16块TPU v7x芯片输出吞吐量达16块H200 GPU的1.29倍（mc=128）至1.77倍（mc=512）。完整上线还包含混合KV/循环内存池、GLA线性注意力和单控制器数据并行支持。

推理论文/研究部署/工程

推荐理由：这是针对TPU上MoE推理的硬核优化复盘，用成本模型定位瓶颈，通过单内核融合把延迟砍半，对做大规模推理工程的团队是高质量参考。

6月17日

23:28

Anthropic：Newsroom（网页）

Anthropic 在首尔开设办公室并宣布多项韩国AI生态合作

Anthropic 正式启用首尔办公室，并宣布与韩国AI生态的多项合作。NAVER 在全公司部署 Claude Code，数千工程师用于提升编码效率；Nexon 工程团队用 Claude Code 编写游戏代码。LG CNS 将 Claude 推广至数千员工并计划覆盖整个 LG 集团；Hanwha Solutions 通过 AWS Bedrock 部署 Claude 满足数据驻留与安全要求；Samsung SDS 向三星电子员工部署 Claude（包括 Claude Cowork 和 Claude Code）。初创公司 Channel Corp 用 Claude 驱动客户AI平台 Channel Talk。Anthropic 与韩国国家AI研究实验室合作，向至多60名研究员提供 Claude 用于AI安全等研究。非营利组织 Good Neighbors Korea 部署 Claude 减轻行政工作。Claude for Startups 已在韩国上线，并计划与 Replit 等合办黑客马拉松。

Anthropic 行业动态部署/工程

22:08

Cloudflare Blog

精选61

Cloudflare 发布 Cloudflare One stack：智能体驱动的部署工具集

6月17日，Cloudflare 推出 Cloudflare One stack，一组可直接赋予 AI 智能体的技能文件，用于自动配置、部署和管理 Zero Trust 环境。工具集包含两个轻量级 skill：cloudflare-one 负责通用产品指导（VPN 替换、网络连接、安全策略等），cloudflare-one-migration 提供从 Zscaler、Palo Alto Networks 等厂商迁移的明确引导。技能内置决策树与结构化知识，智能体可自动执行云环境评估、网络拓扑生成及 Digital Experience Monitoring 排障。该 stack 基于 Cloudflare 员工数万小时客户经验提炼，降低学习与迁移门槛。

智能体产品更新部署/工程

推荐理由：Cloudflare把多年零信任迁移经验打包成agent技能，让AI直接帮你部署和管理安全堆栈，对正忙着切到Zero Trust的团队是个即插即用的省力工具，但仍是垂直领域的效率提升，不算广谱AI大事。

20:30

公众号：百度智能云（文心）

中国银联与百度智能云展示金融AI全栈方案，发布智能体白皮书

6月16日，2026中国金融展上，百度智能云与中国银联展示金融行业AI应用解决方案。AI Infra方面，银联云提供搭载昆仑芯的国产算力环境，已累计支持30余家机构进行DeepSeek、MiniMax、GLM等模型测试。Agent Infra方面，百度千帆大模型平台为银联云用户提供模型开发、部署、推理服务及国产异构算力纳管、金融级数据安全与多租户隔离方案。百度智能云已服务超800家金融机构，覆盖100%系统重要性银行。双方将聚焦AI基础设施共建与金融智能体联合研发，推动支付、清算、风控等核心场景智能化。同期发布《金融行业场景智能体白皮书》，提出“知识-流程”双维分类框架及落地优先级建议。

智能体行业动态部署/工程

18:39

Hugging Face：Blog（RSS）

精选66

Strands Robots SDK：用单一智能体打通 Hugging Face Hub 到物理机器人

AWS（Apache 2.0）开源的 Strands Robots SDK 将 LeRobot 栈封装为 AgentTools，构建统一智能体。默认用 MuJoCo 模拟（无需硬件），mode="real" 切换至真实机器人。可记录演示数据为 LeRobotDataset 并推送 Hugging Face Hub，运行 GR00T 或 LerobotLocal 策略推理，经 Zenoh mesh 广播命令到多台机器人。模拟与硬件代码完全一致，只需改一个关键字参数。示例可在笔记本（Python 3.12+，Linux/macOS）无硬件、无 GPU 运行。

Hugging Face 产品更新具身智能开源生态

推荐理由：AWS 的 Strands Robots 把 LeRobot 仿真和硬件部署装进同一个 Agent 里，代码几乎不变就能从模拟切到物理机器人，对具身智能开发者是省掉胶水代码的实用工具。

05:58

Google DeepMind：Blog（RSS）

Google DeepMind 基于 Gemini 与英国政府合作开发 AI 规划原型，目标将家庭申请处理时间减半

Google DeepMind 与英国政府合作，基于 Gemini 构建 AI 规划原型，旨在将家庭规划申请处理时间减半。该工具可整合数据、识别本地政策、总结公众反馈并起草评估报告，但规划官员保留最终决策权。原型已在 Barnet、Camden 和 Dorset 试点，计划 2027 年向全英议会开放。此前推出的 Extract 工具（同样基于 Gemini）已向英格兰所有议会开放，能将非结构化 PDF 转为可用数据，预计为每个议会每年节省约 255 小时人工。家庭规划申请占每年规划申请的近 70%，AI 工具旨在让官员聚焦更复杂的公共利益申请。

DeepMind Google 产品更新部署/工程

04:53

Claude Code：GitHub Releases（RSS）

Claude Code v2.1.179 发布

本次次要版本修复了多项问题：流式连接中断后保留部分响应并修复 spinner 卡死；修复 WSL2（Windows Terminal / VS Code）中鼠标滚轮失效（v2.1.172 引入的回归）；修复 Linux 上 sandbox denyRead/allowRead glob 覆盖大目录树导致 Bash 工具描述膨胀、会话不可用；修复反馈调查在单次回复后立即捕获评分；修复欢迎界面每会话最多显示一个促销横幅；修复查看子 agent 时 Ctrl+O 不显示其对话记录；修复点击输入框无法从子 agent/底栏面板恢复焦点；修复远程会话后台任务轮次间显示“正在运行”但实际卡住；改进了远程会话中插件加载性能。

Anthropic 产品更新编码部署/工程

02:03

OpenRouter：Announcements（RSS）

精选62

OpenRouter Presets：当模型下线时保持 AI 智能体运行

Anthropic 在 Claude Fable 5 发布仅数天后便对其进行了限制。如果代码硬编码模型 slug，该限制也会导致服务中断。OpenRouter 的 Presets 功能将模型选择移至服务器端，使用户无需重新部署即可切换模型、设置回退策略并强制执行数据策略。

智能体教程/实践部署/工程

推荐理由：给 Agent 开发者的实用提醒，硬编码模型名会在供应商限制时塌方，用 Presets 换模型、设降级方案比现改代码省心。

00:04

Google Developers Blog（RSS）

TPU Developer Hub 正式发布：助力开发者解锁 Google Cloud TPU 全部性能

谷歌今日推出 TPU Developer Hub，面向模型构建者与开发者提供端到端教育资源。内容覆盖预训练、后训练及推理工作负载，涵盖硬件架构、软件栈（XLA、PyTorch 零成本迁移）、追踪调试（XProf 工具）、并行优化（Pallas 内核、KV cache 卸载）及网络安全实践。资源形式包括交互式 Colab、开源代码配方与深度技术文档，支持 AI 智能体辅助集成，帮助用户充分发挥 Cloud TPU 性能。

Google 产品更新部署/工程

6月16日

18:30

公众号：百度智能云（文心）

百度智能云成立能源行业生态联盟，发布全栈AI能力

2026年6月9日，百度智能云与产业联盟在广州举办能源合作伙伴交流会，成立“百度智能云能源行业生态联盟”，首批21家成员覆盖算力基础设施、软件平台、解决方案及服务交付等领域。百度智能云依托文心大模型、飞桨深度学习平台、昆仑芯及百舸异构算力平台，形成全栈AI能力，并在电力巡检、风电场管理、电力交易等场景落地。黄埔区“黄埔1号”智算集群算力超12000P，推出算力券、模型券、场景券等扶持政策。国家人工智能应用中试基地已梳理出设备智能巡检、电力市场交易等数十个共性场景。

行业动态部署/工程

14:30

公众号：火山引擎

双第一！火山引擎领跑中国智能体开发平台市场

IDC《2025中国智能体开发平台市场份额报告》显示，火山引擎以17.8%和19.3%的份额位居中国智能体开发平台私有化、公有云市场双第一。竞争焦点从Agent开发/编排延伸至全生命周期管理。火山引擎提供HiAgent（支持低/高/无代码、评测观测、数据回流、多模型接入、企业级扩展与私有化安全集成）和扣子（Coze）3.0（零代码开发部署、多人多Agent协作、跨多端协同、电脑桌面端和手机App端）两大产品，并推出AgentSphere实现多Agent统一管理。客户覆盖金融（9成头部券商、8成系统重要性银行）、教育（超八成985高校）、零售、能源等行业。

智能体行业动态部署/工程

13:58

OpenRouter：Announcements（RSS）

精选68

智能体AI治理：你的API密钥就是护栏

智能体AI使用量将在未来两年急剧上升，但治理滞后——仅五分之一企业拥有成熟治理模型。典型事故：销售智能体重试失败调用后自行升级到GPT-5.5，一夜消耗200美元。API路由层位于智能体与模型之间，是强制执行预算上限、模型白名单、提供方准入和请求日志的理想点。IBM报告指出97%遭遇AI安全事件的组织缺乏AI访问控制。最小可行治理方案：为每个智能体工作流分配独立API密钥，在API密钥层面实现预算控制、模型准入和审计追踪。

智能体现象/趋势部署/工程

推荐理由：现在代理失控的风险越来越真实，这篇文章把复杂的治理问题简化为五个 API 密钥控制，五分钟就能落地，比那些大而无当的框架实用得多。

13:58

OpenRouter：Announcements（RSS）

精选75

免费LLM API比较：速率限制、模型与真实成本（2026）

13个平台提供免费LLM API，含永久免费层与试用额度。OpenRouter拥有20+免费模型，单密钥无需信用卡；Groq以约320 tokens/秒运行Llama 3.3 70B；Google AI Studio支持1M上下文；Mistral实验层约10亿token/月但需同意数据训练；Cerebras约1M token/天；GitHub Models提供GPT-4o、Claude 3.5 Sonnet等前沿模型。各免费层有速率限制、数据训练授权、上下文缩减等隐藏成本，建议早期测试2-3个方案并设置故障转移。

评测/基准部署/工程

推荐理由：免费 LLM API 不是免费的，这篇文章把 13 家平台的隐藏成本、速率限制和真实可用性都算清楚了，想省钱的开发者值得花五分钟看一遍。

02:33

xAI：News（网页）

xAI 宣布 Grok 集成至 Warp 终端开发环境

xAI 宣布与 Warp 集成，Warp 是一个基于终端的智能体开发环境，拥有近百万开发者。用户可使用 Grok 或 X Premium 订阅在 Warp 中访问 Grok 模型，包括驱动 Grok Build CLI 的 grok-build-0.1 模型。设置方式：下载 Warp，在 Agent 设置页连接 SuperGrok 订阅，切换至 grok-build-0.1 模型。更多智能体与集成即将推出。

智能体行业动态部署/工程

01:25

LMSYS：Blog（Chatbot Arena 团队）

精选67

下一代投机解码：DFlash 与 Spec V2

Z Lab、Modal 与 SGLang 团队联合发布 DFlash 投机解码模型和 SGLang 的默认 Spec V2 引擎。DFlash 采用块扩散+KV 注入并行生成整块 draft token，在 Qwen 3.5 397B-A17B（BF16）的 HumanEval 数据集上、并发 1 时吞吐量达到基线的 4.3

Hugging Face 推理模型发布部署/工程

推荐理由：DFlash 用并行起草和 KV 注入实现了实测 4.3 倍吞吐，再加上 SGLang Spec V2 引擎优化，推理加速不再是纸上谈兵。做 LLM 部署和推理服务的人，可以直接用这个组合试试。

6月15日

21:55

Cloudflare Blog

Cloudflare 引入 Ensemble AI 团队，加速 AI 基础设施研发

Cloudflare 宣布 Ensemble AI 团队关键成员加入，以加速 AI 基础设施研发。Ensemble 专注于模型压缩与高效推理，开发了 NdLinear（可直接替换 Transformer 标准线性层并保持多维激活结构）和 NdLinear-LoRA（降低大模型微调所需可训练参数）。这些技术与量化等方法互补，旨在降低大语言模型和多模态架构的内存、计算与部署开销。Cloudflare 将把 Ensemble 的成果整合到 Workers AI 平台，通过全球网络与 serverless GPU 推理服务，进一步提升推理效率、GPU 利用率和部署经济性。

推理行业动态部署/工程

21:30

公众号：百度智能云（文心）

百度搭子DuMate Harness引擎升级：复杂任务积分消耗最高降低75%

百度搭子DuMate完成Harness引擎系统性升级，复杂任务积分消耗最高降低75%。以行业深度调研报告为例，积分从约400降至约100；电商运营周报从近300降至约78。降本不降质源于三项优化：自研安全沙箱资源消耗降低、模型推理效率提升（非替换低成本模型）、Harness执行链路工程升级（提升任务规划精度与工具调用效率）。

智能体产品更新部署/工程

21:30

公众号：火山引擎

安谋科技×火山引擎：芯片IP设计云端弹性算力与AI运营实践

安谋科技与火山引擎合作，通过云端弹性算力补充本地资源，应对芯片IP设计峰值需求。采用存算分离架构，核心数据本地化，仅弹性调用云端算力。已实现峰值8万多核，月均稳定5万核以上；新增约2万核需求3天内上线。同时探索AI运营，测试ArkClaw、TRAE、Agent Plan等能力，提升研发与办公效率。方案满足EDA高主频大内存需求，按需供给降低成本。

行业动态部署/工程

08:14

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选59

OpenAI 推出合作伙伴网络 OpenAI Partner Network

OpenAI 宣布推出 OpenAI Partner Network，并投资 1.5 亿美元支持全球合作伙伴构建、销售和交付 AI 解决方案。该计划设立 Select、Advanced、Elite 三级合作伙伴层级，提供 Codex、网络安全、智能体等专业方向认证，并试点 Forward Deployed Experts 项目以支持复杂企业部署。目标在 2026 年底前培训认证 30 万名顾问。案例显示，Paychex 借助 Bain 和 OpenAI 的方案将等待时间降低 80%，人工审核时间减少 30%。

OpenAI 行业动态部署/工程

推荐理由：OpenAI 砸 1.5 亿建合作伙伴网络，企业落地从模型能力转向生态整合，但这事离普通用户比较远，更像是给咨询公司派活。

6月13日

10:10

OpenRouter：Announcements（RSS）

OpenRouter 可靠性与自动故障转移：请求如何持续成功

OpenRouter 默认启用提供商故障转移（provider failover），模型回退（model fallbacks）则为选择加入。这两层机制分别应对不同类型的故障：提供商故障转移在 API 调用失败时自动切换至其他提供商，模型回退则在指定模型不可用时切换到备选模型。公告详细说明了各层的工作原理以及故障转移的停止条件。

教程/实践部署/工程

10:10

OpenRouter：Announcements（RSS）

精选66

OpenRouter 模型路由工作原理

OpenRouter 将每个请求路由到 60 多家提供商，用户可自定义提供商顺序、价格上限和回退链，从而灵活控制路由策略。

教程/实践部署/工程

推荐理由：如果你在用 OpenRouter，这篇把默认的逆向平方权重、:nitro/:floor 快捷方式和 model fallback 逻辑讲得很清楚，读完就能调整请求策略。

10:10

OpenRouter：Announcements（RSS）

精选74

Hermes Agent 在 OpenRouter 上的使用指南：设置、模型与路由

Hermes Agent 已通过 OpenRouter 处理超过 17 万亿 tokens。使用指南包括设置流程、选择支持 64K 上下文窗口的模型，以及调整路由策略以兼顾成本与可靠性。

智能体教程/实践部署/工程

推荐理由：OpenRouter 这篇教程把 Hermes Agent 的配置、路由和降本技巧都讲透了，刚上手的人照着走就能跑起来，而且给出了廉价辅助模型的省钱套路，实用性强。

06:26

Claude Code：GitHub Releases（RSS）

Claude Code v2.1.176 发布

Claude Code v2.1.176 更新：会话标题现按对话语言生成；新增 footerLinksRegexes 设置支持正则匹配页脚行链接徽章；优化 Bedrock 凭证缓存。修复多项问题：环境变量不可再绕过 availableModels 限制；/fast 切换至白名单外模型时拒绝；auto 模式退化为可用 Opus 模型；修正路径 hook 条件匹配；修复 Linux 沙箱内符号链接启动问题；修复 tmux 内 SSH 剪贴板问题；修复 Remote Control 多项连接问题。

智能体 Anthropic 产品更新编码