7月3日

05:50

Runway：News（网页）

Runway 开发了名为 deckard 的容量控制器，在生产推理集群与研究集群间动态重分配 GPU。生产流量在北美工作日上午 9 点 ET 达峰，晚 8 点 ET 跌至不足一半。控制器基于预计算的时间窗口（如工作日 8:30–12:30 ET 高峰子窗口）提前扩容和回收，每次集群间转移耗时 20–60 分钟。利用排队论（Erlang‑C、Little's Law）确定目标利用率，避免接近 85% 后的队列发散（90% 利用率下等待时间约为服务时间的 10 倍）。此方案使夜间闲置 GPU 回归研究、白天排队等待缩短。

推理教程/实践部署/工程

05:08

MarkTechPost（RSS）

精选70

阿里巴巴发布 Page Agent：开源 JavaScript 库实现网页 DOM 自然语言操控

阿里巴巴发布 Page Agent，一个开源的 JavaScript 客户端库，嵌入网页后可通过自然语言指令直接操作 DOM 元素。与 Playwright、Puppeteer 等外部浏览器自动化工具不同，Page Agent 不依赖截图或多模态模型，而是将实时 DOM 脱水压缩为 FlatDomTree 文本映射，让纯文本模型精准执行点击、表单填写等操作。它继承用户 cookies 和会话，无需独立后端，并支持任意 OpenAI 兼容端点的模型（示例使用 qwen3.5-plus）。项目采用 MIT 许可证，适合在自有应用内构建 AI 副驾、智能表单填充或无障碍控制等场景，但限于单页面范围，风险操作仍需服务端验证。

智能体开源/仓库部署/工程

推荐理由：Page Agent 把浏览器自动化从外部驱动变成页面内 JS，读 DOM 而非截图，让 SaaS 内的 AI 助手成本更低、更精准，适合自己产品内嵌 copilot 的团队。

03:45

The Decoder：AI News（RSS）

精选78

Microsoft 成立"Frontier Company"，斥资 25 亿美元派驻 6000 名 AI 工程师到企业客户现场

Microsoft 新设业务部门“Frontier Company”，拨款 25 亿美元，将 6000 名行业与工程专家派驻企业客户现场，“共同设计、共同创新、部署并持续改进 AI 系统”。该部门由 Rodrigo Kede Lima 领导，旨在超越“前部署工程”模式，成为“最大、以结果为导向的工程组织”。Microsoft 将自己定位为 OpenAI 和 Anthropic 的“平台中立”替代方案，后两者也已设立专门部署公司。Microsoft 将借助埃森哲、凯捷、安永等系统集成商扩大覆盖范围。

Anthropic Microsoft OpenAI 行业动态

推荐理由：微软砸 25 亿美元成立 Frontier Company，把 6000 名工程师直接塞进企业客户现场，正面应战 OpenAI 和 Anthropic 的部署子公司。这一手既是补齐落地能力也是巩固生态，对 CIO 来说是选择多了，但对 AI 行业意味着部署军备竞赛正式开打。

02:37

LMSYS：Blog（Chatbot Arena 团队）

精选59

Agent辅助的SGLang开发：初步探索

SGLang团队将LLM服务、分布式运行时、GPU内核、扩散管道等工作流编码为可执行的SKILL.md文件、脚本、基准合约和审查循环。现有技能包括：SGLang .claude/skills（CUDA调试、内核集成、性能分析等）、SGLang diffusion .claude/skills（扩散模型添加与调优）、BBuf/AI-Infra-Auto-Driven-SKILLS（跨框架SOTA循环）、KDA（MLSys 2026 FlashInfer内核竞赛获胜方案）以及BBuf/KDA-Pilot（已合并三个SGLang集成PR）。Profile证据是性能工作的核心，长期优化转向Loop Engineering——SGLang SOTA Performance Loop将追求SOTA分解为公平基准测试、差距决策、性能分析、补丁和再验证，Humanize/RLCR添加外部审查，Codex Goal以更低协调开销运行相同循环。评审重要性提升，开发者需定义问题、选择证据、设计工作流并判断结果是否可用于生产。

推理教程/实践部署/工程

推荐理由：这不是一篇普通的开发经验总结，而是 SGLang 团队把调试、基准测试和性能调优等重复劳动变成可执行 agent 技能的实操手册，对于做推理框架和复杂工程的人非常值得一看。

02:35

TechCrunch：AI（RSS）

Anthropic 与三星洽谈定制芯片合作

据 The Information 报道，Anthropic 正与三星接触，探讨一款尚在规划中的定制芯片合作，但芯片具体用途、服务器集成方式及性能参数均未确定。Anthropic 对 TechCrunch 表示，包含 Google、Amazon 和 Nvidia 芯片的多元化硬件堆栈仍将是其计算战略核心。此举延续了 AI 公司减少对 Nvidia 依赖的趋势。上周，竞争对手 OpenAI 已与 Broadcom 合作推出自研推理处理器“Jalapeño”。三星目前已是 Nvidia 的主要芯片生产伙伴，并与 Google 讨论芯片制造合作。

Anthropic 行业动态部署/工程

02:03

Claude：Blog（网页）

精选61

Claude Enterprise 新增用量与成本分析及支出管控功能

Claude Enterprise 推出更丰富的管理分析工具和成本控制功能。仪表板现可按群组和用户分析用量与成本，支持按 SCIM 群组筛选，展示制品创建、文件编辑、技能和连接器对应的成本。Claude Code 管理控制台新增“使用量”和“价值”选项卡，分别显示活跃开发者、会话次数、常用命令，以及生产力提升估算、每次提交成本和年度价值估算。分析聊天支持自然语言查询并返回可导出图表。Analytics API 可将数据接入 Datadog Cloud Cost Management 和 CloudZero。管理员可设置模型默认和权限控制，并配置组织级支出限额的 75%、90% 告警通知；用户在 75% 和 95% 时收到应用内提醒。Admin API 支持自动审批额度增加、标记接近限额用户及快速变化的用量。

Anthropic 产品更新部署/工程

推荐理由：企业版管理员终于有了按群组和用户的成本明细、模型权限和花费警告。我觉得规模化部署 Claude 的团队会很看重这些，尤其能把 Claude Code 的价值量化成 ROI，财务团队可以直接拉进现有系统，不是一次性噱头。

7月2日

23:06

IT之家（RSS）

精选74

花旗、Adobe等企业限制员工使用AI旗舰模型以控制成本

据404 Media获取的内部资料，Atlassian、Adobe、亚马逊等六家企业正限制员工使用AI工具，要求改用能力较低的大模型避免成本失控。至少一家企业月度AI开销增至三倍，超1500万美元。花旗银行因GitHub改为按量计费，于6月24日禁用Claude Opus 4.6、4.7及GPT-5.5等旗舰模型。Adobe于6月30日终止Claude无限制使用协议。Atlassian数据显示其AI月支出从500万美元飙升至1500万美元，本财年预计超1.2亿美元。GitHub计划改用开源模型并测试单人按量计费模式。

Anthropic OpenAI 现象/趋势部署/工程

推荐理由：这是第一份详细揭露大公司AI成本失控的内部报告，花旗直接禁用GPT-5.5和Claude 4.7，把「按需匹配模型」写进全员邮件，对所有在铺AI的企业都是一记现实的耳光。