Runway 开发了名为 deckard 的容量控制器,在生产推理集群与研究集群间动态重分配 GPU。生产流量在北美工作日上午 9 点 ET 达峰,晚 8 点 ET 跌至不足一半。控制器基于预计算的时间窗口(如工作日 8:30–12:30 ET 高峰子窗口)提前扩容和回收,每次集群间转移耗时 20–60 分钟。利用排队论(Erlang‑C、Little's Law)确定目标利用率,避免接近 85% 后的队列发散(90% 利用率下等待时间约为服务时间的 10 倍)。此方案使夜间闲置 GPU 回归研究、白天排队等待缩短。
Palantir CEO透露,部分美国政府客户正在将敏感AI工作迁移至Nvidia的Nemotron开源模型。Nemotron可在气隙环境运行,隔离于不安全的外部网络,适合对数据泄露敏感的国防任务。Karp称Nemotron在机密战场级任务上表现相当或更优。更深层变化在于,模型质量不再是唯一购买决策因素,机构现在综合权衡速度、价格、主权、审计追踪和运营控制。美国开源模型为华盛顿提供了介于闭源实验室和海外技术栈之间的第三条路径。
阿里巴巴发布 Page Agent,一个开源的 JavaScript 客户端库,嵌入网页后可通过自然语言指令直接操作 DOM 元素。与 Playwright、Puppeteer 等外部浏览器自动化工具不同,Page Agent 不依赖截图或多模态模型,而是将实时 DOM 脱水压缩为 FlatDomTree 文本映射,让纯文本模型精准执行点击、表单填写等操作。它继承用户 cookies 和会话,无需独立后端,并支持任意 OpenAI 兼容端点的模型(示例使用 qwen3.5-plus)。项目采用 MIT 许可证,适合在自有应用内构建 AI 副驾、智能表单填充或无障碍控制等场景,但限于单页面范围,风险操作仍需服务端验证。
Microsoft 新设业务部门“Frontier Company”,拨款 25 亿美元,将 6000 名行业与工程专家派驻企业客户现场,“共同设计、共同创新、部署并持续改进 AI 系统”。该部门由 Rodrigo Kede Lima 领导,旨在超越“前部署工程”模式,成为“最大、以结果为导向的工程组织”。Microsoft 将自己定位为 OpenAI 和 Anthropic 的“平台中立”替代方案,后两者也已设立专门部署公司。Microsoft 将借助埃森哲、凯捷、安永等系统集成商扩大覆盖范围。
SGLang团队将LLM服务、分布式运行时、GPU内核、扩散管道等工作流编码为可执行的SKILL.md文件、脚本、基准合约和审查循环。现有技能包括:SGLang .claude/skills(CUDA调试、内核集成、性能分析等)、SGLang diffusion .claude/skills(扩散模型添加与调优)、BBuf/AI-Infra-Auto-Driven-SKILLS(跨框架SOTA循环)、KDA(MLSys 2026 FlashInfer内核竞赛获胜方案)以及BBuf/KDA-Pilot(已合并三个SGLang集成PR)。Profile证据是性能工作的核心,长期优化转向Loop Engineering——SGLang SOTA Performance Loop将追求SOTA分解为公平基准测试、差距决策、性能分析、补丁和再验证,Humanize/RLCR添加外部审查,Codex Goal以更低协调开销运行相同循环。评审重要性提升,开发者需定义问题、选择证据、设计工作流并判断结果是否可用于生产。
据 The Information 报道,Anthropic 正与三星接触,探讨一款尚在规划中的定制芯片合作,但芯片具体用途、服务器集成方式及性能参数均未确定。Anthropic 对 TechCrunch 表示,包含 Google、Amazon 和 Nvidia 芯片的多元化硬件堆栈仍将是其计算战略核心。此举延续了 AI 公司减少对 Nvidia 依赖的趋势。上周,竞争对手 OpenAI 已与 Broadcom 合作推出自研推理处理器“Jalapeño”。三星目前已是 Nvidia 的主要芯片生产伙伴,并与 Google 讨论芯片制造合作。
Grok Build from @xai is now available in Railway sandboxes Run `ssh sandboxes@railway.new` in your terminal and try it o...
Claude Enterprise 推出更丰富的管理分析工具和成本控制功能。仪表板现可按群组和用户分析用量与成本,支持按 SCIM 群组筛选,展示制品创建、文件编辑、技能和连接器对应的成本。Claude Code 管理控制台新增“使用量”和“价值”选项卡,分别显示活跃开发者、会话次数、常用命令,以及生产力提升估算、每次提交成本和年度价值估算。分析聊天支持自然语言查询并返回可导出图表。Analytics API 可将数据接入 Datadog Cloud Cost Management 和 CloudZero。管理员可设置模型默认和权限控制,并配置组织级支出限额的 75%、90% 告警通知;用户在 75% 和 95% 时收到应用内提醒。Admin API 支持自动审批额度增加、标记接近限额用户及快速变化的用量。
DAIR.AI 的 Elvis Saravia 分享了自己过去几个月构建的 PaperWiki,这是一个基于 LLM 和编程智能体的知识库,用于研究工作流。它通过自动化每日更新,从多个来源摄入论文并存入 Obsidian,使用 qmd 索引,以 HTML artifact 呈现,支持全文和语义搜索。Saravia 使用前沿模型(opus-4.8)和开放权重模型(deepseek-v4-flash)混合维护,并计划开源。他认为 LLM Wiki 是当前最有价值的 AI 应用方向之一。
据404 Media获取的内部资料,Atlassian、Adobe、亚马逊等六家企业正限制员工使用AI工具,要求改用能力较低的大模型避免成本失控。至少一家企业月度AI开销增至三倍,超1500万美元。花旗银行因GitHub改为按量计费,于6月24日禁用Claude Opus 4.6、4.7及GPT-5.5等旗舰模型。Adobe于6月30日终止Claude无限制使用协议。Atlassian数据显示其AI月支出从500万美元飙升至1500万美元,本财年预计超1.2亿美元。GitHub计划改用开源模型并测试单人按量计费模式。
Anthropic 推出面向科学研究的 AI 工作台 Claude Science 公开测试版,科学家可通过自然语言与数字智能体交互执行端到端研究流程。该平台原生集成 NVIDIA BioNeMo Agent Toolkit,将 GPU 加速计算资源封装为可调用的技能模块。全球前 20 大制药公司中已有 18 家生产部署 BioNeMo。基因组分析工具 Parabricks 将处理时间从数小时压缩至数分钟;RAPIDS-singlecell 将 130 万细胞预处理和聚类工作流从 52 分钟缩短至 25 秒;nvMolKit 加速分子相似性搜索和构象生成最高达 3,000 倍。系统还提供 Evo 2、Boltz-2、OpenFold3 等加速开放模型。
微软今日成立微软前沿公司,初期注资 25 亿美元,客户包括联合利华、诺和诺德。新公司将协助企业整合微软自研及第三方 AI 工具(含开源大模型),对接内部数据,产出成果归客户所有。微软商用业务总裁承认三年前只绑定 OpenAI 模型是错误,企业需灵活替换顶尖模型(如 DeepSeek、Gemini)并自主微调。微软已持有 OpenAI 股权,并将 Anthropic 大模型接入 Copilot。
微软本周四宣布成立新运营业务Microsoft Frontier,专注利用现有AI工具实现企业AI规模化部署。该项目获25亿美元投资,配备6000名专家。微软商业业务CEO称该组织将超越“前置部署工程师”模式,成为行业最大结果导向工程组织。此举与AWS(10亿美元内部承诺)、OpenAI和Anthropic的类似项目形成对比。微软现有客户基础提供先发优势,早期合作伙伴包括伦敦证券交易所集团、联合利华、Land O’Lakes及Accenture。
Nvidia 正像央行一样为 AI 初创公司提供财务担保,使其能够购买昂贵的 AI 芯片。作为回报,Nvidia 直接分取这些云提供商的收入。若云提供商找不到租用 GPU 的客户,Nvidia 承诺自行租回未使用的算力。这一策略帮助 Nvidia 减少对亚马逊、微软、谷歌等大型科技公司的依赖——这些公司虽仍购买其大部分芯片,但也在自研 AI 硬件。
英伟达推出全新扶持计划,通过收益分成与信贷支持模式,帮助人工智能初创企业获取高性能计算基础设施。人工智能云服务商将部署搭载英伟达技术的云服务,英伟达可分享后续经营收益。多家云运营商已基于旗下 DSX 数据中心平台搭建 AI 算力中心,Sharon AI 与 Firmus 为首批落地企业,标志着计划启动试点推广。该计划旨在降低新兴 AI 企业的资金门槛,并巩固英伟达在全 AI 产业链的核心地位。
2025年,谷歌年度用电量同比上涨37%,创历史最大增幅。数据中心全年消耗超4200万兆瓦时,超过新西兰、丹麦、尼日利亚等国总用电量。自2019年以来,谷歌总用电量已增长超250%。用电激增主要来自Google Cloud、YouTube视频流及支撑AI产品和服务的数据中心建设与运营。公司表示,AI基础设施建设速度超过电网脱碳速度,但仍致力于扩大全球清洁电力规模,并通过技术创新降低运营排放。2024年谷歌用电量增幅为27%。
千问团队2026年1月上线通用复杂任务Agent(千问App胶囊入口),总结“多快好省”方法论:支持信息搜集、研究分析等任务;执行时间降至初始1/3;通过搜索范式与上下文管理优化交付质量;Token消耗仅为海外产品1/10。团队探索从被动响应转向主动服务,构建User Memory、Environment、Task System、Assistant四大组件,指出“情商”是主动服务最难环节。朱达提出Agent工程从Prompt Engineering演进至Harness Engineering,下一站是A IWare Engineering,强调“低功耗,够用就行”。
7 月 2 日下午,DeepSeek 网页和 API 出现性能下降,官方状态页面确认已定位原因并正在修复。DeepSeek V4 正式版计划于 7 月中旬上线,届时将带来功能优化和性能提升,同时调整 API 定价策略,引入峰谷定价机制。
核能初创公司Valar Atomics利用其Ward 250先进反应堆为英伟达Blackwell芯片成功供电,并临时运行了一个网站,这是美国境内下一代反应堆首次实现此类应用。两家公司同步宣布合作,计划在犹他州建设一座小型数据中心,重点验证AI计算设施通过先进核能和闭环液冷技术降低对外部电网及水资源的依赖。上月该反应堆已达成临界状态,本次供电试验在此基础上取得新进展。
四种轻量级架构在一个IIoT数据集上训练后,不经重新训练直接在另两个结构不同的IIoT数据集上评估,仅使用三者共有的特征。可解释性分析显示,两个最优模型主要依赖粗粒度端口类别特征,其中最具影响力的类别在源域攻击流量出现频率是目标域的96至435倍,表明粗化端口分辨率只是转移而非消除已知捷径。自然不平衡分布下,评价协议可能反转对哪个目标域更具挑战的判断。对抗鲁棒性与跨网络泛化无关,有限目标域数据适应的恢复效果因架构而异。建议部署就绪性应在真实类别分布下通过跨网络评估。
软银集团与软银公司计划本月在美国特拉华州设立合资企业 SB Neo,软银集团持股 49%、软银公司持股 51%。SB Neo 定位为 Neocloud 企业,基于软银集团开发的 10GW 能源与 AI 基础设施,为美国大型企业提供大型 AI 模型训练与推理所需算力。云服务计划 2027 财年上线,后续分阶段扩大规模。软银公司已从今年 5 月开始在日本进行 AI GPU 云服务测试,相关经验将用于 SB Neo 运营。
ELDR是为预填充-解码分离式MoE服务设计的解码路由算法。它从请求预填充阶段提取专家激活特征,构建预测生成阶段所需专家的签名,通过离线平衡K-means聚类将签名空间分配到解码节点,在线路由时优先将请求发往签名匹配且负载最轻的节点。签名缓存与KV缓存以KV-block粒度协同索引,保证前缀缓存下签名准确。在vLLM实现,最高40块GPU部署测试,相比四种负载均衡基线中最强的一种,在三个MoE模型和两种负载上降低中位TPOT 5.9–13.9%,模型输出不变。
日本Socionext正在为AI数据中心开发基于台积电A14(1.4nm)的HPC芯片,计划今年9月完成测试芯片流片,用于验证XPU架构的可扩展性。A14是台积电继N2后的下一代制程,预计2028年量产,相较N2可在相同功耗下提升10~15%速度,或相同速度下降低25~30%功耗,逻辑密度增加超20%。
特斯拉车辆可自主驶入异响检测工位,车内麦克风捕捉杂音反馈工程团队。公司正研发“全向听觉系统”AI用于交付前识别装配缺陷。工厂各部门部署自研AI智能体系统,覆盖研发、供应链、售后、质检。Cybercab生产线约90%工序全自动化,未来产量或超越所有历史车型(Model Y累计近400万台)。星链有望搭载于Cybercab保障偏远地区信号。Optimus人形机器人首条量产线在弗里蒙特工厂落地,全模块化设计,约40条子生产线在德国制造。
7月2日,美团内部通知要求所有业务团队自查并规划将现有豆包相关业务迁移至自研LongCat、DeepSeek等模型,无法迁移的需提交原因并走单独审批。今年4月,美团已收紧阿里云Qwen模型使用门槛,需X3级别审批。美团自研大模型LongCat于2023年启动研发,已应用于APP内置AI助手“小团”及商家经营助手。近日发布的LongCat-2.0为万亿参数模型(总参数1.6T,平均激活约48B),基于五万卡国产算力集群训练,预训练数据规模超30T tokens,原生支持1M超长上下文。
华擎发布 ASRock Claw Quickset 桌面工具,专为简化本地 AI 环境部署而设计,可自动完成 OpenClaw、AI 模型及必要软件组件的安装与设定。该工具提供引导式安装,用户无需手动处理依赖关系即可快速开始 AI 交互。工具默认部署本地 AI 环境,支持通过 OpenClaw 配置云端算力;默认状态下文件访问权限仅限指定工作区,系统层级功能关闭。
Meta向约6000名员工发送内部备忘录,警告2026年内部AI使用成本已接近数十亿美元。员工在约30天内消耗了73.7万亿token,公司内部排行榜“Claudeonomics”追踪了这些数据。CTO Andrew Bosworth指出token用量不代表影响力。Meta将部署集中监控平台“AI Gateway”,并计划于2027年实施正式token预算,同时引导员工从Anthropic的Claude转向内部编码助手MetaCode。
该论文指出,MCP服务器设计不同于普通API,因为LLM通过纯语言描述选择工具,过多或模糊的工具会导致混淆。作者归纳了5种实际模式(如暴露数据、运行工作流、保持会话状态、组合服务器、翻译混乱领域API),并警告4个常见错误(大而全工具、模糊描述、不安全外部内容、慢工具应返回job ID)。在54个额外服务器上测试发现,弱模型在可见工具超过10-15个时准确率降至90%以下。良好MCP设计的核心是使工具列表小巧、清晰、安全且稳定。
苹果 Safari 技术预览版 247 新增 MCP 服务器支持,MCP 是开放标准,让 AI 智能体连接外部工具、服务与数据源,如代码仓库、本地文件及浏览器开发工具。配置后,编程智能体可检查网页、访问控制台日志和网络请求、抓取截图并与页面元素交互。用途包括调试网站、识别 Safari 兼容性问题、性能分析、可访问性检查及验证页面与 UI 状态。
DSpark 与 JetSpec 几乎同时出现,都解决轻量级草稿模型并行提案时的因果一致性问题。DSpark 面向高并发,通过轻量级马尔可夫校正头与置信度估计控制预算,在 Qwen3-8B 与 AIME25 上,预算 7 时将接受长度从 DFlash 的 4.07 提升至 5.01。JetSpec 面向低延迟,将因果性直接构建进并行草稿头,预算 16 时接受长度 7.23,预算 128 时达 9.82,高于 DFlash 的 7.34 与 DDTree 的 8.66。两者分别从吞吐与延迟侧优化因果性。
本地AI倡导者Ahmad Osman指出开源与闭源差距缩至4-8个月,但缺搜索、工具、Agent等基础设施。美团发布LongCat-2.0(1.6T参数/48B激活MoE,30T tokens预训练,原生1M上下文),五万卡国产算力集群训练,SWE-bench Pro 59.5领先Gemini 3.1 Pro等,预览版OpenRouter调用量前三。美图CEO吴欣鸿:2025年营收38.58亿元,净利润9.65亿元同比增64.7%,AI影像收入占比76.6%,海外MAU重回1亿。