苹果在 WWDC26 特别讲座中演示通过 4 台 Mac Studio 本地运行 1 万亿参数的 Kimi K2.6 模型,使用 LM Studio 和低延迟 RDMA over Thunderbolt 技术。该模型由月之暗面于 2026 年 4 月 20 日发布,升级了代码编写、长程任务执行和 Agent 集群能力。讲座还展示了工程师用单条提示词生成的 WWDC badge tracker 应用,具备 3D 动画、全息视觉效果和 Visual Intelligence 功能。
苹果在 WWDC26 特别讲座中演示通过 4 台 Mac Studio 本地运行 1 万亿参数的 Kimi K2.6 模型,使用 LM Studio 和低延迟 RDMA over Thunderbolt 技术。该模型由月之暗面于 2026 年 4 月 20 日发布,升级了代码编写、长程任务执行和 Agent 集群能力。讲座还展示了工程师用单条提示词生成的 WWDC badge tracker 应用,具备 3D 动画、全息视觉效果和 Visual Intelligence 功能。
Claude Code v2.1.181 发布,新增 /config key=value 语法允许在提示中直接设置任意配置项,新增 sandbox.allowAppleEvents 选项使沙盒命令支持 Apple Events,新增 CLAUDE_CLIENT_PRESENCE_FILE 环境变量用于抑制移动端推送通知。内置 Bun 运行时升级至 1.4,改进了长段落流式输出(逐行显示)和 API 连接中断后自动重试。子 agent 面板优化:空闲 agent 30 秒自动隐藏、列表最多 5 行。修复了提示缓存读取、Write/Edit 在网络驱动器产生 0 字节文件、启动性能回归(约 120ms)、启动阻塞(最长 15 秒)、macOS TUI 冻结、子 agent 时长显示错误、API 重试指示器残留、AWS 凭证刷新等问题。
Cloudflare Agents SDK 现已成为任何智能体框架均可构建的运行时。Cloudflare 开放了 Agents SDK 原语,Flue 成为首个针对该 SDK 的框架,同时仪表盘中已推出智能体功能。
Workload Identity Federation (WIF) 已在 Claude Platform 上全面可用。WIF 兼容任何 OIDC 身份提供者,覆盖所有 Claude API 端点(包括第一方 SDK 和 Claude Code)。WIF 用短生命期凭证替代静态 API 密钥,并引入服务账户,每个工作负载拥有独立身份、角色和审计日志。Claude Console 提供引导设置流程,支持 Admin API 进行组织管理。API 密钥可并行使用以便逐步迁移。
Browser Use Cloud 重建基础设施,让每个浏览器会话在独立的 Firecracker VM 中运行,新会话启动时间不到 1 秒,成本从每浏览器小时 0.06 美元降至 0.02 美元。他们放弃了 Unikraft unikernel 方案,因其自动扩缩容能力不足,曾导致压测使生产环境宕机 45 分钟。新方案选择在普通 EC2 上运行嵌套虚拟化,以换取更快扩缩速度和更低成本,并构建了控制平面实时监控自动扩缩容。启动过程包含恢复 VM 快照、启动 Chromium 并通过 CDP 返回连接 URL,首个瓶颈是嵌套虚拟化下的内存页面错误。
SGLang-JAX现已支持inclusionAI的Ling-2.6-1T(1T稀疏MoE,63B激活参数,256路由专家,top-8路由加共享专家)在TPU v7x上高效推理。团队开发了Fused MoE V2——一个融合scatter、专家FFN和gather的Pallas核,通过将MoE数据移动隐藏在计算中,使MoE预填充延迟从5.16ms降至2.42ms(降幅53%),解码核延迟从0.249ms降至0.211ms(降幅约15%)。仅替换MoE核即提升预填充吞吐量24.8%,解码吞吐量18.5%–35.3%。在SGLang解码基准测试中,16块TPU v7x芯片输出吞吐量达16块H200 GPU的1.29倍(mc=128)至1.77倍(mc=512)。完整上线还包含混合KV/循环内存池、GLA线性注意力和单控制器数据并行支持。
Vercel 发布开源 AI 智能体框架 Eve(npm 包,Apache-2.0 许可)。Eve 采用文件系统优先设计:每个智能体对应一个磁盘目录,目录结构直接映射模型、指令、工具、技能、连接、子智能体等能力,无需额外注册代码。内置六大生产级能力:持久执行(每步检查点,崩溃后可恢复)、沙箱计算、人机审批、安全连接(支持 MCP 和 OpenAPI)、多通道(Slack、Discord、Teams 等)以及追踪与评估(OpenTelemetry)。Vercel 内部运行了上百个智能体,包括数据分析工具 d0(月处理超3万查询)、自动销售代理 Lead Agent(年费约5000美元、回报32倍)和支持智能体 Vertex(自主解决92%工单)。
关联讨论 1 条X:邵猛 (@shao__meng)Opus 4.5 发布后,AI 能生成与中位数软件工程师同等质量的代码,且更快更便宜。2025 年,智能体框架、工具调用和 MCP 协议等迭代让代码生产从昂贵耗时变为免费即时,代码变得可丢弃和可重新生成。软件团队真正产品是共享理解,而非代码本身。作者认为,面对 AI 带来的变革,需要更多而非更少的工程纪律,以维持对系统的可控和共识。
Anthropic 正式启用首尔办公室,并宣布与韩国AI生态的多项合作。NAVER 在全公司部署 Claude Code,数千工程师用于提升编码效率;Nexon 工程团队用 Claude Code 编写游戏代码。LG CNS 将 Claude 推广至数千员工并计划覆盖整个 LG 集团;Hanwha Solutions 通过 AWS Bedrock 部署 Claude 满足数据驻留与安全要求;Samsung SDS 向三星电子员工部署 Claude(包括 Claude Cowork 和 Claude Code)。初创公司 Channel Corp 用 Claude 驱动客户AI平台 Channel Talk。Anthropic 与韩国国家AI研究实验室合作,向至多60名研究员提供 Claude 用于AI安全等研究。非营利组织 Good Neighbors Korea 部署 Claude 减轻行政工作。Claude for Startups 已在韩国上线,并计划与 Replit 等合办黑客马拉松。
6月17日,Cloudflare 推出 Cloudflare One stack,一组可直接赋予 AI 智能体的技能文件,用于自动配置、部署和管理 Zero Trust 环境。工具集包含两个轻量级 skill:cloudflare-one 负责通用产品指导(VPN 替换、网络连接、安全策略等),cloudflare-one-migration 提供从 Zscaler、Palo Alto Networks 等厂商迁移的明确引导。技能内置决策树与结构化知识,智能体可自动执行云环境评估、网络拓扑生成及 Digital Experience Monitoring 排障。该 stack 基于 Cloudflare 员工数万小时客户经验提炼,降低学习与迁移门槛。
字节跳动正与天数智芯洽谈采购智铠系列云端推理GPU及天垓系列训练芯片,今年至少交付5万颗,用于支持豆包等产品推理。字节将训练与推理拆分:华为昇腾、寒武纪主攻训练,天数智芯侧重线上推理。同时考虑引入百度昆仑芯。行业预测2026年字节全球算力采购投入约1500亿元,国产占400亿元以上。推理能耗占AI总能耗60%-90%,中国推理需求已达训练8倍。百度、阿里、腾讯等也在布局算力基建。
加拿大养老基金CPP Investments承诺向印度数据中心运营商CtrlS投资最高700亿卢比(约7.41亿美元),其中400亿卢比(约4.23亿美元)收购8.2%股权,最高300亿卢比(约3.17亿美元)投入合资企业,在印度开发超大规模数据中心园区。合资企业由CPP持股48%,CtrlS持股52%。CtrlS成立于2007年,在印度运营超15个数据中心。印度正成为AI数据中心投资热土,亚马逊、谷歌、微软等近期已宣布在印投资。CPP自2009年起投资印度,截至3月31日在印净资产约200亿美元。
6月16日,2026中国金融展上,百度智能云与中国银联展示金融行业AI应用解决方案。AI Infra方面,银联云提供搭载昆仑芯的国产算力环境,已累计支持30余家机构进行DeepSeek、MiniMax、GLM等模型测试。Agent Infra方面,百度千帆大模型平台为银联云用户提供模型开发、部署、推理服务及国产异构算力纳管、金融级数据安全与多租户隔离方案。百度智能云已服务超800家金融机构,覆盖100%系统重要性银行。双方将聚焦AI基础设施共建与金融智能体联合研发,推动支付、清算、风控等核心场景智能化。同期发布《金融行业场景智能体白皮书》,提出“知识-流程”双维分类框架及落地优先级建议。
Epoch AI基于SEC文件分析显示,微软、亚马逊、Alphabet、Meta、Oracle五大超大规模云服务商的AI基础设施支出年增长约70%,经营现金流仅增长约23%。若趋势持续,支出将在2026年第三季度超过现金流。目前Alphabet已通过股权融资850亿美元,亚马逊和英伟达发行债券补充资金。除Oracle外其余公司仍盈利且持有大量现金,但自由现金流可能归零或转负。Epoch AI指出这仅为简单外推,未计入AI投资能否产生足够收入来弥补缺口这一关键因素。
英国住房社区和地方政府部与科学创新技术部部署了两款基于 Gemini 基础模型的生成式 AI 工具。Extract 应用将历史 PDF 中的非结构化数据转为结构化数据集,每年为每个议会节省约 255 小时人工录入。APD 原型自动完成文档整合、法规检查、公众总结和评估报告起草四项任务,但保留人类官员最终决策权。目标将规划申请决策时间缩短 50%。Extract 已扩展至英格兰所有议会,APD alpha 版在三个地方机构测试,计划 2027 年部署至 300 多个英格兰地方当局。
AWS(Apache 2.0)开源的 Strands Robots SDK 将 LeRobot 栈封装为 AgentTools,构建统一智能体。默认用 MuJoCo 模拟(无需硬件),mode="real" 切换至真实机器人。可记录演示数据为 LeRobotDataset 并推送 Hugging Face Hub,运行 GR00T 或 LerobotLocal 策略推理,经 Zenoh mesh 广播命令到多台机器人。模拟与硬件代码完全一致,只需改一个关键字参数。示例可在笔记本(Python 3.12+,Linux/macOS)无硬件、无 GPU 运行。
摩根大通上调全球AI资本支出预测,预计2030年AI与数据中心支出超5万亿美元。大型云计算企业去年(2025年)开支达3420亿美元,同比增62%。摩根大通预计2026-2030年全球新增122GW数据中心用电量;截至2025年中,全球数据中心建设投资年化400亿美元,同比增30%。未来五年AI数据中心相关杠杆融资将达1500亿美元,投资级债券达1.5万亿美元。
智谱上线并开源GLM-5.2,在Code Arena前端开发盲测中获全球可用模型第一。摩尔线程在MTT S5000上完成Day-0极速适配,基于SGLang-MUSA推理引擎与TileLang-MUSA算子编程语言实现模型适配与优化。MTT S5000凭借硬件级原生FP8加速(单卡稠密算力1000 TFLOPS)、80GB显存与1.6TB/s带宽,支持Solid 1M超长上下文,降低首Token等待时间,提升AI Coding、RAG和长文档分析等场景的在线推理效率。
算苗科技于6月15日宣布旗下全国产自研3D TokenPU芯片正式流片。该芯片采用3D混合堆叠架构,通过多层晶圆垂直堆叠缩短存储与计算单元的数据传输路径,搭载16TB/s带宽,面向大模型线上推理场景优化。芯片从架构设计到流片制造均依托国内产业链完成,适配通用大模型、多模态生成、实时对话等高负载推理任务,补强了国内高端AI算力硬件的自主供给能力。
法国超算企业 Bull 宣布与鸿海合作,在欧洲制造 NVIDIA Vera Rubin NVL72 机架系统。制造与初步测试在鸿海捷克 Pardubice 工厂进行,随后在 Bull 法国 Angers 工厂完成组装与系统级验证。此举旨在为欧洲 AI 工厂和云服务商提供本地化制造能力,提升欧洲主权 AI 产业链韧性。Bull 首席执行官表示,该合作标志着欧洲 AI 基础设施制造能力的转折点。
MiniMax 发布 MSA(MiniMax Sparse Attention),一种构建在 Grouped Query Attention 上的稀疏注意力方法。它将注意力分解为索引分支与主分支:索引分支以块粒度(默认 128 token)为每个 GQA 组选择 16 个 token 块(固定预算 2048 个键值 token),主分支仅在这些块上执行精确 softmax 注意力。MSA 在 109B 参数 MoE 模型上训练,开源了面向 NVIDIA SM100 GPU 的推理内核 fmha_sm100(MIT 许可,支持 BF16/FP8/NVFP4/FP4),并发布生产模型 MiniMax-M3。MSA-PT 在 MMLU、GSM8K、HumanEval、RULER-8K、RULER-32K 上分别达 67.2、77.7、64.0、84.2、77.5,与全注意力基线持平。128K 上下文下,其 exp-free Top-k 选择比 torch.topk 快 5.1 倍。
作者为优化 AI 生成 Python 代码的 lint 效率,发现 ast.walk 遍历 AST 是性能瓶颈。通过逐步去除生成器 yield、内联 iter_child_nodes 和 iter_fields、用 getattr(node, field, None) 替代异常处理,实现了约 2 倍提速。随后用 Rust 通过 PyO3 重写遍历逻辑,并直接读取 __dict__ 及预缓存 AST 子类类型信息,最终将 ast.walk 速度提升约 220 倍。
三星宣布通过数据共享生态平台(DSEP),目标到2030年实现无人晶圆厂。DSEP向设备供应商共享晶圆厂实时工艺数据,并汇集数据输入AI模型进行分析与决策,支持远程诊断设备故障、优化良率。首批设备供应商已签约,同步建设高性能计算平台提供算力。该计划导火索是近期劳资博弈:今年5月工会达成史上最昂贵奖金协议,规定特定利润条件时工人可获运营利润10.5%的特别绩效奖金。
提出一种“times-shaped”瓶颈结构的Variable-Width Transformers,在语言模型深度方向非均匀分配容量。该架构在语言建模损失上优于参数匹配的均匀基线,平均层宽降低使总FLOPs减少22%,KV缓存内存和I/O成本减少15%。残差流中的表示分析显示瓶颈结构导致定性不同的表征。实验表明非均匀宽度分配可实现更资源最优的语言模型扩展。
诺基亚于6月17日宣布,将扩建其位于美国宾夕法尼亚州利哈伊县的芯片先进封测工厂。公司投入3000万美元,加上宾州政府400万美元和联邦政府1000万美元税收抵免,预计创造250个就业岗位,五年内产生约5亿美元经济产值。扩建项目将使光子半导体产能最高扩大至现有规模的十倍,并新增办公区、实验室及仓储空间,工厂员工总数将达500人。该工厂研发的技术用于优化数据中心等场景的AI运行效率,并支撑全美可规模化AI基础设施的互联互通。
教程演示如何使用xFormers工具包在GPU上实现内存高效的Transformer。先验证memory-efficient attention与标准注意力结果一致性,对比不同序列长度下的速度和内存消耗;然后实现因果掩码、packed variable-length sequences、grouped-query attention(GQA)和自定义ALiBi位置偏置。最后组合成可训练的GPT风格模型,集成xFormers注意力、SwiGLU前馈层和自动混合精度训练。
流式视频生成需在用户会话中逐块渐进生成视频,面临会话持续时间异质性和用户需求时间异质性两大挑战。TurboServe是首个专为此设计的服务系统,将服务形式化为在线调度问题,联合协调会话放置与GPU资源调配。其闭环调度算法包含迁移感知放置控制器(跨GPU重平衡会话以降低每块最大延迟)和负载驱动自动缩放控制器(根据工作负载调整GPU预算)。运行时通过合并块处理、GPU-CPU卸载和NCCL迁移实现决策。在生数科技生产轨迹上,最多64块NVIDIA B300 GPU的评估显示,相比基线,最坏情况每块延迟降低37.5%,总GPU运营成本平均降低37.2%。
FAPO是一个让Claude Code在标准化代码库内自动优化多步LLM管道的框架。它评估管道、检查中间步骤、诊断失败、提出范围性更改并反复验证,优先尝试提示编辑,仅当提示优化不足且归因识别出结构瓶颈时才调整链结构。在6个基准和3个任务模型上,FAPO在18个模型-基准比较中15次击败基线GEPA,平均增益+14.1pp;其中11次比较中均值±标准差范围不重叠。在HoVer和IFBench上,提示优先搜索升级为结构变化的6次比较中FAPO全胜,平均增益+33.8pp。安全任务上,仅提示版FAPO在CTIBench-RCM上将GPT-5测试准确率提升+4.0pp,Foundation-Sec-8B-Instruct提升+7.1pp,Foundation-Sec-8B-Reasoning提升+2.0pp。
英伟达昨日宣布,其战略投资的高意(Coherent)在美国得州 Sherman 扩建工厂奠基,聚焦 6 英寸磷化铟晶圆与光互连产能,用于支撑 AI 数据在机架间以光速传输。黄仁勋表示人工智能是终极通用技术,并指出 NVIDIA Vera Rubin Ultra NVL576 场景中 576 个 GPU 跨 8 个机架协作必须依赖硅光技术。Coherent 获 5000 万美元 CHIPS Act 拨款及约 1700 万美元地方支持。工厂满产后预计直接带来 550 多个岗位。
Google DeepMind 与英国政府合作,基于 Gemini 构建 AI 规划原型,旨在将家庭规划申请处理时间减半。该工具可整合数据、识别本地政策、总结公众反馈并起草评估报告,但规划官员保留最终决策权。原型已在 Barnet、Camden 和 Dorset 试点,计划 2027 年向全英议会开放。此前推出的 Extract 工具(同样基于 Gemini)已向英格兰所有议会开放,能将非结构化 PDF 转为可用数据,预计为每个议会每年节省约 255 小时人工。家庭规划申请占每年规划申请的近 70%,AI 工具旨在让官员聚焦更复杂的公共利益申请。
本次次要版本修复了多项问题:流式连接中断后保留部分响应并修复 spinner 卡死;修复 WSL2(Windows Terminal / VS Code)中鼠标滚轮失效(v2.1.172 引入的回归);修复 Linux 上 sandbox denyRead/allowRead glob 覆盖大目录树导致 Bash 工具描述膨胀、会话不可用;修复反馈调查在单次回复后立即捕获评分;修复欢迎界面每会话最多显示一个促销横幅;修复查看子 agent 时 Ctrl+O 不显示其对话记录;修复点击输入框无法从子 agent/底栏面板恢复焦点;修复远程会话后台任务轮次间显示“正在运行”但实际卡住;改进了远程会话中插件加载性能。
微软正考虑采用自托管微调版 DeepSeek V4 作为 Copilot Cowork 的更廉价模型选项,同时将 Cowork 改为按使用量计费。Cowork 基于 Anthropic 的 Claude 技术。Copilot EVP Charles Lamanna 表示固定费率因高频用户推高成本而不可持续。微软已在 GitHub Copilot 上实施类似调整。DeepSeek 将作为可选模型,完全托管于 Azure 并配备偏见防护,客户数据不出微软云。最终决定预计数周内做出。CEO Satya Nadella 此前发文支持企业可挑选并微调的多模型生态。
6月16日,一篇标题为“Why is Meta destroying its engineering organization?”的博客文章出现在 Hacker News,获得110个点赞。文章指出 Meta 正在解散其工程组织,引发业界广泛讨论。具体原因和后续影响尚未明确。
同一事件,精选展示《Meta万人重组:裁员与AI转型并举》美国国防部通过自建GenAI.mil平台向全军提供Google Cloud的Gemini for Government等生成式AI工具,用于撰写国会要求的年度报告。首席技术官Emil Michael称原本需200小时的工作可压缩至5小时。副助理部长Jacob Glassman也透露团队使用后称“这是五年来最好的报告”。平台用户数从2025年12月的8万激增至2026年6月的150万。但AI报告存在错误风险——KPMG曾因AI生成错误案例而撤回报告,而五角大楼的审查流程尚不透明。
Anthropic 在 Claude Fable 5 发布仅数天后便对其进行了限制。如果代码硬编码模型 slug,该限制也会导致服务中断。OpenRouter 的 Presets 功能将模型选择移至服务器端,使用户无需重新部署即可切换模型、设置回退策略并强制执行数据策略。
谷歌今日推出 TPU Developer Hub,面向模型构建者与开发者提供端到端教育资源。内容覆盖预训练、后训练及推理工作负载,涵盖硬件架构、软件栈(XLA、PyTorch 零成本迁移)、追踪调试(XProf 工具)、并行优化(Pallas 内核、KV cache 卸载)及网络安全实践。资源形式包括交互式 Colab、开源代码配方与深度技术文档,支持 AI 智能体辅助集成,帮助用户充分发挥 Cloud TPU 性能。
苹果 M4 神经网络引擎原仅开放推理,X 用户 @0x0SojalSec 通过逆向工程,从零开发自定义 MIL 直接与芯片通信,绕开了软件限制。训练全程将数据放在 RAM 中运行,不写入 NAND 闪存以维持高速。解锁后 M4 可达 15.8TFLOPS AI 性能,足以承担模型训练。目前不确定该 MIL 能否用于更新的 Apple Silicon,exec() 命令在新平台上的兼容性也未知。
商汤科技与香港科技园签署合作备忘录,共同推进国产 AI 算力基础设施建设(AIDC),目标于 2030 年前形成 40000P+(PetaFLOPS)算力规模,打造全港最大国产智算中心。项目分阶段推进,首阶段预计今年年内完成。该中心配备多元国产算力 GPU 集群,为模型训练、推理及大规模应用部署提供算力支持,助力香港在金融、教育、医疗、城市治理、智能办公、内容生成等场景形成 AI 应用样板。
2026年6月9日,百度智能云与产业联盟在广州举办能源合作伙伴交流会,成立“百度智能云能源行业生态联盟”,首批21家成员覆盖算力基础设施、软件平台、解决方案及服务交付等领域。百度智能云依托文心大模型、飞桨深度学习平台、昆仑芯及百舸异构算力平台,形成全栈AI能力,并在电力巡检、风电场管理、电力交易等场景落地。黄埔区“黄埔1号”智算集群算力超12000P,推出算力券、模型券、场景券等扶持政策。国家人工智能应用中试基地已梳理出设备智能巡检、电力市场交易等数十个共性场景。
6月16日,中国信通院联合华为云、蚂蚁数科等10家企业共同启动“Token服务能力攀登计划”并发布首批攀登结果。首批企业均达到企业级通用场景Token服务性能基线:每秒输出Token数≥55 Token/s,首Token时延≤0.9s,调用成功率99.9%。截至2026年3月,我国日均词元调用量已攀升至140万亿次以上,较2024年初的1000亿次实现千倍跃升,较2025年底的100万亿次三个月内增幅超四成。