Claude Code团队工程总监Fiona Fung提出,AI时代软件工程瓶颈从“写代码太贵”转移至验证、评审与安全。团队采用JIT规划,先做原型再补文档;遇到重复工作追问“能否自动化”,形成肌肉记忆。代码评审中Claude承担60-70%风格检查与漏洞捕捉,人类聚焦法律、安全与产品判断。角色边界模糊,PM写代码、工程师用Claude起草文案,招聘看重品味与判断力而非代码产出速度。
同一事件,精选展示《Claude Code团队实践:智能体编程如何重塑工程组织与流程》Claude Code团队工程总监Fiona Fung提出,AI时代软件工程瓶颈从“写代码太贵”转移至验证、评审与安全。团队采用JIT规划,先做原型再补文档;遇到重复工作追问“能否自动化”,形成肌肉记忆。代码评审中Claude承担60-70%风格检查与漏洞捕捉,人类聚焦法律、安全与产品判断。角色边界模糊,PM写代码、工程师用Claude起草文案,招聘看重品味与判断力而非代码产出速度。
同一事件,精选展示《Claude Code团队实践:智能体编程如何重塑工程组织与流程》在Build 2026大会上,微软CEO萨提亚·纳德拉回应了数据中心环保争议。他介绍了位于威斯康星州的Fairwater AI数据中心新设计,该设施采用垂直化架构与三维机架布局,其冷却循环仅需初次注水,全年耗水量仅约相当于1家社区餐厅。纳德拉表示,微软Azure目前覆盖80个区域和500多个数据中心,过去18个月新增的容量已超过早期10年的总和。他强调,数据中心的扩张必须赢得社区许可,包括不推高电价、补充用水和创造当地就业等条件。
SparDA提出解耦稀疏注意力架构,在QKV外引入第四层投影Forecast,预测下一层所需KV块,使CPU到GPU预取与当前层执行重叠。GQA实现中每组使用一个Forecast头。仅增加<0.5%参数,训练仅更新Forecast投影。在8B稀疏预训练模型上匹配或略提升精度,实现prefill加速1.25倍、decode加速1.7倍;相比非offload稀疏基线,单GPU上decode吞吐量提升5.3倍。代码已开源。
多智能体系统(MAS)中自由自然语言通信会导致token浪费和上下文膨胀。分析五种通信策略后发现无固定策略最优,但有效消息总包含下游智能体所需的行动中心信息。为此提出PACT协议,将通信视为公共状态更新问题,把每个智能体原始输出压缩为紧凑的行动状态记录再写入共享历史。PACT在不同MAS拓扑中均能实现相当或更强任务性能,同时大幅减少token消耗:在OpenHands上以每个已解决问题token消耗减少10%的代价提升解决率,在SWE-agent上解决率不变但输入token减半。代码已公开。
Video2LoRA通过感知器超网络读取冻结视觉语言模型编码视频时的逐层中间表示,单次前向传播生成LoRA适配器,无需迭代梯度更新。在SmolVLM2 500M和2.2B上训练后,同一冻结VLM仅从适配器回答查询,上下文中零视觉token。在五个字幕基准和八个视频问答基准配对中,Video2LoRA非劣效且等价于直接视频上下文推理。虽仅用12帧384px训练,但稳定支持1024帧和1024px,将回答时视觉token负载减少最高1500倍,查询TTFT减少6–80倍。非重叠视频段独立生成的适配器可在秩空间中组合。
世界动作模型(WAMs)通过迭代扩散联合生成未来视频与机器人动作,但数十步去噪成本阻碍实时控制。Flash-WAM 提出模态感知步蒸馏:为动作流低噪声区采用线性梯度缩放参数化,为视频流高噪声区采用方差保持参数化,将推理压缩至单步。在 LingBot-VA 上实例化后,RoboTwin 2.0 每块延迟从 8.1 秒降至 348 ms(NVIDIA L40S),23 倍加速。仿真基准成功率保持(RoboTwin 2.0 85.5%,LIBERO 95.7%),真实世界 Unitree G1 人形机器人平均 60%,而朴素一致性蒸馏仅 24%。
在 Build 2026 上,英伟达与微软展示了覆盖端侧到云端的统一 AI 智能体部署栈。端侧发布了提供 1 petaflop AI 算力与最高 128GB 统一内存的 RTX Spark,以及搭载 GB300 芯片、可本地运行最高万亿参数模型的 DGX Station for Windows。云端,Nemotron 3 Ultra 推理模型上线微软 Foundry,Claude 模型也已在 Azure 的 GB300 系统中原生运行。数据层,微软 Fabric Data Warehouse 内置的 NVIDIA 加速计算使 SQL 执行速度最高提升至 CPU 基线的 6 倍。此外,微软位于威斯康星州的 Fairwater AI 工厂提前上线,并已完成对下一代 NVIDIA Vera Rubin 平台的验证,其推理吞吐量提升最高达 10 倍。
微软在 Build 2026 大会上宣布对 Windows 365 进行重大更新。此次更新推出了预装 VS Code、Git 等工具的 Windows 11 Developer Configuration Image(公开预览版),以加快开发者环境部署。新增 32 vCPU 和 GPU Select 套餐,满足高性能计算与图形工作负载需求。同时,正式发布 Windows 365 for Agents 平台,为企业 AI 智能体提供安全、可管理的专属 Cloud PC 运行环境。此外,Azure Compute Gallery 支持现已可用,Windows 365 Frontline 更名为 Windows 365 Flex。
微软开源发布 Adaptive Spec-driven Scoring for Evaluation and Regression Testing 框架。开发者可通过文本描述快速生成 AI 行为测试,用于模型评估与回归测试。
微软在 Build 2026 大会上正式推出 Microsoft Execution Containers(MXC)SDK 早期预览版,旨在为 Windows 及 WSL 上的 AI 智能体提供策略驱动的安全执行环境。该 SDK 提供进程隔离(适用于轻量级编码智能体)和会话隔离(将智能体环境与人类桌面完全隔离)两种核心模式。其未来路线图包括 Micro-VM、Linux 容器以及云端的 Windows 365 for Agents。目前,OpenClaw、NVIDIA OpenShell 等工具已支持集成。同时,微软宣布其多模型智能体扫描工具 MDASH 集成至 Microsoft Defender。
微软在 Build 2026 开发者大会上发布了面向开发者的 Windows 11 体验优化。核心更新包括将 WSL 容器内置到系统中,提供原生创建和操作 Linux 容器的方式。同时推出了基于 Rust 的 Coreutils for Windows,实现跨平台命令行工具兼容。微软还发布了实验性的 Intelligent Terminal 智能终端。在端侧 AI 方面,推出了更小更快的小语言模型 Aion 1.0 Instruct(将开源)以及 140 亿参数、上下文长度 32K 的 Aion 1.0 Plan 推理模型。硬件上发布了搭载 NVIDIA RTX Spark 的 Surface RTX Spark Dev Box,以及可本地运行 1 万亿参数模型的 DGX Station for Windows。
在Code w/ Claude SF 2026活动上,Claude Code工程团队分享了将智能体编程设为默认工作方式后带来的流程与结构变革。核心变化包括:规划转向即时(JIT)模式,强调快速原型与反馈;上下文收集变为“先问Claude”;代码审查中Claude处理风格与测试,人工专注于法律、安全等专业判断。新范式下,工程瓶颈从编写代码转向验证、审查与安全维护。
关联讨论 1 条X:邵猛 (@shao__meng)OpenAI 的 Codex 新增了插件、站点和注释等功能。这些新功能旨在帮助分析师、营销人员、设计师、投资者等各类团队,利用 AI 完成更多工作。Codex 进一步拓展其作为 AI 编码工具的应用场景,以支持更广泛的角色、集成更多工具并优化现有工作流。
关联讨论 5 条X:Rohan Paul (@rohanpaul_ai)X:OpenAI (@OpenAI)X:Sam Altman (@sama)IT之家(RSS)X:OpenAI Developers (@OpenAIDevs)福布斯实时富豪榜数据显示,软银创始人孙正义个人净资产升至1004亿美元,时隔26年再次成为亚洲首富。这主要源于其近期在法国宣布投资750亿欧元建设AI数据中心,以及软银对OpenAI的累计投资已超640亿美元并持有约13%股权。软银市值近期达49.30万亿日元,超越丰田,成为日本市值最高的公司。同时,软银2025财年归母净利润达5508亿日元,同比增4.7%,创历史新高。
联发科宣布其下一代芯片将独家采用英特尔的 EMIB-T 先进封装技术,取代台积电的 CoWoS 方案。该项目计划于 2026 年第四季度流片,并在 2027 年第四季度进入量产。EMIB-T 技术通过嵌入式硅桥连接组件,旨在降低制造复杂度和成本。英特尔为该工艺设定了 98% 的良率目标,当前验证良率约为 90%。谷歌的下一代 TPU 也在评估采用 EMIB-T。
由中国移动联合产业合作伙伴自主设计的全球首条S+C+L三波段超低损多芯光缆线路在山东青岛建成开通。该线路创新采用四芯光纤结构,实测每公里传输损耗仅0.189dB,纤芯间串扰低于-40dB/100km。技术突破将超低损耗特性从C、L波段拓展至S波段,实现三波段并行传输,单芯带宽提升近50%,单条光纤容量达到传统光纤的5倍以上,可满足AI智算等需求,标志着我国空分复用光纤技术商用化取得关键进展。
2026年美加墨世界杯将部署多项AI技术。阿迪达斯官方用球“Trionda”内置500Hz传感器芯片,每秒采集500次数据,与高速摄像机协同构建三维模型。国际足联将为1248名球员建立AI数字分身,通过3D扫描生成虚拟形象以辅助争议判罚。赛事还将首次推出裁判第一视角直播,并推出Football AI Pro知识助手,可解析逾2000项关键指标。
英伟达宣布其面向智能体AI工厂的下一代超级计算平台NVIDIA Vera Rubin已进入全面量产。作为该平台核心网络组件的Spectrum-X以太网硅光技术也已同步量产,这是全球首款采用光电一体封装(CPO)的以太网交换机。该技术采用200Gb/s SerDes,相比传统网络,能效提升5倍,AI整体正常运行时间提升5倍,部署时间加快1.3倍。Vera Rubin是英伟达第三代旗舰AI架构,其NVL72机柜可实现最高260 TB/s的互连带宽,智能体吞吐量较上一代提升10倍,生产规模扩大2倍。该平台正式出货预计于2026年秋季启动。
在台北电脑展期间,英伟达CEO黄仁勋公开称赞数据中心芯片公司美满电子(Marvell),称其网络和连接芯片对AI基础设施至关重要,并认为美满将成为“下一家万亿美元公司”。受此影响,美满股价在美股盘前大涨25%,其今年以来的累计涨幅已超过158%。此外,英伟达此前已承诺向美满投资20亿美元。
Alphabet正筹集800亿美元以扩展其AI基础设施,其中包含沃伦·巴菲特旗下伯克希尔·哈撒韦提供的100亿美元私人投资。该公司预计2026年资本支出将达到1900亿美元,并表示该数字未来只会继续增长。
技嘉在台北电脑展推出“AI TOP”桌面生态系统,包含三款AI台式整机。其中AI TOP 100 B850工作站采用AMD锐龙9 9950X处理器和128GB DDR5内存,最高可选配RTX 5090 32GB或AMD Radeon AI PRO 32GB显卡,声称至高可运行405B参数大语言模型。AI TOP 100 Z890搭载英特尔酷睿Ultra 9 285K处理器、128GB DDR5内存及RTX 5090显卡。旗舰级AI TOP 500 TRX50则配备24核48线程的AMD锐龙Threadripper PRO 7965WX处理器及最高768GB DDR5内存。
Ling-2.6-flash-base 是蚂蚁 inclusionAI 发布的基础模型,采用闪速规模 MoE 与混合线性注意力架构(7:1 融合 Lightning Attention 与 MLA),总参数量约 104B、激活约 7.4B。模型从 Ling-2.0 检查点改造而来,经约 9.6T token 的迁移预训练、继续预训练和中段训练,上下文窗口从 4K 扩展至 256K。在知识、推理、数学、代码和长上下文基准上相比前代均有提升(如 MMLU 84.13,GSM8K 91.89)。该模型面向研究用途开放,支持继续预训练、微调和蒸馏,未经聊天对齐。
腾讯云智能体开发平台宣布,自2026年6月3日起下调DeepSeek-V4系列模型的调用价格,其中DeepSeek-V4-Pro模型的推理输入与输出价格降幅达75%,缓存命中价格降幅高达97.5%;DeepSeek-V4-Flash模型的缓存命中价格降幅达90%。DeepSeek-V4系列模型发布于2026年4月,采用混合专家架构,总参数达1.6万亿,支持100万Token上下文长度。本次降价是在DeepSeek官方此前已调价基础上的平台层面调整。
Groq 正在进行新一轮融资。根据Zach Be在Substack发布于2026年6月2日的文章探讨,HN上有101个点赞。
JetBrains 发布开源模型 Mellum2。该模型为 12B 参数的 MoE 架构,在 10.6 万亿个 token 上训练,采用 Apache 2.0 许可,专为多模型 AI 流水线中的快速、专用任务设计。
OpenAI通过Amazon Bedrock提供GPT-5.5、GPT-5.4和Codex模型,价格与OpenAI自有平台一致。这些模型可在商业和政府AWS区域运行,但目前使用范围仅限于美国,用量将计入现有AWS合同。
OpenRouter 发布5月更新,推出语音与转录API、模型融合(Model Fusion)功能,并为平台添加了私有模型和企业工作区管控能力。此次更新共上线20个新模型,其中包括 Gemini 3.5 Flash 和 Claude Opus 4.8。
关联讨论 1 条OpenRouter:Announcements(RSS)通过从源码构建 NVIDIA Apex 并检测融合内核,对 Transformer 训练中的关键组件进行基准测试。内容涵盖了 NVIDIA Apex 提供的 FusedAdam 优化器与 FusedLayerNorm 层归一化的性能表现,并将其与 PyTorch 原生的混合精度训练工具 torch.amp 进行了对比。文章旨在实践验证这些工具在提升训练速度方面的具体效果。
OpenAI 的前沿模型与 Codex 平台现已在 AWS 上正式可用。这表明 OpenAI 将其核心 AI 能力扩展至亚马逊云服务,为企业用户提供了新的云平台选择。
Alphabet 宣布计划通过发行股票筹集 800 亿美元资金,这是其历史上规模最大的融资之一。此次融资所得资金将专门用于进一步扩展公司的 AI 基础设施和计算能力,以支持其在人工智能领域的持续发展和战略部署。
谷歌母公司 Alphabet 宣布进行总额 800 亿美元的股权融资,资金将用于投资 AI 基础设施与算力。此次融资具体包括:通过包销公开发行筹集 300 亿美元;按市值发行 400 亿美元股票;以及接受伯克希尔·哈撒韦 100 亿美元的私募投资。Alphabet 此前表示,其 2026 年资本支出将达到 1800~1900 亿美元,且 Google Cloud 业务在 2026 年第一季度营收同比增长 63%,积压订单规模超过 4600 亿美元。
微星推出 EdgeMesa N AI+ 迷你主机,搭载 NVIDIA RTX Spark 超级芯片,具备 20 核 CPU 与 6144 CUDA Blackwell GPU,支持最高 128GB 统一内存,FP4 稀疏 AI 算力可达 1 Petaflop。该主机后部配备 4 个 USB-C、1 个 HDMI 与 1 个 10GbE RJ45 网口,可通过 HDMI 和 3 个 USB-C 20Gbps 接口实现四屏输出。其紧凑设计适用于医疗、零售、金融、机器人和智慧城市等需要高性能 AI 计算的行业场景。
本文将推理预算分配建模为受经济学原理支配的全局约束优化问题。通过移位激增函数(shifted-surge function)量化每查询推理效用,推导出基于全局影子价格的最优分配策略,实现资源稀缺下边际效用均衡。据此提出的CLEAR方法,将资不抵债的查询理性放弃,资源重新分配给接近涌现阈值的可解查询。在多种推理任务与流量模式实验中,CLEAR显著改善总token成本与平均准确率的Pareto前沿,资源稀缺时全局准确率相比均匀分配最高提升3倍。
Agent libOS是一个运行在常规主机操作系统之上的运行时基底,将LLM智能体建模为可调度的AgentProcess,具备进程标识、父子关系、生命周期、工具表、类型化对象内存、显式能力、人工队列、检查点、事件和审计记录。其核心设计原则是:工具是类似libc的包装器,运行时原语(文件系统访问、对象访问、休眠、人工审批、JIT工具注册、外部副作用)作为权限边界,按显式能力和策略进行检查。当前Python原型实现了异步调度、命名空间局部对象内存、运行时集成的人工批准、一次性权限授予、每进程工作目录、shell与图像注册原语、Deno/TypeScript JIT工具、文件系统/对象桥工具、可注入的资源提供者基底,以及123个回归测试。Agent libOS旨在展示一个可调度、授权、恢复和审计长时间运行LLM智能体的运行时基底,而不将工具分发视为信任边界。
Alphabet计划通过出售股票筹集800亿美元资金,以支持其人工智能建设。
关联讨论 1 条X:Sundar Pichai (@sundarpichai)OpenAI的前沿模型与Codex现已在AWS上全面可用。企业客户可通过其现有的AWS环境、控制与采购流程来使用OpenAI的AI技术,从而加速从评估到生产部署的过程。
关联讨论 3 条X:Testing Catalog (@testingcatalog)X:OpenAI Developers (@OpenAIDevs)X:OpenAI (@OpenAI)OpenAI在密歇根州启动了名为Stargate的1GW数据中心项目。作为AI基础设施建设的一部分,该项目旨在扩大人工智能技术的可及性、为当地创造就业机会并支持社区发展。
关联讨论 1 条X:Rohan Paul (@rohanpaul_ai)Expanse是YC孵化的HPC/GPU集群优化工具,通过分析作业代码和硬件遥测来预测实际资源需求。它指出数据中心有效利用率通常仅30%-40%,一个国家规模HPC集群中59%的计算被浪费,按云上价格计算约850万美元/月。该工具能提供提交时的资源预测(含置信区间)、实时可观测性和故障诊断。在基准测试中,其性能是通用模型的8倍。Expanse适配Kubernetes和SLURM,通过持续学习使模型随作业量增长而更精确。
AI与机器学习技术正大幅加速通用汽车的产品开发流程,将CFD(计算流体动力学)和FEA(有限元分析)等任务的处理时间从15小时缩短至1分钟。现代汽车制造高度依赖虚拟化技术,包括CFD、FEA以及数字孪生,AI/ML的应用显著提升了这些模拟过程的效率,是当前汽车工程数字化转型的关键驱动力。
可扩展的企业AI采用需超越大语言模型,依靠智能体逻辑来引导模型执行动态、长周期且受约束的企业工作流,从而提升质量、降低成本并建立信任。文中以IBM watsonx Code Assistant for Z为例,展示了智能体逻辑如何通过程序分析等技术,在理解大型遗留代码库时,相比纯LLM基线方法,能以约30倍更低的token消耗达到更优性能。在加速测试生成任务中,该方法亦能使代码覆盖度提升20%-45%,同时token消耗降低最高达15倍。