惠普宣布与OpenAI达成Frontier战略合作伙伴关系,此前试点中一名工程师数周内用OpenAI模型处理了43个项目中的122个pull requests,安全团队一天修复多个软件bug(原估计需一个月)。惠普将把Frontier作为统一平台整合访问、上下文、部署与评估,覆盖定价、合作伙伴门户、客户支持、员工体验平台(WXP)及网络安全等场景,同时使用ChatGPT支持知识工作、Codex加速软件现代化与交付。Frontier提供从试点到生产环境的治理型运营模型。
惠普宣布与OpenAI达成Frontier战略合作伙伴关系,此前试点中一名工程师数周内用OpenAI模型处理了43个项目中的122个pull requests,安全团队一天修复多个软件bug(原估计需一个月)。惠普将把Frontier作为统一平台整合访问、上下文、部署与评估,覆盖定价、合作伙伴门户、客户支持、员工体验平台(WXP)及网络安全等场景,同时使用ChatGPT支持知识工作、Codex加速软件现代化与交付。Frontier提供从试点到生产环境的治理型运营模型。
福特重新聘用350名资深工程师(部分为前员工,部分来自供应商),原因是AI和自动化质量系统未达预期效果。首席运营官Kumar Galhotra表示公司此前过度依赖自动化质量系统,结果令人失望,因此召回技术专家在零件进入工厂前排查故障点。福特并未放弃AI,而是让这些“灰胡子”工程师培训年轻员工并重新编程AI工具。此举预计今年将节省10亿美元成本,福特本周还在JD Power初始质量调查中位列主流品牌榜首。
福特汽车在AI和自动化系统未达到预期质量后,重新雇佣了350名资深工程师,其中部分为前员工,部分来自供应商。首席运营官Kumar Galhotra表示,福特此前“越来越依赖自动化质量系统”但结果令人失望,因此请回技术专家在零部件进入工厂前查找故障点。负责车辆硬件工程的副总裁Charles Poon承认,“错误地认为只要引入AI并吸收设计需求就能产出高质量产品”。福特并未完全放弃AI,而是让返聘工程师培训年轻员工并重新编程AI工具。此举预计今年将节省10亿美元成本。福特还在本周发布的JD Power初始质量调查中位列主流品牌榜首。
Wayfinder Router 通过分析提示词的结构(长度、标题、列表、代码)和措辞(证明、数学、硬约束),在微秒级完成路由决策,完全离线且无需调用其他模型。默认仅使用结构特征,词汇线索因盲测未泛化而默认为关闭。对比依赖模型调用的路由器(如 RouteLLM、NotDiamond),它避免了延迟、成本和随机性。用户可在自有数据上校准评分阈值。支持任何 OpenAI 兼容 API(含 Ollama、Anthropic、Groq、vLLM 等),可自托管。提供终端和网页演示(--dry-run 无需密钥),以及基准测试和 FAQ。
内存芯片制造商美光受益于AI数据中心建设导致的DRAM和NAND(尤其是HBM)供应短缺,股价过去一个月飙升236%,市值接近1.27万亿美元,一度超越Meta和特斯拉。第三季度营收同比增至414.5亿美元,利润从18.8亿美元暴涨至282亿美元,并预测第四季度营收490至510亿美元。美光已与英伟达、Anthropic等签订16项长期战略客户协议。分析认为需求增长持续超过新产线投产速度,缺货(RAMageddon)预计持续至2027年。
Coinbase CEO Brian Armstrong 已将公司迁移至中国 AI 模型,采用智谱 GLM 5.2 和月之暗面 Kimi 2.7,token 用量攀升但支出减半。91% 的开发者从未触及旧用量上限。初创公司 Lindy 近期转向 DeepSeek V4,Snowflake 也在测试中国模型作为廉价替代品。Coinbase 部署自动路由系统,根据任务、价格和缓存潜力选择模型,缓存命中率从 5% 提升至 60%。开发者被要求保持上下文精简并开启新会话。公司让每位开发者用量透明但不设上限,Armstrong 表示“AI 支出越多,预期影响越大”。这些举措使 AI 总支出减半。同时,OpenAI 的 GPT-5.6-Sol 与 GPT-5.5 定价相同但更省 token,并推出两个廉价变体,加剧与 Anthropic 的价格战。
本文介绍如何配置两节点 AMD Strix Halo 集群,通过 Intel E810 (RoCE v2) 网卡实现 RDMA 互联,用于分布式 vLLM 推理(Tensor Parallelism)。硬件采用两块 Framework Desktop 主板(AMD Ryzen AI MAX+ "Strix Halo",128GB 统一内存)及 E810-CQDA1 100GbE 网卡,直连无需交换机。软件栈基于 Fedora 43,使用 Ray 编排集群、RCCL 通信。RDMA 延迟约 5µs(TCP/IP 为 70‑100µs)。涵盖 BIOS 设置、网络配置、工具箱安装及启动集群的详细步骤。
Meta 向谷歌申请的 Gemini 算力规模超出后者供给能力,谷歌现已对 Meta 调用其 Gemini 大模型实施使用限制。Alphabet 约在今年 3 月告知 Meta 无法满足所需算力,导致 Meta 多项内部 AI 项目受阻延期。Meta 已要求员工节约使用模型 token。谷歌一季度云营收达 200 亿美元,CEO 皮查伊表示算力供给瓶颈制约云业务增速,同时令云部门积压订单量环比近乎翻倍。
福特因激进采用AI质检系统导致成本损失数十亿美元,三年内返聘350多名资深工程师(内部称“gray beards”),负责质量审查并帮助改进AI。首席运营官Kumar Galhotra承认自动化系统未达预期,经验丰富的工程师能预先发现故障点。返聘后,福特在J.D. Power年度新车质量调查中16年来首次获得主流品牌排名第一。公司表示不会放弃AI,但未来将结合人类监督与经验使用该技术。
深圳开鸿数字产业发展有限公司 CEO 王成录宣布,全国首个开源鸿蒙机器人操作系统 M-Robots OS 正式完整捐献至开放原子开源基金会,专属一级根社区同步启动运营。该系统 1.0 版本于 2025 年 4 月发布,今年 5 月升级至 2.0 版本。2.0 版本具备积木式框架、混合部署、自研 M-DDS 分布式通信、硬件能力及算法共享、AI 原生及中间件生态兼容等核心能力,其中本体间音视频时延低至 4 毫秒,应用迁移成本降低 80%。
软银CEO孙正义在股东大会上批评马斯克的轨道数据中心构想,认为其成本高、周期长,而AI竞赛未来几年比十年后的可能性更重要。SpaceX目前占据全球发射市场80-90%份额,主要依赖Starlink业务;建设需要每隔几年更换卫星的轨道数据中心将为SpaceX带来更多发射业务。同期,芯片公司Groq完成6.5亿美元融资,OpenAI推进定制芯片计划。
HuggingFace Jobs 支持一条命令启动 vLLM 服务器,用于测试、评估或批量生成。使用 hf jobs run 命令,指定官方 vllm/vllm-openai 镜像、GPU flavor(如 a10g-large)、暴露端口 8000 并设置超时。服务器启动后可通过 OpenAI 兼容 API 访问,每次请求需携带 HF token 作为 bearer token(仅限有读权限的用户)。示例部署了 Qwen/Qwen3-4B(多 GPU 需 --tensor-parallel-size)。a10g-large 价格为 $1.50/小时,按分钟计费,可通过 hf jobs cancel 停止。
DeepSeek 发布 DSpark 投机解码框架并开源检查点与训练代码。该框架不是新模型,而是在 DeepSeek-V4 权重上附加草稿模块,通过半自回归生成(并行骨干 + 轻量级顺序头)实现无损加速。生产环境下,DeepSeek-V4-Flash 和 V4-Pro 每用户生成速度较 MTP-1 基线分别提升 60–85% 和 57–78%。离线测试中,接受长度比 Eagle3 高 26–31%,比 DFlash 高 16–18%。配套 DeepSpec 训练代码库采用 MIT 许可证。
作者收到伪装成新加坡VC Lua Ventures的虚假面试邮件,要求完成一个TypeScript仓库的“测试”。作者将仓库交给Claude扫描,在typescript+5.9.2.patch中发现base64混淆载荷,该载荷在patch-package安装时触发,向~/.cache-等目录写入payload.js和mutex.js,构成后门(命名PinpinRAT)。攻击者使用虚构身份和空洞LinkedIn资料,目标是作者在crates.io上的Rust包。相关信息已报告加拿大CCCS等机构。
华为宣布,基于OceanStor A800存储搭建的“鹏城云脑Ⅲ”系统登顶IO500 Full List与Research List榜首,总分603,334.58分,带宽8,291.11 GiB/s,元数据性能43,903,983.64 kIOP/s,整体性能较此前最高纪录提升2.8倍。测试部署664个计算节点、79,680个并行进程,历经13项测试用例。OceanStor A800采用对等全互联架构与数控分离架构,DPU直通SSD,单框吞吐量500GB/s,支持双向扩展,单集群最多512个控制器,聚合带宽超100TB/s,并内置DataTurbo加速引擎与智能缓存换出机制。
DeepSeek 联合北京大学发布 DSpark 推理加速框架,已部署于 DeepSeek-V4-Flash 与 DeepSeek-V4-Pro 预览版。DSpark 采用半自回归架构与置信度调度验证机制,在同等吞吐量下将单用户生成速度提升 60% 至 85%。在 Qwen3 系列和 Gemma4-12B 的离线测试中,DSpark 平均每轮接受长度优于 Eagle3 和 DFlash。生产环境下,V4-Flash 引擎在 80 token/s SLA 下吞吐量提升 51%,120 token/s 时提升 661%。相关论文、训练代码已在 GitHub 开源。
美满电子(Marvell)6月24日发布Structera X和Structera A两款CXL控制器,集成CDB压缩-解压硬件模块,实现内联LZ4无损压缩。压缩比最高3.64x(Database nci数据),全零页面达64:1。Structera X定位CXL内存扩展,支持DDR5/DDR4,最大6TB/4TB容量,200 GB/s带宽,配备4个ARM Cortex-M7核心;Structera A面向近内存加速,集成16个Arm Neoverse V2核心、64MB末级缓存及4个DDR5-6400通道。两者均支持内联XTS-AES 256位加密,为首批将硬件内联内存压缩写入OCP规格的产品。
埃隆·马斯克已获美国联邦贸易委员会(FTC)批准,收购由SpaceX前员工创立的Mesh Optical Technologies Corp.。Mesh主要设计面向AI数据中心的光通信收发器,可将电信号直接转换为光信号,解决传统铜缆在传输速度、带宽和发热上的物理瓶颈,实现服务器与GPU之间接近瞬时的数据传输。2026年2月,Mesh完成了5000万美元(约合3.4亿元人民币)A轮融资。
OpenAI 联手 Broadcom 发布 Jalapeño 定制推理芯片,加入 Google、Apple、SpaceX 等自研芯片行列。定制硅意味着更多控制权、针对特定需求的硬件优化以及性能提升,旨在降低对 Nvidia 单一供应商的依赖,形成对冲而非彻底脱钩。
AI成本正困扰企业:Uber 4个月花光全年AI预算,微软等公司削减员工AI支出。前沿模型价格高昂,如GPT 5.5每百万输入/输出token分别收费5美元和30美元,作者用该模型修复50个TypeScript文件花费54美元。成本不可持续的原因包括:模型性能提升趋缓;开源权重模型GLM-5.2在编码测试中表现不输前沿模型,成本仅为GPT 5.5的1/10;专用芯片(TPU比H100便宜30-70%)和MoE架构改进持续降低推理成本;零转换成本使用户可瞬间切换模型;本地模型将在4-5年内因芯片进步和RAM降价普及,进一步压低云端需求。
openEuler 24.03 LTS SP4 于6月25至26日发布,基于6.6内核LTS,面向服务器、云计算、灵衢超节点和AI场景,升级弹性内存、64K内核、AI图编译器、虚拟化优化、低时延通信、Agent沙箱、推理软件适配和智能调优。哈萨克斯坦自由云加入社区成为首家境外实体生态伙伴。麒麟软件、麒麟信安、软通天鹤AIOS、超聚变FusionOS 26、天翼云CTyunOS、联通数科CUOS等伙伴展示了在智能运维、高可靠场景、AI原生OS等方向的落地应用。
面壁智能在第四届链博会上展示端侧AI全链能力,涵盖模型研发、芯片适配、终端部署到产业应用和生态协同。以“密度定律”提升单位参数智能密度,已围绕高效模型、端侧推理、软硬协同、多模态交互形成系统能力,完成多类主流芯片适配。现场展出智能体平台PilotDeck,可根据任务难度自动调度模型、控制推理成本,并能挂载端侧模型处理隐私敏感任务。面壁智能正与芯片、终端、行业伙伴共同推动端侧AI在汽车、手机、PC、机器人等设备上规模化落地。
百度千帆宣布Coding Plan产品升级,后续将逐步迁移至Token Plan个人版。即日起现有Coding Plan套餐停止续费,7月初通过Token Plan提供更丰富模型选择和灵活使用方式。已购买用户可继续使用至当前周期结束;自动续费用户自公告发布30日后自动失效。升级用户可一键迁移,获得Token Plan对应套餐完整权益,已使用的Coding Plan额度重置,原套餐剩余有效期顺延一个月。
高通与 Hugging Face 宣布扩大合作,携手构建从端到云无缝衔接的 AI 开发生态。Hugging Face 的 AI 存储和推理服务将适配高通 Dragonfly“飞龙”数据中心解决方案。其生态中百万量级 AI 模型将通过智能体接入高通平台,加速在芯片终端与数据中心机架上的部署。Hugging Face 还向使用高通芯片的客户提供 PRO 专业版访问权限。双方计划共同支持分布式 AI 框架,使智能体在端、云平台之间灵活流转。
OpenAI 与 Broadcom(博通)合作开发的 LLM 优化 AI 推理 ASIC 芯片 Jalapeño 基于台积电 3nm 工艺制程,由台积电负责晶圆代工,目标在今年底实现初步部署。双方第二代 AI ASIC 项目则有望导入台积电 A16 节点,利用背面供电技术提升密度与性能。
6月25日,中国人工智能产业发展联盟正式启动词元服务工作组筹备,由中国信通院牵头,联合华为云、百度智能云、中国移动等22家单位。工作组致力于解决Token服务性能、安全可信、计量计费不规范等问题,将推进标准体系、能力攀登计划、跨境流动、国产自主可控等八项任务,覆盖生产、流通、应用、运营全流程,并构建绿色Token服务生态。
ReFreeKV 提出一种无阈值的 KV 缓存压缩方法,通过自适应调整预算分配来消除对输入特定阈值的依赖,解决了传统方法因阈值选择不当导致的性能退化问题。在涵盖不同上下文长度、任务类型和模型规模的 13 个数据集上的实验表明,该方法在保持全缓存性能的同时实现了高效压缩。相关代码已公开。
华为与湖北移动基于OceanStor A800存储与昇腾A3超节点架构,搭载UCM(推理记忆数据管理)技术,完成全国运营商首个AI推理加速方案现网测试。针对MiniMax M2.5、GLM-5.1等模型,在8K至190K长序列场景下,Token吞吐率最高提升372%。其中MiniMax M2.5下首Token延迟(TTFT)优化26%~62%,单NPU卡TPS在64K序列提升58%、128K提升78%;GLM-5.1下TTFT优化51%~93%,TPS提升56%~372%。
Meta 在 Privacy-Aware Infrastructure (PAI) 的资产分类中采用混合模式:先构建含代码、血缘、语义标注的上下文证据,再调用 LLM 处理歧义、冷启动和新颖资产;人工审核标签与模型推荐严格隔离。LLM 不直接做生产决策,其稳定行为被蒸馏为版本化确定性规则用于生产执行,LLM 角色随规则积累逐步缩小。核心原则:上下文比提示词更重要、解耦评估与优化、将稳定行为规则化。
Google Research 与 Google Cloud 提出线性弹性缓存,将缓存管理转为线性成本优化问题,动态调整大小以最小化总拥有成本。为每条数据引入“滑雪租赁”决策框架,在租用内存(持续付费)与购买缺失(缓存未命中惩罚)间选择,并用轻量级机器学习实时优化内存占用与缺失率权衡。无服务器云场景下(每 GiB 内存每天 $3),该技术可在不牺牲性能的同时显著降本。论文发表于 CIDR。
福特汽车公司重新聘用了350名工程师,原因是其部署的AI系统未能有效保留资深工程师的专业知识,也无法对初级员工进行培训。据彭博社报道,福特曾尝试用AI替代部分经验传承和培训职能,但结果未达预期,因此不得不重新召回已离职或退休的资深工程师。此举凸显了当前AI在复杂工业领域知识转移和人才培养方面的局限性。
Google Research提出一种新架构,在已冻结的Gemini Nano v3模型上改造Multi-Token Prediction(MTP),以加速Pixel 9和10系列上的设备端推理。该方法基于EAGLE框架和CALM,无需单独训练占用内存的草稿模型,通过“晚期退出”策略实现加速。AI通知摘要和校对功能因此生成文本速度显著提升、能耗降低,开发者无需为每个新任务微调独立模型。
SGLang 为 DeepEP MoE 推理新增两种调度时负载均衡方法:Waterfill 将共享专家分配给负载更低的 rank,在 DeepSeek-V3/R1 服务负载下使总吞吐量提升 1.48% 至 4.66%,在 DeepSeek V4 上最佳点从 49,253 tok/s 提升至 51,677 tok/s(+4.92%);LPLB 基于线性规划优化冗余专家副本的 token 路由,配合 EPLB 在相同集群上实现吞吐量提升 0.84% 至 7.34%。
为期三天的2026上海世界移动通信大会6月24日开幕。华为轮值董事长汪涛发表演讲。展会期间,华为携手中国移动、中国联通、中国电信发布5G-A大上行、AI焕新主营业务、Token经营等创新成果,并发布AI-Centric目标网。5G-A用户数已破亿。U6GHz被认定为下一代频谱,超20个国家和地区已明确用于国际移动通信;2026年是U6GHz商用元年,中东、中国香港、中国澳门等将启动商用部署。中国移动与华为的无线网络智能化方案获“亚洲最佳AI驱动网络解决方案奖”等两项大奖,已在六大省市试点,网络质差工单自动闭环率提升至15%,额外节能增益达5.5%。
福特近日首次登顶JD Power初始质量排名主流车企第一,但承认过度依赖自动化系统导致质量问题。福特车辆硬件工程副总裁表示,公司错误认为引入AI就能产出高质量产品,但资深工程师的经验未能完全转移至自动化系统。为此,福特雇佣、晋升或召回超350名经验丰富的工程师重建专业知识层,并改进数据采集与AI训练。同时成立40人软件质量保证团队,新增超10万项AI驱动测试,从“发现-修复”转向预防问题。
亚马逊周四宣布,到2030年将在印度追加130亿美元,用于扩建AWS在孟买和海得拉巴的数据中心容量。这是亚马逊三年内对印度的第三项重大承诺:2023年承诺投资150亿美元(含127亿美元AWS),2025年12月承诺超350亿美元,目前在印总投资承诺累计达480亿美元。微软12月承诺2029年前投资175亿美元,谷歌10月承诺150亿美元建设AI枢纽和数据中心。亚马逊今年还将在印新增20多个物流中心和100多个末端配送站,并计划将即时零售服务Amazon Now扩展至300多个城镇。
英伟达CEO黄仁勋在年度股东大会上表示,人工智能代表计算模式的根本性转变,从检索存储转向生成智能。Token是智能的基本单位,在“AI工厂”中被制造,计算能力越强,生成的Token越多,收益越丰厚。AI基础设施建设周期将长达数十年,类比电网、交通系统和互联网,有望成为人类历史上规模最大的基建项目。AI智能体正在加速投资,因为AI首次能胜任实质性工作并创造真实经济价值。
浦发银行全行已上线超2500个金融智能体,近200个深度嵌入真实业务流程,覆盖营销、风控、运营等核心场景。智能体采用低代码与高代码结合、商用与开源模型互补的研发模式,并首创“三态管理”(创设、发布、运行)适配金融强监管。财报智能识别分析智能体将企业财报录入、校验与分析流程从数小时压缩至分钟级。百度智能云提供四层金融AI基础设施,包括昆仑芯国产芯片、异构算力平台、金融专精大模型及全流程AI治理平台。浦发银行计划推出面向C端的数字客户经理与数字分身,以对话交互实现“对话即服务”。
当同时启用Tool Calling与JSON Schema约束时,多个开放权重LLM出现工具调用抑制(Tool Suppression)。控制实验在多模型与部署设置下复现了该现象。分析表明,JSON Schema约束被编译成基于语法的token掩码,导致工具调用token在解码中不可达。研究提出约束优先级反转(CPI)假设,并设计透明两遍执行(Transparent Two-Pass Execution)推理策略,将工具执行与模式约束响应生成解耦,无需重训练即可恢复工具调用并维持结构化输出。结果表明,单独评估工具使用与结构化输出可能掩盖生产Agent系统的可靠性问题。
联想昨日发布问天超节点算力解决方案,单节点可搭载40张GPU,FP8算力超28 PFLOPS,HBM显存突破5.76 TB,访存总带宽超80TB/s,百纳秒级芯片P2P单向时延,支持40卡/32卡配置,采用无线缆正交直插架构,兼容标准19英寸机箱,部署周期压缩至数小时。同时发布的万全异构智算平台V5.0升级两大技术:集群训推加速技术通过分层解耦PD分离架构和KV Cache共享缓存优化提升资源利用率;芯模编译优化技术实现计算图自适应匹配与算子自动生成,适配多元算力芯片生态。