针对长上下文场景下FP4量化推理的质量下降问题,ThriftAttention提出了一种低比特注意力变体。该方法首先通过启发式策略快速识别出少量关键的query-key块对,对其使用FP16精度计算,其余块使用FP4计算。最后,两路计算结果通过在线softmax合并。实验表明,仅对5%的块使用FP16计算,该方法就能平均恢复FP4与FP16间89.1%的性能差距,且优势随序列长度增加而更加显著。
针对长上下文场景下FP4量化推理的质量下降问题,ThriftAttention提出了一种低比特注意力变体。该方法首先通过启发式策略快速识别出少量关键的query-key块对,对其使用FP16精度计算,其余块使用FP4计算。最后,两路计算结果通过在线softmax合并。实验表明,仅对5%的块使用FP16计算,该方法就能平均恢复FP4与FP16间89.1%的性能差距,且优势随序列长度增加而更加显著。
针对超大规模大模型推理,ZCube网络架构通过取消Spine层、将Leaf交换机分组并全互联等创新设计,有效解决了推理网络的拥塞问题。该架构在集群实测中,实现了交换机与光模块资本支出减少33%、GPU平均推理吞吐提升15%,同时将首token延迟的P99值大幅降低40.6%,在降低成本的同时显著提升了推理性能。
关联讨论 1 条X:智谱 Z.ai (@Zai_org)英伟达在最新季度财报中公布了创纪录的营收数据,但同时预测下一季度的收入增长将出现放缓。财报同时披露,该公司在初创企业的投资组合规模已达到430亿美元。这一数据反映了英伟达在人工智能芯片主导地位之外,通过战略投资深度参与科技生态系统的扩张策略。营收持续增长与未来放缓的预期,共同勾勒出当前高性能计算市场需求旺盛但可能面临波动的发展态势。
Google Research的TurboQuant算法已通过Turbovec项目应用于向量搜索领域。该工具以Rust语言构建,提供Python绑定接口,可直接集成到RAG流水线中。Turbovec实现了16倍的向量压缩率,同时无需进行任何码本训练,显著降低了部署和使用门槛。
Anthropic美国中端市场业务负责人Travis Bryant利用Claude Cowork自动化销售管理工作。该工具帮助他高效完成客户倾向性评分、每日客户简报准备及每周销售预测报告生成,每晚自动处理4000个账户数据,替代了以往跨部门团队需数百小时完成的工作。通过自动化日常任务调度,他每天节省约90分钟,并将数据整合为可交互的销售仪表板,使其能更专注于客户沟通与战略决策。
AMD 发布其 AI 开发迷你主机锐龙 AI Halo,定价 3999 美元(约合人民币 27276 元),计划于 6 月下旬开启预订。该机型搭载锐龙 AI Max+ 395 处理器,配备 128GB LPDDR5x 内存与 2TB SSD,并支持万兆网卡及 Wi-Fi 7,官方称其每月可为开发者节省约 750 美元的云服务费用。同期,AMD 还推出了代号为“Gorgon Halo”的锐龙 AI Max 400 系列处理器,该系列在 300 系列基础上提升了 CPU/GPU 频率与 NPU 算力,最大统一内存容量可达 192GB,其中 160GB 可分配为显存。
阿里云在峰会上宣布,其百炼平台将继续保持开放接入策略。除了自研的千问模型矩阵,平台还将上架智谱GLM-5.1、MiniMax M2.7、月之暗面Kimi K2.6等多款第三方模型,并通过千问云官网全面售卖。此举旨在打造“AI时代最开放的云”,为用户提供“一个入口、多模型可选”的一站式服务。此前,平台已上线DeepSeek-V4-Pro与DeepSeek-V4-Flash模型,其API定价与DeepSeek官网基本一致,其中Flash版本价格最低。
第13届ASC世界大学生超级计算机竞赛总决赛于5月20日在江苏无锡落幕。本届赛事吸引全球25支高校队伍,在量子计算、人工智能等领域激烈角逐。最终,北京大学代表队夺得冠军,清华大学代表队获得亚军,中国高校包揽了赛事前两名。该竞赛由中国发起,已累计吸引全球超过万名大学生参赛,是AI时代重要的青年科技实战平台。
该框架针对3D高斯溅射训练中参数规模远超GPU内存的难题,提出了核外训练方案。它利用训练过程固有的稀疏性,将GPU内存作为工作集缓存,并通过SSD-CPU-GPU层级结构协同管理参数。关键技术包括虚拟化块几何以提升I/O局部性、异步分层流水线实现计算与I/O重叠、以及轨迹自适应差分流以高效传输增量数据。实验表明,TideGS仅需单张24GB显卡即可训练超过十亿高斯,并在大规模场景中达到了所评测单GPU基线中的最优质量,相比此前方法实现了数量级的规模突破。
模拟芯片厂商Analog Devices (ADI) 正式宣布以15亿美元现金收购Empower Semiconductor,交易预计于2026年下半年完成。ADI此举旨在获取Empower在支持AI数据中心的高效率供电器件领域的关键技术,包括已投入生产的硅电容器和正在推进的集成电压调节器(IVR)项目。ADI首席执行官Vincent Roche表示,AI基础设施正在重塑电力交付方式,能源成为下一代系统扩展的关键限制,通过此次收购,ADI将进一步扩展电源管理产品组合,帮助客户重新设计电力系统以满足AI对计算密度的需求,其技术影响将远超数据中心领域。
三星电机宣布与一家全球大型企业签订为期2年的硅电容供应合同,总价约1.5万亿韩元(约合68.34亿元人民币)。这是该公司在硅电容业务领域获得的首个大规模订单。硅电容主要用于AI服务器GPU及HBM等高性能半导体封装内部,可在芯片附近消除噪声、稳定供电,其电阻不到传统MLCC电容的百分之一,支持高密度集成,适用于广泛电压与温度环境。
谷歌宣布将于2026年6月18日停止其命令行工具Gemini CLI的服务。该工具届时将不再可用,其功能将过渡到全新的Antigravity CLI工具。此消息由谷歌开发者博客发布,目前在Hacker News上获得了超过100点的热度关注。
OpenAI for Singapore 宣布启动一项多年期人工智能合作计划,重点扩展 AI 技术在新加坡的部署范围,加强本地人才队伍建设,并为企业及公共服务部门提供 AI 支持。该合作旨在通过资源整合,推动新加坡在 AI 领域的竞争力提升,加速技术创新和应用落地,覆盖商业与公共领域的数字化转型需求。
现有投机解码方法为提高接受率而构建庞大草稿树,导致显存带宽和计算开销激增,反而制约了加速效果。动态剪枝虽能降低延迟,但会损失有效候选,无法达到理想接受率。为此,研究提出了Graft补偿框架,通过“剪枝-再嫁接”的机制,利用剪枝释放的计算预算驱动检索操作,用检索到的高预测性令牌补偿剪枝造成的覆盖损失,从而在近零额外开销下恢复接受长度。该方法无需训练且无损性能,在短上下文、长上下文及大规模模型等多种场景下建立了新的性能前沿。实验表明,它在短上下文任务中最高可实现5.41倍加速,并在大规模Qwen3-235B模型上将平均加速比相比EAGLE-3提升了高达21.8%。研究还初步探索了该方法在DFlash分块草稿范式中的应用潜力。
TechEx 北美展第二天的 AI 与大数据议程中,频繁提及“AI 墓园”一词,指代大量未能转化为持久系统的试点项目。会议核心议题是“证明价值”,其中企业 AI 实施、投资回报率(ROI)与采纳专场,重点讨论了 AI 应用从试点走向生产部署过程中所面临的“艰难中间地带”。
交通安分析依赖整合事故记录、道路属性等地理空间数据,但许多机构和社区利益相关者因技术门槛难以使用。该论文提出了一个基于数据模式的自然语言接口,利用大语言模型(LLM)解释用户查询意图,同时通过结构化语义帧、规则验证层等设计,将查询转化为确定性的空间操作图并在PostGIS数据库上执行,确保了结果的可重复性与可审查性。该框架在马萨诸塞州全州数据库上进行评估,所有查询均成功执行,且验证层修正了29%的查询错误。
自回归视频扩散模型在实时视频生成与世界建模中潜力巨大,但其高昂的推理成本亟待量化技术来缓解。研究发现,现有量化方法直接应用效果欠佳,主要面临两大挑战:一是自回归生成中的误差累积导致帧间量化敏感性严重失衡;二是权重中存在显著且模式多样的异常值通道。为此,本文提出Q-ARVD量化框架,通过引入质量感知的帧加权机制来平衡帧间差异,并设计异常值感知的自适应双尺度量化方法以隔离和保护正常通道。大量实验验证了该框架在提升量化模型性能上的显著优势。
OpenAI 宣布推出“保证容量”服务,允许企业客户签订一至三年合约,长期锁定其AI算力资源。该服务根据客户的年消费水平提供阶梯式折扣,确保其生产系统、客户应用及AI智能体的专用算力供应。此举旨在应对当前算力紧缺环境,使企业能够将算力扩展与长期业务增长和AI部署规划相匹配,客户可在OpenAI支持的云服务商及模型范围内灵活使用所承诺的额度。
本次更新为Claude Code工具带来了多项功能增强与问题修复。新功能包括:新增JSON格式的会话列表命令以便脚本化操作,并在OTEL追踪中完善了Agent父子关系。插件浏览界面现可预览详细信息。在稳定性方面,修复了权限提示被绕过的安全问题、MCP参数校验错误、终端窗口调整后的显示冻结,以及非ASCII名称导致的API调用失败等问题。同时改进了Read工具的文件超限处理,并优化了任务列表排序和状态栏信息显示等交互细节,整体提升了工具的易用性与可靠性。
在2026年I/O开发者大会上,谷歌宣布推出Antigravity 2.0,这是一款围绕智能代理编排构建的独立桌面应用程序。同时发布的还包括Antigravity命令行工具(CLI)和软件开发工具包(SDK),并在Gemini API中引入了托管代理功能。此外,通过Gemini Enterprise提供企业级支持。此次发布标志着谷歌从工具集成迈向构建完整代理开发生态的重要转变。
针对长上下文大语言模型服务中INT2 KV缓存量化精度下降的问题,本文提出OSCAR方法。其核心是通过离线估计注意力实际使用的协方差结构,推导出固定的旋转矩阵和裁剪阈值,使KV缓存量化与下游注意力计算对齐。实验表明,OSCAR显著提升了量化精度:在Qwen3-4B和Qwen3-8B上,其与BF16的差距分别缩小至3.78和1.42个百分点,而朴素旋转方法性能几乎崩溃。该方法在更大模型及128K长上下文测试中表现稳健。在系统层面,OSCAR将KV缓存内存占用降低约8倍,并将大批次吞吐量提升最高达7倍。
InsForge是一个专为AI编码智能体设计的一站式开源后端平台。它通过MCP Server和CLI+Skills两种接口,让智能体能像后端工程师一样直接操作数据库、认证、存储、边缘函数、模型网关等全套后端服务,从而端到端地构建全栈应用。平台支持云托管与基于Docker的自托管,可一键部署至Railway、Zeabur等主流平台。
毕马威宣布与Anthropic建立全球联盟,将Claude人工智能模型全面整合至其核心业务与数字平台。此举将向毕马威全球超过27.6万名员工开放Claude访问权限,并率先应用于税务与法律等领域的客户工具开发。双方还将合作开发面向私募股权投资组合公司及网络安全漏洞检测的新产品。毕马威强调此次合作基于其可信AI框架,旨在通过负责任、可治理的AI部署,加速企业数字化转型。
在2026年5月19日的AMD AI开发者日活动上,AMD董事会主席兼首席执行官苏姿丰亲自签名确认了极摩客(GMKtec)的新品迷你主机EVO-X3和EVO-X2。其中,EVO-X3首次公开亮相,基于AMD锐龙AI Max+ 395处理器,支持高达128GB的LPDDR5X-8000内存,并提供原生OCuLink接口,增强了外部设备连接能力。展机还搭载了江波龙的AI存储智能体方案,进一步提升了存储智能和效率。这次发布不仅突显了极摩客在硬件配置上的显著升级,也为迷你主机市场带来了更高性能的选择,适合开发者和对计算能力有要求的用户。
Anthropic为其Claude智能体托管平台推出两项更新:自托管沙箱允许用户在自有基础设施或合作云平台上运行工具,确保敏感数据与服务保留在用户控制范围内;MCP隧道则通过轻量网关,使智能体能安全连接企业私有网络内的数据库与API,无需暴露于公网。目前沙箱功能已进入公测,隧道处于研究预览阶段。这两项更新进一步增强了企业用户对智能体执行环境与内部资源访问的安全管控能力。
2026年,企业自主AI已从试点阶段全面进入生产部署。本文综合评估了当前表现最优的十个平台,包括Salesforce Agentforce、Microsoft Copilot Studio、ServiceNow和LangGraph等,并提供了经过验证的定价信息、真实的采用数据以及客观的局限性分析,旨在帮助企业团队做出明智的平台选择决策。
腾讯云宣布,其智能体开发平台提供的 Hy3 preview 与 DeepSeek-V4-Pro 模型,将于2026年5月27日10:00起结束限时免费公测,转为正式商用服务。后续将根据模型调用量按需计费。该平台采用“订阅+增购包”的收费模式,提供免费版及多款付费套餐(如专业版188元/月、企业版4880元/月),用户还可选购预付费资源包,年付套餐可享8.33折优惠。
LongLive-2.0 是首个支持训练与推理一体化的NVFP4并行基础设施,旨在解决长视频生成中的速度与内存瓶颈。训练阶段提出序列并行自回归方法,结合NVFP4精度以降低显存成本并加速计算,且视频越长效率提升越显著。该系统直接将扩散模型训练为长视频多镜头自回归模型,并支持通过LoRA权重转换为实时生成模式。推理阶段在Blackwell GPU上启用W4A4量化与异步流式解码,在其他架构上则通过序列并行匹配其速度。实验表明训练最高加速2.15倍,推理加速1.84倍,其5B模型可达45.7 FPS并在基准测试中表现优异。
本文提出零专家自蒸馏适应框架,将训练完成的静态混合专家模型转换为高效动态模型。该方法通过在每个混合专家层注入零输出专家,并利用原始模型作为冻结教师进行两阶段自蒸馏适应,以实现稳定的架构转换。在两个大型开源模型及11个基准测试上的实验表明,该方法能消除超过50%的专家计算量,同时仅带来极小的准确率损失,并显著提升端到端推理速度。
研究人员提出结构化牛顿层级并行(SNLP)框架,解决自回归语言模型中Transformer层顺序执行的延迟瓶颈。该方法将层间隐藏状态演进视为非线性方程,采用廉价的结构化牛顿更新并行求解。训练阶段引入SNLP感知正则化,使模型通过少量迭代近似顺序前向传播,提升层并行兼容性并降低标准困惑度4.7%-23.4%。推理时,SNLP结合层融合与分块分解,在0.5B Nanochat模型上实现2.3倍加速,困惑度改善6.1%。研究同时指出预训练模型效果有限且精确收敛会退化为顺序计算。
谷歌与黑石集团宣布合作成立一家新的AI云服务公司,黑石率先投入50亿美元股权资本,结合后续杠杆,总投资规模预计约250亿美元。该公司计划依托谷歌自研的TPU芯片和云基础设施,与CoreWeave等算力服务商展开竞争,并争取在2027年上线容量达500兆瓦的数据中心,相当于一座中等城市的用电规模。此举标志着谷歌迄今最大规模的对外芯片商业化尝试,将加剧与英伟达等公司在AI算力市场的角逐。
中国移动于5月15日推出“超千兆宽带”,速率可从传统千兆升级至2000Mbps,并依托Wi-Fi 7与FTTR技术实现全屋高速覆盖。同日,浙江移动推广万兆光网,温州试点小区实测下行速率超9000Mbps,计划2026年建成1000个万兆小区。此外,移动同步升级了爱家亲情网、服务及灵犀智屏,增强家庭互联与智能体验。
英伟达向Anthropic、OpenAI、SpaceXAI和甲骨文交付首批Vera CPU,标志其专为Agentic AI设计的处理器正式量产。Vera是英伟达首款定制CPU,采用88个自研核心,内存带宽达1.2TB/s,单核性能较前代Grace提升50%,并搭载1.5TB内存。甲骨文计划2026年起部署数十万颗,该芯片将用于独立服务器及Vera Rubin平台,支持高吞吐推理与智能体工作负载。
5月18日,东软医疗自主研发的中国首台宽体光子计数CT在沈阳下线,即将交付兰州大学第二医院。这标志着国产光子计数CT正式迈入量产交付阶段。该设备采用碲锌镉探测器等全链核心技术,实现了超高清(50lp/cm空间分辨率)、超低剂量及原生多能谱三大突破,其8cm宽体探测器可实现一次心跳冻结冠脉。此前,该设备已在华西医院等多家顶尖医院完成临床验证。
Anthropic 宣布收购专注自动化生成与维护多语言 SDK 的初创公司 Stainless,据称交易金额超过 2.8 亿欧元(约合 22.18 亿元人民币)。Stainless 的技术能将 API 规格直接转换为可部署工具,并自动同步更新,此前被多家 AI 实验室共用。收购完成后,Stainless 将停止对外服务,相关资源全部整合至 Anthropic 内部,不再与 OpenAI、谷歌等竞争者共享。这被视为 Anthropic 锁定关键开发基础设施、增强产品控制力的战略举措。
现有大语言模型虽能处理超长对话,但随对话历史线性增长的KV Cache会导致内存占用迅速超出设备限制。当前KV Cache压缩方法大多在处理完整上下文后才进行缓存淘汰,造成无界峰值内存占用。此外,基于查询的淘汰机制将缓存语义狭窄化至单次查询,导致失效。
针对扩散大语言模型在混合专家架构下部署于资源受限设备的挑战,TIDE提出了一种无需模型训练的无损推理优化系统。该系统利用块内扩散过程中专家激活的时间稳定性,设计了基于间隔的专家刷新策略,以输入输出感知方式动态更新专家位置。通过将推理调度建模为数学规划问题,TIDE能够求解最优间隔以最小化输入输出流量和CPU计算开销。实验表明,在单GPU-CPU系统中,TIDE在LLaDA2.0-mini和LLaDA2.0-flash模型上分别实现了最高1.4倍和1.5倍的吞吐量提升,为现有基线方法带来显著加速。
针对代理型大语言模型推理中的计算瓶颈,研究团队提出Mix-Quant,一种相位感知的量化框架。该框架发现推理流程中预填充阶段虽为算力主要消耗环节,但存在显著量化冗余,而解码阶段对量化更敏感。为此,Mix-Quant采用混合精度策略:对预填充阶段应用高吞吐的NVFP4量化以加速,对解码阶段保持BF16精度以确保输出质量。该方法在多项长上下文和代理任务基准测试中,能有效保持任务性能,同时将预填充阶段速度提升最高3倍。
针对长上下文与多模态大语言模型中KV缓存内存占用高的瓶颈,本文提出了OScaR压缩框架。研究发现,传统逐通道量化在极端压缩下受限于“令牌范数不平衡”问题。OScaR通过“渠道化旋转”与“全令牌缩放”两项轻量技术,有效缓解了该不平衡带来的量化误差,无需复杂流程。在多种大模型上的实验表明,OScaR在INT2量化下可实现近乎无损的性能,相比基准解码速度提升最高达3.0倍,内存占用减少5.3倍,吞吐量增加4.1倍,为极致KV缓存压缩提供了高效通用方案。
本文探讨了分布式训练中的正确性难题及DTensor方案的权衡。DTensor通过为张量附加放置元数据(如Shard、Replicate)来自动管理通信,确保计算正确性。文章通过一个并行化案例,展示了不使用DTensor时手动处理梯度计算可能引发的静默错误(如梯度为零或倍增),从而凸显了正确性的复杂性。然而,DTensor的抽象层在简化开发的同时,也可能在大规模场景下引入隐性的性能开销。因此,在设计分布式系统时,需要在抽象的开发便利与底层的计算效率之间做出审慎权衡。