可扩展的企业AI采用需超越大语言模型,依靠智能体逻辑来引导模型执行动态、长周期且受约束的企业工作流,从而提升质量、降低成本并建立信任。文中以IBM watsonx Code Assistant for Z为例,展示了智能体逻辑如何通过程序分析等技术,在理解大型遗留代码库时,相比纯LLM基线方法,能以约30倍更低的token消耗达到更优性能。在加速测试生成任务中,该方法亦能使代码覆盖度提升20%-45%,同时token消耗降低最高达15倍。
可扩展的企业AI采用需超越大语言模型,依靠智能体逻辑来引导模型执行动态、长周期且受约束的企业工作流,从而提升质量、降低成本并建立信任。文中以IBM watsonx Code Assistant for Z为例,展示了智能体逻辑如何通过程序分析等技术,在理解大型遗留代码库时,相比纯LLM基线方法,能以约30倍更低的token消耗达到更优性能。在加速测试生成任务中,该方法亦能使代码覆盖度提升20%-45%,同时token消耗降低最高达15倍。
Gemma 4 模型已可在 2016 年的至强处理器上运行。该事实在 Hacker News 上获得关注。
高通在COMPUTEX 2026上宣布推出数据中心品牌Dragonfly,预计包含数据中心CPU与AI ASIC产品,并与客户端的骁龙、AIoT的Dragonwing共同构成新品牌组合。CEO安蒙预测,到2030年AI Token(词元)需求将达到401.48×10^16。更多细节将于6月24日揭晓。
英伟达在GTC Taipei 2026发布全新消费级芯片RTX Spark,基于与DGX Spark相同的GB10芯片,最高1 PFLOP FP4 AI性能、20个CPU核心、6144个GPU核心和128GB LPDDR5X统一内存,可本地运行120B参数大模型。RTX Spark在消费级PC上首次将统一内存与完整CUDA生态结合,让GPU直接访问共享内存池,突破传统显存限制。微软将与其全面重构Windows系统,原生支持本地Agent运行;Adobe等应用已针对RTX Spark优化,Photoshop和Premiere性能提升两倍,并原生支持Agent调用。
现有 Auto-Harness 系统仅针对固定离线基准评测,而开放任务流存在无终点历史、异构任务与分布偏移,导致单一密集更新装备性能先升后降。本文提出 Adaptive Auto-Harness,将距 oracle 装备差距分解为进化损失与适配损失,采用状态化多智能体进化器、带求解时路由的装备树及人类引导钩子来解决。在预测市场、安全竞赛与事件预测三个任务流上,该方法优于五个基线,消融实验验证了各模块贡献。代码已开源。
英伟达 CEO 黄仁勋在台北电脑展表示,AI减少岗位的说法是胡说八道,实际上软件工程师数量正在增加。他认为“有用”的AI时代已至,token是新的利润单位,AI是GDP生成器。同时,黄仁勋称下一代超级AI芯片Vera Rubin是其最雄心勃勃的产品,由4万名工程师参与研发,将于今年下半年推出,他预计其将比Grace Blackwell更加成功。
OpenRouter 推出语音与转录 API、模型融合(Model Fusion)、私有模型部署和企业级工作空间控制功能。平台同时新增 20 个模型,其中包括 Gemini 3.5 Flash 和 Claude Opus 4.8。语音 API 支持实时语音识别与合成,模型融合允许用户组合多个模型的输出结果。企业工作空间提供更细粒度的权限管理与审计日志。
同一事件,精选展示《OpenRouter 5月发布亮点》OpenRouter 发布5月更新,推出语音与转录API、模型融合功能、私有模型支持和企业工作区控制,并新增20款模型,包括Gemini 3.5 Flash和Claude Opus 4.8。
同一事件,精选展示《OpenRouter 5月发布亮点》金融AI智能体常因用户需反复陈述目标、风险偏好、投资组合和市场假设而失败。研究人员提出InKH架构,将用户、市场、组合和工具事件转化为结构化知识,采用被动知识注入、时间图记忆、wiki审计面及带成熟度与失效的背景提取。在46,080次评估中,InKH平均任务质量0.815(900ms延迟)。相比agent驱动的wiki-walk记忆,延迟降低82.95%,token成本降低82.29%,过时知识使用减少96.58%,质量提升0.108。验证了系统吸收复杂性而非转嫁用户的理念。
一名用户以200英镑的价格购入了一块数据中心级GPU,并将其成功安装到自己的游戏电脑中。文章记述了这一非标准硬件改装过程、遇到的技术挑战以及最终实现本地运行大语言模型的体验。
软银计划在法国建设最高5吉瓦容量的AI数据中心,总投资额最高达750亿欧元,这是其在欧洲最大的AI基础设施投资。计划到2031年,在法国北部三个地点建成价值450亿欧元的设施。不过,软银在全球宣布的诸多类似项目至今尚未完全落地。
小米公布其 MiMo 模型推理系统的全链路优化技术细节,核心是通过 Hybrid SWA 架构将 KVCache 存储压缩至 1/7,并结合分级缓存与调度,显著降低长序列推理成本,最高降价达 99%。此外,AI 独角兽 MiniMax 已与中信证券签署辅导协议,正式启动 A 股 IPO 进程。
软银集团宣布计划投入至多 750 亿欧元,在法国扩建并运营总功率最高达 5 吉瓦的数据中心。项目一期将在敦刻尔克、博斯凯勒和布尚三地兴建,目标在 2031 年为上法兰西大区提供 3.1 吉瓦的算力容量。作为 OpenAI 的投资方,软银称这是其在欧洲规模最大的 AI 基础设施投资。
作者展示了如何在浏览器中通过 Pyodide 和 Service Worker 运行 Python ASGI 应用。此前的 Datasette Lite 使用 Web Workers,但无法执行 <script> 标签中的 JavaScript。新方案由 Claude Opus 4.8 协助完成开发,解决了这一问题。作者已展示了基础的 ASGI FastCGI 演示和运行 Datasette 1.0a31 的演示,并计划后续将此方法应用于升级 Datasette Lite。
由于运行和使用AI工具的成本持续飙升,美国企业正开始对人工智能的使用实施配给制。企业通过限制使用量、设置分层级审批流程等方式控制开支,以应对AI费用增长过快的问题。这种从广泛采用转向精细化管理的策略,标志着企业在AI应用上从追求速度转向注重成本效益。
小米 MiMo-V2.5 系列 API 完成永久降价,最高降幅达 99%。其技术基础是公开的推理系统全链路优化方案:针对 Hybrid SWA + MoE + 多模态的复合架构,系统性重构了 KVCache 管理、分级缓存、前缀缓存与调度策略。核心优化包括将 KVCache 存储压缩至约 1/7,线上前缀缓存命中率平均达 93%,TTFT P90 降低 30%,Prefill 性能提升约 40%,Decode 阶段前 128 token 加速比达 2.3×。多模态视频处理端到端延时从 156 秒降至 23 秒。该方案宣称是业内首篇全面覆盖此类复合架构的大规模工程落地方案,模型能力无缩减。
小米发布 MiMo-V2.5 系列模型(含 MiMo-V2.5、MiMo-V2.5-Pro),采用 Hybrid Sliding Window Attention(Hybrid SWA)架构,KVCache 存储与计算量均降至 Full Attention 的约 1/7。以 MiMo-V2.5-Pro 为例,70 层中仅 10 层为 Full Attention,60 层为 SWA(窗口大小 128)。团队围绕 KVCache 系统重构(双池管理、按层异步拉取、SWA-aware 前缀缓存树)及分布式缓存 GCache 等环节优化,使存储效率提升约 7×,显著降低长上下文推理成本。
日本云服务提供商 Data Section 与 OpenAI 达成战略合作,将于亚太地区通过其企业级 AI 工作流平台 TAIZA 提供 OpenAI 模型。此举标志着 OpenAI 从依赖微软 Azure 的单平台策略转向多区域、分布式算力部署模式,以更好地应对数据主权与监管合规挑战。
Tiny-vLLM 是一个用 C 和 CUDA 编写的高性能大语言模型推理引擎,项目代码已开源至 GitHub。
根据2026年5月29日发布的一则消息,一个名为 Hy3 的神秘大语言模型(LLM)在 OpenRouter 模型排行榜上取得了显著领先优势,位居榜首。OpenRouter 是一个 AI 模型聚合平台,其排行榜反映了不同模型的综合表现。该信息最初发布于 minimaxir.com,并获得了科技社区 HN 的关注。然而,关于该模型的具体技术细节、开发者信息以及性能评分,原文并未提供更多说明。
Guardrails 是一套可配置的安全与治理工具,提供预算执行、零数据保留、模型与提供商限制、提示词注入防御及数据丢失预防等功能,旨在保护智能体(Agents)、数据与控制成本。
关联讨论 2 条OpenRouter:Announcements(RSS)X:OpenRouter (@OpenRouter)OpenAI发布前沿治理框架(FGF),为在全球范围内部署安全、合规的企业级大语言模型提供结构化蓝图。该框架系统性地阐述了如何评估和缓解AI相关的系统性风险,并直接映射到相关标准,旨在帮助机构可持续地规模化商用AI架构。
该技术成果展示了在标准GPU硬件上实现大语言模型实时推理的可能性。核心性能指标为单次请求的生成速度可达到3000个tokens每秒(3k tokens/s per request)。这一结果表明,对于特定场景或模型配置,即使在非专用集群的常规计算设备上,也能实现高速的模型输出,对于降低大语言模型的使用门槛和成本具有参考意义。
因AI服务器需求强劲,戴尔科技给出远超市场预期的全年营收展望,其股价盘前一度上涨38%。戴尔预计截至2027年1月的财年总营收约为1670亿美元,其中AI服务器销售额将贡献600亿美元。该公司第一季度AI订单额达244亿美元,销售额为161亿美元。同期,戴尔总销售额同比增长88%至438亿美元,亦高于分析师预期。
视频大语言模型在视频理解中能力强,但处理海量视觉token效率低下。现有方案多在预填充后期压缩,未优化视觉编码器本身。研究指出视觉编码对时间首token(TTFT)延迟贡献大,因此压缩应提前。为此提出EarlyTom,一个免训练的压缩框架,它在视觉编码器内部执行早期视觉token压缩,并引入解耦的空间token选择策略。在单卡A100 GPU上运行LLaVA-OneVision-7B时,EarlyTom将TTFT最高降低2.65倍,FLOPs减少高达61%,同时保持与全token基线相当的准确度,提升了部署实用性。
韩国芯片初创公司 XCENA 获得 1.35 亿美元融资。该公司认为,AI 当前面临的真正瓶颈并非算力,而是内存。
本文是 PyTorch profiling 系列的开篇,从最简单的矩阵乘法加偏置操作出发,逐步讲解如何使用 torch.profiler 进行性能分析。涵盖 profiler 设置、导出统计表格与 Chrome trace、解读 CPU 和 GPU 活动的时序关系,以及 torch.compile 对底层 CUDA kernel 调用链的影响。实验基于 NVIDIA A100-SXM4-80GB GPU 运行,面向基本掌握 PyTorch 但缺乏 profiling 经验的读者。
鸿海董事长刘扬伟表示,AI需求的快速增长正驱动公司业务扩张,主要云服务商今年AI领域投资规模已超7000亿美元,明年可能达1万亿美元,这为公司提供了巨大市场。他对今年下半年增长动能充满信心,并指出第一季度利润增长19%。此外,为扩张AI服务器产能,公司预计今年资本开支将较去年的1740亿新台币增长30%。
加州大学伯克利分校的 UCCL 团队发布了 mKernel,该工具将节点内 NVLink 通信、节点间 RDMA 通信以及密集计算融合成一个持久化 CUDA 内核。
智能体AI推理的设计空间横跨两个极端:云端大语言模型性能强大但成本高,设备端小语言模型更经济。混合多智能体系统结合设备端与云端模型,为平衡提供了可能,但也引入了任务准确性、经济成本与设备能耗三者紧密关联的复杂权衡。由于缺乏通用设计原则,此类混合方案多是基于特定领域做出的临时决策。本研究通过改造两种代表性的多智能体架构以适配混合推理,系统探讨了不同设计选择如何影响系统在性能、成本与能耗的Pareto前沿上的取舍。结果表明,小语言模型确实能从大语言模型的辅助中获益,但最优架构高度依赖具体任务,且更多的前沿计算并不总能带来更好的性能。
2025年我国已建成42个万卡级智算集群,算力中心总用电量达1700亿千瓦时,占全社会用电量1.6%。全国一体化算力网络8大枢纽节点算力用电近3年平均增长率约39.5%。国家能源局预计,“十五五”时期全国算力用电量年均新增超1000亿千瓦时,到2030年预计达8000亿千瓦时,占全社会用电量6%左右。同期新型电网投资预计将超5万亿元。
TrendForce 预估 2027 年全球存储器产值将增至逾 1.28 万亿美元,同比增长 44%。2026 年产值预估也被大幅上调至 8893 亿美元。增长主要受智能体AI对服务器CPU及内存需求增加的驱动,例如新一代AI服务器CPU与GPU配置比已从1:8提升至1:4或更高。同时,HBM产能挤占通用DRAM产能,加上供应商合约价话语权强化,推动DRAM产值预期大幅增长。
联想集团在天津签约建设新一代AI算力产品研发制造中心,新产线计划于2027年秋季量产。此外,联想投资的通用服务器产线将于今年9月在天津实现量产。联想董事长杨元庆表示,未来各类终端将成为“超级智能”的载体。天津产业园已落地基于GE VLM大语言模型的LCD缺陷检测系统,将屏幕不良率从3.5%降至0.4%。联想上一财年营收达5899亿人民币,利润增速超40%。