小红书在 QCon 北京 2026 分享了 GUI Agent 实战经验,核心思路是将自动化测试当作 AI Coding 来做,通过工程化方式让 GUI Agent 在真实业务场景中“跑起来、跑得稳、跑得省钱”。
小红书在 QCon 北京 2026 分享了 GUI Agent 实战经验,核心思路是将自动化测试当作 AI Coding 来做,通过工程化方式让 GUI Agent 在真实业务场景中“跑起来、跑得稳、跑得省钱”。
Claude 平台现已在 AWS 上正式发布,使开发者能够通过亚马逊云服务直接访问 Anthropic 的先进 AI 模型。这一集成将 Claude 平台扩展至 AWS 生态系统,提升了部署灵活性和可扩展性,可能支持更高效的 AI 应用开发。该公告在 Hacker News 上获得了 104 点关注,反映了科技社区对此的高度兴趣。
瑞声科技旗下远地科技实现ATAHORAN系列2.2MW/2.6MW集中式液冷CDU的规模化量产,并启动全球批量交付。该产品为当前商用顶级高功率规格,专为AI智算中心与超算集群设计。公司月交付产能达400台,位居行业第一梯队及国内前三,已建成专用总装与测试产线,具备快速扩产能力。全球仅少数企业能实现此类产品的规模化量产。
AMD 发布 vLLM-ATOM 插件,旨在提升大语言模型在 AMD Instinct GPU 上的推理性能。该插件无需改动现有 vLLM 的命令、API 及工作流,即可为 DeepSeek-R1、Kimi-K2、Qwen3 等模型提供加速,覆盖 MoE、稠密模型及视觉语言模型场景。其三层架构在后台接管优化,重点面向 MI350、MI400 等系列 GPU,通过融合内核与注意力后端路由等技术,降低部署门槛,实现“零学习成本”的平滑迁移。
在香港具身智能产业峰会上,智元机器人董事长邓泰华指出,具身智能产业潜力巨大,未来可能成为规模最大的单品工业品,市场规模可达“单车价格×手机数量”,长远甚至可能超过手机数量。他透露,智元已实现规模量产,3月底累计下线1万台机器人,2026年目标为数万台量产,并在香港落地行业首批7大部署态解决方案。同时,公司发布香港产业共创计划,未来5年将设立香港国际研发总部,通过“个十百千万”目标培育企业、发展伙伴,目标创造数千亿营收和数万亿港交所市值。
Orthrus 提出一种双架构框架,将自回归大语言模型的精确生成与扩散模型的高速并行生成相统一。该框架通过向冻结的预训练LLM添加轻量级可训练模块,构建一个与原有自回归视图并行的扩散视图。两视图共享完全相同的高保真键值缓存:自回归头负责上下文预填充以构建准确表示,扩散头则执行并行令牌生成。通过严格的共识机制,Orthrus 在保证无损推理的前提下,仅增加 O(1) 内存开销与极少参数量,即实现了最高 7.8 倍的生成加速。
当前大模型推理评估过于侧重准确性、延迟等软件指标,忽视了部署规模下的核心约束:在有效算力、供电、冷却等物理限制下生产满足质量要求的Token。研究主张将推理视为“能量到Token”的生产过程,并建立了统一的Token生产函数模型,其产出速率同时受限于“每Token计算量”和“每Token能耗”上限。在此框架下,KV缓存压缩、量化、路由等系统优化本质上是提升能量转化效率的关键杠杆。因此,呼吁未来研究与基准测试在报告传统指标时,应同步纳入每Token能耗、实际绑定约束、经PUE调整的供电功率及利用率调整后的Token输出等关键物理指标。
本文面向使用开源框架的机器学习工程师,阐述了AWS如何为大规模基础模型的全生命周期提供核心基础设施。其核心是三大紧密集成的组件:配备多代NVIDIA GPU(如H100、H200及新一代Blackwell B200/B300)的大显存加速计算实例;用于集体通信的高带宽、低延迟网络(节点内NVLink与节点间EFA);以及可扩展的分布式存储。这些基础设施与Slurm/Kubernetes等资源编排系统、PyTorch/JAX等ML框架协同,共同支撑预训练、后训练和推理工作负载,并可通过Prometheus/Grafana实现全栈可观测性。
Anthropic公司正式在AWS上推出Claude平台,为AWS客户提供了通过其现有身份验证、账单及承诺消费抵扣使用完整Claude功能的新途径。该平台首次将全套Claude API功能引入AWS生态,新功能与原生API同日上线。平台包含Claude托管智能体、代码执行、文件API等多项核心功能,并支持最新模型。与Amazon Bedrock上的服务不同,此平台由Anthropic直接运营,数据在AWS边界外处理,适合需要完整平台体验的企业客户。服务将在多数AWS商业区域提供。
马斯克已提交SpaceXAI商标申请,标志着其人工智能公司xAI正式并入SpaceX,成为其AI产品线。合并后实体估值达1.25万亿美元。SpaceXAI业务将聚焦太空算力,涵盖基于卫星的数据中心、轨道计算设施及AI服务。公司计划发射多达100万颗卫星构建轨道AI数据中心,并同步研发太空专用AI芯片。尽管愿景宏大,但该计划面临技术复杂性与商业可行性的双重挑战。
OpenAI成立了一家名为DeployCo的控股子公司,专注于咨询和实施业务,旨在帮助企业将AI系统集成到核心运营中。这一举措借鉴了Palantir的策略,通过深入企业实际工作流程来构建竞争壁垒,这些复杂流程是实验室环境难以模拟的。DeployCo的成立标志着OpenAI正从单纯的技术提供者转向深度参与企业落地的服务方。
OpenAI宣布成立一家由其控股的新公司“OpenAI部署公司”,初始投资超40亿美元,旨在帮助企业搭建和落地AI系统。为快速壮大业务,OpenAI同时收购了AI咨询公司Tomoro,此举将引入约150名资深工程师与实施专员。Tomoro于2023年与OpenAI合作成立,客户包括美泰、红牛等企业。此举被视为OpenAI在竞争对手Anthropic企业级业务快速发展背景下,深化商业布局、推动技术大规模应用的关键举措。
MiniMax宣布启动“10x Team”合作计划,旨在邀请各行业顶尖专业人士共同推动AI模型在特定领域的深度优化与十倍增长。该计划面向具备行业积累、能自主参与问题定义与工作流搭建的专业人士,提供无限Token、完整多模态模型能力及研发资源。合作采用全职入职或不少于四个月的Fellowship短期协作模式,办公地点覆盖上海、北京、香港、旧金山及伦敦。合作成果将开源并用于模型迭代,参与者可获得具国际竞争力的薪酬、股票激励及学术成果共享权益。此前,MiniMax已在工业软件、游戏引擎等多个领域与专家展开合作验证。
Runway开源了Python库confingy,旨在解决机器学习系统配置的长期痛点。该库允许开发者用纯Python代码(支持懒加载、类型检查和序列化)替代传统YAML配置文件,从而摆脱YAML作为图灵完备领域特定语言所带来的维护困境。confingy无需重构现有代码,即可满足跟踪构造函数参数、避免实例化昂贵对象(如大语言模型)等核心需求,有效改善了因复杂YAML配置导致的无法跳转定义、类型提示失效和重构困难等开发体验问题。
OpenAI 正式推出全新企业部署公司 DeployCo,旨在帮助各类组织将前沿人工智能技术投入实际生产,并转化为可衡量的商业影响。该举措标志着 OpenAI 进一步深入企业服务领域,专注于解决 AI 模型从测试到规模化部署的落地挑战,助力企业通过定制化部署方案提升运营效率与业务成果。
优必选与日立(中国)有限公司签署战略合作协议,共同探索人形机器人在智能制造场景中的应用,以推动制造业智能化转型。合作涵盖电梯、楼宇系统、医疗健康、工业设备及半导体制造设备等领域,结合优必选的技术优势和日立的系统集成经验。目前合作已进入实质性验证阶段,日立在部分制造场景引入优必选的工业级人形机器人Walker S2,并围绕电梯智能制造现场开展深度二次开发,实现全流程柔性化智能流转与数据贯通。
软银集团在日本大阪启动电池业务,以满足AI数据中心激增的电力需求。业务将研发生产电芯及储能系统,计划2028财年投产,并优先供应自有数据中心。软银与韩国企业合作,研发采用水系电解液、火灾风险更低的锌卤素电芯,以及高容量储能集装箱。该业务是软银AI基础设施投资的重要部分,目标到2030财年销售额突破1万亿日元。
英伟达CEO黄仁勋在卡内基梅隆大学获科学与技术荣誉博士学位,由英特尔CEO陈立武授位。陈立武透露双方正基于此前英伟达的50亿美元投资,合作开发新产品。合作核心是通过NVLink技术整合英伟达AI加速计算与英特尔x86 CPU架构。具体包括:英特尔将制造集成英伟达RTX GPU的x86系统芯片用于PC,并为英伟达制造定制x86 CPU用于数据中心AI平台。双方目标直指深度集成NVLink的新一代至强处理器及AI主机节点,未来Serpent Lake处理器也将采用此联合方案。
据报道,英伟达已敲定Vera Rubin AI平台最终生产方案,将分阶段上市。试产将于下月启动,首批产品计划7月出货至北美大型AI数据中心及云服务商,微软、谷歌、亚马逊、Meta和甲骨文等预计成为首批客户。该平台芯片采用台积电3nm工艺制造,富士康、广达、纬创资通等合作伙伴将于下半年启动全面量产,并在第三季度大规模出货。据悉,单个Vera Rubin AI服务器机柜价值约1.8亿美元,并配备强大的软件生态系统。
马里兰州居民将承担高达20亿美元的电网升级费用,以支持主要为州外人工智能数据中心供电的项目。该州已向联邦能源监管机构投诉,认为这笔额外成本违反了保护本地用户的承诺。升级计划旨在满足数据中心急剧增长的电力需求,但费用转嫁至本州居民,引发了关于成本分摊公平性的争议。
文章主张本地人工智能应成为常态,而非依赖云端服务。当前AI工具大多基于云端,存在延迟、隐私、成本和网络依赖等问题。本地AI模型在个人设备上运行,能提供即时响应、更好保护隐私、降低长期成本并确保离线可用。随着硬件性能提升和模型优化,本地运行7B至13B参数级别的模型已具备可行性。这一转变将使用户真正掌控自己的AI助手,推动技术向更开放、可定制和以用户为中心的方向发展。
MachinaCheck是一款基于多智能体AI的系统,旨在革新小型CNC机加工车间的报价分析流程。传统上,车间经理需花费30-60分钟手动分析图纸,而该系统在上传STEP文件及材料、公差等简单输入后,能在30秒内生成完整的可制造性报告,明确指出零件能否制造、所需工具及生产前需采取的行动。其核心在AMD MI300X加速卡上本地运行Qwen 2.5 7B模型,利用192GB HBM3显存确保客户设计数据无需离开本地,满足了制造业对数据隐私的严格要求。系统采用五组件流水线,结合精确的几何特征提取与LLM的制造知识推理,最终输出结构化报告。
字节跳动将2026年人工智能支出计划上调至超过2000亿元人民币(约合300亿美元),较原计划至少增长25%。公司正加速转向采用国产芯片。然而,这一投入规模与谷歌、亚马逊、微软和Meta四家公司合计规划的7250亿美元相比,仍显保守。
OpenAI 将 GPT-5.5 的官方定价较 GPT-5.4 提高了一倍,声称更短的响应能抵消成本上涨。但 OpenRouter 对实际使用数据的分析显示,真实成本涨幅在 49% 到 92% 之间,具体取决于输入长度。与此同时,Anthropic 也提高了其 Opus 4.7 模型的价格。由于两家公司都在考虑首次公开募股,这一涨价趋势可能将持续。
Hermes桌面版发布2026.510.1更新,修复桌面打包问题,确保WebUI优先使用捆绑的hermes-agent运行时,并抑制误导性Git更新提示。此次更新捆绑hermes-agent 0.13.0与hermes-webui 0.51.34,新增macOS arm64 DMG和ZIP安装包,提升安装一致性。
自回归视频扩散模型因历史帧键值缓存冗余,面临注意力复杂度高、内存开销大的问题。本文提出Forcing-KV混合压缩方法,基于注意力头功能分化的实证研究,将头划分为静态头(关注块间过渡与帧内保真度)和动态头(控制帧间运动一致性),并分别采用结构化静态剪枝和基于分段相似性的动态剪枝。在保持输出质量的同时,该方法在单张NVIDIA H200 GPU上实现超过29帧/秒的生成速度,缓存内存降低30%,在480P分辨率下对LongLive和Self Forcing分别加速1.35倍和1.50倍,在1080P分辨率下更可达2.82倍加速。
AMD将于5月19日在上海举办2026年AI开发者日活动,其董事会主席兼首席执行官苏姿丰已确认出席。活动聚焦人工智能计算、系统架构、软件开源生态与真实工程问题,旨在完整呈现AMD对AI未来发展的判断及对开发者的长期投入。本次活动并非概念发布会,而是包含专家指导实战工作坊、AI领袖技术分享、与AMD工程师面对面交流等环节的实战技术日程,面向从事模型、系统、推理、训练、工具链或应用落地的真实开发者。
OpenAI与博通的定制AI芯片项目因资金问题受阻。博通要求微软承诺购买其40%的芯片产量才会投入生产,而微软尚未同意这一条件。OpenAI高管萨钦·卡蒂在内部消息中称这种依赖关系“在财务上缺乏吸引力”。仅项目第一阶段成本就高达约180亿美元。目前三方谈判陷入僵局,芯片生产计划面临搁浅风险。
字节跳动今年将AI基础设施计划支出提高25%,达到2000亿元人民币。原预算为1600亿元,上调主要由于公司对AI的投入继续加深以及内存芯片成本上涨。字节跳动还计划把更大比例资金投向国产AI芯片。
人工智能初创公司Anthropic与美国CDN服务商阿卡迈科技签署了价值18亿美元的计算协议,以应对AI软件需求的激增。该合作消息推动阿卡迈股价连续两日大幅上涨,周四涨25%,周五进一步上涨约28%,股价达到149.05美元。阿卡迈此前已在财报中透露与某前沿模型提供商达成长期合作,公司预计第二季度收入在10.8亿至11亿美元之间。双方均未对此协议发表评论。
在第二届空天信息技术大会上,中国科学院空天信息创新研究院联合百余家单位提出共建“太空云”生态倡议。该倡议旨在将分散的通信、遥感、导航及算力卫星整合为统一的云原生智能服务体系,实现从“功能单星”到“智能星云”的跨越。系统可自动匹配最优天基资源,将数据处理时延压缩至分钟级乃至秒级,用户通过便携终端即可按需调用服务。其应用覆盖应急减灾、大众服务、低空经济与6G等领域,将显著提升我国天基资源的综合应用效能。
日月光半导体与楠梓电子宣布,将共同投资352.35亿新台币(约76.28亿元人民币),在高雄楠梓科技产业园区建设一座先进封装工厂。该工厂占地约1.76万平方米,总建筑面积超11.34万平方米,预计于2029年9月投产。其核心工艺为FOCoS与FC BGA技术,其中FOCoS的某些变体可实现XPU与HBM集成,可作为台积电CoWoS工艺的替代方案,且无需中介层的设计有助于降低生产成本。
Arm在财报会议上披露,客户对其首款自研处理器Arm AGI CPU在2027至2028财年的总需求规模已突破20亿美元,较3月发布时增长超一倍。公司预计该芯片将在2027财年第四季度带来近1亿美元的首批收入,并预测到2031财年自研CPU业务累计收入将达150亿美元。Arm表示,得益于现成的软件支持和机架设计,该芯片可快速部署至数据中心。此外,Arm预计2027财年许可收入增长约20%,数据中心Neoverse特许权使用费收入有望再度翻倍,公司近期还签署了两份面向智能手机和数据中心网络芯片的下一代CSS协议。
本次发布的 v2.1.137 版本主要包含一项错误修复。该版本解决了 Visual Studio Code 扩展在 Windows 操作系统上无法激活的问题。此次更新专注于提升特定平台下的扩展兼容性与稳定性。
该研究针对大规模系统日志中实例级异常定位标注成本高的难题,提出了LogMILP弱监督框架。该框架仅使用包级标签,即可同时实现包级异常检测与实例级异常定位。其核心是通过原型引导的结构建模与反事实扰动一致性正则化,指导模型定位关键日志条目。在三个公共数据集上的实验表明,LogMILP在取得有竞争力的检测性能同时,生成的实例级定位结果更为可靠。相关代码已开源于 https://github.com/YUK1207/LogMILP。
自适应并行推理是一种新范式,它让大语言模型能够自主决定何时分解任务、并行处理多少子任务以及如何协调结果,以应对序列推理中因探索路径增长而导致的延迟增加和“上下文腐化”问题。近期研究如ThreadWeaver和Multiverse通过动态控制并行线程,在数学与代码推理基准上取得了显著性能提升,同时大幅降低了延迟。这标志着从固定并行策略到自适应智能控制的转变,为复杂任务的推理提供了高效且可扩展的解决方案。
北美电力可靠性公司(NERC)向美加墨地区发布最高级别三级警报,警告数据中心接入电网可能导致整张电网停摆。这是过去9个月内第三次类似警告。警报指出,数据中心尤其是承载AI工作负载的设施用电波动剧烈,需求在数秒内急剧变化,电网运营商缺乏应对流程。加密货币挖矿和传统数据中心同样构成威胁。NERC要求运营商立即采取必要行动,并在8月3日前提交风险缓解计划。
斯坦福AI教授安杰尼·米达指出,美国科技公司需以共情和透明沟通应对数据中心建设阻力。越来越多地方社区因担忧电费上涨、环境影响和生活质量下降而反对新建数据中心,皮尤报告显示43%受访者认为数据中心推高了其电费账单。米达强调,科技公司应清晰说明数据中心对社区的实际影响与建设目的,主动倾听社区意见,否则将面临重大阻力。部分政界人士已提议暂停新项目审批。他认为,在基础设施扩张中平衡技术需求与社区关切,通过类似“营养成分标签”的透明信息缩小分歧,是推动AI发展的关键。
中国移动董事长陈忠岳在移动云大会上宣布,公司将推进全国一体化算力网建设,提供即取即用、普惠易用的算力服务。具体举措包括加强全光网高速直联、加速AI数据中心建设并布局吉瓦级数据园区,升级AI云算服务以支撑大模型发展。同时,中国移动将开放万亿级词元(Token)服务体验包,并发布移动模型服务平台MoMA。该平台已接入超300款业界主流AI模型,包括自研“九天”及DeepSeek、通义千问等,提供统一API网关,服务于政务、金融、工业等多类场景。
迎广科梵特 covalent 工作站全塔台式机箱已在京东开启预约,售价999元。这款机箱专为AI与高性能计算设计,采用全塔结构,提供钢板或强化玻璃侧板选项。它支持EEB和EATX主板,可容纳多张大型显卡,兼容420mm一体式水冷,预装4颗CV140风扇。存储方面支持安装3颗3.5英寸或6颗2.5英寸硬盘,并内置风扇集线器、快拆侧板等模块化设计,满足高扩充与散热需求。