An update: we're 3xing the rate limits for Gemini models across all paid tiers in Antigravity and resetting everyone's G...
Lightmatter于5月21日发布了业界首款液冷激光网卡Guide DR。该产品采用液冷设计,将数十个激光器集成在符合OCP NIC 3.0标准的机箱内,最多可通过64根光纤驱动256条200Gbps通道,每根光纤提供200mW光功率。相比传统外部激光小型可插拔模块,Guide DR在提供同等204.8 Tbps CPO交换带宽时,可将机架占用从4RU缩减至1RU,节省高达75%的空间。该产品将于2026年第四季度出样。
一篇关于多流大型语言模型的新研究论文提出了将提示处理、推理计算以及输入输出过程进行分离与并行化的架构设计。该方法旨在提升大型语言模型在处理复杂任务时的效率与可扩展性,为构建更灵活、高效的AI系统提供了新的技术思路。
国家发改委政策研究室副主任李超在新闻发布会上明确指导方向:针对人工智能领域技术与需求的快速增长,发改委将指导国产大模型加大力度适配国产算力芯片。此举旨在推动人工智能与经济社会各领域深度融合的同时,确保我国AI发展的自主可控与向善发展。此前,发改委已联合国家能源局发布相关指导意见,推动AI在电网等关键领域的深度应用。
传统消费级硬件厂商海盗船(CORSAIR)正式进军企业AI市场,推出全新产品线CORSAIR PRO。该产品线专为支持从模型开发、微调到推理与生产部署的全周期AI工作负载设计,包含FlexPrime工作站和FlexGrid服务器两大类别。其中FlexPrime V80B工作站搭载NVIDIA GB300 Grace Blackwell Ultra桌面超级芯片,面向高要求的AI训练与仿真任务。系统预装经验证的PyTorch、TensorFlow等框架及Docker、Kubernetes等工具,提供开箱即用的AI开发与部署环境。
5月22日,智谱向部分企业客户推出了旗舰大模型GLM-5.1的高速版API“GLM-5.1-highspeed”。该版本输出速度达400 tokens/s,刷新了全球大模型API速度上限。关键突破在于,它首次在国产大模型中实现了旗舰级能力与低延迟的结合,打破了“高速模型即轻量模型”的传统。该版本由智谱GLM团队与TileRT团队合作,通过系统级优化确保了速度的生产级稳定性,适用于AI编程、实时语音交互等场景。
同一事件,精选展示《GLM-5.1开源:一个独立工作8小时的模型》东京大学研发了一种新型芯片组件,其处理数据速度较传统方法提升1000倍,且不产生额外热量。关键突破在于功耗仅为现有技术的百分之一,这理论上能使一个谷歌规模的数据中心能耗降低至当前的百分之一,极大缓解AI行业的能源压力。然而,该芯片原型预计2030年才问世,商用化需更长时间,凸显了AI快速发展与突破性节能技术量产时间之间的差距。
智谱发布GLM-5.1高速版,推理速度达400 tokens/s,在顶尖模型中生成速度最快。
同一事件,精选展示《GLM-5.1开源:一个独立工作8小时的模型》华为于上海举办智能金融峰会2026(HiFS 2026),与全球金融业领袖探讨AI驱动的数字化转型。华为基于全栈云化的计算、存储与网络能力,通过软硬件系统级协同,构建了坚实的金融基础设施。在此之上,华为正打造一个支持多种模型与场景的金融级AI Agent赋能平台,旨在推动金融业向智能化阶段跃迁。
联想集团发布2025/26财年业绩,全年营收830.75亿美元创历史新高,同比增长20%;归母净利润19.12亿美元,增长38%。第四财季表现尤为强劲,营收215.88亿美元增长27%,净利润5.21亿美元,同比大幅增长479%。AI相关业务是核心增长引擎,第四季度相关收入同比增长84%,占总收入比例达38%。智能设备、基础设施方案和方案服务三大业务集团均实现双位数收入增长。全年经营现金流同比提升近74%,盈利质量与财务状况持续向好。
现有用于GPU内核生成的AI智能体测试基准与生产推理框架严重脱节。它们仅在单一GPU上使用合成输入评估内核,忽略了实际的编译技术栈,并奖励复现已知优化而非发现新方法。为此,我们提出FastKernels。它既是一个涵盖8个类别、46个代表性架构的内核基准(其内核覆盖了96.2%的HuggingFace Transformers架构),也是一个极简的生产级推理框架,性能与vLLM和SGLang等成熟系统相当。实验表明,最强的内核生成智能体在FastKernels上仅能实现0.94倍的整体加速,证实了基准与生产环境的错位是关键瓶颈。
本期早报聚焦AI Agent的成熟化。Anthropic首次发布Memory与Dreaming基础设施原语,将跨会话记忆工程化,Rakuten部署后首次执行错误率下降97%。通义实验室的Qwen3.7-Max通过35小时极限压力测试,在未知硬件平台上自主优化Kernel,实现1158次工具调用零中断,凸显长程稳定性,将国内大模型竞争焦点从问答分数转向Agent可靠性。与此同时,Every创始人观察到,随着AI自动化普及,能评判执行质量的人类专家价值反而凸显。这些进展共同指向Agent成熟的基础设施、模型基座与人类协作新范式。
An update: we're 3xing the rate limits for Gemini models across all paid tiers in Antigravity and resetting everyone's G...
AI基础设施平台Modal宣布完成C轮融资,以46.5亿美元估值融资3.55亿美元,由General Catalyst和Redpoint领投。该平台为Anthropic、Meta、Suno等众多AI公司提供可扩展的AI工作负载(训练、推理、沙箱等)运行服务,以高效著称。Modal的两位创始人均为国际信息学奥林匹克金牌得主,公司展现出高人均营收的运营效率。
Today we're announcing our Series C funding: $355M at a $4.65B valuation, led by some great investors @generalcatalyst a...
Datasette Agent生态推出了一款新插件datasette-agent-sprites的首个预览版本(0.1a0)。该插件的核心功能是允许Agent在Fly Sprites提供的安全沙盒环境中执行命令,旨在增强数据处理与交互过程中的隔离性与安全性。此次发布标志着沙盒技术在AI Agent工具链中的进一步集成与应用。
SpaceX在提交S-1文件后,展现为一家AI时代的企业集团。公司由三大业务构成:Starlink(星链)、太空业务与AI业务。2025年总营收达187亿美元。其中,星链是绝对的核心与现金引擎,贡献了61%的营收并实现39%的营业利润率。太空业务收入占比22%,而AI业务(含X平台与xAI)虽仅占17%且处于巨额投入阶段,但代表了未来的战略方向。整体上,星链的强劲盈利为公司的太空探索与AI雄心提供了关键的资金支持。
关联讨论 1 条TechCrunch:AI(RSS)据The Information报道,微软正向AI公司Anthropic推销其第二代AI芯片Maia 200,强调该芯片在特定推理任务中比NVIDIA芯片更具成本效益。Maia 200专注于高速推理而非训练,双方已有深度合作基础:Anthropic已在Azure承诺300亿美元支出,且Claude已整合进微软Copilot。此次芯片合作旨在深化协同。分析认为,Maia 200无需全面超越NVIDIA,只要能在高量推理中提供更低成本选项,便可能将部分计算需求从GPU转移。
Anthropic宣布为Claude企业版及平台新增28项安全与合规工具集成。这些集成均通过Claude Compliance API实现,允许企业安全团队统一获取Claude的对话内容与活动事件,从而将其纳入现有的DLP、SIEM等监控与合规流程。新增合作伙伴包括Cloudflare、CrowdStrike、Microsoft Purview等28家供应商,覆盖数据安全、身份验证等多个关键领域,帮助企业快速将Claude接入现有安全平台,实现跨组织工具的统一治理与可视化监控。
关联讨论 1 条Cloudflare Blog推文展示了AI工具(如Codex和Claude Code)在服务器运维领域的强大能力。仅需提供SSH账号密码,AI即可自动配置海外VPS,无需手动安装宝塔等控制面板。若域名使用Cloudflare,提供DNS API权限后,AI能自动完成域名解析、SSL证书申请及续期等全流程配置。这标志着AI已能承担专业级运维任务,显著降低技术门槛,使普通人也能轻松管理服务器与域名。
AdventHealth正在采用OpenAI的ChatGPT for Healthcare解决方案,旨在优化医疗工作流程,减轻医务人员行政负担,从而将更多时间还给患者护理。该合作利用人工智能技术处理文档、协调等非临床任务,以提升整体医疗效率与患者体验。
Anthropic为应对旗下人工智能产品算力需求增长,正与微软洽谈租用搭载其自研AI芯片的服务器。若合作达成,将助力微软突破英伟达在AI算力市场的主导地位。目前双方磋商仍处初步阶段,尚未确定能否形成正式协议。
随着铝价上涨20%,回收初创公司正积极利用人工智能技术提高铝等关键矿物的回收率。这些公司致力于通过AI优化回收流程,旨在建立大规模的铝资源供应体系,从而在当前有利的市场条件下实现盈利。
Greg Brockman指出,公众对AI数据中心用水量的认知存在偏差,主要源于混淆了“取水量”与“耗水量”。他解释,现代数据中心多采用闭环冷却系统,如同“密封水池”,水在系统内循环吸热,而非像“流水龙头”般持续消耗新鲜水源。因此,系统可容纳大量水,但日常补充的新鲜水很少。OpenAI的Stargate项目博客也证实,其站点采用闭环冷却,全面运行后年耗水量仅相当于一栋办公楼或约四个家庭的用水量。公众辩论常因不了解冷却技术差异而过度简化。
The latest IQ test involves data centers and water.
针对现代AI智能体与长上下文窗口带来的大模型KV缓存存储瓶颈,英伟达提出了分层内存扩展方案。该方案将高速但容量有限的HBM(G1)作为基础,依次扩展至通过PCIe访问的主机DRAM(G2)、节点共享的SSD/NVMe(G3),以及提供近乎无限容量的网络存储(G4)。在GTC 2026上,英伟达更宣布与SpaceX及AnthropicAI合作,提出了通过Starlink连接的近地轨道HDD阵列这一概念性G5层级,旨在将存储边界进一步推向分布式网络架构。
AMD宣布与日月光、矽品等多家中国台湾地区OSAT企业合作,共同研发新一代高架扇出桥(EFB)先进封装技术。这是对其在Instinct MI200系列中使用的2.5D异构集成方案的演进升级。新一代EFB技术旨在显著提升互连带宽与功耗效率,以支持“Venice”架构CPU。同时,AMD还与力成合作成功验证了业界首款2.5D面板级EFB互连技术,该技术可用于构建更高效率的AI系统。
腾讯混元正式开源新一代多语言翻译模型Hy-MT2,提供1.8B、7B、30B-A3B三种尺寸,支持33种语言及5种民族语言/方言互译。相比上一代,模型在指令遵循与专业领域翻译能力上显著提升。其中1.8B轻量模型仅需440MB存储,可部署于手机芯片进行本地推理,速度提升1.5倍。同步推出的腾讯Hy翻译小程序支持自定义风格、离线翻译,并开源了翻译指令遵循测试集IFMTBench,模型已上架GitHub、HuggingFace等平台。
关联讨论 1 条X:腾讯混元 (@TencentHunyuan)SpaceX 提交的 277 页 IPO 招股书风格独特,在传统财务披露中穿插了大量科幻配图与未来构想。文件详细阐述了微重力低温推进剂加注、轨道人工智能算力中心、小行星采矿等尚未落地的前沿概念,旨在描绘推动人类成为多星球文明的宏大愿景。该招股书被评价为近年最有趣的 S-1 文件,展现了马斯克将科幻与尖端科技结合的企业风格。
随着个人数据量的飞速增长,NAS私有云成为存储管理的重要方案。绿联科技推出新款四盘位NAS产品DXP4800 GT,其核心亮点是配备了同价位产品中罕见的双万兆网口,提升网络传输性能。该产品搭载AMD Ryzen Embedded R2514处理器(4核8线程,最高睿频3.7GHz)并集成Radeon Vega 8显卡,提供强大的本地处理与影音能力。机身采用简约一体化铝合金设计,接口包括HDMI、USB 3.2、SD卡槽及U.2固态硬盘支持,扩展丰富。官方配套希捷酷狼4TB硬盘,强调易于上手的初次配置流程,适合家庭及进阶用户使用。
英伟达在最新财报中公布第一季度营收816.2亿美元,超出分析师预期的788.6亿美元,并给出第二季度910亿美元的强劲指引,远超华尔街预测的868.4亿美元。尽管这一业绩表现亮眼,但公司旗下代号为“Vera”的芯片产品线,一项涉及200亿美元的战略投资,却在此次财报中被业绩数字所掩盖。该芯片对于英伟达未来的竞争格局至关重要,是首席执行官黄仁勋希望市场予以高度关注的核心布局之一。
马斯克旗下的人工智能公司 xAI,在因违规运行高污染发电机组而面临美国全国有色人种协进会起诉及美国环保署违法裁定之际,仍计划在未来三年内斥资28亿美元采购涡轮发电机组以扩建AI基础设施。该公司目前实际运行的46台机组远超获批的15台许可数量,每台年排放污染物超2000吨,且正试图以“移动设备”为由钻法规空子。其母公司SpaceX在招股文件中承认,若遭禁令,AI业务将受严重影响。
育碧在过去一年的业务重组中裁员超过1000名游戏开发人员。为扭转经营困境,该公司正全面转向利用人工智能优化游戏研发流程,包括推进自研生成式AI项目“育碧同伴”,并开发辅助质检、高智能NPC等智能工具。育碧计划借助AI精简开发环节、提升玩家体验,预计到2029年推出丰富的新作阵容,其当前重点作品《刺客信条:黑旗重制版》将于今年7月发售。
本文提出了OCTOPUS,一种用于Transformer长上下文推理的新型KV缓存压缩方法。它通过联合量化旋转后的坐标三元组来优化现有旋转编码器的性能。其核心在于将每个三元组的方向通过八面体参数化映射至正方形,并对量化坐标与三元组范数实施最优平方误差量化,从而实现了一种仅依赖于键总维度的严格非均匀比特分配策略。实验表明,OCTOPUS在文本、视频和音频任务上,在所有测试的比特宽度和指标上均达到或超越了此前的旋转编码器,并在极端压缩时优势尤为显著。此外,其融合Triton实现能在线重建键值,不引入额外的解码带宽或延迟。