SemiAnalysis 指出推理正被多轮“切分”以降低成本。第一步按阶段拆分:prefill 与 decode 用不同芯片;第二步按层拆分:attention 用 HBM 富裕的 GPU,前馈网络用 SRAM 基芯片;第三步按时间拆分:工作负载切片为执行窗口,在集群中交错调度。每次切分回收闲置利用率,从而降低每 token 成本。更便宜的 token 不会压缩需求,反而刺激增长——这是 MLSys 2026 的核心叙事。
SemiAnalysis 指出推理正被多轮“切分”以降低成本。第一步按阶段拆分:prefill 与 decode 用不同芯片;第二步按层拆分:attention 用 HBM 富裕的 GPU,前馈网络用 SRAM 基芯片;第三步按时间拆分:工作负载切片为执行窗口,在集群中交错调度。每次切分回收闲置利用率,从而降低每 token 成本。更便宜的 token 不会压缩需求,反而刺激增长——这是 MLSys 2026 的核心叙事。
构建AI智能体时,应优先设计路由(router)而非选择模型。路由决定每个请求由哪层模型处理。正确路由可使70-80%流量运行在免费本地模型或异步推理上,将AI开销降低90%+。Brian Armstrong指出Coinbase通过更好的默认设置、路由和缓存,在token使用量增长的同时将AI支出减半。路由分三层:技能分类器、路由器、模型选择器。本地计算近乎零成本,异步批量推理比实时推理便宜两个数量级。大多数工作无需秒级返回。同步预测器标记复杂任务,夜间批量评估器更新路由权重。技能蒸馏后,非编码类任务中70-80%智能体流量可由本地模型处理。
Palantir CEO Alex Karp says enterprises are fed up with AI labs that "oversold" models and pushed tokenmaxxing. Customer...
Meta is turning excess AI compute into a cloud business after shares jumped more than 10%. Meta built huge AI infrastruc...
据Orgvue报告,39%的公司已实施AI相关裁员,其中55%的领导者承认裁错了岗位。问题在于企业裁掉了理解例外情况、升级路径和隐蔽故障模式的员工。AI虽提升生产力,但在依赖判断力和机构记忆的工作中失效。福特因自动化质检系统未能提前发现缺陷,召回约350名资深工程师。澳大利亚联邦银行削减45个AI语音客服岗位后,因呼叫量上升而取消决定。IBM也从AI驱动的HR自动化转向在全美业务部门将初级岗位招聘增加两倍。
Meta 运营数百 EB 级存储集群,基于 Tectonic 分层存储层构建 BLOB 存储架构,以应对两大挑战:最大化 GPU 利用率与研究迭代速度。传统 BLOB 架构的多层元数据查询可导致数百毫秒延迟,使 GPU 因 I/O 等待停顿。新架构将训练栈逐步迁移到 BLOB 存储接口上,利用闪存提供可预测的低 pMax 延迟,避免单 GPU 慢速拖慢整批任务。同时,统一的数据湖访问支持地理分布 GPU 间的数据高速注入与跨区移动,提升研究效率。
Meta 利用为自有模型、广告和助手建设的大型 AI 基础设施产生的过剩算力,计划向开发者出租模型访问(类似 AWS Bedrock)及原始算力。消息引发股价剧烈反应:Meta 涨超 10%,而 AI 云公司 CoreWeave 跌 10.8%、Nebius 跌 12.4%。Zuckerberg 此前透露外部公司几乎每周都向 Meta 请求算力。此举既降低 Meta 对广告收入的依赖,也证明其 AI 建设的外部价值,但云业务涉及计费、安全、工具支持等复杂环节,Meta 难以快速成为 AWS 级别的云服务商。
Google Cloud Workbench Notebooks 扩展正式上线,开发者可在 VS Code 中直接连接可扩展的云端 Jupyter 环境,无需切换上下文即可利用高性能 Google Cloud 基础设施完成机器学习全流程。该扩展已完全开源,可在 GitHub 和 VS Code Marketplace 获取。
零售AI通过生成式UI实时定制页面布局、文案和交互组件,将购买频率提升35%、平均订单价值提高21%。多模态社交倾听系统处理视频、音频和未标记图像,覆盖82%的互联网流量,全球市场本财年达28.3亿美元,76%的分析师报告可见投资回报。基于大语言模型的合成用户模拟可在沙箱环境中执行数千次自动化访谈和内容测试。边缘计算硬件支持无收银台结账、实时货架跟踪等物理自动化,该市场预计2040年超3700亿美元。Model Context Protocol(MCP)作为开放通信标准,标准化模型与零售数据库、产品目录及CRM的集成。
开源框架 Genkit 推出 Agents API,将消息历史、工具循环和流式传输封装为单一接口,简化对话 AI 开发。该 API 支持服务器或客户端管理的状态持久化,可实现历史分支、长时间运行的分离任务及多智能体协调等高级工作流,并通过统一线协议连接前后端。目前以 TypeScript 和 Go 预览版发布,集成 Genkit Developer UI,开发者无需编写客户端代码即可测试、调试和检查智能体快照。
Meta效仿SpaceX,将大量购入的Nvidia GPU闲置算力转售给外部客户,而非全部用于自家模型训练,也可能在基础设施上提供AI模型访问。消息公布后Meta股价上涨约10%。SpaceX此前将原为xAI购买的GPU容量租给Anthropic(每月12.5亿美元)和Google(每月9.2亿美元)。Meta今年AI基础设施支出高达1450亿美元,并裁员以筹集资金。转售过剩算力符合财务逻辑,也表明其自研模型(如今年4月发布的Muse Spark)并未消耗全部算力。
Cloudflare 开放 Monetization Gateway 候补名单,允许对 Cloudflare 背后的任何网页、数据集、API 或 MCP 工具收费。费用通过 x402 开放协议以稳定币结算,用户无需自建支付栈。
据Bloomberg报道,Meta正计划推出云基础设施业务Meta Compute,对外出售AI计算能力和模型访问权限,直接与AWS、Google Cloud及Azure竞争。Meta已承诺未来几年投入1829亿美元建设AI基础设施,其中俄亥俄州数据中心(规模如曼哈顿)将于今年上线。新业务由基础设施主管Santosh Janardhan、Meta超级智能实验室负责人Daniel Gross和总裁Dina Powell McCormick领导。Meta可能效仿CoreWeave出售裸计算能力,并像AWS一样托管AI模型(包括近期发布的闭源模型Muse Spark)。扎克伯格此前已表示云业务“definitely on the table”。
Meta 正在规划一项新的云基础设施业务,拟将闲置的 AI 算力和自研模型(包括 Muse Spark 模型)通过类似亚马逊 AWS Bedrock 的模式对外提供调用权限,并向开发者收取使用费。同时,Meta 也在考虑出租“底层算力”。这些新业务隶属于 Meta Compute 内部项目。此举将使 Meta 与亚马逊 AWS、微软 Azure、谷歌云直接竞争。
The industry's first embodied AI IDE, Booster Studio, is officially live at http://studio.booster.tech! Built exclusivel...
美团发布LongCat-2.0,一个1.6万亿参数的大模型,据称完全基于5万片国产AI处理器集群完成训练和推理。美团自2023年推进国产AI基础设施,该模型成为其首个在国产集群上完成预训练与推理的前沿规模模型。更值得关注的是,美团并未推出独立聊天机器人,而是将AI嵌入现有的推荐餐厅、订酒店、点餐等服务中。这种将AI整合进已有用户、商户、支付和交易生态的做法,正成为阿里(开放Qwen品牌智能体)、蚂蚁(以Ah Bao重构支付宝)等中国互联网平台的共同方向。
We're coming out of stealth. We've built our first racks after a successful A0 tapeout, $1B+ in customer contracts, and ...
NVIDIA 发布 Nemotron-Labs-TwoTower,基于冻结的自回归骨干 Nemotron-3-Nano-30B-A3B 的扩散语言模型。采用双塔架构:上下文塔冻结,降噪器塔训练,通过层对齐交叉注意力和状态播种协作。在 2×H100 上 BF16 评估,保留 98.7% 的 AR 基线质量,生成吞吐量提升 2.42 倍(γ=0.8,块大小 S=16)。降噪器在约 2.1T token 上训练,骨干使用 25T token 预训练。总参数约 60B,每 token 活跃参数约 3B/塔。支持扩散、模拟 AR 和 AR 三种解码模式。
三星电子在内部简报会上透露,HBM4E 可靠性测试良率已超 70%,研发进入稳定轨道;下一代 10 纳米级第七代 DRAM(D1d)工艺技术竞争力领先对手,计划今年 11 月通过生产准备就绪审批(PRA)。HBM4 已率先量产出货,将用于英伟达下半年推出的 AI 加速器 Vera Rubin;HBM4E 则计划用于明年的 Vera Rubin Ultra。D1d 将从第八代 HBM5 开始采用,有望提升后续产品竞争力。
消息源 SemiAnalysis 爆料,英伟达因制造执行问题,原定 2027 年推出的 Rubin Ultra AI 加速器放弃 4-Die 设计方案,改为更易量产的 2-Die 版本。4-Die 方案在先进封装上接近光罩极限,且需搭配 16 个 HBM4E,导致散热难度和成本过高。改为 2-Die 后性能缩水一半,在与 AMD Instinct MI500 系列竞争中可能降低竞争力。
亚马逊 AWS 宣布设立新部门,组建前置驻场工程师团队,先期投入 10 亿美元(约 67.97 亿元人民币)。团队分批派驻客户企业,每批 5-6 组工程师,驻场周期 45 天,协助客户落地人工智能软件与智能体应用。该模式在 Palantir、Salesforce、Anthropic、谷歌云等企业已有先例,领英数据显示 2023 至 2025 年间同类岗位需求增长 42 倍。新部门员工规模将达数千人,首批客户包括 NBA 与理光。
英伟达 6 月 30 日发布博文,宣布在 Blackwell 平台上通过全栈推理优化,使 DeepSeek V4 模型的单 Token 成本降至 1 个月前的五分之一,达到行业最低水平。优化涵盖生产运营、应用加速和基础设施访问三层,采用分离式服务、大规模专家并行、NVLink 并行通信、NVFP4 精度及多 token 预测等技术,单 GPU 的 token 吞吐量最高提升 20 倍。
松下控股宣布未来三年投入约5000亿日元(约209.23亿元人民币),目标在截至2029年3月的三个财年内将AI基础设施相关业务销售额提升至约1.4万亿日元。社长楠见雄规表示,松下不直接开发AI,但为AI带来的变化提供支撑。其服务器蓄电池、电子零部件、电路板材料和储能系统是AI基础设施关键组成部分,部分此前因特斯拉电池减产而陷入困境的生产基地已改用于生产面向AI数据中心的电力系统。
🚨 NEWS: Commerce is expected to lift export controls on Fable tonight, a senior White House official tells me.
🚨 NEWS: Commerce is expected to lift export controls on Fable tonight, a senior White House official tells me.
Linq 推出 iMessage Apps,允许开发者在 iMessage 对话中构建交互式迷你应用。用户无需离开聊天即可购物、玩游戏、订机票或支付,不再依赖外部链接跳转。技术实现基于新的 type: "imessage_app" 消息组件,通过 app 对象的 team_id 和 bundle_id 标识渲染扩展,layout 控制静态文本,interactive 标志决定是否显示实时交互卡片。已发送的卡片可通过 /messages/{id}/update 原地更新(仅支持 url、fallback_text、interactive、layout 等参数)。该功能仅限 iMessage 通道,无 SMS/RCS 回退,富交互渲染需接收方安装对应扩展。
The industry's first embodied AI IDE, Booster Studio, is officially live at http://studio.booster.tech! Built exclusivel...
针对欧洲石棉污染严重、传统取样送检成本高昂的问题,作者用 TI IWRL6432 BOOST 开发板和 ESP32 搭建了 FMCW 毫米波雷达原型。DSP 链通过混频、距离 FFT 和 MIMO 阵列角度估计,配合 Capon 波束成形获得材料密度谱,再输入 CNN 进行物料表面分类。天线部分用开源电磁仿真工具 openEMS 建模并模拟全链路,仿真结果与实测接近。项目因资金不足未完成,但展示了低成本非接触式石棉检测的可行路径。
AI芯片初创公司Etched近日披露,其芯片已由台积电成功制造,并已获得10亿美元合同订单。公司正与客户测试首批“前沿推理集群”系统,声称比竞品推理更快、成本更低、能效更高。Etched成立于2022年,累计融资8亿美元,最新一轮5亿美元于去年12月完成,投后估值50亿美元。投资者包括VentureTech Alliance、Jane Street等,天使投资人包括Andrej Karpathy、Geoffrey Hinton等。
Anthropic 发布 Claude Science,一款面向科研人员的 AI 工作台,整合数十个数据库、工具与软件包。研究人员可分析文献、执行多步骤分析、生成图表及起草论文。内置 60 多项预配置技能,覆盖基因组学、蛋白质组学与化学信息学;验证代理自动检查引用和计算结果。应用在 macOS 或 Linux 本地运行,通过 SSH 或 HPC 集群连接远程机器,仅向模型发送所需上下文。工作负载可从单 GPU 扩展至数百 GPU,并接入 Nvidia BioNeMo agent 工具包(含 Evo 2、Boltz-2、OpenFold3)。用户可保存自定义流程为可复用技能。Claude Science 以 beta 版面向 Pro、Max、Team 和 Enterprise 用户开放,Anthropic 为最多 50 个研究项目各提供最高 30,000 美元积分,申请截止 2026 年 7 月 15 日。
Agent Development Kit (ADK) for Go 2.0 发布,引入了一类基于图的工作流引擎,用于组合复杂多智能体应用。新版本内置人工参与循环(HITL)编排、使用纯 Go 代码的动态执行、以及指数退避重试等自动弹性特性。统一执行模型后,单智能体应用与复杂图均运行在同一运行时上,简化了遥测与状态持久化。
We're coming out of stealth. We've built our first racks after a successful A0 tapeout, $1B+ in customer contracts, and ...
Cloudflare 新增 Browser Rendering,提供远程 Chromium 抓取。Workers Paid $5/月含 10 小时浏览器/天。作者将 AI 公司官网抓取从 Jina Reader 迁至 Cloudflare,实际日耗约 3 分钟,99%+ 余量未用,避免了 Jina 免费层耗尽后的 402 静默失败问题,价格从 token 计费变为 $5 封顶可预测。结合 Pages、Workers、D1、R2、KV、Tunnel 及 Claude Code/OpenClaw + GitHub 自动构建,一人一套 Agent 即可将产品从 0 跑到上线,基础设施成本近乎免费。
Cloudflare 基本已经成了个人开发者/出海独立建站/轻量创业项目的免费全家桶。 Pages 管前端部署(虽然官方不主推了,但是倾向于很多静态也方式),Workers 管后端逻辑,D1 管数据库,R2 管存储,KV 管缓存和短链,Tu...
AWS成立了一个10亿美元的AI前向部署工程师(FDE)新部门。该团队工程师将嵌入客户公司,部署定制化agent系统,注重快速响应和客户自给自足,帮助客户获得可持续的AI技能和工作流。FDE模式由Palantir开创。此前,OpenAI和Anthropic也分别推出了40亿美元和15亿美元的FDE合资企业。