AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1385 条
全部一手资讯X论文
标签「部署/工程」清除
今天7月3日 周五
05:50Runway:News(网页)51借用夜晚:将闲置推理GPU回收用于研究
05:08MarkTechPost(RSS)70精选阿里巴巴发布 Page Agent:开源 JavaScript 库实现网页 DOM 自然语言操控
03:45The Decoder:AI News(RSS)78精选Microsoft 成立"Frontier Company",斥资 25 亿美元派驻 6000 名 AI 工程师到企业客户现场
02:37LMSYS:Blog(Chatbot Arena 团队)59精选Agent辅助的SGLang开发:初步探索
02:35TechCrunch:AI(RSS)51Anthropic 与三星洽谈定制芯片合作
02:03Claude:Blog(网页)61精选Claude Enterprise 新增用量与成本分析及支出管控功能
7月2日周四
23:06IT之家(RSS)74精选花旗、Adobe等企业限制员工使用AI旗舰模型以控制成本
22:57Artificial Intelligence News(RSS)48Anthropic 推出 Claude Science 公开测试版,集成 NVIDIA BioNeMo 加速科学研究
22:06IT之家(RSS)62微软宣布斥资 25 亿美元成立新公司,助力企业落地人工智能技术
22:05TechCrunch:AI(RSS)63微软推出自有AI部署公司,投入25亿美元
21:15The Decoder:AI News(RSS)57Nvidia 资助 AI 初创公司,以削弱大型科技公司对其芯片业务的掌控
20:06IT之家(RSS)53英伟达推出全新扶持计划,以收益分成模式助力 AI 初创企业获取算力
19:39Ars Technica:AI(RSS)70精选谷歌AI建设导致2025年用电量增长37%
18:31公众号:千问APP(阿里)62精选千问团队朱达:C端Agent Harness的"多快好省"工程哲学与主动服务探索
18:06IT之家(RSS)59DeepSeek 出现服务问题,网页 / API 均受影响
18:06IT之家(RSS)57核能供电 AI:Valar 成功用先进反应堆为英伟达 Blackwell 芯片供电
17:31HuggingFace Daily Papers(社区热门论文)34轻量级IIoT入侵检测模型跨域泛化失败研究
16:06IT之家(RSS)48软银通过新设子公司 SB Neo 于 2027 财年在美提供 AI 云服务
15:28HuggingFace Daily Papers(社区热门论文)39ELDR: 面向PD分离式MoE服务的专家局部性感知解码路由
15:04IT之家(RSS)45Socionext基于台积电A14制程开发HPC SoC,目标今年9月测试流片
15:04IT之家(RSS)56AI 技术用于工厂质检:特斯拉车间靠车载麦克风自动检测车辆异响
13:04IT之家(RSS)53消息称美团内部全面限用豆包大模型,此前曾限用阿里云 Qwen
11:03IT之家(RSS)51华擎推出 ASRock Claw Quickset 桌面工具,可简化本地 AI 环境部署
10:39Hacker News 热门(buzzing.cc 中文翻译)53Meta限制内部AI token支出,警告成本达数十亿美元
09:03IT之家(RSS)64苹果 Safari 技术预览版 247 引入 MCP 服务,AI 智能体加速网页开发和调试
04:35Tomer Tunguz 博客(VC 分析)60精选构建AI智能体应优先设计路由
01:39Meta Engineering Blog(RSS)71精选Meta 大规模 AI 存储蓝图
01:17Google Developers Blog(RSS)68精选Google Cloud Workbench Notebooks 扩展发布:在 VS Code 中连接云端 Jupyter 环境
00:20Artificial Intelligence News(RSS)45部署零售AI以扩展个性化和客户洞察
00:17Google Developers Blog(RSS)52用 Genkit 构建智能体全栈应用
00:10The Decoder:AI News(RSS)59Meta效仿SpaceX建立云业务,转售闲置AI算力
7月1日周三
22:20Cloudflare Blog42Cloudflare 推出 Monetization Gateway:通过 x402 协议为任何资源收费
22:01TechCrunch:AI(RSS)72精选Meta效仿SpaceX,将过剩AI算力变现
21:03IT之家(RSS)46Meta 筹建云服务业务,计划对外售卖闲置 AI 算力与模型
21:00公众号:面壁智能(MiniCPM)22面壁智能亮相2026政法装备展:以AI原生路径推动政法智能化走向业务深处
16:32MarkTechPost(RSS)73精选NVIDIA 发布 Nemotron-Labs-TwoTower 开放权重扩散语言模型
16:03IT之家(RSS)54三星 HBM4E 良率突破 70%,第七代 AI 内存开发步入稳定
15:03IT之家(RSS)52消息称英伟达 Rubin Ultra AI 加速器放弃 4-Die 方案,改为 2-Die 方案
15:03IT之家(RSS)70精选亚马逊 AWS 砸 10 亿美元,派遣工程师进驻客户公司
14:03IT之家(RSS)49英伟达刷新 DeepSeek V4 推理纪录:单 Token 成本降至 1/5,AI 吞吐量最高提升 20 倍
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月3日
05:50
Runway:News(网页)
51
借用夜晚:将闲置推理GPU回收用于研究

Runway 开发了名为 deckard 的容量控制器,在生产推理集群与研究集群间动态重分配 GPU。生产流量在北美工作日上午 9 点 ET 达峰,晚 8 点 ET 跌至不足一半。控制器基于预计算的时间窗口(如工作日 8:30–12:30 ET 高峰子窗口)提前扩容和回收,每次集群间转移耗时 20–60 分钟。利用排队论(Erlang‑C、Little's Law)确定目标利用率,避免接近 85% 后的队列发散(90% 利用率下等待时间约为服务时间的 10 倍)。此方案使夜间闲置 GPU 回归研究、白天排队等待缩短。

推理教程/实践部署/工程
05:08
MarkTechPost(RSS)
精选70
阿里巴巴发布 Page Agent:开源 JavaScript 库实现网页 DOM 自然语言操控

阿里巴巴发布 Page Agent,一个开源的 JavaScript 客户端库,嵌入网页后可通过自然语言指令直接操作 DOM 元素。与 Playwright、Puppeteer 等外部浏览器自动化工具不同,Page Agent 不依赖截图或多模态模型,而是将实时 DOM 脱水压缩为 FlatDomTree 文本映射,让纯文本模型精准执行点击、表单填写等操作。它继承用户 cookies 和会话,无需独立后端,并支持任意 OpenAI 兼容端点的模型(示例使用 qwen3.5-plus)。项目采用 MIT 许可证,适合在自有应用内构建 AI 副驾、智能表单填充或无障碍控制等场景,但限于单页面范围,风险操作仍需服务端验证。

智能体开源/仓库部署/工程

推荐理由:Page Agent 把浏览器自动化从外部驱动变成页面内 JS,读 DOM 而非截图,让 SaaS 内的 AI 助手成本更低、更精准,适合自己产品内嵌 copilot 的团队。
03:45
The Decoder:AI News(RSS)
精选78
Microsoft 成立"Frontier Company",斥资 25 亿美元派驻 6000 名 AI 工程师到企业客户现场

Microsoft 新设业务部门“Frontier Company”,拨款 25 亿美元,将 6000 名行业与工程专家派驻企业客户现场,“共同设计、共同创新、部署并持续改进 AI 系统”。该部门由 Rodrigo Kede Lima 领导,旨在超越“前部署工程”模式,成为“最大、以结果为导向的工程组织”。Microsoft 将自己定位为 OpenAI 和 Anthropic 的“平台中立”替代方案,后两者也已设立专门部署公司。Microsoft 将借助埃森哲、凯捷、安永等系统集成商扩大覆盖范围。

AnthropicMicrosoftOpenAI行业动态

推荐理由:微软砸 25 亿美元成立 Frontier Company,把 6000 名工程师直接塞进企业客户现场,正面应战 OpenAI 和 Anthropic 的部署子公司。这一手既是补齐落地能力也是巩固生态,对 CIO 来说是选择多了,但对 AI 行业意味着部署军备竞赛正式开打。
02:37
LMSYS:Blog(Chatbot Arena 团队)
精选59
Agent辅助的SGLang开发:初步探索

SGLang团队将LLM服务、分布式运行时、GPU内核、扩散管道等工作流编码为可执行的SKILL.md文件、脚本、基准合约和审查循环。现有技能包括:SGLang .claude/skills(CUDA调试、内核集成、性能分析等)、SGLang diffusion .claude/skills(扩散模型添加与调优)、BBuf/AI-Infra-Auto-Driven-SKILLS(跨框架SOTA循环)、KDA(MLSys 2026 FlashInfer内核竞赛获胜方案)以及BBuf/KDA-Pilot(已合并三个SGLang集成PR)。Profile证据是性能工作的核心,长期优化转向Loop Engineering——SGLang SOTA Performance Loop将追求SOTA分解为公平基准测试、差距决策、性能分析、补丁和再验证,Humanize/RLCR添加外部审查,Codex Goal以更低协调开销运行相同循环。评审重要性提升,开发者需定义问题、选择证据、设计工作流并判断结果是否可用于生产。

推理教程/实践部署/工程

推荐理由:这不是一篇普通的开发经验总结,而是 SGLang 团队把调试、基准测试和性能调优等重复劳动变成可执行 agent 技能的实操手册,对于做推理框架和复杂工程的人非常值得一看。
02:35
TechCrunch:AI(RSS)
51
Anthropic 与三星洽谈定制芯片合作

据 The Information 报道,Anthropic 正与三星接触,探讨一款尚在规划中的定制芯片合作,但芯片具体用途、服务器集成方式及性能参数均未确定。Anthropic 对 TechCrunch 表示,包含 Google、Amazon 和 Nvidia 芯片的多元化硬件堆栈仍将是其计算战略核心。此举延续了 AI 公司减少对 Nvidia 依赖的趋势。上周,竞争对手 OpenAI 已与 Broadcom 合作推出自研推理处理器“Jalapeño”。三星目前已是 Nvidia 的主要芯片生产伙伴,并与 Google 讨论芯片制造合作。

Anthropic行业动态部署/工程
02:03
Claude:Blog(网页)
精选61
Claude Enterprise 新增用量与成本分析及支出管控功能

Claude Enterprise 推出更丰富的管理分析工具和成本控制功能。仪表板现可按群组和用户分析用量与成本,支持按 SCIM 群组筛选,展示制品创建、文件编辑、技能和连接器对应的成本。Claude Code 管理控制台新增“使用量”和“价值”选项卡,分别显示活跃开发者、会话次数、常用命令,以及生产力提升估算、每次提交成本和年度价值估算。分析聊天支持自然语言查询并返回可导出图表。Analytics API 可将数据接入 Datadog Cloud Cost Management 和 CloudZero。管理员可设置模型默认和权限控制,并配置组织级支出限额的 75%、90% 告警通知;用户在 75% 和 95% 时收到应用内提醒。Admin API 支持自动审批额度增加、标记接近限额用户及快速变化的用量。

Anthropic产品更新部署/工程

推荐理由:企业版管理员终于有了按群组和用户的成本明细、模型权限和花费警告。我觉得规模化部署 Claude 的团队会很看重这些,尤其能把 Claude Code 的价值量化成 ROI,财务团队可以直接拉进现有系统,不是一次性噱头。
7月2日
23:06
IT之家(RSS)
精选74
花旗、Adobe等企业限制员工使用AI旗舰模型以控制成本

据404 Media获取的内部资料,Atlassian、Adobe、亚马逊等六家企业正限制员工使用AI工具,要求改用能力较低的大模型避免成本失控。至少一家企业月度AI开销增至三倍,超1500万美元。花旗银行因GitHub改为按量计费,于6月24日禁用Claude Opus 4.6、4.7及GPT-5.5等旗舰模型。Adobe于6月30日终止Claude无限制使用协议。Atlassian数据显示其AI月支出从500万美元飙升至1500万美元,本财年预计超1.2亿美元。GitHub计划改用开源模型并测试单人按量计费模式。

AnthropicOpenAI现象/趋势部署/工程

推荐理由:这是第一份详细揭露大公司AI成本失控的内部报告,花旗直接禁用GPT-5.5和Claude 4.7,把「按需匹配模型」写进全员邮件,对所有在铺AI的企业都是一记现实的耳光。
22:57
Artificial Intelligence News(RSS)
48
Anthropic 推出 Claude Science 公开测试版,集成 NVIDIA BioNeMo 加速科学研究

Anthropic 推出面向科学研究的 AI 工作台 Claude Science 公开测试版,科学家可通过自然语言与数字智能体交互执行端到端研究流程。该平台原生集成 NVIDIA BioNeMo Agent Toolkit,将 GPU 加速计算资源封装为可调用的技能模块。全球前 20 大制药公司中已有 18 家生产部署 BioNeMo。基因组分析工具 Parabricks 将处理时间从数小时压缩至数分钟;RAPIDS-singlecell 将 130 万细胞预处理和聚类工作流从 52 分钟缩短至 25 秒;nvMolKit 加速分子相似性搜索和构象生成最高达 3,000 倍。系统还提供 Evo 2、Boltz-2、OpenFold3 等加速开放模型。

Anthropic开源生态行业动态部署/工程
22:06
IT之家(RSS)
62
微软宣布斥资 25 亿美元成立新公司,助力企业落地人工智能技术

微软今日成立微软前沿公司,初期注资 25 亿美元,客户包括联合利华、诺和诺德。新公司将协助企业整合微软自研及第三方 AI 工具(含开源大模型),对接内部数据,产出成果归客户所有。微软商用业务总裁承认三年前只绑定 OpenAI 模型是错误,企业需灵活替换顶尖模型(如 DeepSeek、Gemini)并自主微调。微软已持有 OpenAI 股权,并将 Anthropic 大模型接入 Copilot。

Microsoft行业动态部署/工程
22:05
TechCrunch:AI(RSS)
63
微软推出自有AI部署公司,投入25亿美元

微软本周四宣布成立新运营业务Microsoft Frontier,专注利用现有AI工具实现企业AI规模化部署。该项目获25亿美元投资,配备6000名专家。微软商业业务CEO称该组织将超越“前置部署工程师”模式,成为行业最大结果导向工程组织。此举与AWS(10亿美元内部承诺)、OpenAI和Anthropic的类似项目形成对比。微软现有客户基础提供先发优势,早期合作伙伴包括伦敦证券交易所集团、联合利华、Land O’Lakes及Accenture。

Microsoft行业动态部署/工程
21:15
The Decoder:AI News(RSS)
57
Nvidia 资助 AI 初创公司,以削弱大型科技公司对其芯片业务的掌控

Nvidia 正像央行一样为 AI 初创公司提供财务担保,使其能够购买昂贵的 AI 芯片。作为回报,Nvidia 直接分取这些云提供商的收入。若云提供商找不到租用 GPU 的客户,Nvidia 承诺自行租回未使用的算力。这一策略帮助 Nvidia 减少对亚马逊、微软、谷歌等大型科技公司的依赖——这些公司虽仍购买其大部分芯片,但也在自研 AI 硬件。

行业动态部署/工程
20:06
IT之家(RSS)
53
英伟达推出全新扶持计划,以收益分成模式助力 AI 初创企业获取算力

英伟达推出全新扶持计划,通过收益分成与信贷支持模式,帮助人工智能初创企业获取高性能计算基础设施。人工智能云服务商将部署搭载英伟达技术的云服务,英伟达可分享后续经营收益。多家云运营商已基于旗下 DSX 数据中心平台搭建 AI 算力中心,Sharon AI 与 Firmus 为首批落地企业,标志着计划启动试点推广。该计划旨在降低新兴 AI 企业的资金门槛,并巩固英伟达在全 AI 产业链的核心地位。

行业动态部署/工程
19:39
Ars Technica:AI(RSS)
精选70
谷歌AI建设导致2025年用电量增长37%

2025年,谷歌年度用电量同比上涨37%,创历史最大增幅。数据中心全年消耗超4200万兆瓦时,超过新西兰、丹麦、尼日利亚等国总用电量。自2019年以来,谷歌总用电量已增长超250%。用电激增主要来自Google Cloud、YouTube视频流及支撑AI产品和服务的数据中心建设与运营。公司表示,AI基础设施建设速度超过电网脱碳速度,但仍致力于扩大全球清洁电力规模,并通过技术创新降低运营排放。2024年谷歌用电量增幅为27%。

Google行业动态部署/工程

推荐理由:谷歌2025年电力消耗暴增37%创历史纪录,清洁能源购买未能完全掩盖新建天然气电厂的排放,AI扩张的环境代价正加速兑现。
18:31
公众号:千问APP(阿里)
精选62
千问团队朱达:C端Agent Harness的"多快好省"工程哲学与主动服务探索

千问团队2026年1月上线通用复杂任务Agent(千问App胶囊入口),总结“多快好省”方法论:支持信息搜集、研究分析等任务;执行时间降至初始1/3;通过搜索范式与上下文管理优化交付质量;Token消耗仅为海外产品1/10。团队探索从被动响应转向主动服务,构建User Memory、Environment、Task System、Assistant四大组件,指出“情商”是主动服务最难环节。朱达提出Agent工程从Prompt Engineering演进至Harness Engineering,下一站是A IWare Engineering,强调“低功耗,够用就行”。

智能体大佬观点部署/工程

推荐理由:千问C端团队分享的Agent工程实践很务实,从“多快好省”到AIWare Engineering的演进思路,对正在做复杂任务Agent的团队是一个有价值的参考系。
18:06
IT之家(RSS)
59
DeepSeek 出现服务问题,网页 / API 均受影响

7 月 2 日下午,DeepSeek 网页和 API 出现性能下降,官方状态页面确认已定位原因并正在修复。DeepSeek V4 正式版计划于 7 月中旬上线,届时将带来功能优化和性能提升,同时调整 API 定价策略,引入峰谷定价机制。

行业动态部署/工程
18:06
IT之家(RSS)
57
核能供电 AI:Valar 成功用先进反应堆为英伟达 Blackwell 芯片供电

核能初创公司Valar Atomics利用其Ward 250先进反应堆为英伟达Blackwell芯片成功供电,并临时运行了一个网站,这是美国境内下一代反应堆首次实现此类应用。两家公司同步宣布合作,计划在犹他州建设一座小型数据中心,重点验证AI计算设施通过先进核能和闭环液冷技术降低对外部电网及水资源的依赖。上月该反应堆已达成临界状态,本次供电试验在此基础上取得新进展。

行业动态部署/工程
17:31
HuggingFace Daily Papers(社区热门论文)
34
轻量级IIoT入侵检测模型跨域泛化失败研究

四种轻量级架构在一个IIoT数据集上训练后,不经重新训练直接在另两个结构不同的IIoT数据集上评估,仅使用三者共有的特征。可解释性分析显示,两个最优模型主要依赖粗粒度端口类别特征,其中最具影响力的类别在源域攻击流量出现频率是目标域的96至435倍,表明粗化端口分辨率只是转移而非消除已知捷径。自然不平衡分布下,评价协议可能反转对哪个目标域更具挑战的判断。对抗鲁棒性与跨网络泛化无关,有限目标域数据适应的恢复效果因架构而异。建议部署就绪性应在真实类别分布下通过跨网络评估。

端侧论文/研究部署/工程
16:06
IT之家(RSS)
48
软银通过新设子公司 SB Neo 于 2027 财年在美提供 AI 云服务

软银集团与软银公司计划本月在美国特拉华州设立合资企业 SB Neo,软银集团持股 49%、软银公司持股 51%。SB Neo 定位为 Neocloud 企业,基于软银集团开发的 10GW 能源与 AI 基础设施,为美国大型企业提供大型 AI 模型训练与推理所需算力。云服务计划 2027 财年上线,后续分阶段扩大规模。软银公司已从今年 5 月开始在日本进行 AI GPU 云服务测试,相关经验将用于 SB Neo 运营。

行业动态部署/工程
15:28
HuggingFace Daily Papers(社区热门论文)
39
ELDR: 面向PD分离式MoE服务的专家局部性感知解码路由

ELDR是为预填充-解码分离式MoE服务设计的解码路由算法。它从请求预填充阶段提取专家激活特征,构建预测生成阶段所需专家的签名,通过离线平衡K-means聚类将签名空间分配到解码节点,在线路由时优先将请求发往签名匹配且负载最轻的节点。签名缓存与KV缓存以KV-block粒度协同索引,保证前缀缓存下签名准确。在vLLM实现,最高40块GPU部署测试,相比四种负载均衡基线中最强的一种,在三个MoE模型和两种负载上降低中位TPOT 5.9–13.9%,模型输出不变。

推理论文/研究部署/工程
15:04
IT之家(RSS)
45
Socionext基于台积电A14制程开发HPC SoC,目标今年9月测试流片

日本Socionext正在为AI数据中心开发基于台积电A14(1.4nm)的HPC芯片,计划今年9月完成测试芯片流片,用于验证XPU架构的可扩展性。A14是台积电继N2后的下一代制程,预计2028年量产,相较N2可在相同功耗下提升10~15%速度,或相同速度下降低25~30%功耗,逻辑密度增加超20%。

行业动态部署/工程
15:04
IT之家(RSS)
56
AI 技术用于工厂质检:特斯拉车间靠车载麦克风自动检测车辆异响

特斯拉车辆可自主驶入异响检测工位,车内麦克风捕捉杂音反馈工程团队。公司正研发“全向听觉系统”AI用于交付前识别装配缺陷。工厂各部门部署自研AI智能体系统,覆盖研发、供应链、售后、质检。Cybercab生产线约90%工序全自动化,未来产量或超越所有历史车型(Model Y累计近400万台)。星链有望搭载于Cybercab保障偏远地区信号。Optimus人形机器人首条量产线在弗里蒙特工厂落地,全模块化设计,约40条子生产线在德国制造。

行业动态语音部署/工程
13:04
IT之家(RSS)
53
消息称美团内部全面限用豆包大模型,此前曾限用阿里云 Qwen

7月2日,美团内部通知要求所有业务团队自查并规划将现有豆包相关业务迁移至自研LongCat、DeepSeek等模型,无法迁移的需提交原因并走单独审批。今年4月,美团已收紧阿里云Qwen模型使用门槛,需X3级别审批。美团自研大模型LongCat于2023年启动研发,已应用于APP内置AI助手“小团”及商家经营助手。近日发布的LongCat-2.0为万亿参数模型(总参数1.6T,平均激活约48B),基于五万卡国产算力集群训练,预训练数据规模超30T tokens,原生支持1M超长上下文。

行业动态部署/工程
11:03
IT之家(RSS)
51
华擎推出 ASRock Claw Quickset 桌面工具,可简化本地 AI 环境部署

华擎发布 ASRock Claw Quickset 桌面工具,专为简化本地 AI 环境部署而设计,可自动完成 OpenClaw、AI 模型及必要软件组件的安装与设定。该工具提供引导式安装,用户无需手动处理依赖关系即可快速开始 AI 交互。工具默认部署本地 AI 环境,支持通过 OpenClaw 配置云端算力;默认状态下文件访问权限仅限指定工作区,系统层级功能关闭。

产品更新端侧部署/工程
10:39
Hacker News 热门(buzzing.cc 中文翻译)
53
Meta限制内部AI token支出,警告成本达数十亿美元

Meta向约6000名员工发送内部备忘录,警告2026年内部AI使用成本已接近数十亿美元。员工在约30天内消耗了73.7万亿token,公司内部排行榜“Claudeonomics”追踪了这些数据。CTO Andrew Bosworth指出token用量不代表影响力。Meta将部署集中监控平台“AI Gateway”,并计划于2027年实施正式token预算,同时引导员工从Anthropic的Claude转向内部编码助手MetaCode。

Meta行业动态部署/工程
09:03
IT之家(RSS)
64
苹果 Safari 技术预览版 247 引入 MCP 服务,AI 智能体加速网页开发和调试

苹果 Safari 技术预览版 247 新增 MCP 服务器支持,MCP 是开放标准,让 AI 智能体连接外部工具、服务与数据源,如代码仓库、本地文件及浏览器开发工具。配置后,编程智能体可检查网页、访问控制台日志和网络请求、抓取截图并与页面元素交互。用途包括调试网站、识别 Safari 兼容性问题、性能分析、可访问性检查及验证页面与 UI 状态。

MCP/工具产品更新部署/工程
04:35
Tomer Tunguz 博客(VC 分析)
精选60
构建AI智能体应优先设计路由

构建AI智能体时,应优先设计路由(router)而非选择模型。路由决定每个请求由哪层模型处理。正确路由可使70-80%流量运行在免费本地模型或异步推理上,将AI开销降低90%+。Brian Armstrong指出Coinbase通过更好的默认设置、路由和缓存,在token使用量增长的同时将AI支出减半。路由分三层:技能分类器、路由器、模型选择器。本地计算近乎零成本,异步批量推理比实时推理便宜两个数量级。大多数工作无需秒级返回。同步预测器标记复杂任务,夜间批量评估器更新路由权重。技能蒸馏后,非编码类任务中70-80%智能体流量可由本地模型处理。

大佬观点部署/工程

推荐理由:Tunguz 把代理架构的设计重心从模型选择拉回到路由上,三层分类器-路由器-选择器的划分很清晰,做 AI 应用的团队可以参考,但其中的新东西不多。
01:39
Meta Engineering Blog(RSS)
精选71
Meta 大规模 AI 存储蓝图

Meta 运营数百 EB 级存储集群,基于 Tectonic 分层存储层构建 BLOB 存储架构,以应对两大挑战:最大化 GPU 利用率与研究迭代速度。传统 BLOB 架构的多层元数据查询可导致数百毫秒延迟,使 GPU 因 I/O 等待停顿。新架构将训练栈逐步迁移到 BLOB 存储接口上,利用闪存提供可预测的低 pMax 延迟,避免单 GPU 慢速拖慢整批任务。同时,统一的数据湖访问支持地理分布 GPU 间的数据高速注入与跨区移动,提升研究效率。

Meta数据/训练现象/趋势部署/工程

推荐理由:Meta的存储架构复盘给出了一条明确路径,从重写元数据到分层缓存,他们把GPU利用率和研究者迭代速度同时提升了一个档次,做AI训练平台的值得细读。
01:17
Google Developers Blog(RSS)
精选68
Google Cloud Workbench Notebooks 扩展发布:在 VS Code 中连接云端 Jupyter 环境

Google Cloud Workbench Notebooks 扩展正式上线,开发者可在 VS Code 中直接连接可扩展的云端 Jupyter 环境,无需切换上下文即可利用高性能 Google Cloud 基础设施完成机器学习全流程。该扩展已完全开源,可在 GitHub 和 VS Code Marketplace 获取。

Google产品更新部署/工程

推荐理由:这个扩展把Google Cloud的Jupyter环境直接嵌进VS Code,做ML的开发者不用再切换窗口,工作流会流畅不少,但对行业格局影响不大。
00:20
Artificial Intelligence News(RSS)
45
部署零售AI以扩展个性化和客户洞察

零售AI通过生成式UI实时定制页面布局、文案和交互组件,将购买频率提升35%、平均订单价值提高21%。多模态社交倾听系统处理视频、音频和未标记图像,覆盖82%的互联网流量,全球市场本财年达28.3亿美元,76%的分析师报告可见投资回报。基于大语言模型的合成用户模拟可在沙箱环境中执行数千次自动化访谈和内容测试。边缘计算硬件支持无收银台结账、实时货架跟踪等物理自动化,该市场预计2040年超3700亿美元。Model Context Protocol(MCP)作为开放通信标准,标准化模型与零售数据库、产品目录及CRM的集成。

多模态现象/趋势端侧部署/工程
00:17
Google Developers Blog(RSS)
52
用 Genkit 构建智能体全栈应用

开源框架 Genkit 推出 Agents API,将消息历史、工具循环和流式传输封装为单一接口,简化对话 AI 开发。该 API 支持服务器或客户端管理的状态持久化,可实现历史分支、长时间运行的分离任务及多智能体协调等高级工作流,并通过统一线协议连接前后端。目前以 TypeScript 和 Go 预览版发布,集成 Genkit Developer UI,开发者无需编写客户端代码即可测试、调试和检查智能体快照。

智能体Google产品更新部署/工程
00:10
The Decoder:AI News(RSS)
59
Meta效仿SpaceX建立云业务,转售闲置AI算力

Meta效仿SpaceX,将大量购入的Nvidia GPU闲置算力转售给外部客户,而非全部用于自家模型训练,也可能在基础设施上提供AI模型访问。消息公布后Meta股价上涨约10%。SpaceX此前将原为xAI购买的GPU容量租给Anthropic(每月12.5亿美元)和Google(每月9.2亿美元)。Meta今年AI基础设施支出高达1450亿美元,并裁员以筹集资金。转售过剩算力符合财务逻辑,也表明其自研模型(如今年4月发布的Muse Spark)并未消耗全部算力。

Meta行业动态部署/工程
7月1日
22:20
Cloudflare Blog
42
Cloudflare 推出 Monetization Gateway:通过 x402 协议为任何资源收费

Cloudflare 开放 Monetization Gateway 候补名单,允许对 Cloudflare 背后的任何网页、数据集、API 或 MCP 工具收费。费用通过 x402 开放协议以稳定币结算,用户无需自建支付栈。

MCP/工具产品更新部署/工程
22:01
TechCrunch:AI(RSS)
精选72
Meta效仿SpaceX,将过剩AI算力变现

据Bloomberg报道,Meta正计划推出云基础设施业务Meta Compute,对外出售AI计算能力和模型访问权限,直接与AWS、Google Cloud及Azure竞争。Meta已承诺未来几年投入1829亿美元建设AI基础设施,其中俄亥俄州数据中心(规模如曼哈顿)将于今年上线。新业务由基础设施主管Santosh Janardhan、Meta超级智能实验室负责人Daniel Gross和总裁Dina Powell McCormick领导。Meta可能效仿CoreWeave出售裸计算能力,并像AWS一样托管AI模型(包括近期发布的闭源模型Muse Spark)。扎克伯格此前已表示云业务“definitely on the table”。

Meta行业动态部署/工程

推荐理由:Meta 进入云市场不只是大厂的新业务,而是算力资产化的信号,未来 AI 竞争可能从模型军备赛转向数据中心所有权,开发者能拿到更便宜的 GPU 但绑定生态的风险也得权衡。
21:03
IT之家(RSS)
46
Meta 筹建云服务业务,计划对外售卖闲置 AI 算力与模型

Meta 正在规划一项新的云基础设施业务,拟将闲置的 AI 算力和自研模型(包括 Muse Spark 模型)通过类似亚马逊 AWS Bedrock 的模式对外提供调用权限,并向开发者收取使用费。同时,Meta 也在考虑出租“底层算力”。这些新业务隶属于 Meta Compute 内部项目。此举将使 Meta 与亚马逊 AWS、微软 Azure、谷歌云直接竞争。

Meta行业动态部署/工程
21:00
公众号:面壁智能(MiniCPM)
22
面壁智能亮相2026政法装备展:以AI原生路径推动政法智能化走向业务深处
行业动态部署/工程
16:32
MarkTechPost(RSS)
精选73
NVIDIA 发布 Nemotron-Labs-TwoTower 开放权重扩散语言模型

NVIDIA 发布 Nemotron-Labs-TwoTower,基于冻结的自回归骨干 Nemotron-3-Nano-30B-A3B 的扩散语言模型。采用双塔架构:上下文塔冻结,降噪器塔训练,通过层对齐交叉注意力和状态播种协作。在 2×H100 上 BF16 评估,保留 98.7% 的 AR 基线质量,生成吞吐量提升 2.42 倍(γ=0.8,块大小 S=16)。降噪器在约 2.1T token 上训练,骨干使用 25T token 预训练。总参数约 60B,每 token 活跃参数约 3B/塔。支持扩散、模拟 AR 和 AR 三种解码模式。

开源生态推理模型发布部署/工程

推荐理由:NVIDIA这个TwoTower把扩散解码接在已有的AR骨干上,几乎无损质量却让吞吐翻倍,并且开源可商用,对批量文本生成的团队是实在的加速工具。
16:03
IT之家(RSS)
54
三星 HBM4E 良率突破 70%,第七代 AI 内存开发步入稳定

三星电子在内部简报会上透露,HBM4E 可靠性测试良率已超 70%,研发进入稳定轨道;下一代 10 纳米级第七代 DRAM(D1d)工艺技术竞争力领先对手,计划今年 11 月通过生产准备就绪审批(PRA)。HBM4 已率先量产出货,将用于英伟达下半年推出的 AI 加速器 Vera Rubin;HBM4E 则计划用于明年的 Vera Rubin Ultra。D1d 将从第八代 HBM5 开始采用,有望提升后续产品竞争力。

行业动态部署/工程
15:03
IT之家(RSS)
52
消息称英伟达 Rubin Ultra AI 加速器放弃 4-Die 方案,改为 2-Die 方案

消息源 SemiAnalysis 爆料,英伟达因制造执行问题,原定 2027 年推出的 Rubin Ultra AI 加速器放弃 4-Die 设计方案,改为更易量产的 2-Die 版本。4-Die 方案在先进封装上接近光罩极限,且需搭配 16 个 HBM4E,导致散热难度和成本过高。改为 2-Die 后性能缩水一半,在与 AMD Instinct MI500 系列竞争中可能降低竞争力。

行业动态部署/工程
15:03
IT之家(RSS)
精选70
亚马逊 AWS 砸 10 亿美元,派遣工程师进驻客户公司

亚马逊 AWS 宣布设立新部门,组建前置驻场工程师团队,先期投入 10 亿美元(约 67.97 亿元人民币)。团队分批派驻客户企业,每批 5-6 组工程师,驻场周期 45 天,协助客户落地人工智能软件与智能体应用。该模式在 Palantir、Salesforce、Anthropic、谷歌云等企业已有先例,领英数据显示 2023 至 2025 年间同类岗位需求增长 42 倍。新部门员工规模将达数千人,首批客户包括 NBA 与理光。

行业动态部署/工程

推荐理由:AWS 砸 10 亿美元建驻场工程师团队,帮客户 45 天落地 AI 智能体。这不是卖云资源,是卖业务结果,对考虑用 AI 的企业是个信号,巨头开始贴身服务了。
14:03
IT之家(RSS)
49
英伟达刷新 DeepSeek V4 推理纪录:单 Token 成本降至 1/5,AI 吞吐量最高提升 20 倍

英伟达 6 月 30 日发布博文,宣布在 Blackwell 平台上通过全栈推理优化,使 DeepSeek V4 模型的单 Token 成本降至 1 个月前的五分之一,达到行业最低水平。优化涵盖生产运营、应用加速和基础设施访问三层,采用分离式服务、大规模专家并行、NVLink 并行通信、NVFP4 精度及多 token 预测等技术,单 GPU 的 token 吞吐量最高提升 20 倍。

DeepSeek推理行业动态部署/工程
‹ 上一页
123…35
下一页 ›