6月23日

16:12

Hugging Face：Blog（RSS）

精选67

Hugging Face 将 huggingface_hub 的发布周期从每 4‑6 周缩短至每周，全部由单个 GitHub Actions 工作流自动完成。流程依赖开源工具和开权重模型（当前为 Z.ai 的 GLM‑5.2）来起草发布说明和 Slack 公告，但保留人类在最终审核环节的决定权。自动步骤包括版本号更新、提交标签推送、PyPI 发布、下游测试分支创建、发布说明草稿、Slack 公告草稿、归档、后置版本提升以及对合入 PR 的评论。所有组件均基于开源生态构建，任何维护者都可直接复制使用。

智能体 Hugging Face 开源/仓库教程/实践

推荐理由：Hugging Face 把周更流程完全开源，用 GLM-5.2 生成发布说明初稿，再加确定性校验和人工修订，成本低到两毛五一次。想提高发版频率的 Python 库维护者可以直接 fork 适配。

15:41

MarkTechPost（RSS）

Prime Intellect 发布 prime-rl 0.6.0，用于万亿参数 MoE 模型的智能体强化学习训练

prime-rl 0.6.0 是一个开源异步强化学习框架，针对万亿参数 MoE 模型，聚焦长周期智能体任务（如软件工程）。研究团队在 GLM-5 上训练 SWE 任务，序列长度达 131k，步时间低于5分钟，batch size 256，仅用28个H200节点。推理优化包括 FP8（DeepEP、DeepGEMM 内核）、宽专家并行（≥32 GPU）、前填充与解码分离、KV 缓存分层卸载（vLLM 原生或 Mooncake Store）以及路由重放（R3，降低 KL 不匹配约一个量级）。训练基于 torchtitan，采用3D并行（FSDP2、上下文并行、专家并行）和块缩放 FP8（由 DeepSeek V3 提出），以匹配推理精度并稳定训练。

智能体开源/仓库部署/工程

15:07

IT之家（RSS）

软银孙正义评马斯克太空数据中心方案：价值寥寥，AI竞赛胜负取决于地面算力

软银孙正义称马斯克推崇的太空数据中心价值有限，电费占数据中心运营成本很低，芯片等硬件才是大头，且运输、维护及通信延迟代价高昂。他表示未来几年比十年后更重要，软银将专注地面强大算力，先发制人者胜。孙正义已向OpenAI投入约650亿美元，承诺再投数千亿美元建数据中心，认为AI尚处早期，具备十倍百倍增长潜力。

大佬观点部署/工程

14:41

MarkTechPost（RSS）

GLM-5.2 OpenAI 兼容 API 实践指南：推理控制、函数调用与长上下文检索

GLM-5.2 通过 OpenAI 兼容 API 提供深度思考开/关、推理努力级别（high/max）、流式推理与回答、函数调用、工具代理、结构化 JSON 输出及长上下文检索。API 输入每百万 token 1.40 美元、输出 4.40 美元，支持 zai、OpenRouter 等多提供商访问。教程演示了从客户端设置、API key 安全加载到可复用聊天封装与成本追踪的完整开发流程。

MCP/工具推理教程/实践部署/工程

14:10

公众号：京东JoyAI

精选73

京东全栈开源JoyAI-VL-Interaction，从"一问一答"走向"边看边说"

京东近日开源全球首个全栈交互模型JoyAI-VL-Interaction，获vLLM-Omni原生支持。该模型能持续观察视频流、主动判断关键事件并实时响应，支持将复杂任务委托后台Agent处理。在58个真人盲评中，对比豆包视频通话助手胜率77.6%，对比Gemini视频通话助手胜率87.9%，监控预警场景达100%胜率。开源内容包括模型权重、交互数据集、训练方案及完整可部署系统，支持摄像头、直播流等视频输入及语音交互、长期记忆、vLLM部署，适用于安防监控、老人看护、直播讲解等实时场景。

多模态开源生态模型发布部署/工程

关联讨论 2 条

推荐理由：京东这个实时交互模型不是又一个刷榜模型，它把「什么时候该说话」变成了模型自己的判断。全栈开源且对比豆包、Gemini 胜率惊人，做安防、看护、直播的开发者可以直接试了。

12:07

IT之家（RSS）

SPHBM4 标准获批：引脚数降至 HBM4 的 1/5，每引脚速率提高 300%

国际半导体标准组织 JEDEC 正式批准新一代高带宽内存标准 SPHBM4（JESD330-4）。该标准将信号引脚数降至约 400 个（HBM4 约 2000 个），每引脚速率从约 11 Gbps 提升至约 44 Gbps，总带宽接近 HBM4 的 2.8TBps。通过采用标准基板和标准封装，降低对中介层等先进封装工艺的依赖，旨在降低 AI 加速器、GPU 和高性能计算芯片的制造难度与成本。

行业动态部署/工程

12:07

IT之家（RSS）

SpaceX 与 Reflection 签署 63 亿美元算力合同，出租 Colossus 2 的 NVIDIA GB300 GPU

马斯克旗下 SpaceX 与 Reflection 签署 63 亿美元算力合同，出租 Colossus 2 数据中心的 NVIDIA GB300 GPU，有效期 2026 年 7 月至 2029 年 6 月，月费 1.5 亿美元。Colossus 2 约有 55 万块 NVIDIA GPU（含 GB200、GB300）。此前 SpaceX 已与谷歌（月费 9.2 亿美元，对应 11 万块 GPU）和 Anthropic（月费 12.5 亿美元，对应 22 万块 GPU）签下大额合同。

行业动态部署/工程

10:07

IT之家（RSS）

NVIDIA Vera Rubin NVL4 平台 2026Q4 上市：科学计算模拟性能是 Grace Hopper 四倍

NVIDIA 宣布 Vera Rubin NVL4 系统预计 2026Q4 上市。单个“托盘”集成 4 颗 Rubin GPU 和 2 颗 Vera CPU，GPU‑GPU 互连采用运行第六代 NVLink 协议的第二代 NVLink 桥接器，GPU‑CPU 互连使用 NVLink‑C2C。物理设计针对超级计算优化了密度、能效和操作简便性，兼容液冷 NVIDIA MGX 模块化服务器。与 Grace Hopper 相比，Vera Rubin NVL4 的科学计算模拟性能提升 4 倍，科学 AI 训练性能提升 6 倍，科学 AI 推理性能提升 8 倍。

产品更新部署/工程

09:14

OpenRouter：Announcements（RSS）

精选72

OpenRouter：通过API路由实现AI数据驻留合规

Deloitte 报告显示 77% 的公司将供应商国籍纳入 AI 选型考量。OpenRouter 将数据驻留视为路由决策：通过 API 请求中的 provider 对象设置 order 或 only 限定服务商、allow_fallbacks 为 false 禁止回退、data_collection 为 deny 禁止数据存储或训练、zdr 为 true 要求零数据保留。示例以 anthropic/claude-sonnet-4.6 调用，首选 Anthropic 直连和 Amazon Bedrock。针对欧盟需求，可限制仅 Mistral 等欧盟总部供应商。若无可合规供应商，API 返回错误而非路由至不合规服务商。

教程/实践部署/工程

推荐理由：OpenRouter 这篇指南把数据驻留从一个基建难题退化成一次 API 请求里的路由配置，对需要合规的团队是直接可抄的实操手册。

09:14

OpenRouter：Announcements（RSS）

精选62

AI 治理清单：LLM 架构先行

Deloitte 报告显示企业 AI 抱负与治理成熟度之间差 53 个百分点，74% 计划两年内部署智能体 AI，仅 21% 拥有成熟治理模型。路由架构是首个治理层。三种姿态——托管网关（如 OpenRouter、Portkey）、自托管网关（如 LiteLLM）和直接 API——默认治理能力不同，直接 API 缺乏统一控制面，造成治理盲区。治理清单可映射为资产盘点、问责制、访问控制、证据记录与合规性五大支柱。路由层能提供跨团队可见性与审计证据，而电子表格不能。

教程/实践部署/工程

推荐理由：这不是另一篇泛泛的治理框架文章，它把合规差距直接映射到路由架构上，三张对比表格比政策文档更有用，做 LLM 平台或 infra 的团队值得对照检查自己的堆栈。

09:07

IT之家（RSS）

AI 转型与成本压力下，甲骨文 2026 财年裁员 2.1 万人

甲骨文 2026 财年员工总数减少 13%，裁员约 2.1 万人，截至 2026 年 5 月 31 日员工 14.1 万，去年同期 16.2 万。重组相关离职补偿金支出 18.4 亿美元，远高于上年的 3.74 亿美元。裁员由管理层与产品线调整、绩效、战略转向及收购整合等驱动。公司近期与 OpenAI、Meta 签订大型数据中心协议，但股价年内下跌约 10%。预计本财年净资本开支约 700 亿美元，计划再融资 400 亿美元，含 200 亿美元股票增发。

行业动态部署/工程

08:14

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选84

GLM-5.2 开源模型发布：744B 参数，1M 上下文，可本地运行

Z.ai 发布 GLM-5.2，开源 744B 参数（40B 活跃），1M 上下文窗口，性能与 Claude 4.8 Opus、GPT-5.5、Gemini 3.1 Pro 持平。通过 Unsloth 动态量化，2-bit GGUF 版本内存需求降至 239GB（-84%），1-bit 版降至 217GB（-86%），可运行于 256GB 统一内存 Mac 或 1×24GB GPU+256GB RAM。提供非思考、高、最大三种思考模式。评测显示动态 1-bit 准确率约 76.2%，2-bit 约 82%。

GitHub 开源生态教程/实践部署/工程

同一事件，精选展示《GLM-5.2 上线并开源：专注 Coding 与长程任务》

推荐理由：Unsloth 这篇操作指南把 GLM-5.2 从「只能仰望」变成了「可以在自家 256GB Mac 上跑」，动态量化让 744B 参数模型降到了 239GB 磁盘占用，对想上手本地最强开源模型的人，这一步正好踩在从 curiosity 到可用的临界点上。

08:00

HuggingFace Daily Papers（社区热门论文）

AsyncOPD：异步在线策略蒸馏中的陈旧性问题研究

在线策略蒸馏异步训练中，轨迹生成与学习器更新解耦引入陈旧策略数据；KL方向决定影响：教师加权正向KL鲁棒，学生加权反向KL脆弱。异步RL稳定方法无效，反向计算当前学生信号更优。有限教师分数缓存导致稀疏采样反向KL估计器的偏差-方差权衡，多采样蒙特卡洛可降低方差。基于此，开源AsyncOPD全异步管道在严格同步训练基础上实现1.6至3.8倍吞吐量提升，精度相当。

推理数据/训练论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

RoPE感知的KV缓存量化位分配方法Block-GTQ

现有低比特KV量化器将每个key视为平面向量，而RoPE下key的注意力贡献分解为二维频率块的和。Block-GTQ基于TurboQuant-MSE，为每层和KV头计算每个RoPE块的无标签能量分数，通过边际增益贪心分配整数位宽。在10模型诊断集上，2/3 b/dim单K量化下每层MAE降低32–80%，367/367层全部优于均匀TQ-MSE。在Llama-3.1-8B-Instruct的K2V2设置下，六任务NIAH平均分从70.6提升至97.4，LongBench-EN平均分从36.87升至53.31。在DeepSeek-R1-Distill-Qwen-7B的AIME 2024/2025上，K3V2无fp16近期key缓冲区时得分51.7/37.5，接近fp16的54.2/37.9。基于打包缓存的推理路径在单H800、Qwen2.5-3B-Instruct上，K3V3实现3.24倍压缩，128K下比fp16 FlashAttention2快1.34倍，峰值内存从56.31GB降至19.85GB，并在256K和512K下仍可运行。

推理论文/研究部署/工程

07:33

The Verge：AI（RSS）

Nvidia：液冷高温运行可使AI数据中心用水量降至"接近零"

Nvidia称，其Rubin代参考设计采用100%液冷并让服务器在更高温度（最高45°C）下运行，可将AI数据中心用水量降至“接近零”。热量在芯片处直接捕获，通过高温液体回路传输，使室外干式冷却器全年高效排热。Nvidia可持续发展主管Josh Parker表示，相比传统冷却塔系统每年每兆瓦约260万加仑的用水量，新设计降幅高达100%。但该方案未提及建设成本及数据中心建造、发电环节的其它环境关切。

行业动态部署/工程

05:42

Hacker News 热门（buzzing.cc 中文翻译）

精选80

美国警长利用Flock车牌系统跟踪前女友案频发，Flock法务官承认"最常见滥用"

伊利诺伊州Holiday Hills警察局长于2026年6月18日被捕，被控两项渎职重罪。检方指控他利用Flock车牌读取系统及州警察数据库，跟踪6名认识的人，其中3人为前女友，并对其中一人的前男友车牌查询140次（86次脱岗），持续18个月。全美至少18起类似案例：佐治亚州Braselton警察局长、爱达荷州Jerome县警长（700余次查询其妻车牌）等均因此辞职或被捕。Flock首席法务官Dan Haley承认，滥用该系统“最常见情况”就是跟踪前女友。Flock称系统只跟踪车辆，但案例表明车辆是手段，人是目标。

政策/监管部署/工程

推荐理由：调查揭露了多位警察局长滥用Flock车牌识别系统跟踪前伴侣，这种「合法工具变成私器」的模式，比技术缺陷更动摇信任。我认为今年监控技术讨论绕不开这一案例，它让搜查令问题从抽象变成了火烧眉毛的紧迫。

05:19

Claude：Blog（网页）

精选55

在 AWS、Google Cloud 和 Microsoft Foundry 上使用完整版 Claude Desktop

通过 AWS、Google Cloud 和 Microsoft Foundry 使用 Claude Desktop 的组织现已获得 Chat、Claude Cowork 和 Claude Code 集成的完整桌面体验。IT 团队可将推理保留在自己的云环境中，对话历史本地存储。支持 IAM Identity Center、Workforce Identity Federation、Microsoft Entra ID 或 Okta 登录；策略模板可导出至 Intune、GPO 或 Jamf；提供离线安装器。Chat、Claude Cowork 和 Claude Code 各有独立策略键，支持精细访问控制。M365 连接器通过 Entra 应用访问邮件和文档，并支持 GCC High/DoD 端点。

Anthropic 产品更新部署/工程

推荐理由：Anthropic 把 Claude Desktop 的完整体验带到了自家云环境之外，对于已经在 AWS 或 Azure 上跑推理的团队，终于可以从同一入口覆盖聊天、协作和编码，不用再切工具了。

04:35

TechCrunch：AI（RSS）

Nvidia想削减数据中心用水，但这不等于解决AI的用水问题

Nvidia宣布一套温水冷却系统，称可在数据中心内部“基本消除所有用水”。冷却液以45°C注入、55°C流出，闭环循环。适宜气候下可实现100%现场用水削减。但外部用水（发电和芯片制造）可使总用水量翻倍或三倍，Nvidia方案仅解决约四分之一到三分之一。目前约一半数据中心电力来自化石燃料，且到2030年新供电中超40%仍依赖天然气和煤。因此仅靠内部节水远未解决AI用水问题。

行业动态部署/工程

02:14

The Decoder：AI News（RSS）

Google 将 Interactions API 作为 Gemini 模型与智能体的默认接口

Google DeepMind 宣布 Interactions API 正式可用，成为 Gemini 模型和智能体的默认接口。该 API 自 2025 年 12 月进入 Beta 测试，现取代 Google AI Studio 和文档中的旧 generateContent 接口；未来新智能体功能仅通过它提供。近期新增功能包括：自带 Linux 沙箱的 Managed Agents、后台执行、Google 搜索与地图工具链、图像/音乐/语音媒体生成。架构从旧的 "user"/"model" 角色简化为 typed steps，每步动作独立定义。开发者可选择 Flex 模式（成本降低 50%）或 Priority 模式（优化速度）。

智能体 Google 产品更新部署/工程

00:43

The Decoder：AI News（RSS）

微软在德州建设2吉瓦数据中心并自带燃气电厂以绕过电网

微软正在德克萨斯州Pecos建设一座约2吉瓦的数据中心园区，项目耗资数十亿美元，工期5至7年，高峰期将提供超过6000个建筑岗位和数百个永久职位。园区配备由微软出资的燃气发电厂，脱离公共电网供电。微软声称采用闭环冷却，全生命周期耗水仅为典型快餐店年用水量的“一小部分”，并承诺不会推高当地电价、回补更多水资源、尽早听取居民意见。受电网容量限制，微软等公司正自建电厂。雪佛龙将为该站点提供燃气轮机，预计2028年左右投入运行。

Microsoft 行业动态部署/工程

6月22日

22:11

Hugging Face：Blog（RSS）

精选69

PP-OCRv6 on Hugging Face：50 语言 OCR，参数规模 1.5M 至 34.5M

PP-OCRv6 是 PaddleOCR 最新一代通用 OCR 模型族，提供 tiny（1.5M）、small（7.7M）和 medium（34.5M）三级。medium 和 small 支持 50 种语言（简体/繁体中文、英文、日文及 46 种拉丁语系）。在官方多场景基准上，medium 检测 Hmean 86.2%，识别准确率 83.2%，较 PP-OCRv5_server 分别提升 +4.6 和 +5.1 个百分点。模型采用 PPLCNetV4 统一骨干、RepLKFPN 检测模块和 EncoderWithLightSVTR 识别模块，可通过 PaddleOCR、Transformers、ONNX Runtime 等后端灵活部署。

Hugging Face 多模态模型发布部署/工程

推荐理由：OCR模型并没有因为VLM的兴起而消失，PP-OCRv6用1.5M到34.5M参数覆盖50种语言，对需要轻量、准确OCR的产品来说，这是一个务实的选择。

22:05

IT之家（RSS）

35台英伟达AI HPC惠及超300万研究人员，欧洲启动史上最大规模AI超算建设

英伟达宣布在欧洲启动35台AI HPC超级计算机建设，建成后超300万名研究人员可获取下一代算力。所有系统采用英伟达全栈AI基础设施，包含GB300 NVL72、GB200 NVL4系统及Quantum-X800 InfiniBand网络，服务于气候科学、医疗、量子计算等领域。欧洲自去年已部署或宣布800 EFLOPS AI算力。

行业动态部署/工程

22:00

公众号：百度智能云（文心）

百度智能云亮相张江EAI：百舸AI Infra加速具身模型，安全方案护航产业落地

6月16日至17日，2026张江EAI大会上，百度智能云展示百度百舸全栈AI Infra平台，针对VLA和WAM模型优化训练与推理，将开源WAM模型推理延迟降至原来的1/2甚至1/4；与上海交通大学合作的AHA-WAM模型延迟压缩至约41毫秒。百度智能云还总结具身智能三类核心安全风险（远程劫持、知识产权泄露、行为决策诱导），推出体系化安全解决方案。同时，人形机器人产业创新联盟已集聚120余家成员，百度智能云与宇树科技、乐聚机器人等获授牌。

具身智能行业动态部署/工程

21:05

IT之家（RSS）

微软 AI 迎强援，得州数据中心获雪佛龙 20 年供电协议

雪佛龙与微软签署20年供电协议，用天然气为得州西部“Kilby项目”数据中心供电。该项目用电需求接近270万千瓦，相当于200万户家庭规模，由GE Vernova和卡特彼勒的燃气轮机直供园区。项目尚未动工，雪佛龙今年晚些时候作最终投资决定，微软数据中心计划2028年起接收电力。微软今年资本支出1900亿美元，较2025年增61%，此前已投可再生能源和核能，现引入天然气满足AI用电增长。

Microsoft 行业动态部署/工程

19:05

IT之家（RSS）

我国拟制定人形机器人变电站及家电制造场景技术要求

工信部近日公开征求意见，拟制定《人形机器人变电站场景技术要求》和《人形机器人家电制造场景技术要求》。变电站约30%巡检点位是轮式机器人盲区，新标准将建立术语体系、规定八大技术要求及全流程管理，破解不敢用困局。家电制造方面，已有多家企业使用人形机器人，标准将提出作业效果评估指标。此外，《人形机器人与具身智能售后服务规范》等也在立项中。此前通知提出，到2026年底人形机器人在代表性场景完成应用验证，形成万台级规模落地。

具身智能政策/监管部署/工程

16:43

The Decoder：AI News（RSS）

Sakana AI 推出 Fugu：动态协调多 LLM 的系统，匹配 Anthropic 顶级模型性能

日本 AI 初创公司 Sakana AI 发布 Fugu，一个能动态协调多个大语言模型的系统。Fugu 本身也是一个语言模型，可从可替换的智能体池中调用其他 LLM（含自身副本），通过单一 OpenAI 兼容 API 提供服务。Fugu 有基础版和 Fugu Ultra 变体。Sakana 公布的基准测试显示，Fugu Ultra 在编码、推理、科学和智能体评测中与 Anthropic Fable 5 和 Mythos Preview 表现相当。Fugu 旨在降低对单一 AI 供应商的依赖，模型池可完全替换。约 500 名 Beta 用户在长流程任务中测试，Fugu Ultra 的 bug 捕获量远超 GPT 5.5。两个变体现在已通过 API 上线。

智能体产品更新部署/工程

15:37

MarkTechPost（RSS）

MoonMath AI 开源 AMD MI300X 注意力核，全面超越 AITER v3

MoonMath AI 团队开源了一款 bf16 前向注意力核，专为 AMD MI300X（gfx942）设计，使用 HIP 编写，MIT 许可。该核在所有测试形状和三种舍入模式下均超越 AMD 官方 AITER v3：几何平均加速比 1.18×（RTNE）、1.15×（RTNA）、1.08×（RTZ），最高单形状 1.26×。性能提升来自单指令 asm 包装和内存布局优化——K 置于 LDS，V 常驻 L1，Q 和累加器保持在寄存器。该核已通过 SGLang PR 将 Wan2.1 视频扩散模型推理速度提升 1.23 倍，质量无损。当前仅支持 bf16、头维度固定 128，无因果掩码、GQA 或变长批处理。

开源/仓库部署/工程

14:04

IT之家（RSS）

英伟达自夸 AI 服务器 100% 液冷散热：能在 45°C 冷却液中运行，比洗澡水还热

英伟达今日发布博客，称 Rubin AI 基础设施是全球首个实现 100% 液冷的技术，系统内无任何风扇。冷却液温度最高可达 45 摄氏度（高于浴缸热水 38-40℃），更节能。行业估计冷却机厂温度每提高 1 度可降低约 4% 制冷能源成本，一座 50 兆瓦超大规模设施通过液冷每年可节省超过 400 万美元（约合 2715.6 万元人民币）。传统数据中心风扇散热噪音可达 85 分贝以上，Rubin 服务器使用 75% 水和 25% 丙二醇混合冷却液直接流经散热器从热源抽取热量，高温冷却液无需启动机械散热器和风扇即可排散热量。

产品更新部署/工程

13:04

IT之家（RSS）

HD 现代基于英伟达 Isaac Sim 研发造船 AI 机器人，先用于焊接工序

HD 现代正基于英伟达 Isaac Sim 平台研发实体人工智能机器人，计划先应用于船舶制造的焊接、涂装、板材折弯工序。机器人在 Omniverse 平台预学习，利用实时光线追踪和 Newton 物理引擎训练，可自主感知环境作业。HD 现代是全球首家采用 Isaac Sim 的造船企业，正联合西门子、英伟达等推进 2030 年建成“未来智能先进船厂”（FOS），其数字孪生船厂曾在 CES 2026 获黄仁勋好评。近期还与 Persona AI 合作开发人形焊接机器人，并引入彩虹机器人协作机器人至产线。

具身智能行业动态部署/工程

12:04

IT之家（RSS）

OpenAI 史上最大规模企业部署之一：三星向员工开放 ChatGPT 和 Codex

OpenAI 于 6 月 21 日宣布，三星电子向全球员工部署 ChatGPT Enterprise 和 Codex，覆盖韩国全体员工及全球设备体验（DX）部门，为 OpenAI 迄今最大规模企业部署之一。ChatGPT Enterprise 提供数据保护等企业级功能；Codex 可编写、审核、调试代码，帮助非技术团队将想法转化为软件和自动化工作流。自 2026 年 2 月以来，韩国 Codex 周活跃用户增长近 800%。此外，首尔国立大学为 4.7 万名成员免费提供 ChatGPT Edu，OpenAI 与 Kakao 合作将 ChatGPT 引入 KakaoTalk 群聊。LG 电子、三星 SDS 等多家韩国企业也在使用上述产品。

OpenAI 行业动态部署/工程

11:04

IT之家（RSS）

鸿海刘扬伟：1GW 英伟达 Vera Rubin AI 数据中心需 470 亿美元

鸿海董事长刘扬伟称，基于 NVIDIA Vera Rubin 平台打造 1GW 规模 AI 数据中心需 470 亿美元资本支出。单个 Vera Rubin 机架售价 910 万美元，1GW 数据中心约需 3557 个机架，年电力成本达 13 亿美元，硬件折旧费用是电力成本六倍。全球数据中心产业规模到 2030 年将达 1.6 万亿美元，电力容量从 2024 年 68GW 增至 174GW。AI 算力需求来自模型开发商、云服务商、政府和企业，后两者仍属蓝海。

行业动态部署/工程

10:04

IT之家（RSS）

特斯拉申请"Megapod"商标，计划推出模块化AI数据中心硬件系统

特斯拉向美国专利商标局提交“Megapod”意图使用商标申请，计划推出模块化AI数据中心硬件系统，包含计算机服务器、AI专用计算机硬件、网络设备、配电单元及冷却系统，是一体式机柜级整机，配套监控与运维软件。该产品将直接对标英伟达GB200 NVL72液冷机柜系统（内置72颗Blackwell GPU与36颗Grace CPU）以及戴尔PowerEdge XE9712、超微等竞品。但产品名与浸没冷却厂商Submer已注册的“MegaPod”品牌（40英尺预制式箱式数据中心，额定功率800kW，PUE 1.03）存在冲突。

行业动态部署/工程

10:04

IT之家（RSS）

闪迪新专利：将NAND闪存堆叠在计算芯片下方，破解存储瓶颈

闪迪获得一项新专利（US 12,430,274 B2），提出3D堆叠架构：将搭载CMOS键合阵列的NAND闪存存储裸片堆叠在主计算裸片（AI加速器或GPU）下方。同一中介层仍搭载HBM DRAM，但分工不同——HBM负责低延迟高优先级读写，NAND闪存承担大容量数据操作；宽通道互联降低传输延迟、硬件成本与整体功耗。单组HBF堆叠容量最高可达4TB。该方案目前仅停留在专利阶段，量产仍需解决功耗、制造成本等工程难题。

行业动态部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

RaysUp：基于几何感知射线表示的超轻量通用特征上采样框架

RaysUp是一个超轻量、任务无关且与视觉基础模型无关的特征上采样框架，通过将重建提升至几何感知光线域，在任意分辨率下重建高分辨率特征图。核心组件包括空间解耦引导编码器、任意分辨率交叉注意力机制、基于6D Plücker射线坐标的RayPE（射线位置编码）和几何感知邻域注意力模块。在多种密集预测任务中取得SOTA性能，参数量仅为AnyUp的16%，推理速度提升约7倍。代码已开源。

开源生态论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

AOHP：面向个性化、高效与安全交互的开源操作系统级智能体框架

AOHP（Android Open Harness Project）基于Android开源项目（AOSP）构建，将AI智能体视为操作系统的一等角色，提供自适应UI和智能体友好运行时环境，同时保留安卓软硬件生态。系统引入三种智能体导向机制：个性化服务组合、高效智能体接口和安全信息流。在涵盖OS智能体关键能力的挑战任务中，AOHP的任务完成率提升21.12%，token成本降低51.55%，并满足安全策略合规要求。

智能体开源/仓库论文/研究部署/工程

07:37

Hacker News 热门（buzzing.cc 中文翻译）

LLM 让自建软件成本降低，但购买仍存在"可行区域"

LLM 虽大幅降低自建成本，但未归零。以年薪 $200k 的工程师为例，团队花至少2周用 Claude 自建 Jira 替代品后，每月还需2小时维护，需37个月才能收回月费 $400 的购买成本。而像 Salesforce 每座 $500/月、50 座共 $25k/月，足以雇佣 1.5 名全职工程师自建，使自建更接近合理决策。因此存在一个“可行区域”：当软件足够复杂、LLM 重构不易且定价不过高时，购买仍优于自建。

现象/趋势部署/工程

07:36

MarkTechPost（RSS）

AI智能体记忆的七种类型：技术指南

大语言模型默认无状态，构建智能体需借助记忆机制。七种记忆类型包括：工作记忆（上下文窗口内临时存储提示词、消息、工具输出）、语义记忆（长期存储用户偏好、事实）、情节记忆（记录过去事件与任务结果用于经验学习）、程序记忆（存储技能、工作流与行为规则）、外部/检索记忆（通过向量数据库在推理时拉取信息，即RAG）、参数记忆（嵌入模型权重中的世界知识与推理模式）、前瞻记忆（记忆未来意图与计划目标）。每种记忆对应不同时间尺度与实现方式，组合使用可构建更强的自主智能体系统。

智能体教程/实践部署/工程

07:13

OpenAI：官网动态（RSS · 排除企业/客户案例）

三星电子向员工部署ChatGPT和Codex

三星电子近日向韩国全体员工及全球DX部门部署ChatGPT Enterprise与Codex，成为OpenAI迄今最大规模企业部署之一。ChatGPT Enterprise用于信息检索、文档起草、数据分析等知识型任务，提供数据保护与安全控制。Codex可提升代码编写、审查和调试效率，非技术团队也能将创意转化为软件、网站和自动化工作流。Codex每周活跃用户超500万，韩国自2026年2月以来增长近800%。三星计划将AI应用于研发、制造、营销等全业务流程，并与OpenAI在AI基础设施方面深化合作。

OpenAI 行业动态部署/工程

07:01

Simon Willison 博客

同事件精选72

Cloudflare 临时账户 for AI agents

Cloudflare 推出临时账户功能，无需注册即可通过 npx wrangler deploy --temporary 部署 Workers 项目，临时项目存活 60 分钟。该功能虽标称为 AI 智能体设计，但普通用户同样适用。作者使用 GPT-5.5 xhigh 在 Codex Desktop 中构建了测试应用，验证了部署与运行流程，并展示了项目认领页面。

智能体产品更新部署/工程

同一事件，精选展示《Cloudflare 为 AI 智能体推出临时账户》

推荐理由：虽然这次打的旗号是服务 AI 智能体，但临时 Cloudflare 账号对任何想快速部署原型的开发者都是福音，降低了不少环境搭建的摩擦，值得马上试试。

6月21日

18:20

公众号：火山引擎

火山引擎×千行百业：让每一个Token，都落地有声

行业动态部署/工程