全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「部署/工程」清除

6月24日周三

01:14Claude：Blog（网页）42Claude Tag 的 Agent Identity 访问模型

00:59Chubby♨️70Latitude：开源AI agent可观测性工具，聚合失败原因并支持自然语言搜索

00:16Berryxia.AI43腾讯开源EdgeOne Makers，AI Agent一句话部署应用

00:16Rohan Paul67KroWork：AI对话秒变可重用桌面应用

6月23日周二

23:56Hacker News 热门（buzzing.cc 中文翻译）73Mistral OCR 4 发布

22:13IT之家（RSS）32进迭时空新一代高性能一致性互联总线N200研发完成

21:13IT之家（RSS）52戴尔发布新一代超算 AI 服务器 PowerEdge XE8812：每机架 144 GPU，全液冷设计

21:11AYi74EverOS 1.0.0：给AI Agent搭建持久记忆的开源本地记忆操作系统

20:11IT之家（RSS）39华为乾崑详解全维防碰撞系统 CAS 5.0：新增第六维"全时域安全目标"

19:11AYi73Sakana AI 发布 Fugu：0.6B 参数多智能体编排系统，性能超 Claude 和 GPT

16:12Hugging Face：Blog（RSS）67精选huggingface_hub 实现每周发布：AI、开源工具、人工审核闭环

16:04凡人小北49火山引擎展示AI记忆卡YoooClaw C-ONE，打通飞书任务分发

15:41MarkTechPost（RSS）49Prime Intellect 发布 prime-rl 0.6.0，用于万亿参数 MoE 模型的智能体强化学习训练

15:07IT之家（RSS）58软银孙正义评马斯克太空数据中心方案：价值寥寥，AI竞赛胜负取决于地面算力

14:41MarkTechPost（RSS）68GLM-5.2 OpenAI 兼容 API 实践指南：推理控制、函数调用与长上下文检索

14:11swyx56SpaceX通过计算交易已收回对Cursor一半投资，另一半依赖Composer 3表现

14:10公众号：京东JoyAI73精选京东全栈开源JoyAI-VL-Interaction，从"一问一答"走向"边看边说"

12:07IT之家（RSS）58SPHBM4 标准获批：引脚数降至 HBM4 的 1/5，每引脚速率提高 300%

12:07IT之家（RSS）51SpaceX 与 Reflection 签署 63 亿美元算力合同，出租 Colossus 2 的 NVIDIA GB300 GPU

10:07IT之家（RSS）50NVIDIA Vera Rubin NVL4 平台 2026Q4 上市：科学计算模拟性能是 Grace Hopper 四倍

09:39Greg Brockman57三星全员部署ChatGPT Enterprise和Codex

09:14OpenRouter：Announcements（RSS）72精选OpenRouter：通过API路由实现AI数据驻留合规

09:14OpenRouter：Announcements（RSS）62精选AI 治理清单：LLM 架构先行

09:07IT之家（RSS）59AI 转型与成本压力下，甲骨文 2026 财年裁员 2.1 万人

08:14Hacker News 热门（buzzing.cc 中文翻译）84同事件精选GLM-5.2 开源模型发布：744B 参数，1M 上下文，可本地运行同一事件，精选展示《GLM-5.2 上线并开源：专注 Coding 与长程任务》

08:00HuggingFace Daily Papers（社区热门论文）44AsyncOPD：异步在线策略蒸馏中的陈旧性问题研究

08:00HuggingFace Daily Papers（社区热门论文）50RoPE感知的KV缓存量化位分配方法Block-GTQ

07:33The Verge：AI（RSS）51Nvidia：液冷高温运行可使AI数据中心用水量降至"接近零"

05:42Hacker News 热门（buzzing.cc 中文翻译）80精选美国警长利用Flock车牌系统跟踪前女友案频发，Flock法务官承认"最常见滥用"

05:19Claude：Blog（网页）55精选在 AWS、Google Cloud 和 Microsoft Foundry 上使用完整版 Claude Desktop

05:13SemiAnalysis42AI需求短期超越摩尔定律

04:35TechCrunch：AI（RSS）46Nvidia想削减数据中心用水，但这不等于解决AI的用水问题

02:14The Decoder：AI News（RSS）46Google 将 Interactions API 作为 Gemini 模型与智能体的默认接口

02:08AYi51OpenAI Daybreak 更新：Codex 安全插件 + GPT-5.5-Cyber 实现漏洞自动修复

01:56Chubby♨️64Reflection通过SpaceX获Nvidia GB300芯片

01:12SemiAnalysis69SemiAnalysis发布CUDA MOAT警报：70天内软件优化使GB200 NVL72服务成本降低2.5倍

00:43The Decoder：AI News（RSS）66微软在德州建设2吉瓦数据中心并自带燃气电厂以绕过电网

00:40Rohan Paul57Delos推出Workers：将AI智能体转化为数字员工

00:12Berryxia.AI56Micron与Anthropic达成全栈战略合作

00:10Rohan Paul73SpaceX与开源AI初创Reflection签署GPU计算租赁协议

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月24日

01:14

Claude：Blog（网页）

42

Claude Tag 的 Agent Identity 访问模型

Claude Tag 推出 agent identity（智能体身份）访问模型，让 Claude 在共享频道中以独立身份工作，而非模拟某个用户。管理员在工作区级配置连接器、仓库访问、技能插件和固定指令等权限，每个频道可覆盖继承的基线设置。私有频道拥有独立身份，记忆和访问不跨频道流转；公共频道共享工作区级身份。该模型为自主多玩家 AI 场景设计，允许频道成员通过 Claude 访问已授权工具和数据，同时通过按身份撤销简化权限管理。

智能体 Anthropic 教程/实践部署/工程

00:59

Chubby♨️@kimmonismus

70

Latitude 是一款开源的 AI agent 可观测性工具，MIT 许可、可自托管。它不局限于提供 traces，而是将重复失败自动归纳为单个 issue，显示频率和根本原因；还支持用自然语言搜索生产对话。引用推文指出，AI agent 对话是公司最被低估的数据源，Latitude 能改变这一状况。推荐优先尝试其 Claude Code token telemetry 功能。

cesar.wtf: Most underrated data source in a company: your AI agent's conversations. Your agent talks to more customers than any emp...

智能体开源/仓库部署/工程

00:16

Berryxia.AI@berryxia

43

腾讯开源EdgeOne Makers，AI Agent一句话部署应用

腾讯低调发布EdgeOne Makers平台，无发布会，仅一条推文和一个GitHub仓库。核心理念：让AI Agent一句话部署应用——通过CLI自动完成Git推送、CI/CD触发、边缘函数部署及预览链接生成，无需打开浏览器。底层标准化Skill系统支持边缘函数、云函数、KV存储等能力模块，Claude Code、Cursor等Agent可直接调用。GitHub已开源，支持Node.js、Go、Python云函数和V8边缘运行时，集成LangGraph、Claude SDK、OpenAI Agents等主流框架。这标志着云平台从为人设计转向为Agent设计。

智能体产品更新开源生态部署/工程

00:16

Rohan Paul@rohanpaul_ai

67

KroWork：AI对话秒变可重用桌面应用

KroWork 新发布，解决 AI 智能体每次运行后会话即失效的痛点。用户用自然语言描述任务，AI 自动构建工作流并保存为可重用的桌面应用，无需编程背景。应用完全本地运行，数据不出设备。相比一次性回答，它生成持久、可复用的软件——例如一句指令即可生成免费市场监控应用，替代分散的付费工具。KroWork 将“氛围编码（vibe-coding）”转变为“结果编码（outcome-coding）”。

智能体产品更新端侧部署/工程

6月23日

23:56

Hacker News 热门（buzzing.cc 中文翻译）

73

Mistral OCR 4 发布

Mistral AI 于 6 月 23 日发布 OCR 4，除提取文本外还返回边界框、块分类（标题、表格、公式、签名等）和逐页/逐词置信度分数。支持 170 种语言、10 个语系，可单容器自托管部署。在 OlmOCRBench 上获 85.20 最高分，独立标注者偏好率达 72%。API 定价 $4/千页，Batch-API 五折后 $2/千页。可作为 Mistral Search Toolkit 的输入组件，为 RAG 和企业搜索提供结构化输出。

多模态模型发布部署/工程

关联讨论 2 条Mistral AI：News（网页）MarkTechPost（RSS）

22:13

IT之家（RSS）

32

进迭时空新一代高性能一致性互联总线N200研发完成

进迭时空今日宣布完成自研互联总线N200的研发。N200将与通算CPU核X200、智算AI核A200共同应用于下一代计算芯片，预计2027年量产。N200支持AXI2CHI/CHI2AXI协议转换桥、多种聚合节点、专有消息与配置通路、符合RISC-V RERI规范的端到端RAS、灵活时钟结构、Debug & Trace、PMU性能统计接口及Partial Good设计，并提供完整配置GUI，支持RTL分区分层自动生成与校验。目前N200已完成架构设计、RTL开发验证、PPA Push、驱动开发与软硬件协同验证，并基于FPGA原型与X200构建的原型系统完成多项关键验证。

行业动态部署/工程

21:13

IT之家（RSS）

52

戴尔发布新一代超算 AI 服务器 PowerEdge XE8812：每机架 144 GPU，全液冷设计

戴尔科技发布 PowerEdge XE8812 服务器，采用 NVIDIA Vera Rubin NVL4 架构，每机架最多支持 144 块 GPU。全液冷设计覆盖 CPU 和 GPU，支持超过 300kW 供电。与上一代 GB200 NVL4 相比，CPU 核心从 144 个增至 176 个，每个插槽内存容量和 GPU 显存均提升 50%。从部署到运行负载仅需六小时。已有超 5000 家客户部署戴尔 AI Factory，实例包括劳伦斯伯克利国家实验室的 Doudna 超算、InstaDeep 的 Kyber 集群等。戴尔援引行业预测称 2026 年 AI 投资同比增长 44%。

产品更新部署/工程

21:11

AYi@AYi_AInotes

74

EverOS 1.0.0：给AI Agent搭建持久记忆的开源本地记忆操作系统

EverOS 1.0.0是一款开源、本地优先的记忆操作系统，专为AI Agent提供跨会话持久记忆。其核心是将记忆存储为可直接cat、git、编辑的Markdown文件（唯一可信来源），配合SQLite管理状态、LanceDB处理向量/BM25索引及标量过滤，无需Docker或向量数据库集群。官方基准：LoCoMo 93.05%、LongMemEval‑S 83.00%、HaluMem约90%+。支持多模态摄取（PDF/图片/网页URL），任务可自我演化成可复用Skill，计划加入Knowledge Wiki和Reflection。用户通过CLI（everos init/server start）约30分钟上手。

智能体开源生态教程/实践部署/工程

20:11

IT之家（RSS）

39

华为乾崑详解全维防碰撞系统 CAS 5.0：新增第六维"全时域安全目标"

华为乾崑公布 CAS 5.0 详解：新增与主、被动安全同级别的第六维“全时域安全目标”，基于安全风险场技术，将安全能力从“事前预防”延伸到“事后守护”。前向 AEB 最低触发速度降至 1km/h，侧向防碰撞 LOCP 降至 10km/h，通过新增前向高精度固态激光雷达和优化融合感知算法实现。eAES 升级至 3.0 版本，防护范围覆盖侧后方，可提前察觉侧后方车辆加塞、抢道，并在后方来车可能碰撞、前方无车时向前加速避险，实现从“避免撞别人”到“避免被别人撞”。

产品更新端侧部署/工程

19:11

AYi@AYi_AInotes

73

Sakana AI 发布 Fugu：0.6B 参数多智能体编排系统，性能超 Claude 和 GPT

日本团队 Sakana AI 推出 Fugu（Fugu Ultra），一个仅 0.6B 参数的多智能体编排系统，通过统一 API 调用。它不是单体大模型，而是 AI“项目经理”：简单任务自处理，复杂任务自动拆分，从全球模型池选择模型分配思考、执行、验证角色，多轮协作输出答案。编排策略由训练生成，而非手工 prompt。Fugu Ultra 在多个基准上超过 Claude 和 GPT，性能匹敌 Fable 和 Mythos，绕开 scaling law 军备竞赛。缺点包括黑箱性、复杂任务延迟高、简单任务成本更高。此举标志着多智能体编排从实验室走向可用生产力工具，开启编排层赛道。

Sakana AI: Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...

智能体产品更新部署/工程

16:12

Hugging Face：Blog（RSS）

精选67

huggingface_hub 实现每周发布：AI、开源工具、人工审核闭环

Hugging Face 将 huggingface_hub 的发布周期从每 4‑6 周缩短至每周，全部由单个 GitHub Actions 工作流自动完成。流程依赖开源工具和开权重模型（当前为 Z.ai 的 GLM‑5.2）来起草发布说明和 Slack 公告，但保留人类在最终审核环节的决定权。自动步骤包括版本号更新、提交标签推送、PyPI 发布、下游测试分支创建、发布说明草稿、Slack 公告草稿、归档、后置版本提升以及对合入 PR 的评论。所有组件均基于开源生态构建，任何维护者都可直接复制使用。

智能体 Hugging Face 开源/仓库教程/实践

推荐理由：Hugging Face 把周更流程完全开源，用 GLM-5.2 生成发布说明初稿，再加确定性校验和人工修订，成本低到两毛五一次。想提高发版频率的 Python 库维护者可以直接 fork 适配。

16:04

凡人小北@frxiaobei

49

火山引擎展示AI记忆卡YoooClaw C-ONE，打通飞书任务分发

火山引擎在FORCE大会上展示YoooClaw C-ONE，一款卡片大小的「AI记忆卡」。它能录音转文字，也能抓取手机通知实时喂入，两路数据汇入火山引擎的ArkClaw做抽取和推理，形成个人知识大脑。出口端打通飞书，例如老板开完会后一句话即可将任务分别推送给对应同事。推文作者称这是除seedance2.5外今次最心动的产品。

产品更新语音部署/工程

15:41

MarkTechPost（RSS）

49

Prime Intellect 发布 prime-rl 0.6.0，用于万亿参数 MoE 模型的智能体强化学习训练

prime-rl 0.6.0 是一个开源异步强化学习框架，针对万亿参数 MoE 模型，聚焦长周期智能体任务（如软件工程）。研究团队在 GLM-5 上训练 SWE 任务，序列长度达 131k，步时间低于5分钟，batch size 256，仅用28个H200节点。推理优化包括 FP8（DeepEP、DeepGEMM 内核）、宽专家并行（≥32 GPU）、前填充与解码分离、KV 缓存分层卸载（vLLM 原生或 Mooncake Store）以及路由重放（R3，降低 KL 不匹配约一个量级）。训练基于 torchtitan，采用3D并行（FSDP2、上下文并行、专家并行）和块缩放 FP8（由 DeepSeek V3 提出），以匹配推理精度并稳定训练。

智能体开源/仓库部署/工程

15:07

IT之家（RSS）

58

软银孙正义评马斯克太空数据中心方案：价值寥寥，AI竞赛胜负取决于地面算力

软银孙正义称马斯克推崇的太空数据中心价值有限，电费占数据中心运营成本很低，芯片等硬件才是大头，且运输、维护及通信延迟代价高昂。他表示未来几年比十年后更重要，软银将专注地面强大算力，先发制人者胜。孙正义已向OpenAI投入约650亿美元，承诺再投数千亿美元建数据中心，认为AI尚处早期，具备十倍百倍增长潜力。

大佬观点部署/工程

14:41

MarkTechPost（RSS）

68

GLM-5.2 OpenAI 兼容 API 实践指南：推理控制、函数调用与长上下文检索

GLM-5.2 通过 OpenAI 兼容 API 提供深度思考开/关、推理努力级别（high/max）、流式推理与回答、函数调用、工具代理、结构化 JSON 输出及长上下文检索。API 输入每百万 token 1.40 美元、输出 4.40 美元，支持 zai、OpenRouter 等多提供商访问。教程演示了从客户端设置、API key 安全加载到可复用聊天封装与成本追踪的完整开发流程。

MCP/工具推理教程/实践部署/工程

14:11

swyx@swyx

56

SpaceX（NeoCloud+NeoLab）通过计算交易已收回对Cursor约一半投资，另一半若Composer 3表现良好即可回本。据CNBC报道，SpaceX与Reflection签署63亿美元计算协议，Reflection将立即获得GB300s用于训练开源模型，并从2026年7月1日起每月支付1.5亿美元直至2029年。SpaceX是唯一同时作为领先模型实验室和NeoCloud的公司，在规划好GPU供应时这一组合极为高效。

Andrew Curran: SpaceX has signed a $6.3 billion dollar compute deal with Reflection. Reflection will gain immediate access to GB300s to...

现象/趋势部署/工程

14:10

公众号：京东JoyAI

精选73

京东全栈开源JoyAI-VL-Interaction，从"一问一答"走向"边看边说"

京东近日开源全球首个全栈交互模型JoyAI-VL-Interaction，获vLLM-Omni原生支持。该模型能持续观察视频流、主动判断关键事件并实时响应，支持将复杂任务委托后台Agent处理。在58个真人盲评中，对比豆包视频通话助手胜率77.6%，对比Gemini视频通话助手胜率87.9%，监控预警场景达100%胜率。开源内容包括模型权重、交互数据集、训练方案及完整可部署系统，支持摄像头、直播流等视频输入及语音交互、长期记忆、vLLM部署，适用于安防监控、老人看护、直播讲解等实时场景。

多模态开源生态模型发布部署/工程

关联讨论 2 条HuggingFace Daily Papers（社区热门论文）IT之家（RSS）

推荐理由：京东这个实时交互模型不是又一个刷榜模型，它把「什么时候该说话」变成了模型自己的判断。全栈开源且对比豆包、Gemini 胜率惊人，做安防、看护、直播的开发者可以直接试了。

12:07

IT之家（RSS）

58

SPHBM4 标准获批：引脚数降至 HBM4 的 1/5，每引脚速率提高 300%

国际半导体标准组织 JEDEC 正式批准新一代高带宽内存标准 SPHBM4（JESD330-4）。该标准将信号引脚数降至约 400 个（HBM4 约 2000 个），每引脚速率从约 11 Gbps 提升至约 44 Gbps，总带宽接近 HBM4 的 2.8TBps。通过采用标准基板和标准封装，降低对中介层等先进封装工艺的依赖，旨在降低 AI 加速器、GPU 和高性能计算芯片的制造难度与成本。

行业动态部署/工程

12:07

IT之家（RSS）

51

SpaceX 与 Reflection 签署 63 亿美元算力合同，出租 Colossus 2 的 NVIDIA GB300 GPU

马斯克旗下 SpaceX 与 Reflection 签署 63 亿美元算力合同，出租 Colossus 2 数据中心的 NVIDIA GB300 GPU，有效期 2026 年 7 月至 2029 年 6 月，月费 1.5 亿美元。Colossus 2 约有 55 万块 NVIDIA GPU（含 GB200、GB300）。此前 SpaceX 已与谷歌（月费 9.2 亿美元，对应 11 万块 GPU）和 Anthropic（月费 12.5 亿美元，对应 22 万块 GPU）签下大额合同。

行业动态部署/工程

10:07

IT之家（RSS）

50

NVIDIA Vera Rubin NVL4 平台 2026Q4 上市：科学计算模拟性能是 Grace Hopper 四倍

NVIDIA 宣布 Vera Rubin NVL4 系统预计 2026Q4 上市。单个“托盘”集成 4 颗 Rubin GPU 和 2 颗 Vera CPU，GPU‑GPU 互连采用运行第六代 NVLink 协议的第二代 NVLink 桥接器，GPU‑CPU 互连使用 NVLink‑C2C。物理设计针对超级计算优化了密度、能效和操作简便性，兼容液冷 NVIDIA MGX 模块化服务器。与 Grace Hopper 相比，Vera Rubin NVL4 的科学计算模拟性能提升 4 倍，科学 AI 训练性能提升 6 倍，科学 AI 推理性能提升 8 倍。

产品更新部署/工程

09:39

Greg Brockman@gdb

57

三星已向韩国所有员工及全球DX部门员工推出ChatGPT Enterprise和Codex，OpenAI称这是其最大规模的企业部署之一。

Techmeme: Samsung rolls out ChatGPT Enterprise and Codex to all staff in Korea and DX division staff globally; OpenAI says it's on...

OpenAI 行业动态部署/工程

09:14

OpenRouter：Announcements（RSS）

精选72

OpenRouter：通过API路由实现AI数据驻留合规

Deloitte 报告显示 77% 的公司将供应商国籍纳入 AI 选型考量。OpenRouter 将数据驻留视为路由决策：通过 API 请求中的 provider 对象设置 order 或 only 限定服务商、allow_fallbacks 为 false 禁止回退、data_collection 为 deny 禁止数据存储或训练、zdr 为 true 要求零数据保留。示例以 anthropic/claude-sonnet-4.6 调用，首选 Anthropic 直连和 Amazon Bedrock。针对欧盟需求，可限制仅 Mistral 等欧盟总部供应商。若无可合规供应商，API 返回错误而非路由至不合规服务商。

教程/实践部署/工程

推荐理由：OpenRouter 这篇指南把数据驻留从一个基建难题退化成一次 API 请求里的路由配置，对需要合规的团队是直接可抄的实操手册。

09:14

OpenRouter：Announcements（RSS）

精选62

AI 治理清单：LLM 架构先行

Deloitte 报告显示企业 AI 抱负与治理成熟度之间差 53 个百分点，74% 计划两年内部署智能体 AI，仅 21% 拥有成熟治理模型。路由架构是首个治理层。三种姿态——托管网关（如 OpenRouter、Portkey）、自托管网关（如 LiteLLM）和直接 API——默认治理能力不同，直接 API 缺乏统一控制面，造成治理盲区。治理清单可映射为资产盘点、问责制、访问控制、证据记录与合规性五大支柱。路由层能提供跨团队可见性与审计证据，而电子表格不能。

教程/实践部署/工程

推荐理由：这不是另一篇泛泛的治理框架文章，它把合规差距直接映射到路由架构上，三张对比表格比政策文档更有用，做 LLM 平台或 infra 的团队值得对照检查自己的堆栈。

09:07

IT之家（RSS）

59

AI 转型与成本压力下，甲骨文 2026 财年裁员 2.1 万人

甲骨文 2026 财年员工总数减少 13%，裁员约 2.1 万人，截至 2026 年 5 月 31 日员工 14.1 万，去年同期 16.2 万。重组相关离职补偿金支出 18.4 亿美元，远高于上年的 3.74 亿美元。裁员由管理层与产品线调整、绩效、战略转向及收购整合等驱动。公司近期与 OpenAI、Meta 签订大型数据中心协议，但股价年内下跌约 10%。预计本财年净资本开支约 700 亿美元，计划再融资 400 亿美元，含 200 亿美元股票增发。

行业动态部署/工程

08:14

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选84

GLM-5.2 开源模型发布：744B 参数，1M 上下文，可本地运行

Z.ai 发布 GLM-5.2，开源 744B 参数（40B 活跃），1M 上下文窗口，性能与 Claude 4.8 Opus、GPT-5.5、Gemini 3.1 Pro 持平。通过 Unsloth 动态量化，2-bit GGUF 版本内存需求降至 239GB（-84%），1-bit 版降至 217GB（-86%），可运行于 256GB 统一内存 Mac 或 1×24GB GPU+256GB RAM。提供非思考、高、最大三种思考模式。评测显示动态 1-bit 准确率约 76.2%，2-bit 约 82%。

GitHub 开源生态教程/实践部署/工程

同一事件，精选展示《GLM-5.2 上线并开源：专注 Coding 与长程任务》

推荐理由：Unsloth 这篇操作指南把 GLM-5.2 从「只能仰望」变成了「可以在自家 256GB Mac 上跑」，动态量化让 744B 参数模型降到了 239GB 磁盘占用，对想上手本地最强开源模型的人，这一步正好踩在从 curiosity 到可用的临界点上。

08:00

HuggingFace Daily Papers（社区热门论文）

44

AsyncOPD：异步在线策略蒸馏中的陈旧性问题研究

在线策略蒸馏异步训练中，轨迹生成与学习器更新解耦引入陈旧策略数据；KL方向决定影响：教师加权正向KL鲁棒，学生加权反向KL脆弱。异步RL稳定方法无效，反向计算当前学生信号更优。有限教师分数缓存导致稀疏采样反向KL估计器的偏差-方差权衡，多采样蒙特卡洛可降低方差。基于此，开源AsyncOPD全异步管道在严格同步训练基础上实现1.6至3.8倍吞吐量提升，精度相当。

推理数据/训练论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

50

RoPE感知的KV缓存量化位分配方法Block-GTQ

现有低比特KV量化器将每个key视为平面向量，而RoPE下key的注意力贡献分解为二维频率块的和。Block-GTQ基于TurboQuant-MSE，为每层和KV头计算每个RoPE块的无标签能量分数，通过边际增益贪心分配整数位宽。在10模型诊断集上，2/3 b/dim单K量化下每层MAE降低32–80%，367/367层全部优于均匀TQ-MSE。在Llama-3.1-8B-Instruct的K2V2设置下，六任务NIAH平均分从70.6提升至97.4，LongBench-EN平均分从36.87升至53.31。在DeepSeek-R1-Distill-Qwen-7B的AIME 2024/2025上，K3V2无fp16近期key缓冲区时得分51.7/37.5，接近fp16的54.2/37.9。基于打包缓存的推理路径在单H800、Qwen2.5-3B-Instruct上，K3V3实现3.24倍压缩，128K下比fp16 FlashAttention2快1.34倍，峰值内存从56.31GB降至19.85GB，并在256K和512K下仍可运行。

推理论文/研究部署/工程

07:33

The Verge：AI（RSS）

51

Nvidia：液冷高温运行可使AI数据中心用水量降至"接近零"

Nvidia称，其Rubin代参考设计采用100%液冷并让服务器在更高温度（最高45°C）下运行，可将AI数据中心用水量降至“接近零”。热量在芯片处直接捕获，通过高温液体回路传输，使室外干式冷却器全年高效排热。Nvidia可持续发展主管Josh Parker表示，相比传统冷却塔系统每年每兆瓦约260万加仑的用水量，新设计降幅高达100%。但该方案未提及建设成本及数据中心建造、发电环节的其它环境关切。

行业动态部署/工程

05:42

Hacker News 热门（buzzing.cc 中文翻译）

精选80

美国警长利用Flock车牌系统跟踪前女友案频发，Flock法务官承认"最常见滥用"

伊利诺伊州Holiday Hills警察局长于2026年6月18日被捕，被控两项渎职重罪。检方指控他利用Flock车牌读取系统及州警察数据库，跟踪6名认识的人，其中3人为前女友，并对其中一人的前男友车牌查询140次（86次脱岗），持续18个月。全美至少18起类似案例：佐治亚州Braselton警察局长、爱达荷州Jerome县警长（700余次查询其妻车牌）等均因此辞职或被捕。Flock首席法务官Dan Haley承认，滥用该系统“最常见情况”就是跟踪前女友。Flock称系统只跟踪车辆，但案例表明车辆是手段，人是目标。

政策/监管部署/工程

推荐理由：调查揭露了多位警察局长滥用Flock车牌识别系统跟踪前伴侣，这种「合法工具变成私器」的模式，比技术缺陷更动摇信任。我认为今年监控技术讨论绕不开这一案例，它让搜查令问题从抽象变成了火烧眉毛的紧迫。

05:19

Claude：Blog（网页）

精选55

在 AWS、Google Cloud 和 Microsoft Foundry 上使用完整版 Claude Desktop

通过 AWS、Google Cloud 和 Microsoft Foundry 使用 Claude Desktop 的组织现已获得 Chat、Claude Cowork 和 Claude Code 集成的完整桌面体验。IT 团队可将推理保留在自己的云环境中，对话历史本地存储。支持 IAM Identity Center、Workforce Identity Federation、Microsoft Entra ID 或 Okta 登录；策略模板可导出至 Intune、GPO 或 Jamf；提供离线安装器。Chat、Claude Cowork 和 Claude Code 各有独立策略键，支持精细访问控制。M365 连接器通过 Entra 应用访问邮件和文档，并支持 GCC High/DoD 端点。

Anthropic 产品更新部署/工程

推荐理由：Anthropic 把 Claude Desktop 的完整体验带到了自家云环境之外，对于已经在 AWS 或 Azure 上跑推理的团队，终于可以从同一入口覆盖聊天、协作和编码，不用再切工具了。

05:13

SemiAnalysis@SemiAnalysis_

42

AI demand is outstripping Moore's law in the short run 摩尔定律在2001年至2020年间使计算机和半导体的进口价格下降了52%。（1/4）🧵

现象/趋势部署/工程

04:35

TechCrunch：AI（RSS）

46

Nvidia想削减数据中心用水，但这不等于解决AI的用水问题

Nvidia宣布一套温水冷却系统，称可在数据中心内部“基本消除所有用水”。冷却液以45°C注入、55°C流出，闭环循环。适宜气候下可实现100%现场用水削减。但外部用水（发电和芯片制造）可使总用水量翻倍或三倍，Nvidia方案仅解决约四分之一到三分之一。目前约一半数据中心电力来自化石燃料，且到2030年新供电中超40%仍依赖天然气和煤。因此仅靠内部节水远未解决AI用水问题。

行业动态部署/工程

02:14

The Decoder：AI News（RSS）

46

Google 将 Interactions API 作为 Gemini 模型与智能体的默认接口

Google DeepMind 宣布 Interactions API 正式可用，成为 Gemini 模型和智能体的默认接口。该 API 自 2025 年 12 月进入 Beta 测试，现取代 Google AI Studio 和文档中的旧 generateContent 接口；未来新智能体功能仅通过它提供。近期新增功能包括：自带 Linux 沙箱的 Managed Agents、后台执行、Google 搜索与地图工具链、图像/音乐/语音媒体生成。架构从旧的 "user"/"model" 角色简化为 typed steps，每步动作独立定义。开发者可选择 Flex 模式（成本降低 50%）或 Priority 模式（优化速度）。

智能体 Google 产品更新部署/工程

02:08

AYi@AYi_AInotes

51

OpenAI Daybreak 更新：Codex 安全插件 + GPT-5.5-Cyber 实现漏洞自动修复

OpenAI Daybreak 计划更新，推出 Codex 安全插件和专属 GPT-5.5-Cyber 模型，实现从漏洞发现到补丁生成的自动闭环，将以往数周乃至数月的修复时间压缩至数小时。该模型已为 Linux 内核、FreeBSD、cURL、Go、Python、Sigstore、pyca/cryptography 等关键项目发现并生成补丁。GPT-5.5-Cyber 仅限经验证的防御者进行授权渗透测试。此举大幅压缩零日漏洞攻击窗口，但 AI 补丁可能引入新问题，未来或需更高阶 AI 监督修复进程。

Greg Brockman: We're accelerating patching, in addition to vuln finding, with new tools and models in OpenAI Daybreak. Our models are n...

OpenAI 安全/对齐行业动态部署/工程

01:56

Chubby♨️@kimmonismus

64

SpaceX（xAI）正在成为下一个 Oracle。据报道，Reflection 通过 SpaceX 获得了 Nvidia GB300 芯片的即时使用权，并将从 2026 年 7 月 1 日起每月支付 1.5 亿美元。如果该交易持续到 2029 年，总价值将达到约 63 亿美元。

xAI 行业动态部署/工程

01:12

SemiAnalysis@SemiAnalysis_

69

SemiAnalysis发布CUDA MOAT警报：70天内软件优化使GB200 NVL72服务成本降低2.5倍

SemiAnalysis发布CUDA MOAT警报：在不到70天内，通过纯软件优化，Kimi架构（与xAI的Cursor Composer 2.5相同模型架构）在GB200 NVL72上的服务成本降低2.5倍。关键优化是使用CuTe-DSL重写NVFP4 MoE kernel，作为现有宽专家并行优化的补充。该优化利用了NVL72的铜背板，带宽是标准RoCEv2/InfiniBand的18倍。此项工作由Xin Li、Jun Yang及NVIDIA团队完成。

推理行业动态部署/工程

00:43

The Decoder：AI News（RSS）

66

微软在德州建设2吉瓦数据中心并自带燃气电厂以绕过电网

微软正在德克萨斯州Pecos建设一座约2吉瓦的数据中心园区，项目耗资数十亿美元，工期5至7年，高峰期将提供超过6000个建筑岗位和数百个永久职位。园区配备由微软出资的燃气发电厂，脱离公共电网供电。微软声称采用闭环冷却，全生命周期耗水仅为典型快餐店年用水量的“一小部分”，并承诺不会推高当地电价、回补更多水资源、尽早听取居民意见。受电网容量限制，微软等公司正自建电厂。雪佛龙将为该站点提供燃气轮机，预计2028年左右投入运行。

Microsoft 行业动态部署/工程

00:40

Rohan Paul@rohanpaul_ai

57

Delos推出Workers：将AI智能体转化为数字员工

Delos发布Workers，将AI智能体转化为拥有专属邮箱、电话、Slack、Teams、电脑、记忆及公司训练的“数字员工”。每个Worker针对单一企业训练，学习其常规、工具、词汇、权限和交接模式。核心是持久身份与长期记忆，使同事可像联络人类同事一样找到它，并信任其记住过往决策与客户上下文。引用推文透露上线数天内已实现100万美元ARR，指出大多数知识工作本不该存在——大量工作仅为流程（回复邮件、跟进、更新CRM等），而Workers能像人类队友一样跨组织执行任务，软件与劳动力界限消失。

Pierre de la Grand'rive: Introducing Workers: unlimited AI employees that run your company... And we've just made $1M ARR in a couple of days. Mo...

智能体产品更新部署/工程

00:12

Berryxia.AI@berryxia

56

Micron与Anthropic达成全栈战略合作

Micron与Anthropic签署多年期HBM、DRAM和SSD合作协议，双方将围绕Claude工作负载共同设计内存和存储架构。Micron既是Anthropic的投资者（参与Series H融资）、客户（内部部署Claude）和供应商，又是合作伙伴。这一深度绑定将AI基础设施的垂直整合从计算层延伸至内存存储层，预示硬件巨头与前沿实验室的生态闭环趋势。

Anthropic 行业动态部署/工程

00:10

Rohan Paul@rohanpaul_ai

73

SpaceX与开源AI初创Reflection签署GPU计算租赁协议

SpaceX完成857亿美元IPO后，与开源AI初创Reflection签署GPU计算租赁协议。Reflection自2026年7月起每月支付1.5亿美元，使用SpaceX Colossus数据中心的Nvidia GB300集群，若延续至2029年总支付约63亿美元，协议可于3个月后提前90天取消。Reflection采用B2B/B2G开放权重模式，构建前沿模型并向政府、国家实验室和企业出售定制化部署。该集群用于训练基础模型并适配科学和国家安全场景。Anthropic切断Fable和Mythos服务后，Reflection强调关键AI客户不应依赖可被撤销或受限的闭源供应商。

Rohan Paul: SpaceX just announced its first investment-grade bond sale after its record $85.7B IPO last week. The company is issuing...

开源生态行业动态部署/工程

1…6 789 10…50