全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「部署/工程」清除

6月17日周三

22:08Cloudflare Blog61精选Cloudflare 发布 Cloudflare One stack：智能体驱动的部署工具集

21:07IT之家（RSS）51字节跳动洽谈采购天数智芯5万颗芯片，国产算力布局再加码

20:59TechCrunch：AI（RSS）61加拿大养老基金CPP Investments向印度数据中心CtrlS投资最高7.41亿美元

20:30公众号：百度智能云（文心）45中国银联与百度智能云展示金融AI全栈方案，发布智能体白皮书

19:12The Decoder：AI News（RSS）54超大规模云服务商可能很快无法仅靠现金流资助AI建设

19:12Artificial Intelligence News（RSS）55Google Cloud 生成式 AI 自动化市政规划事务

18:39Hugging Face：Blog（RSS）66精选Strands Robots SDK：用单一智能体打通 Hugging Face Hub 到物理机器人

18:26Google DeepMind31DeepMind 开发AI住房规划原型

18:07IT之家（RSS）56摩根大通上调预测：2030年全球AI基建支出超5万亿美元

17:11AYi55Anthropic为苹果生态发布Swift包，主动适配LanguageModel协议

17:07IT之家（RSS）37摩尔线程完成智谱GLM-5.2 Day-0极速适配

16:48Alibaba Cloud49阿里云法国新云区域上线，双可用区

16:07IT之家（RSS）48算苗科技 3D TokenPU 芯片正式流片：3D 混合堆叠架构，全流程国产化

16:07IT之家（RSS）46法国 Bull 将与鸿海合作在欧生产 NVIDIA Vera Rubin NVL72 机架

16:05MarkTechPost（RSS）70同事件精选MiniMax 发布 MSA 稀疏注意力方法，开源推理内核并推出 MiniMax-M3 模型同一事件，精选展示《MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型》

13:08Artificial Analysis52Artificial Analysis 发布 Intelligence Index v4.1 更新

12:26Hacker News 热门（buzzing.cc 中文翻译）64让 ast.walk 的运行速度提升 220 倍

12:05IT之家（RSS）35三星宣布2030年目标：通过DSEP实现无人晶圆厂

11:38SenseTime45商汤与香港科技园合作建设香港最大自研AI数据中心

10:33HuggingFace Daily Papers（社区热门论文）54可变宽度Transformer

10:03IT之家（RSS）49诺基亚将大幅扩建美国宾州先进测试与封装工厂，助力AI产业发展

08:27MarkTechPost（RSS）68用xFormers构建内存高效Transformer：Packed Sequences、GQA、ALiBi、SwiGLU与因果注意力教程

08:00HuggingFace Daily Papers（社区热门论文）48TurboServe：高效经济地服务流式视频生成

08:00HuggingFace Daily Papers（社区热门论文）50FAPO：多步LLM管道的全自主提示优化框架

07:02IT之家（RSS）54英伟达携手 Coherent 扩产 AI 光互联，黄仁勋称 AI 是终极通用技术

06:35Rohan Paul55Tensordyne 发布突破性推理系统，基于对数 AI 计算芯片

05:58Google DeepMind：Blog（RSS）34Google DeepMind 基于 Gemini 与英国政府合作开发 AI 规划原型，目标将家庭申请处理时间减半

04:53Claude Code：GitHub Releases（RSS）48Claude Code v2.1.179 发布

03:35The Decoder：AI News（RSS）50微软 Copilot Cowork 转向按用量计费，考虑采用 DeepSeek V4

03:35Rohan Paul46TokenPilot：面向LLM智能体的缓存高效上下文管理方法

02:54Epoch AI53超大规模企业AI自筹资金模式或终结

02:53Hacker News 热门（buzzing.cc 中文翻译）80同事件精选Meta 解散工程部门引发热议同一事件，精选展示《Meta万人重组：裁员与AI转型并举》

02:33Ars Technica：AI（RSS）48五角大楼通过GenAI.mil平台用Gemini代写国会报告

02:03OpenRouter：Announcements（RSS）62精选OpenRouter Presets：当模型下线时保持 AI 智能体运行

02:03SemiAnalysis51RL系统需匹配训练与生成吞吐量

00:04Google Developers Blog（RSS）46TPU Developer Hub 正式发布：助力开发者解锁 Google Cloud TPU 全部性能

00:01IT之家（RSS）54开发者绕过苹果软件限制，成功解锁 M4 芯片 15.8TFLOPS 的 AI 算力

6月16日周二

23:17Replit ⠕41Replit获Databricks 2026年度合作伙伴奖并上架

23:01IT之家（RSS）41商汤与香港科技园合作，共建全港最大国产智算中心（目标40000P+算力）

18:30公众号：百度智能云（文心）43百度智能云成立能源行业生态联盟，发布全栈AI能力

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月17日

22:08

Cloudflare Blog

精选61

Cloudflare 发布 Cloudflare One stack：智能体驱动的部署工具集

6月17日，Cloudflare 推出 Cloudflare One stack，一组可直接赋予 AI 智能体的技能文件，用于自动配置、部署和管理 Zero Trust 环境。工具集包含两个轻量级 skill：cloudflare-one 负责通用产品指导（VPN 替换、网络连接、安全策略等），cloudflare-one-migration 提供从 Zscaler、Palo Alto Networks 等厂商迁移的明确引导。技能内置决策树与结构化知识，智能体可自动执行云环境评估、网络拓扑生成及 Digital Experience Monitoring 排障。该 stack 基于 Cloudflare 员工数万小时客户经验提炼，降低学习与迁移门槛。

智能体产品更新部署/工程

推荐理由：Cloudflare把多年零信任迁移经验打包成agent技能，让AI直接帮你部署和管理安全堆栈，对正忙着切到Zero Trust的团队是个即插即用的省力工具，但仍是垂直领域的效率提升，不算广谱AI大事。

21:07

IT之家（RSS）

51

字节跳动洽谈采购天数智芯5万颗芯片，国产算力布局再加码

字节跳动正与天数智芯洽谈采购智铠系列云端推理GPU及天垓系列训练芯片，今年至少交付5万颗，用于支持豆包等产品推理。字节将训练与推理拆分：华为昇腾、寒武纪主攻训练，天数智芯侧重线上推理。同时考虑引入百度昆仑芯。行业预测2026年字节全球算力采购投入约1500亿元，国产占400亿元以上。推理能耗占AI总能耗60%-90%，中国推理需求已达训练8倍。百度、阿里、腾讯等也在布局算力基建。

行业动态部署/工程

20:59

TechCrunch：AI（RSS）

61

加拿大养老基金CPP Investments向印度数据中心CtrlS投资最高7.41亿美元

加拿大养老基金CPP Investments承诺向印度数据中心运营商CtrlS投资最高700亿卢比（约7.41亿美元），其中400亿卢比（约4.23亿美元）收购8.2%股权，最高300亿卢比（约3.17亿美元）投入合资企业，在印度开发超大规模数据中心园区。合资企业由CPP持股48%，CtrlS持股52%。CtrlS成立于2007年，在印度运营超15个数据中心。印度正成为AI数据中心投资热土，亚马逊、谷歌、微软等近期已宣布在印投资。CPP自2009年起投资印度，截至3月31日在印净资产约200亿美元。

行业动态部署/工程

20:30

公众号：百度智能云（文心）

45

中国银联与百度智能云展示金融AI全栈方案，发布智能体白皮书

6月16日，2026中国金融展上，百度智能云与中国银联展示金融行业AI应用解决方案。AI Infra方面，银联云提供搭载昆仑芯的国产算力环境，已累计支持30余家机构进行DeepSeek、MiniMax、GLM等模型测试。Agent Infra方面，百度千帆大模型平台为银联云用户提供模型开发、部署、推理服务及国产异构算力纳管、金融级数据安全与多租户隔离方案。百度智能云已服务超800家金融机构，覆盖100%系统重要性银行。双方将聚焦AI基础设施共建与金融智能体联合研发，推动支付、清算、风控等核心场景智能化。同期发布《金融行业场景智能体白皮书》，提出“知识-流程”双维分类框架及落地优先级建议。

智能体行业动态部署/工程

19:12

The Decoder：AI News（RSS）

54

超大规模云服务商可能很快无法仅靠现金流资助AI建设

Epoch AI基于SEC文件分析显示，微软、亚马逊、Alphabet、Meta、Oracle五大超大规模云服务商的AI基础设施支出年增长约70%，经营现金流仅增长约23%。若趋势持续，支出将在2026年第三季度超过现金流。目前Alphabet已通过股权融资850亿美元，亚马逊和英伟达发行债券补充资金。除Oracle外其余公司仍盈利且持有大量现金，但自由现金流可能归零或转负。Epoch AI指出这仅为简单外推，未计入AI投资能否产生足够收入来弥补缺口这一关键因素。

现象/趋势部署/工程

19:12

Artificial Intelligence News（RSS）

55

Google Cloud 生成式 AI 自动化市政规划事务

英国住房社区和地方政府部与科学创新技术部部署了两款基于 Gemini 基础模型的生成式 AI 工具。Extract 应用将历史 PDF 中的非结构化数据转为结构化数据集，每年为每个议会节省约 255 小时人工录入。APD 原型自动完成文档整合、法规检查、公众总结和评估报告起草四项任务，但保留人类官员最终决策权。目标将规划申请决策时间缩短 50%。Extract 已扩展至英格兰所有议会，APD alpha 版在三个地方机构测试，计划 2027 年部署至 300 多个英格兰地方当局。

Google 行业动态部署/工程

18:39

Hugging Face：Blog（RSS）

精选66

Strands Robots SDK：用单一智能体打通 Hugging Face Hub 到物理机器人

AWS（Apache 2.0）开源的 Strands Robots SDK 将 LeRobot 栈封装为 AgentTools，构建统一智能体。默认用 MuJoCo 模拟（无需硬件），mode="real" 切换至真实机器人。可记录演示数据为 LeRobotDataset 并推送 Hugging Face Hub，运行 GR00T 或 LerobotLocal 策略推理，经 Zenoh mesh 广播命令到多台机器人。模拟与硬件代码完全一致，只需改一个关键字参数。示例可在笔记本（Python 3.12+，Linux/macOS）无硬件、无 GPU 运行。

Hugging Face 产品更新具身智能开源生态

推荐理由：AWS 的 Strands Robots 把 LeRobot 仿真和硬件部署装进同一个 Agent 里，代码几乎不变就能从模拟切到物理机器人，对具身智能开发者是省掉胶水代码的实用工具。

18:26

Google DeepMind@GoogleDeepMind

31

我们正与 @SciTechgovuk、@mhclg 和 @i_dot_ai 合作开发新的AI住房申请规划原型。🏡 通过减少在重复性任务上的时间，它可以帮助规划官员将注意力集中在复杂项目上，并将处理时间缩短最多50%。→ https://goo.gle/4xzqMDs

Google 产品更新部署/工程

18:07

IT之家（RSS）

56

摩根大通上调预测：2030年全球AI基建支出超5万亿美元

摩根大通上调全球AI资本支出预测，预计2030年AI与数据中心支出超5万亿美元。大型云计算企业去年（2025年）开支达3420亿美元，同比增62%。摩根大通预计2026-2030年全球新增122GW数据中心用电量；截至2025年中，全球数据中心建设投资年化400亿美元，同比增30%。未来五年AI数据中心相关杠杆融资将达1500亿美元，投资级债券达1.5万亿美元。

行业动态部署/工程

17:11

AYi@AYi_AInotes

55

Anthropic为苹果生态发布Swift包，主动适配LanguageModel协议

Anthropic发布了Swift包，使Claude模型适配苹果定义的LanguageModel协议，从而能在iPhone和Mac本地运行。这一转变打破了Anthropic一向要求别人适配其API的惯例。背后是苹果通过统一接口把自己变成AI模型分发平台，开发者用同一套代码可在本地模型和Gemini等之间切换。推文认为行业竞争已从模型能力转向规则标准，在苹果生态内顺应其规矩比硬扛更明智。

Anthropic 现象/趋势部署/工程

17:07

IT之家（RSS）

37

摩尔线程完成智谱GLM-5.2 Day-0极速适配

智谱上线并开源GLM-5.2，在Code Arena前端开发盲测中获全球可用模型第一。摩尔线程在MTT S5000上完成Day-0极速适配，基于SGLang-MUSA推理引擎与TileLang-MUSA算子编程语言实现模型适配与优化。MTT S5000凭借硬件级原生FP8加速（单卡稠密算力1000 TFLOPS）、80GB显存与1.6TB/s带宽，支持Solid 1M超长上下文，降低首Token等待时间，提升AI Coding、RAG和长文档分析等场景的在线推理效率。

行业动态部署/工程

16:48

Alibaba Cloud@alibaba_cloud

49

🇫🇷 阿里云在法国推出新云区域，设有巴黎双可用区。作为我们在欧洲（继德国和英国之后）的第三个基础设施中心，新区域通过本地托管的云服务帮助企业扩展创新，并为即将推出的智能体AI服务铺平道路。 🔗： https://int.alibabacloud.com/m/1000405058/ #AlibabaCloud #France #AI #CloudComputing #AgenticAI

行业动态部署/工程

16:07

IT之家（RSS）

48

算苗科技 3D TokenPU 芯片正式流片：3D 混合堆叠架构，全流程国产化

算苗科技于6月15日宣布旗下全国产自研3D TokenPU芯片正式流片。该芯片采用3D混合堆叠架构，通过多层晶圆垂直堆叠缩短存储与计算单元的数据传输路径，搭载16TB/s带宽，面向大模型线上推理场景优化。芯片从架构设计到流片制造均依托国内产业链完成，适配通用大模型、多模态生成、实时对话等高负载推理任务，补强了国内高端AI算力硬件的自主供给能力。

产品更新推理部署/工程

16:07

IT之家（RSS）

46

法国 Bull 将与鸿海合作在欧生产 NVIDIA Vera Rubin NVL72 机架

法国超算企业 Bull 宣布与鸿海合作，在欧洲制造 NVIDIA Vera Rubin NVL72 机架系统。制造与初步测试在鸿海捷克 Pardubice 工厂进行，随后在 Bull 法国 Angers 工厂完成组装与系统级验证。此举旨在为欧洲 AI 工厂和云服务商提供本地化制造能力，提升欧洲主权 AI 产业链韧性。Bull 首席执行官表示，该合作标志着欧洲 AI 基础设施制造能力的转折点。

行业动态部署/工程

16:05

MarkTechPost（RSS）

同事件精选70

MiniMax 发布 MSA 稀疏注意力方法，开源推理内核并推出 MiniMax-M3 模型

MiniMax 发布 MSA（MiniMax Sparse Attention），一种构建在 Grouped Query Attention 上的稀疏注意力方法。它将注意力分解为索引分支与主分支：索引分支以块粒度（默认 128 token）为每个 GQA 组选择 16 个 token 块（固定预算 2048 个键值 token），主分支仅在这些块上执行精确 softmax 注意力。MSA 在 109B 参数 MoE 模型上训练，开源了面向 NVIDIA SM100 GPU 的推理内核 fmha_sm100（MIT 许可，支持 BF16/FP8/NVFP4/FP4），并发布生产模型 MiniMax-M3。MSA-PT 在 MMLU、GSM8K、HumanEval、RULER-8K、RULER-32K 上分别达 67.2、77.7、64.0、84.2、77.5，与全注意力基线持平。128K 上下文下，其 exp-free Top-k 选择比 torch.topk 快 5.1 倍。

开源生态推理模型发布部署/工程

同一事件，精选展示《MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型》

推荐理由：MiniMax 把长上下文注意力从 O(N) 压到固定每查询 2048 token，还同时开源高效内核与生产模型，对做长上下文 agent 的团队是即时可用的方法，遗憾是只限 SM100 GPU。

13:08

Artificial Analysis@ArtificialAnlys

52

Artificial Analysis 发布 Intelligence Index v4.1 更新

Artificial Analysis 昨日发布 Intelligence Index v4.1 更新，主要变化有三项：升级的评测 Terminal-Bench 2.1、τ³-Bench Banking 和 GDPval-AA v2；提供每项任务的成本、时间与模型 token 消耗数据，并展示这些指标与智能水平的权衡；新增缓存输入 token 报告，显示特定模型使用的缓存 token 量及其对成本的影响。

评测/基准部署/工程

12:26

Hacker News 热门（buzzing.cc 中文翻译）

64

让 ast.walk 的运行速度提升 220 倍

作者为优化 AI 生成 Python 代码的 lint 效率，发现 ast.walk 遍历 AST 是性能瓶颈。通过逐步去除生成器 yield、内联 iter_child_nodes 和 iter_fields、用 getattr(node, field, None) 替代异常处理，实现了约 2 倍提速。随后用 Rust 通过 PyO3 重写遍历逻辑，并直接读取 __dict__ 及预缓存 AST 子类类型信息，最终将 ast.walk 速度提升约 220 倍。

GitHub 教程/实践编码部署/工程

12:05

IT之家（RSS）

35

三星宣布2030年目标：通过DSEP实现无人晶圆厂

三星宣布通过数据共享生态平台（DSEP），目标到2030年实现无人晶圆厂。DSEP向设备供应商共享晶圆厂实时工艺数据，并汇集数据输入AI模型进行分析与决策，支持远程诊断设备故障、优化良率。首批设备供应商已签约，同步建设高性能计算平台提供算力。该计划导火索是近期劳资博弈：今年5月工会达成史上最昂贵奖金协议，规定特定利润条件时工人可获运营利润10.5%的特别绩效奖金。

行业动态部署/工程

11:38

SenseTime@SenseTime_AI

45

商汤与香港科技园合作建设香港最大自研AI数据中心

商汤与香港科技园签署谅解备忘录，合作建设香港最大规模本地自研AI数据中心，目标计算容量40,000 PetaFLOPS+（2030年达成），分阶段投产。该数据中心将服务本地、跨境及国际客户的模型训练、推理与大规模应用部署。商汤基于上海AIDC经验，带来成熟运营能力、自研GPU技术、高速光互连及可再生能源与储能技术。香港作为商汤总部与关键研发基地，此举旨在巩固其全球AI前沿地位。

行业动态部署/工程

10:33

HuggingFace Daily Papers（社区热门论文）

54

可变宽度Transformer

提出一种“times-shaped”瓶颈结构的Variable-Width Transformers，在语言模型深度方向非均匀分配容量。该架构在语言建模损失上优于参数匹配的均匀基线，平均层宽降低使总FLOPs减少22%，KV缓存内存和I/O成本减少15%。残差流中的表示分析显示瓶颈结构导致定性不同的表征。实验表明非均匀宽度分配可实现更资源最优的语言模型扩展。

数据/训练论文/研究部署/工程

10:03

IT之家（RSS）

49

诺基亚将大幅扩建美国宾州先进测试与封装工厂，助力AI产业发展

诺基亚于6月17日宣布，将扩建其位于美国宾夕法尼亚州利哈伊县的芯片先进封测工厂。公司投入3000万美元，加上宾州政府400万美元和联邦政府1000万美元税收抵免，预计创造250个就业岗位，五年内产生约5亿美元经济产值。扩建项目将使光子半导体产能最高扩大至现有规模的十倍，并新增办公区、实验室及仓储空间，工厂员工总数将达500人。该工厂研发的技术用于优化数据中心等场景的AI运行效率，并支撑全美可规模化AI基础设施的互联互通。

行业动态部署/工程

08:27

MarkTechPost（RSS）

68

用xFormers构建内存高效Transformer：Packed Sequences、GQA、ALiBi、SwiGLU与因果注意力教程

教程演示如何使用xFormers工具包在GPU上实现内存高效的Transformer。先验证memory-efficient attention与标准注意力结果一致性，对比不同序列长度下的速度和内存消耗；然后实现因果掩码、packed variable-length sequences、grouped-query attention（GQA）和自定义ALiBi位置偏置。最后组合成可训练的GPT风格模型，集成xFormers注意力、SwiGLU前馈层和自动混合精度训练。

教程/实践部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

48

TurboServe：高效经济地服务流式视频生成

流式视频生成需在用户会话中逐块渐进生成视频，面临会话持续时间异质性和用户需求时间异质性两大挑战。TurboServe是首个专为此设计的服务系统，将服务形式化为在线调度问题，联合协调会话放置与GPU资源调配。其闭环调度算法包含迁移感知放置控制器（跨GPU重平衡会话以降低每块最大延迟）和负载驱动自动缩放控制器（根据工作负载调整GPU预算）。运行时通过合并块处理、GPU-CPU卸载和NCCL迁移实现决策。在生数科技生产轨迹上，最多64块NVIDIA B300 GPU的评估显示，相比基线，最坏情况每块延迟降低37.5%，总GPU运营成本平均降低37.2%。

视频论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

50

FAPO：多步LLM管道的全自主提示优化框架

FAPO是一个让Claude Code在标准化代码库内自动优化多步LLM管道的框架。它评估管道、检查中间步骤、诊断失败、提出范围性更改并反复验证，优先尝试提示编辑，仅当提示优化不足且归因识别出结构瓶颈时才调整链结构。在6个基准和3个任务模型上，FAPO在18个模型-基准比较中15次击败基线GEPA，平均增益+14.1pp；其中11次比较中均值±标准差范围不重叠。在HoVer和IFBench上，提示优先搜索升级为结构变化的6次比较中FAPO全胜，平均增益+33.8pp。安全任务上，仅提示版FAPO在CTIBench-RCM上将GPT-5测试准确率提升+4.0pp，Foundation-Sec-8B-Instruct提升+7.1pp，Foundation-Sec-8B-Reasoning提升+2.0pp。

检索增强推理论文/研究部署/工程

07:02

IT之家（RSS）

54

英伟达携手 Coherent 扩产 AI 光互联，黄仁勋称 AI 是终极通用技术

英伟达昨日宣布，其战略投资的高意（Coherent）在美国得州 Sherman 扩建工厂奠基，聚焦 6 英寸磷化铟晶圆与光互连产能，用于支撑 AI 数据在机架间以光速传输。黄仁勋表示人工智能是终极通用技术，并指出 NVIDIA Vera Rubin Ultra NVL576 场景中 576 个 GPU 跨 8 个机架协作必须依赖硅光技术。Coherent 获 5000 万美元 CHIPS Act 拨款及约 1700 万美元地方支持。工厂满产后预计直接带来 550 多个岗位。

行业动态部署/工程

06:35

Rohan Paul@rohanpaul_ai

55

Tensordyne 发布突破性推理系统，基于对数 AI 计算芯片

Tensordyne 发布突破性推理系统，采用对数 AI 计算芯片。相比 NVIDIA Blackwell，每瓦特 token 数提升 17 倍，吞吐量提升 13 倍。核心创新是在硬件中实现高效对数运算，将乘法转为加法，从而缩小计算电路、减少晶体管、降低功耗，释放芯片空间用于更多张量引擎、高带宽 SRAM 和 HBM3e 内存。针对 DeepSeek-R1，单机架可达 363K tokens/sec，对照系统仅 27.4K。Napier 处理器已完成流片，在台积电 3nm 制程生产。

Tensordyne: http://x.com/i/article/2066408998698442752

产品更新推理部署/工程

05:58

Google DeepMind：Blog（RSS）

34

Google DeepMind 基于 Gemini 与英国政府合作开发 AI 规划原型，目标将家庭申请处理时间减半

Google DeepMind 与英国政府合作，基于 Gemini 构建 AI 规划原型，旨在将家庭规划申请处理时间减半。该工具可整合数据、识别本地政策、总结公众反馈并起草评估报告，但规划官员保留最终决策权。原型已在 Barnet、Camden 和 Dorset 试点，计划 2027 年向全英议会开放。此前推出的 Extract 工具（同样基于 Gemini）已向英格兰所有议会开放，能将非结构化 PDF 转为可用数据，预计为每个议会每年节省约 255 小时人工。家庭规划申请占每年规划申请的近 70%，AI 工具旨在让官员聚焦更复杂的公共利益申请。

DeepMind Google 产品更新部署/工程

04:53

Claude Code：GitHub Releases（RSS）

48

Claude Code v2.1.179 发布

本次次要版本修复了多项问题：流式连接中断后保留部分响应并修复 spinner 卡死；修复 WSL2（Windows Terminal / VS Code）中鼠标滚轮失效（v2.1.172 引入的回归）；修复 Linux 上 sandbox denyRead/allowRead glob 覆盖大目录树导致 Bash 工具描述膨胀、会话不可用；修复反馈调查在单次回复后立即捕获评分；修复欢迎界面每会话最多显示一个促销横幅；修复查看子 agent 时 Ctrl+O 不显示其对话记录；修复点击输入框无法从子 agent/底栏面板恢复焦点；修复远程会话后台任务轮次间显示“正在运行”但实际卡住；改进了远程会话中插件加载性能。

Anthropic 产品更新编码部署/工程

03:35

The Decoder：AI News（RSS）

50

微软 Copilot Cowork 转向按用量计费，考虑采用 DeepSeek V4

微软正考虑采用自托管微调版 DeepSeek V4 作为 Copilot Cowork 的更廉价模型选项，同时将 Cowork 改为按使用量计费。Cowork 基于 Anthropic 的 Claude 技术。Copilot EVP Charles Lamanna 表示固定费率因高频用户推高成本而不可持续。微软已在 GitHub Copilot 上实施类似调整。DeepSeek 将作为可选模型，完全托管于 Azure 并配备偏见防护，客户数据不出微软云。最终决定预计数周内做出。CEO Satya Nadella 此前发文支持企业可挑选并微调的多模型生态。

DeepSeek Microsoft 产品更新部署/工程

03:35

Rohan Paul@rohanpaul_ai

46

TokenPilot：面向LLM智能体的缓存高效上下文管理方法

TokenPilot 提出一种针对 LLM 智能体的缓存高效上下文管理方法，通过摄入感知压缩和生命周期感知驱逐两大机制，在 PinchBench 和 Claw-Eval 基准上实现 61–87% 的成本降低，同时保持有竞争力的分数。传统方法通常直接截断或摘要历史，容易导致文本偏移、破坏 prompt 缓存。TokenPilot 在工具结果进入上下文前进行清理，保持早期提示布局稳定；同时延迟删除旧任务历史，因为已完成的工作仍可能为引用相同文件或目标的后续任务提供帮助。

智能体 arXiv 论文/研究部署/工程

02:54

Epoch AI@EpochAIResearch

53

自筹资金的AI建设是否走向终结？超大规模企业的现金资本支出增速远超现金流入。按当前趋势，到今年年底，他们将无法完全依靠运营现金流来为AI基础设施建设提供资金。

现象/趋势行业动态部署/工程

02:53

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选80

Meta 解散工程部门引发热议

6月16日，一篇标题为“Why is Meta destroying its engineering organization?”的博客文章出现在 Hacker News，获得110个点赞。文章指出 Meta 正在解散其工程组织，引发业界广泛讨论。具体原因和后续影响尚未明确。

Meta 安全/对齐现象/趋势编码

同一事件，精选展示《Meta万人重组：裁员与AI转型并举》

推荐理由：Meta 这波操作是 AI 狂热下自毁工程文化的教科书级案例，从强制数据标注到指标驱动的 token 最大化，最终导致 Instagram 的安全灾难，虽然后来撤销部分裁员，但信任已崩。

02:33

Ars Technica：AI（RSS）

48

五角大楼通过GenAI.mil平台用Gemini代写国会报告

美国国防部通过自建GenAI.mil平台向全军提供Google Cloud的Gemini for Government等生成式AI工具，用于撰写国会要求的年度报告。首席技术官Emil Michael称原本需200小时的工作可压缩至5小时。副助理部长Jacob Glassman也透露团队使用后称“这是五年来最好的报告”。平台用户数从2025年12月的8万激增至2026年6月的150万。但AI报告存在错误风险——KPMG曾因AI生成错误案例而撤回报告，而五角大楼的审查流程尚不透明。

Google 政策/监管行业动态部署/工程

02:03

OpenRouter：Announcements（RSS）

精选62

OpenRouter Presets：当模型下线时保持 AI 智能体运行

Anthropic 在 Claude Fable 5 发布仅数天后便对其进行了限制。如果代码硬编码模型 slug，该限制也会导致服务中断。OpenRouter 的 Presets 功能将模型选择移至服务器端，使用户无需重新部署即可切换模型、设置回退策略并强制执行数据策略。

智能体教程/实践部署/工程

推荐理由：给 Agent 开发者的实用提醒，硬编码模型名会在供应商限制时塌方，用 Presets 换模型、设降级方案比现改代码省心。

02:03

SemiAnalysis@SemiAnalysis_

51

RL系统注意差距：匹配训练器与生成器吞吐量 RL训练基础设施，GRPO， PipelineRL，异步RL，策略陈旧性， RL沙箱基础设施，CPU需求， TCO分析，思考机器修补

数据/训练现象/趋势部署/工程

00:04

Google Developers Blog（RSS）

46

TPU Developer Hub 正式发布：助力开发者解锁 Google Cloud TPU 全部性能

谷歌今日推出 TPU Developer Hub，面向模型构建者与开发者提供端到端教育资源。内容覆盖预训练、后训练及推理工作负载，涵盖硬件架构、软件栈（XLA、PyTorch 零成本迁移）、追踪调试（XProf 工具）、并行优化（Pallas 内核、KV cache 卸载）及网络安全实践。资源形式包括交互式 Colab、开源代码配方与深度技术文档，支持 AI 智能体辅助集成，帮助用户充分发挥 Cloud TPU 性能。

Google 产品更新部署/工程

00:01

IT之家（RSS）

54

开发者绕过苹果软件限制，成功解锁 M4 芯片 15.8TFLOPS 的 AI 算力

苹果 M4 神经网络引擎原仅开放推理，X 用户 @0x0SojalSec 通过逆向工程，从零开发自定义 MIL 直接与芯片通信，绕开了软件限制。训练全程将数据放在 RAM 中运行，不写入 NAND 闪存以维持高速。解锁后 M4 可达 15.8TFLOPS AI 性能，足以承担模型训练。目前不确定该 MIL 能否用于更新的 Apple Silicon，exec() 命令在新平台上的兼容性也未知。

开源/仓库端侧部署/工程

6月16日

23:17

Replit ⠕@Replit

41

来自 @databricks Data + AI Summit 的重大消息。 Replit 被评为 2026 年度 App Generation 合作伙伴，现已上架 Databricks Marketplace。本周在旧金山？欢迎到 651 号展位来找我们。

行业动态部署/工程

23:01

IT之家（RSS）

41

商汤与香港科技园合作，共建全港最大国产智算中心（目标40000P+算力）

商汤科技与香港科技园签署合作备忘录，共同推进国产 AI 算力基础设施建设（AIDC），目标于 2030 年前形成 40000P+（PetaFLOPS）算力规模，打造全港最大国产智算中心。项目分阶段推进，首阶段预计今年年内完成。该中心配备多元国产算力 GPU 集群，为模型训练、推理及大规模应用部署提供算力支持，助力香港在金融、教育、医疗、城市治理、智能办公、内容生成等场景形成 AI 应用样板。

行业动态部署/工程

18:30

公众号：百度智能云（文心）

43

百度智能云成立能源行业生态联盟，发布全栈AI能力

2026年6月9日，百度智能云与产业联盟在广州举办能源合作伙伴交流会，成立“百度智能云能源行业生态联盟”，首批21家成员覆盖算力基础设施、软件平台、解决方案及服务交付等领域。百度智能云依托文心大模型、飞桨深度学习平台、昆仑芯及百舸异构算力平台，形成全栈AI能力，并在电力巡检、风电场管理、电力交易等场景落地。黄埔区“黄埔1号”智算集群算力超12000P，推出算力券、模型券、场景券等扶持政策。国家人工智能应用中试基地已梳理出设备智能巡检、电力市场交易等数十个共性场景。

行业动态部署/工程

1…10 111213 14…50