6月12日

14:35

IT之家（RSS）

2999元：联想AI主机Mini开启预约，此芯P1处理器、8GB内存+256GB硬盘

联想AI主机Mini于6月12日在京东开启预约，售价2999元。该迷你主机搭载此芯P1（CD8180）处理器，6nm制程，集成12核Armv9.2 CPU、10核Immortalis G720 GPU及30TOPS算力NPU，综合算力45TOPS。配备8GB LPDDR5内存和256GB固态硬盘。支持一键部署、零门槛配置，可安装Skills技能，接入QQ、微信、飞书等聊天工具，容纳多个Claw并支持多成员共享。接口包括USB 3.2 Type-A×2、全功能Type-C×2、DP 1.4、HDMI 1.4、USB 2.0×2及2.5GbE网口，支持开发者模式，兼容Ubuntu系统。

产品更新端侧部署/工程

12:25

Claude Code：GitHub Releases（RSS）

Claude Code v2.1.175 发布：新增 enforceAvailableModels 管理设置

Claude Code v2.1.175 新增 enforceAvailableModels 管理设置。启用该设置后，availableModels 允许列表也会约束 Default 模型——若 Default 模型解析到被禁用的模型，则自动回退至第一个允许的模型；用户或项目设置无法再扩大受管理的 availableModels 列表。

Anthropic 产品更新编码部署/工程

11:34

IT之家（RSS）

亚马逊 AWS Graviton5 处理器全面可用

亚马逊 AWS 宣布去年发布的 Graviton5 处理器全面可用，基于其的 EC2 M9g 实例较上代 M8g 提供 25% 计算性能提升；数据库性能提升 30%，Web 应用性能提升 35%，ML 工作负载性能提升 35%。Graviton5 拥有 192 个内核，支持 DDR5-8800 内存与 PCIe Gen6，L3 缓存是 Graviton4 的 5 倍，每核心 L2 缓存是 Graviton4 的 2.6 倍。采用台积电 3nm 工艺，基于 Arm Neoverse V3，每核心 1MB L3，支持 12 通道内存、96 条 PCIe 通道，D2D 互联带宽 420GB/s。

产品更新部署/工程

11:03

SemiAnalysis@SemiAnalysis_

Amazon Bedrock 可能在年底前占据大部分AI业务。Token即服务模式正在重塑超大规模云服务商的定位，速度超预期。

现象/趋势部署/工程

10:52

swyx@swyx

swyx自建vibecoding平台：吐槽现有平台未闭环错误处理

开发者swyx抱怨Vercel、Cloudflare、Netlify等现有平台未能真正闭环：在你出错或项目失败时，它们不会主动引导你纠正或发送通知。此外，每个项目都需要重复设置大量“网站管理员”基础设施，比如执行npx posthog wizard、npx arize skills等。swyx表示厌倦了这种零散配置，希望将所有功能整合到一个平台中，一次搞定。

大佬观点部署/工程

10:37

karminski-牙医@karminski3

FlashMemory：将DeepSeek-V4上下文显存压缩至1.3GB并提升准确率

DeepSeek-V4支持1M上下文，显存约10GB（对比DeepSeek-V3.2约84GB）。FlashMemory论文进一步将显存压至1.3GB，并在LongBench-v2等长文本评测上准确率平均提升0.6%。核心是神经内存索引器（小模型），通过预测所需历史片段按需加载，实现注意力降噪。训练采用解耦双编码器架构，无需加载DeepSeek-V4基座模型，训练成本大幅下降。论文：arxiv.org/abs/2606.09079；项目：github.com/libertywing/FlashMemory-Deepseek-V4。

DeepSeek 推理教程/实践部署/工程

09:34

IT之家（RSS）

SK 海力士正评估引入 Microsoft 365 Copilot 与 ChatGPT 等第三方 AI 服务，推动工作流转型

据韩联社6月12日报道，SK 海力士 CEO 郭鲁正在昨天会议中表示，公司正评估引入外部生成式 AI 模型方案，包括采用 Microsoft 365 和 Copilot，并从安全性与系统架构角度评估 ChatGPT。公司计划先在无关核心技术的领域引入外部 AI 服务，再逐步扩大应用范围。SK 海力士已有基于开源方案的 AI 服务，引入外部平台后将让员工使用更丰富的 AI 模型。

行业动态部署/工程

09:34

IT之家（RSS）

钉钉换帅后《置身钉内》作者再发文：无效的形式化工时既消耗人力，也与技术发展的初衷相悖

钉钉ONE项目产品经理在7.5万字离职信《置身钉内》引发争议后再次发文回应。她指出AI开发存在不限于钉钉的共同困境——新老交替、产品形态探索期，但许多探索经验可帮助节约成本。AGI的本质一是放大文明能力解决现有难题，二是把人从机械重复工作中解放出来，让时间留给创意与情感。她认为长期来看重复工作将减少，创意工作不拼工时，无效的形式化工时既消耗人力，也与技术发展的初衷相悖。

现象/趋势部署/工程

09:29

meng shao@shao__meng

Re-Ink：再保险合约智能提取与审核参考实现

Re-Ink 是 @LandingAI 金融 AI Hackathon 冠军项目，针对再保险承保中约 40% 时间消耗的行政文档录入痛点，构建端到端自动化方案。核心使用 LandingAI 的 Agentic Document Extraction (ADE) 实现 PDF/DOCX 条约的结构解析与上下文感知字段提取（合同标识、日期、金融条款、参与方等），无需正则或模板。关键设计为人机协同闭环：提取数据经人工审核后以单事务持久化，校验失败即回滚。Agent 层用两个 LangGraph Agent 封装入库前引导与审批后分析逻辑。Academy 调查显示手动提取错误率超 6%，运营预算约 14% 用于修复此类错误。

LandingAI: http://x.com/i/article/2065098287758348288

智能体教程/实践部署/工程

09:25

Claude Code：GitHub Releases（RSS）

Claude Code v2.1.174 发布

新增 wheelScrollAccelerationEnabled 设置，全屏禁用鼠标滚轮加速。修复 /model 选择器：Opus 在 Max/Team Premium/Enterprise 独立行，Sonnet 在 Pro/Team，Opus 在 API 按量付费账户；修复固定 Sonnet 版本时的硬编码标签；企业账户误显示积分横幅；Bedrock GovCloud 区域前缀错误导致 400 错误；后台会话继承另一会话环境变量；macOS/Linux 退出时 1-2 秒暂停；git co-author 模型名错误；/advisor 预选被 availableModels 屏蔽；skill 热重载仅发送变更；Workflow tool 子智能体缺失归属头；预温后台 worker 空闲后认证失败。[VSCode] 在 /usage 新增过去 24h/7d 的缓存未命中、长上下文、子智能体及 skill/agent/plugin/MCP 分解归因。

Anthropic 产品更新编码部署/工程

09:14

凡人小北@frxiaobei

OpenAI已达成协议收购Ona。其安全云执行技术将帮助Codex在笔记本电脑合盖后继续处理长时间运行的工作，并帮助更多组织在生产环境中安全部署AI智能体。交易完成后，Ona将加入OpenAI Codex团队。主推文：「AI 上云」。

OpenAI Newsroom: We've reached an agreement to acquire @ona_hq. Its secure cloud execution technology will help Codex take on longer-runn...

智能体 OpenAI 行业动态部署/工程

08:34

IT之家（RSS）

消息称 Anthropic 寻求美国数据中心租约，希望获得谷歌母公司财务支持

Anthropic 已签署十多份美国数据中心初步租约，总容量超 1GW，同时寻求谷歌母公司 Alphabet 提供财务担保，传闻谷歌将为其共同设计芯片。2026 年 4 月，谷歌决定向 Anthropic 投资 100 亿美元，承诺后续再投 300 亿美元。作为协议部分，Anthropic 承诺五年内向谷歌云支出高达 2000 亿美元。此外，亚马逊此前已投资 40 亿美元，Anthropic 将在十年内从 AWS 采购超 1000 亿美元算力。

Anthropic Google 行业动态部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

Squeeze-Release：带精确结构最小化的迭代剪枝

Squeeze-Release 提出精确结构改写（minimization），将带掩码网络转换为更小密集网络，前向函数仅浮点舍入误差一致。循环迭代剪枝和最小化，中间释放步骤将压缩张量中原置零位置重置为小校准噪声，使容量重新可训练，后续循环发现单次剪枝无法触及的结构冗余。引入函数保持的 CompensatedLayerNorm，将通道缩减扩展到带 LayerNorm 的残差流。在 fully-connected 网络压缩至 1/39，ConvNeXt-Tiny 达 1/14.8，准确率相当，并可扩展至 Transformer 架构。

arXiv 论文/研究部署/工程

07:35

karminski-牙医@karminski3

Google 发布 Diffusion Gemma：26B/4B 激活，5090 达 700+ token/s

Google 推出 Diffusion Gemma，大小 26B、激活参数量 4B，与 NVIDIA 合作针对 RTX 4090/5090 优化，5090 上速度达 700+ token/s。该扩散文本模型以“刮奖式”并行生成而非逐 token 生成，输出质量略逊但优于此前同类模型：AIME 2026（数学）达 Gemma4-26B-A4B 的 94%，tau2 bench（Agent）达 82%。4bit 量化版仅需 16G 显存即可运行。

Google 推理模型发布部署/工程

07:34

IT之家（RSS）

OpenAI 收购初创公司 Ona，强化编程助手 Codex

OpenAI 昨日宣布收购初创公司 Ona，后者专注于为 AI 智能体提供安全、预配置云环境。该技术将帮助编程助手 Codex 执行持续时间更长的任务，并支持用户将 AI 智能体部署到生产环境，同时让企业更好地掌控基础设施与安全边界。交易金额未公布，Ona 团队将加入 OpenAI 参与 Codex 项目研发。

智能体 OpenAI 编码行业动态

06:32

Tibo@thsottiaux

OpenAI宣布已达成协议收购Ona，其安全的云执行技术将帮助Codex处理更长期的任务（即使笔记本电脑关闭也能运行），并让更多组织安全地部署智能体。收购完成后，Ona将加入OpenAI的Codex团队。Tibo对此表示"无比兴奋，期待与Johannes及团队共同构建未来"。

OpenAI Newsroom: We've reached an agreement to acquire @ona_hq. Its secure cloud execution technology will help Codex take on longer-runn...

智能体 OpenAI 行业动态部署/工程

06:13

Replit ⠕@Replit

精选68

Replit 与 @databricks 集成刚刚升级了。构建应用，让每个用户只看到他们应该看到的内容。你的 HR 分析师可以为 CEO 构建完整的组织视图，而无需访问底层数据。公开预览已开放注册！了解更多 → https://replit.com/blog/databricksjune2026

产品更新部署/工程

推荐理由：Replit 跟 Databricks 打通安全预览，能让非技术角色直接搭应用而不碰底层数据，对已经用这两家的团队是个实用更新，其余人可以等等正式版。

05:05

OpenRouter：Announcements（RSS）

什么是 LLM 网关？应用与 AI 模型之间缺失的一层

缺少 LLM 网关时，供应商中断会直接变成用户可见的错误，AI 支出也难以追踪。文章从路由、合规性和设置时间三个维度比较了最佳方案。

教程/实践部署/工程

03:39

Greg Brockman@gdb

欢迎 @ona_hq 加入团队，帮助组织在生产环境中安全部署智能体！

OpenAI Newsroom: We've reached an agreement to acquire @ona_hq. Its secure cloud execution technology will help Codex take on longer-runn...

智能体 OpenAI 行业动态部署/工程

03:35

OpenRouter：Announcements（RSS）

什么是 LLM Gateway？你的应用与 AI 模型之间的缺失层

LLM Gateway 能防止 API 提供商故障变成用户端可见错误，并让 AI 费用变得透明。通过路由、合规性和设置时间等维度，可以对比市面上最佳的网关方案。

教程/实践部署/工程

03:02

SemiAnalysis@SemiAnalysis_

GPU 机架达到 400kW？传统数据中心无法应对，电网将被限流。 Radiant 耗时 12 个月，从零到 AI 生产，正是因为绕过了电网。基础设施主管 Patrick Wohlschlegel 告诉 @JordanNanos

行业动态部署/工程

02:52

xAI@xai

Grok Build 插件市场现已进入 Beta 阶段。您可以在终端中使用 MongoDB、Vercel、Sentry、Cloudflare 和 Chrome DevTools 插件进行开发。详情请见 https://x.ai/news/grok-plugin-marketplace

xAI: The Grok Build Plugin Marketplace is now in beta. Build with MongoDB, Vercel, Sentry, Cloudflare, and Chrome DevTools pl...

MCP/工具产品更新部署/工程

关联讨论 2 条

02:26

Simon Willison 博客

asyncinject 0.7 发布

asyncinject 0.7 发布，这是一个作者数年前为支持 asyncio 依赖注入模式而构建的 Python 工具库，曾与 Datasette 搭配使用。Claude Fable 5 发现了库中的若干 bug 并自动修复——Claude Fable 5 是一个非常主动的模型。

开源/仓库部署/工程

02:25

Epoch AI@EpochAIResearch

单个数据中心的计算能力记录每 7 个月翻倍一次。 Colossus 1、Anthropic-Amazon New Carlisle 和 Meta Prometheus 依次登顶。

数据/训练论文/研究部署/工程

02:19

Chubby♨️@kimmonismus

Anthropic 目前营收超过任何其他 AI 模型公司，却仍无法靠自身获得新数据中心的融资。《The Information》报道称，贷款机构要求 Google 先担保租赁付款。正是这家 Google，协助设计 Anthropic 的芯片，并向其出售约 2000 亿美元的计算能力。营收领先者竟处于这种尴尬境地。

Anthropic Google 行业动态部署/工程

01:39

OpenAI：官网动态（RSS · 排除企业/客户案例）

BBVA 将 AI 置于银行业务核心，与 OpenAI 合作

BBVA 将 ChatGPT Enterprise 推广至 10 万名员工，并与 OpenAI 达成合作，加速全球银行业 AI 驱动的转型。

OpenAI 行业动态部署/工程

00:46

OpenRouter@OpenRouter

同事件精选66

终于能一目了然地查看你的顶级人类与顶级 AI 智能体了。附带一个 API，可随时间查询你所有的数据 📊

OpenRouter: Today we're launching the new Activity explorer on OpenRouter. It's the best way to see how much and your team are spend...

产品更新部署/工程

同一事件，精选展示《OpenRouter 推出 Activity explorer 活动探索器》

推荐理由：如果你团队在用 OpenRouter 接各种模型，这个 Activity Explorer 终于让你能看清每个人和每个 Agent 分别花了多少 token、命中了多少缓存，费用透明了，对工程管理很有用。

00:39

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选61

OpenAI 将收购 Ona

OpenAI 计划收购 Ona，以拓展 Codex 的功能，提供安全、持久的云端环境，从而支持企业工作流中长时间运行的 AI 智能体。

智能体 OpenAI 行业动态部署/工程

推荐理由：OpenAI收购Ona，给Codex补上持久化云环境，让Agent能长时间自主工作。这是把AI Agent从会话工具变成企业级生产平台的一个基础设施信号。

00:08

🚨 AI News | TestingCatalog@testingcatalog

OpenAI 已达成协议收购云执行平台 Ona，其安全云执行技术将帮助 Codex 处理更长时任务（即使笔记本关闭也能继续运行），并让更多组织在生产环境中安全部署智能体。收购完成后，Ona 团队将加入 OpenAI 的 Codex 部门，此举或预示着托管 OpenAI 智能体服务的到来。

OpenAI Newsroom: We've reached an agreement to acquire @ona_hq. Its secure cloud execution technology will help Codex take on longer-runn...

智能体 OpenAI 行业动态部署/工程

00:00

OpenRouter：Announcements（RSS）

精选55

OpenRouter：企业应转向多模型路由，放弃单一LLM供应商

OpenRouter指出，企业不应只依赖一家LLM供应商，而应采用多模型路由策略以平衡成本与效果。Anthropic Opus 4.7的“tokenizer税”导致输入token增加35%，新模型Fable定价$10/M输入、$50/M输出，OpenAI GPT-5.5 Pro更高达$30/M输入、$180/M输出。用户正主动跨模型族分配任务，平台3月至4月新增90个模型。OpenRouter作为统一市场，通过标准化API消除切换成本，使路由成为“一等公民”。

Anthropic OpenAI 产品更新部署/工程

关联讨论 1 条

推荐理由：OpenRouter 放出的多模型使用数据很实在，成本压力正推动企业从专一走向多模型路由，新分析 API 让这个趋势可度量。

6月11日

23:49

Chubby♨️@kimmonismus

伊朗威胁马斯克中东资产：xAI数据中心与Starlink工厂

伊朗通过官方媒体威胁马斯克在中东的公司，目标指向xAI在沙特阿拉伯的500 MW AI数据中心与Starlink工厂。该数据中心与沙特国家AI机构HUMAIN合作建设，NVIDIA为主要芯片供应商，是目前xAI在美国以外最大的数据中心（对比孟菲斯Colossus-1约300 MW）。此举是回应特朗普在TruthSocial发文称“美国今晚将狠狠打击伊朗”。局势紧张。

xAI 行业动态部署/工程

22:37

ClaudeDevs@ClaudeDevs

我们刚刚为 Claude Managed Agents 新增了两个功能： 1. 定时部署 - 按计划运行任务 2. 环境变量 - 将保险库凭据以环境变量的形式暴露给 CLI

Anthropic 产品更新部署/工程

21:59

HuggingFace Daily Papers（社区热门论文）

SKIM：面向大语言模型的自适应多分辨率程序性技能压缩框架

可复用的自然语言技能被频繁调用时，将完整文本放入每个上下文会显著增加预填充成本和延迟。SKIM（SKIll coMpression）是一种自适应多分辨率软token压缩框架，专为程序性技能设计。它根据每项技能的复杂度生成不同数量的软token，在提升LLM推理效率的同时保留技能使用效果。实验表明，SKIM将技能压缩至原始token长度的30%到60%，且在任务性能上优于现有压缩方法。代码已开源。

推理论文/研究部署/工程

19:17

Hacker News 热门（buzzing.cc 中文翻译）

Meta效仿特斯拉做法，在帐篷内建设数据中心

Meta效仿特斯拉的做法，在帐篷内建设数据中心。该消息在 Hacker News 上获得 100 HN Points。

Meta 行业动态部署/工程

18:59

Hugging Face：Blog（RSS）

PyTorch 剖析系列（二）：从 nn.Linear 到融合 MLP

本部分将手写 matmul-add 对替换为 nn.Linear（bias=True），堆叠三层 Linear 与激活函数构成多层感知机（MLP）块，在 NVIDIA A100 GPU 上剖析。Profile trace 显示 nn.Linear 内部调用 aten::addmm，将 bias 加法作为 epilogue 融合进矩阵乘法核，避免额外 HBM 访问；transpose 操作（aten::t）仅改写 CPU 端张量元数据（shape 和 stride），不启动 GPU 核。

Hugging Face 教程/实践部署/工程

18:06

Alibaba Cloud@alibaba_cloud

Qwen 上线欧洲 AI 网关 Eden AI

阿里云宣布 Qwen 模型正式登陆欧洲领先 AI 网关 Eden AI，该平台拥有超过 20 万开发者。企业可通过 Eden AI 统一 API 调用 Qwen 开源权重模型，用于推理、编码和 AI 应用，支持多模型工作流并避免供应商锁定。为庆祝上线，所有 Qwen 模型享受 35% 折扣。下周 VivaTech 2026 大会上，Eden AI CEO 与 CPTO 将参与阿里云 AI 创新峰会活动。

产品更新开源/仓库部署/工程

17:31

IT之家（RSS）

精选71

阿里云发布 Meoo CLI：本地 AI 编程项目可一键部署上线

阿里云今日推出 Meoo（秒悟）开源命令行工具 Meoo CLI，面向开发者，支持 Claude Code、Codex、Cursor 等本地 AI 编程助手。通过调用阿里云云端能力，可自动完成数据库接入、用户登录、文件存储及项目发布，将本地项目一键部署上线并生成可分享的访问链接。该工具定位为本地 Agent 与秒悟云端能力的连接入口，已开放下载，支持主流 Linux、macOS 及 Windows 平台。

智能体产品更新开源/仓库部署/工程

推荐理由：本地AI编程工具产出的项目终于有了一条直通云端的管道，Meoo CLI 把数据库、鉴权、部署这些脏活全包了，非前端也可以把原型直接变成产品。

17:06

Alibaba Cloud@alibaba_cloud

👏#ApsaraDB 有10篇论文被SIGMOD 2026接收--DB×AI、云原生存储与智能工具。从论文到产品：Beluga的CXL内存池正处于工程验证阶段；CloudJump III现已为#PolarDB的分层存储提供动力。 #AlibabaCloud 持续推动数据库前沿。🚀

数据/训练行业动态部署/工程

16:50

公众号：腾讯混元

精选78

腾讯混元 AI Infra 新开源：HPC-Ops 推理核心算子全面升级

腾讯混元 AI Infra 团队开源升级 HPC-Ops 推理算子库，推出五大核心算子。Attention 采用运行时动态负载调度，长文本最高加速 2.95x，端到端 QPM 提升 17%；Router GEMM 以双 BF16 组合实现 FP32 精度，对比 CuBLAS FP32 最高提速 3.22x；FusedMoE 相对 vLLM、SGLang 性能提升 1.2x～1.6x；Fused AllReduce+Norm 对比主流方案最高提速 1.68x；Sampler 将解码采样融合为 2 个 CUDA Kernel，相对 vLLM 提速 4.0x～7.5x。所有能力均来自生产实践并完全开源。

产品更新开源/仓库推理部署/工程

推荐理由：腾讯混元把推理全链路的瓶颈都加速了一遍，Sampler 算子比 vLLM 快 4-7 倍，Attention 动态调度根治长尾延迟，这套开源算子库可以直接用，做推理部署的可以抄作业。

15:30

IT之家（RSS）

微软 CEO 纳德拉反思 AI 滥用：并非所有问题都需要最强模型

微软 CEO 萨提亚·纳德拉在《纽约时报》播客《Hard Fork》中承认，公司内部算力堆砌现象普遍，员工习惯用最强模型解决所有问题。他呼吁按实际需求匹配模型，避免浪费，并举例 Copilot 自动模式能按任务自动选择最合适模型。纳德拉还透露自己用 AI 快速开发了一款工具：它能跟踪工作沟通、持续维护软件项目，在员工讨论调整需求时自动生成方案并更新代码，无需他参会。他强调非前沿问题无需用顶尖前沿模型，微软正在收紧 AI 成本管控。去年10月他更换了商业业务负责人，11月聘请新 AI 顾问，推动22万员工向 AI 时代转型。

Microsoft OpenAI 大佬观点部署/工程