全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「部署/工程」清除

6月18日周四

22:57SenseTime43商汤发布SenseNova-U1 LoRA：12.5倍推理加速

21:24OpenCode28MiniMax M3 获赞，OpenCode Go 延长 3 倍限制

21:19Google DeepMind：Blog（RSS）65精选保障AI智能体的未来安全

19:19X.PIN47阿里云在法国启动首个数据中心，计划下半年上线智能体AI服务

18:21Artificial Intelligence News（RSS）53汇丰银行与Google Cloud扩大AI银行合作

17:17MarkTechPost（RSS）41KV缓存压缩竞赛：TurboQuant vs OSCAR vs EpiCache

17:14IT之家（RSS）55开发者吐槽运营商 Token 套餐：一句"你好"烧掉约 5 万 Token，月成本是主流 AI 套餐五六倍

17:14IT之家（RSS）39应用材料推出智能眼镜全集成视觉系统SENZ

16:14IT之家（RSS）40小米汽车详解超级电机 V8s EVO：AI 拓扑优化实现 28000rpm 高转速

14:45Hacker News 热门（buzzing.cc 中文翻译）68本地版 Qwen 并不是比 Opus 差，它只是另一种工具

13:56LMSYS：Blog（Chatbot Arena 团队）67精选MOSS-TTS-Local-Transformer-v1.5 在 SGLang-Omni 上：原生流式 48 kHz 语音服务

11:44郭明錤｜Ming-Chi Kuo61台积电玻璃核心载板投影片解读

11:44郭明錤｜Ming-Chi Kuo64台积电玻璃核心基板开发细节

11:19Ant Ling50蚂蚁百灵与 SGLang 团队合作优化 Ling-2.6-1T 在 TPU v7x 上的部署

11:14IT之家（RSS）47华为昇腾 0 Day 支持智谱 GLM-5.2 模型，提供全面推理优化

11:14Hacker News 热门（buzzing.cc 中文翻译）70精选cuTile Rust：安全无数据竞争的 GPU 内核系统

10:51Rohan Paul52美国司法部保护 xAI 密西西比州 AI 数据中心，视为国家安全基础设施

10:14IT之家（RSS）34联想百应 AI 主机 300 上市：AMD 锐龙 AI Max+ 395，26999 元

09:20OpenRouter：Announcements（RSS）64使用OpenRouter连接Claude Code

09:14IT之家（RSS）66WWDC26 苹果 AI 特别讲座：4台 Mac Studio 本地运行 Kimi K2.6 模型

08:49meng shao82Vercel 开源 Agent 框架 Eve

06:55Claude Code：GitHub Releases（RSS）57精选Claude Code v2.1.181 发布

06:14Cloudflare Blog64精选Cloudflare 将更多智能体框架引入平台，以 Flue 为首

05:21SemiAnalysis45Wide Expert Parallelism提升MoE吞吐与性价比

05:18elvis70Block 推出内部 AI 编排系统 Builderbot，协调多智能体实现高效交付

05:18xAI62一键使用预装 Grok Build 的虚拟机

04:44Claude：Blog（网页）65精选借助 Workload Identity Federation 安全访问 Claude Platform

04:42Hacker News 热门（buzzing.cc 中文翻译）49Browser Use Cloud 基于 Firecracker 重构：嵌套虚拟化下 1 秒启动浏览器

02:13AYi59AMD下场锁定CW激光器产能，CPO供应链瓶颈加剧

01:53LMSYS：Blog（Chatbot Arena 团队）69精选用SGLang-JAX在TPU上优化Ling-2.6-1T：一个Pallas核将MoE数据移动隐藏在计算中

01:36MarkTechPost（RSS）77精选Vercel 发布开源 AI 智能体框架 Eve：每个智能体就是一个文件目录

01:17Rohan Paul51TensorDyne 发布 AI 推理机架 Napier，对数运算实现 13 倍于 NVIDIA GB300 的吞吐

00:45elvis60Elvis Saravia 转述 Rahul 的 AI 编码智能体 10 项原则

00:32Hacker News 热门（buzzing.cc 中文翻译）62人工智能需要更多的工程纪律，而不是更少。

6月17日周三

23:58Chubby♨️45Tensordyne 发布 Napier gen，效率提升10倍

23:48OpenCode26GLM-5.2 需求激增 3 倍，正处理问题

23:36OpenRouter63OpenRouter 推出成本模拟器工具

23:34Andrew Milich47Grok 4.3 登陆 Amazon Bedrock

23:28Anthropic：Newsroom（网页）50Anthropic 在首尔开设办公室并宣布多项韩国AI生态合作

22:45Baidu Inc.26百度Apollo Go覆盖迪拜Jumeirah全区域

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月18日

22:57

SenseTime@SenseTime_AI

43

商汤发布SenseNova-U1 LoRA：12.5倍推理加速

商汤推出 SenseNova-U1-8B-MoT-Infographic 模型的 8-step 蒸馏 LoRA（SenseNova-U1-8B-MoT-Infographic-LoRA-8step-V1.0），实现 12.5 倍推理加速，信息图（infographic）生成质量基本与基模型持平。模型权重已开源至 HuggingFace，GitHub 提供使用文档。

图像生成模型发布部署/工程

21:24

OpenCode@opencode

28

MiniMax M3 收获了大量喜爱我们在 OpenCode Go 上将 3 倍限制延长到月底。

产品更新部署/工程

21:19

Google DeepMind：Blog（RSS）

精选65

保障AI智能体的未来安全

Google DeepMind发布AI Control Roadmap，这是一套针对内部先进AI智能体的系统级安全框架。该框架在传统模型对齐之上增加防线，假设AI智能体可能不对齐，通过威胁建模、沙箱隔离、端点安全、提示注入防御以及基于已验证行为逐步授予权限的机制建立信任。据估算，到2030年仅美国市场AI智能体就能创造2.9万亿美元经济价值。

智能体 DeepMind 安全/对齐部署/工程

推荐理由：DeepMind 首次系统性地公开了内部 AI 代理安全控制路线图，把代理当潜在「内鬼」来防的思路很务实，分析了 100 万个任务轨迹的监控实践尤其值得做 Agent 安全的人细看。

19:19

X.PIN@thexpin

47

阿里云在法国启动首个数据中心，计划下半年上线智能体AI服务

阿里云本周在法国启用了首个数据中心，这是继德国和英国之后的第三个欧洲节点，计划今年下半年在该地区推出智能体AI服务。此举正值欧盟委员会6月3日发布《云计算和AI发展法案》，该法案明确指出“有限的数据中心容量”威胁欧洲数字独立。欧洲的数据主权推动旨在减少对美国云巨头AWS、Azure、Google Cloud的依赖。目前阿里云在欧洲的扩张尚未遇到重大政治阻力。

政策/监管行业动态部署/工程

18:21

Artificial Intelligence News（RSS）

53

汇丰银行与Google Cloud扩大AI银行合作

汇丰银行与Google Cloud签署多年合作协议，将在财富管理、金融犯罪风险管理和内部决策支持中部署AI工具，采用Gemini模型和Gemini Enterprise Agent平台。合作预计两年内支持超过200个AI用例，部分有望带来超1亿美元直接收益或效率提升。汇丰现有600多个AI用例，涵盖欺诈检测、交易监控、客户服务等。金融犯罪检测系统自2021年试点已发现2-4倍犯罪行为，每月筛查12亿笔交易，新协议下干预速度提升2倍。财富管理结合AI洞察；AI决策助手减少行政时间至分钟级；超2万名开发者使用编码助手，效率提升15%。汇丰于4月任命首位首席AI官。

DeepMind Google 行业动态部署/工程

17:17

MarkTechPost（RSS）

41

KV缓存压缩竞赛：TurboQuant vs OSCAR vs EpiCache

长上下文大语言模型的KV缓存随序列和批次线性增长，成为内存和延迟瓶颈。Google与NYU的TurboQuant采用数据无关随机旋转与最优标量量化，在3–4 bit位宽实现近乎无损，4×压缩下Needle-in-a-Haystack全精度召回。Together AI的OSCAR使用注意感知旋转校准，INT2（2.28有效比特）下精度不崩溃，集成SGLang，Qwen3-32B上仅差0.02分，GLM-4.7-FP8匹配BF16，解码速度提升约3倍，KV缓存内存减少约8倍。Apple的EpiCache则针对两者均未解决的多轮对话场景。两者在各自目标位宽上各有优劣，具有理论互补潜力。

Google 推理评测/基准部署/工程

17:14

IT之家（RSS）

55

开发者吐槽运营商 Token 套餐：一句"你好"烧掉约 5 万 Token，月成本是主流 AI 套餐五六倍

三大运营商推出 Token 套餐，但实测一句“你好”消耗约 5 万 Token（约 0.125 元），15 元套餐不到 1 小时用尽。开发者称月成本是主流 AI 订阅套餐的五六倍。多地营业厅工作人员对套餐茫然。中国移动江苏 LITE 套餐 5 元/月（250 万 Token），上海有 1 元/包（40 万 Token）。中国电信推出轻享版（9.9 元/1000 万）、畅享版（29.9 元/4000 万）、尊享版（49.9 元/8000 万）每月。三大运营商营收增速均低于 1%，Token 套餐被视为新增长点。

行业动态部署/工程

17:14

IT之家（RSS）

39

应用材料推出智能眼镜全集成视觉系统SENZ

应用材料于6月17日推出面向AI智能眼镜的全集成视觉系统SENZ，集成光波导、光引擎、传感器、视觉矫正、电子调光技术，旨在解决供应链破碎问题，降低设备制造复杂性，让市场参与者无需在性能与尺寸间取舍，专注用户体验优化。关键合作伙伴包括格罗方德（光波导量产）、高通（Snapdragon START白牌计划）、依视路陆逊梯卡（光学系统与商业化战略合作）。

产品更新端侧部署/工程

16:14

IT之家（RSS）

40

小米汽车详解超级电机 V8s EVO：AI 拓扑优化实现 28000rpm 高转速

小米超级电机 V8s EVO 最高转速 28000rpm，借助 AI 拓扑优化模拟超 100 万种硅钢片结构，无需碳纤维缠绕即扛住离心力，单电机输出 611PS。自研碳化硅功率模块支持 800A 有效电流，电控峰值功率密度 120kW/L，电机功率提升 5.9%。峰值效率 98.38%，0.15mm 超薄硅钢片使铁损降 18.7%，X-Pin 绕组降铜损 3.6%，为 YU7 GT 带来 6.4km CLTC 续航提升。双电机（V8s EVO + V6s Plus）合计 1003PS，极速 300km/h，0-100km/h 加速 2.92 秒。经济模式前电机脱开可额外增加 20km CLTC 续航。

教程/实践数据/训练部署/工程

14:45

Hacker News 热门（buzzing.cc 中文翻译）

68

本地版 Qwen 并不是比 Opus 差，它只是另一种工具

一位小型软件公司创始人基于自身业务和开源项目分享，本地 Qwen 27B/35-A3B 模型在特定场景下有实际价值，使用 RTX 6000 Pro 显卡运行，显卡成本已在头两三个月内收回。但本地模型量化后容易出现无限循环和模型幻觉，无法无人监督使用，作者认为不应过度吹捧替代云端 Opus，而是把它看作另一种工具。

开源生态推理现象/趋势部署/工程

13:56

LMSYS：Blog（Chatbot Arena 团队）

精选67

MOSS-TTS-Local-Transformer-v1.5 在 SGLang-Omni 上：原生流式 48 kHz 语音服务

MOSS-TTS-Local-Transformer-v1.5 是一款开源 TTS 模型，支持 48 kHz 立体声、零样本声音克隆、最长 10 分钟长文本合成、时长控制及 31 种语言。其核心采用 Qwen3-4B 骨干与约 2B 参数的 MOSS-Audio-Tokenizer-v2 音频编解码器，通过 12 个 RVQ 码本运行。SGLang-Omni 以三阶段流水线部署该模型。在 Seed-TTS-Eval 上词错误率 5.10%、语音相似度 69.23%，CV3-Eval 上 WER 7.48%、SIM 61.59%，MiniMax Multilingual 上 WER 6.37%、SIM 75.31%，X Voice 上 WER 20.48%、SIM 63.00%。

产品更新语音部署/工程

推荐理由：SGLang-Omni 把 MOSS-TTS 的端到端服务拆成三阶段并做了大量底层优化，对想落地实时语音合成的团队是现成的技术方案，技术细节扎实，可以直接照着搭。

11:44

郭明錤｜Ming-Chi Kuo@mingchikuo

61

台积电玻璃核心载板投影片解读

台积电在6月11日日本JPCA Show 2026展示玻璃核心载板投影片，宣布与Ibiden及群创合作，用于CoPoS的oS，结构为玻璃上下各黏合ABF的三层设计。单价较现有ABF载板高出数倍，除Nvidia外另有2家美系客户表达高度兴趣。技术方面，由250x250mm切割，ABF增层采用GL107混搭ABF-GCP，以24–28层测试，电源完整性改善可提升AI算力。TGV为核心know-how，由台积电与群创掌握。目标4Q28–1Q29量产。

现象/趋势部署/工程

11:44

郭明錤｜Ming-Chi Kuo@mingchikuo

64

台积电玻璃核心基板开发细节

台积电在JPCA Show 2026公开玻璃核心基板，与Ibiden、Innolux合作，采用玻璃芯夹两层ABF的三层结构，用于CoPoS的“oS”部分。基板单位成本数倍于现有ABF，Innolux处理的玻璃最贵。客户包括Nvidia和两家美国公司。验证显示其解决了力学与电学难题，显著改善电源完整性。目前切割自250×250mm基板，ABF层24-28层，对应2027–2028年AI芯片主流规格。CoW测试车辆已验证复合材料机械结构瓶颈已突破。

现象/趋势部署/工程

11:19

Ant Ling@AntLingAGI

50

蚂蚁百灵与 SGLang 团队合作，将 1T 参数的混合 MoE 模型 Ling-2.6-1T 通过 SGLang-JAX 部署至 TPU v7x。优化包括：升级 Fused MoE V2 内核（token 和累加器驻留 VMEM，双缓冲专家权重，隐藏路由与预取）；混合内存池（10 个全注意力层 per-token MLA KV + 70 个 GLA 层 per-request 循环状态）；GLA 线性注意力逐块并行预填充；单控制器 DP 保持分组 RMSNorm 芯片本地化。效果：MoE 预填充延迟降低 53%；在 16 芯片 TPU v7x 切片上，解码吞吐量比同类 H200 集群最高提升 1.77 倍。

LMSYS Org: 🚀 Our new blog: Optimizing Ling-2.6-1T on TPU with SGLang-JAX: Hiding MoE Data Movement Behind Compute with One Pallas ...

推理论文/研究部署/工程

11:14

IT之家（RSS）

47

华为昇腾 0 Day 支持智谱 GLM-5.2 模型，提供全面推理优化

昇腾 A3 系列已全面支持 GLM-5.2 单双机及大 EP 推理部署，围绕 MOE 大融合算子、通信计算融合、注意力前处理与多 Token 预测、高并发调度与预填充延迟、智能缓存与索引优化、PD 分离与 Prefix Cache 等关键技术进行高效推理优化。GLM-5.2 在 Code Arena 全球盲测中获可用模型第一；专为长程任务设计，支持 1M 上下文，表现介于 Claude Opus 4.7 与 4.8 之间，为排名最高的开源模型。该模型已在 Day 0 完成与华为昇腾、平头哥、摩尔线程等国产算力平台的推理适配，单位 token FLOPs 降至 2.9 倍。

推理行业动态部署/工程

11:14

Hacker News 热门（buzzing.cc 中文翻译）

精选70

cuTile Rust：安全无数据竞争的 GPU 内核系统

cuTile Rust 是一个基于 tile 的 GPU 编程系统，允许用 Rust 编写内存安全、无数据竞争的内核。它通过 #[cutile::module] 宏将内核 AST 嵌入主机二进制，在运行时经 CUDA Tile IR JIT 编译为 GPU cubin。可变张量在启动前分割，不可变张量共享，启动器在 GPU 工作期间保持所有权。在 NVIDIA B200 上，逐元素操作达 7 TB/s（约 91% 峰值带宽），GEMM 达 2 PFlop/s（约 92% 密集 f16 峰值）。基于 cuTile Rust 构建的 Grout 推理引擎在 RTX 5090 上解码 Qwen3-4B 达 171 tokens/s，在 B200 上解码 Qwen3-32B 达 82 tokens/s。项目处于早期研究阶段。

arXiv Hugging Face 开源/仓库开源生态

推荐理由：用Rust的所有权模型保证GPU内核无数据竞争，性能还能达到峰值的92%，这个方向可能是安全GPU编程的未来，系统编程和推理引擎开发者值得一试。

10:51

Rohan Paul@rohanpaul_ai

52

美国司法部保护 xAI 密西西比州 AI 数据中心，视为国家安全基础设施

美国司法部近日保护 xAI 位于密西西比州的 AI 数据中心，认为高速 AI 基础设施属于美国国家安全基础。司法部将 Grok 及其系统视为关键技术而非普通消费软件，因先进模型可支持国防行动。此举反映政策转变：美国不希望战略 AI 工作负载依赖脆弱供应链、缓慢审批流程或外国控制算力。AI 算力正成为国防资源，可用电力、数据中心规模、模型能力与运营准备度紧密关联。

xAI 政策/监管部署/工程

10:14

IT之家（RSS）

34

联想百应 AI 主机 300 上市：AMD 锐龙 AI Max+ 395，26999 元

联想百应 AI 主机 300 今日上架，搭载 AMD 锐龙 AI Max+ 395 处理器，配备 128GB 内存、2TB SSD，支持 2.5GbE 有线网卡与 Wi-Fi 7 无线网卡，到手价 26999 元。该机型内置百应 Clow 智能体协同平台，Skill 广场提供超 2000 个技能，支持自主进化、多级记忆，适用于 AI 短剧制作、专利/销售/经营管理、金融分析、广告营销等场景。

产品更新端侧部署/工程

09:20

OpenRouter：Announcements（RSS）

64

使用OpenRouter连接Claude Code

设置三个环境变量即可将Claude Code连至OpenRouter，无需本地代理或Docker。OpenRouter提供供应商故障转移、预算控制与用量监控，支持Anthropic Skin原生协议，保留Thinking、工具调用、流式输出。可为Opus（架构推理）、Sonnet（日常编码）、Haiku（快速转换）分别指定模型。Fast Mode最高2.5倍速度，仅限Claude Opus 4.6/4.7/4.8，需Claude Code v2.1.96+。团队场景：一个OpenRouter密钥统一计费、设置每密钥限额，活动仪表板查看会话成本。

教程/实践编码部署/工程

关联讨论 1 条OpenRouter：Announcements（RSS）

09:14

IT之家（RSS）

66

WWDC26 苹果 AI 特别讲座：4台 Mac Studio 本地运行 Kimi K2.6 模型

苹果在 WWDC26 特别讲座中演示通过 4 台 Mac Studio 本地运行 1 万亿参数的 Kimi K2.6 模型，使用 LM Studio 和低延迟 RDMA over Thunderbolt 技术。该模型由月之暗面于 2026 年 4 月 20 日发布，升级了代码编写、长程任务执行和 Agent 集群能力。讲座还展示了工程师用单条提示词生成的 WWDC badge tracker 应用，具备 3D 动画、全息视觉效果和 Visual Intelligence 功能。

端侧行业动态部署/工程

08:49

meng shao@shao__meng

82

Vercel 开源 Agent 框架 Eve

Vercel 发布开源 Agent 框架 Eve，核心设计“Agent 即目录”：通过 agent.ts、instructions.md、tools、skills、subagents、channels、schedules、connections 等文件声明行为。内置持久会话（可 checkpoint）、沙箱隔离（本地 Docker/Vercel Sandbox）、Human-in-the-loop 审批（不占算力）、MCP/OpenAPI 连接（鉴权由框架代理）、多 Channel 支持（HTTP/Slack/Discord）、OpenTelemetry 追踪与 eve eval 门禁。本地 eve dev TUI，部署为普通 Vercel 项目，不中断进行中会话。内部已验证：d0 月 3 万+ 查询，Lead Agent 年成本约 $5k 回报 32 倍，Vertex 约 92% 工单自动解决。

Vercel: Introducing eve, an agent framework. agent/ agent.ts instructions.md tools/ skills/ sandbox/ schedules/ Like Next.js, fo...

智能体 MCP/工具开源/仓库部署/工程

06:55

Claude Code：GitHub Releases（RSS）

精选57

Claude Code v2.1.181 发布

Claude Code v2.1.181 发布，新增 /config key=value 语法允许在提示中直接设置任意配置项，新增 sandbox.allowAppleEvents 选项使沙盒命令支持 Apple Events，新增 CLAUDE_CLIENT_PRESENCE_FILE 环境变量用于抑制移动端推送通知。内置 Bun 运行时升级至 1.4，改进了长段落流式输出（逐行显示）和 API 连接中断后自动重试。子 agent 面板优化：空闲 agent 30 秒自动隐藏、列表最多 5 行。修复了提示缓存读取、Write/Edit 在网络驱动器产生 0 字节文件、启动性能回归（约 120ms）、启动阻塞（最长 15 秒）、macOS TUI 冻结、子 agent 时长显示错误、API 重试指示器残留、AWS 凭证刷新等问题。

智能体 Anthropic 产品更新部署/工程

推荐理由：一次工程师式的磨刀更新，修复了网络驱动器写入、macOS TUI 冻结等一批痛感明显的 bug，新增的 /config 快捷语法也顺手，但对非 Claude Code 用户来说就是一串技术细节。

06:14

Cloudflare Blog

精选64

Cloudflare 将更多智能体框架引入平台，以 Flue 为首

Cloudflare Agents SDK 现已成为任何智能体框架均可构建的运行时。Cloudflare 开放了 Agents SDK 原语，Flue 成为首个针对该 SDK 的框架，同时仪表盘中已推出智能体功能。

智能体产品更新部署/工程

推荐理由：Cloudflare 将 Agents SDK 开放为中性运行时，Flue 首个接入，本质还是为 Workers 拉流量，非 Cloudflare 用户不必费心。

05:21

SemiAnalysis@SemiAnalysis_

45

Wide Expert Parallelism增加了每个MoE部署可用的总内存带宽。这意味着模型将MoE专家权重分布到多个GPU上，因此每个GPU只需加载一小部分权重。这转化为每个GPU更高的吞吐量，提升了每美元性能和每瓦性能。

现象/趋势部署/工程

05:18

elvis@omarsar0

70

金融科技公司 Block 自建内部 AI 系统 Builderbot，可跨整个代码库协调多个智能体。工程师在 Slack 中标记后，系统自动研究、规划并交付。当前日处理 20 万次操作，每周合并 1500 个 pull request，贡献了 Block 全部生产代码变更的 15%，将原需数月的流程缩短至数天。DAIR.AI 创始人 Elvis Saravia 强调，只有通过编排层协调多个智能体才能实现此类输出，建议团队自建编排层。

Block: We built an internal AI system called Builderbot. It coordinates agents across our entire codebase. Engineers tag it in ...

智能体大佬观点编码部署/工程

05:18

xAI@xai

62

一键使用预装 Grok Build 的虚拟机

DigitalOcean: .@grok Build is on DigitalOcean Marketplace. 🆕☁️🤖 SSH in. Run grok. Build. @xAI's coding agent, pre-configured on Digi...

xAI 产品更新编码部署/工程

04:44

Claude：Blog（网页）

精选65

借助 Workload Identity Federation 安全访问 Claude Platform

Workload Identity Federation (WIF) 已在 Claude Platform 上全面可用。WIF 兼容任何 OIDC 身份提供者，覆盖所有 Claude API 端点（包括第一方 SDK 和 Claude Code）。WIF 用短生命期凭证替代静态 API 密钥，并引入服务账户，每个工作负载拥有独立身份、角色和审计日志。Claude Console 提供引导设置流程，支持 Admin API 进行组织管理。API 密钥可并行使用以便逐步迁移。

Anthropic 产品更新部署/工程

推荐理由：这个功能真正解决了企业在生产环境中用 Claude 的最大痛点，现在团队可以完全抛掉静态密钥，用现成的身份体系接入，安全审计也变得顺手。

04:42

Hacker News 热门（buzzing.cc 中文翻译）

49

Browser Use Cloud 基于 Firecracker 重构：嵌套虚拟化下 1 秒启动浏览器

Browser Use Cloud 重建基础设施，让每个浏览器会话在独立的 Firecracker VM 中运行，新会话启动时间不到 1 秒，成本从每浏览器小时 0.06 美元降至 0.02 美元。他们放弃了 Unikraft unikernel 方案，因其自动扩缩容能力不足，曾导致压测使生产环境宕机 45 分钟。新方案选择在普通 EC2 上运行嵌套虚拟化，以换取更快扩缩速度和更低成本，并构建了控制平面实时监控自动扩缩容。启动过程包含恢复 VM 快照、启动 Chromium 并通过 CDP 返回连接 URL，首个瓶颈是嵌套虚拟化下的内存页面错误。

教程/实践部署/工程

02:13

AYi@AYi_AInotes

59

AMD下场锁定CW激光器产能，CPO供应链瓶颈加剧

Trendforce报告显示AMD正积极采购锁定CW激光器供应。此前NVIDIA已与Lumentum/Coherent签订多年协议锁死核心产能，西方独立产能仅剩Sivers、AAOI等少数厂商，Lumentum自身受限可能外包至日本产线，后者已满负荷。CPO+硅光子成AI标配，InP基板持续紧缺。AMD是第一张多米诺骨牌，Amazon、Microsoft等云厂商大概率跟进。但CPO大规模放量或要到2026-2028年，期间存在预期已涨、小盘波动大、LPO技术替代、扩产良率瓶颈及宏观不确定性等风险。

Serenity: Trendforce reports that $AMD is actively trying to secure CW laser supply with multiple major procurement orders... Is p...

现象/趋势部署/工程

01:53

LMSYS：Blog（Chatbot Arena 团队）

精选69

用SGLang-JAX在TPU上优化Ling-2.6-1T：一个Pallas核将MoE数据移动隐藏在计算中

SGLang-JAX现已支持inclusionAI的Ling-2.6-1T（1T稀疏MoE，63B激活参数，256路由专家，top-8路由加共享专家）在TPU v7x上高效推理。团队开发了Fused MoE V2——一个融合scatter、专家FFN和gather的Pallas核，通过将MoE数据移动隐藏在计算中，使MoE预填充延迟从5.16ms降至2.42ms（降幅53%），解码核延迟从0.249ms降至0.211ms（降幅约15%）。仅替换MoE核即提升预填充吞吐量24.8%，解码吞吐量18.5%–35.3%。在SGLang解码基准测试中，16块TPU v7x芯片输出吞吐量达16块H200 GPU的1.29倍（mc=128）至1.77倍（mc=512）。完整上线还包含混合KV/循环内存池、GLA线性注意力和单控制器数据并行支持。

推理论文/研究部署/工程

推荐理由：这是针对TPU上MoE推理的硬核优化复盘，用成本模型定位瓶颈，通过单内核融合把延迟砍半，对做大规模推理工程的团队是高质量参考。

01:36

MarkTechPost（RSS）

精选77

Vercel 发布开源 AI 智能体框架 Eve：每个智能体就是一个文件目录

Vercel 发布开源 AI 智能体框架 Eve（npm 包，Apache-2.0 许可）。Eve 采用文件系统优先设计：每个智能体对应一个磁盘目录，目录结构直接映射模型、指令、工具、技能、连接、子智能体等能力，无需额外注册代码。内置六大生产级能力：持久执行（每步检查点，崩溃后可恢复）、沙箱计算、人机审批、安全连接（支持 MCP 和 OpenAPI）、多通道（Slack、Discord、Teams 等）以及追踪与评估（OpenTelemetry）。Vercel 内部运行了上百个智能体，包括数据分析工具 d0（月处理超3万查询）、自动销售代理 Lead Agent（年费约5000美元、回报32倍）和支持智能体 Vertex（自主解决92%工单）。

智能体产品更新部署/工程

推荐理由：Vercel 把自己跑了 100 多个 agent 的框架开源了，用目录即契约的方式把耐久执行、沙箱、审批等全打包，对想在生产环境跑 agent 的团队是今年最务实的发布之一。

01:17

Rohan Paul@rohanpaul_ai

51

TensorDyne 发布 AI 推理机架 Napier，对数运算实现 13 倍于 NVIDIA GB300 的吞吐

TensorDyne 发布 AI 推理机架 Napier，声称在 DeepSeek-R1 上基于内部模拟达到 363,000 tokens/s（用户速度 210 tokens/s），是 NVIDIA NVL72 GB300（27,400 tokens/s）的 13 倍。Napier 在对数空间中运算，将乘法转为加法，从而降低芯片面积与功耗，更多晶体管用于 SRAM，每 token 能耗更低、推理密度更高。此举改变 AI 推理经济学，不再单纯比拼 FLOPS，而是转向功率、内存局部性、互连延迟与 token 服务成本。

产品更新推理部署/工程

00:45

elvis@omarsar0

60

Rahul 指出，fable+ 类模型本质是英语→代码解释器，Fable 5 最差。diff 大小按风险管控：高风险区（身份/数据/网络/资金）用小 diff，可经验验证代码用大 diff。软件交付速度取决于审查/合并能力而非 PR 生成，瓶颈在 lint、测试、CI、影子验证。智能体需深度理解全栈，风险优先级为安全>正确性>性能。复杂性成本变化，可能值得多维护 50% 代码换 5% 性能提升。低风险时将代码块作黑盒仅做经验验证。逻辑逐行审查成本高，只用于关键处。更快迭代需借助权限 opt-in、影子模式等护栏。

rahul: 1. as a mental model it is more correct to think of fable+ class models as english -> code interpreters - converts your ...

智能体大佬观点编码部署/工程

00:32

Hacker News 热门（buzzing.cc 中文翻译）

62

人工智能需要更多的工程纪律，而不是更少。

Opus 4.5 发布后，AI 能生成与中位数软件工程师同等质量的代码，且更快更便宜。2025 年，智能体框架、工具调用和 MCP 协议等迭代让代码生产从昂贵耗时变为免费即时，代码变得可丢弃和可重新生成。软件团队真正产品是共享理解，而非代码本身。作者认为，面对 AI 带来的变革，需要更多而非更少的工程纪律，以维持对系统的可控和共识。

大佬观点编码部署/工程

6月17日

23:58

Chubby♨️@kimmonismus

45

1/ .@TensordyneInc 刚刚发布了他们的 Napier gen. 声称效率比分解方法（Nvidia/AWS + Groq/Cerebras）好10倍，同时在用户速度上超越它们。新芯片已流片。在数学和芯片间扩展互连方面有根本性创新。一个帖子 🧵：

产品更新部署/工程

23:48

OpenCode@opencode

26

GLM-5.2 的需求量正在增长 3 倍如果你遇到一些问题，我们正在积极处理中

OpenCode: GLM-5.2 now available in Go text · 1M context · same pricing as 5.1

行业动态部署/工程

23:36

OpenRouter@OpenRouter

63

新实验室：成本模拟器一个简单的工具，用于查看你的真实流量并估算使用不同模型时的成本节省，使用中位数端点定价。

产品更新部署/工程

23:34

Andrew Milich@milichab

47

AWS 开发者现可使用 Grok 4.3 构建应用，该模型在幻觉率和工具调用方面行业领先，由 Bedrock 的安全推理引擎驱动。

xAI: Grok is now available on Amazon Bedrock. AWS developers can now build with Grok 4.3, the industry leader in hallucinatio...

xAI 行业动态部署/工程

23:28

Anthropic：Newsroom（网页）

50

Anthropic 在首尔开设办公室并宣布多项韩国AI生态合作

Anthropic 正式启用首尔办公室，并宣布与韩国AI生态的多项合作。NAVER 在全公司部署 Claude Code，数千工程师用于提升编码效率；Nexon 工程团队用 Claude Code 编写游戏代码。LG CNS 将 Claude 推广至数千员工并计划覆盖整个 LG 集团；Hanwha Solutions 通过 AWS Bedrock 部署 Claude 满足数据驻留与安全要求；Samsung SDS 向三星电子员工部署 Claude（包括 Claude Cowork 和 Claude Code）。初创公司 Channel Corp 用 Claude 驱动客户AI平台 Channel Talk。Anthropic 与韩国国家AI研究实验室合作，向至多60名研究员提供 Claude 用于AI安全等研究。非营利组织 Good Neighbors Korea 部署 Claude 减轻行政工作。Claude for Startups 已在韩国上线，并计划与 Replit 等合办黑客马拉松。

Anthropic 行业动态部署/工程

22:45

Baidu Inc.@Baidu_Inc

26

海滩。早午餐。海滨步道。循环。 Apollo Go现已覆盖整个Jumeirah区域，连接海滩、酒店、商场、办公室以及迪拜一些最热门的目的地。如果Jumeirah已经在你的迪拜行程中，何不让旅途本身也成为体验的一部分？预约一趟Apollo Go，感受未来出行的模样。

行业动态部署/工程

1…9 101112 13…50