AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「部署/工程」清除
6月18日周四
22:57SenseTime43商汤发布SenseNova-U1 LoRA:12.5倍推理加速
21:24OpenCode28MiniMax M3 获赞,OpenCode Go 延长 3 倍限制
21:19Google DeepMind:Blog(RSS)65精选保障AI智能体的未来安全
19:19X.PIN47阿里云在法国启动首个数据中心,计划下半年上线智能体AI服务
18:21Artificial Intelligence News(RSS)53汇丰银行与Google Cloud扩大AI银行合作
17:17MarkTechPost(RSS)41KV缓存压缩竞赛:TurboQuant vs OSCAR vs EpiCache
17:14IT之家(RSS)55开发者吐槽运营商 Token 套餐:一句"你好"烧掉约 5 万 Token,月成本是主流 AI 套餐五六倍
17:14IT之家(RSS)39应用材料推出智能眼镜全集成视觉系统SENZ
16:14IT之家(RSS)40小米汽车详解超级电机 V8s EVO:AI 拓扑优化实现 28000rpm 高转速
14:45Hacker News 热门(buzzing.cc 中文翻译)68本地版 Qwen 并不是比 Opus 差,它只是另一种工具
13:56LMSYS:Blog(Chatbot Arena 团队)67精选MOSS-TTS-Local-Transformer-v1.5 在 SGLang-Omni 上:原生流式 48 kHz 语音服务
11:44郭明錤|Ming-Chi Kuo61台积电玻璃核心载板投影片解读
11:44郭明錤|Ming-Chi Kuo64台积电玻璃核心基板开发细节
11:19Ant Ling50蚂蚁百灵与 SGLang 团队合作优化 Ling-2.6-1T 在 TPU v7x 上的部署
11:14IT之家(RSS)47华为昇腾 0 Day 支持智谱 GLM-5.2 模型,提供全面推理优化
11:14Hacker News 热门(buzzing.cc 中文翻译)70精选cuTile Rust:安全无数据竞争的 GPU 内核系统
10:51Rohan Paul52美国司法部保护 xAI 密西西比州 AI 数据中心,视为国家安全基础设施
10:14IT之家(RSS)34联想百应 AI 主机 300 上市:AMD 锐龙 AI Max+ 395,26999 元
09:20OpenRouter:Announcements(RSS)64使用OpenRouter连接Claude Code
09:14IT之家(RSS)66WWDC26 苹果 AI 特别讲座:4台 Mac Studio 本地运行 Kimi K2.6 模型
08:49meng shao82Vercel 开源 Agent 框架 Eve
06:55Claude Code:GitHub Releases(RSS)57精选Claude Code v2.1.181 发布
06:14Cloudflare Blog64精选Cloudflare 将更多智能体框架引入平台,以 Flue 为首
05:21SemiAnalysis45Wide Expert Parallelism提升MoE吞吐与性价比
05:18elvis70Block 推出内部 AI 编排系统 Builderbot,协调多智能体实现高效交付
05:18xAI62一键使用预装 Grok Build 的虚拟机
04:44Claude:Blog(网页)65精选借助 Workload Identity Federation 安全访问 Claude Platform
04:42Hacker News 热门(buzzing.cc 中文翻译)49Browser Use Cloud 基于 Firecracker 重构:嵌套虚拟化下 1 秒启动浏览器
02:13AYi59AMD下场锁定CW激光器产能,CPO供应链瓶颈加剧
01:53LMSYS:Blog(Chatbot Arena 团队)69精选用SGLang-JAX在TPU上优化Ling-2.6-1T:一个Pallas核将MoE数据移动隐藏在计算中
01:36MarkTechPost(RSS)77精选Vercel 发布开源 AI 智能体框架 Eve:每个智能体就是一个文件目录
01:17Rohan Paul51TensorDyne 发布 AI 推理机架 Napier,对数运算实现 13 倍于 NVIDIA GB300 的吞吐
00:45elvis60Elvis Saravia 转述 Rahul 的 AI 编码智能体 10 项原则
00:32Hacker News 热门(buzzing.cc 中文翻译)62人工智能需要更多的工程纪律,而不是更少。
6月17日周三
23:58Chubby♨️45Tensordyne 发布 Napier gen,效率提升10倍
23:48OpenCode26GLM-5.2 需求激增 3 倍,正处理问题
23:36OpenRouter63OpenRouter 推出成本模拟器工具
23:34Andrew Milich47Grok 4.3 登陆 Amazon Bedrock
23:28Anthropic:Newsroom(网页)50Anthropic 在首尔开设办公室并宣布多项韩国AI生态合作
22:45Baidu Inc.26百度Apollo Go覆盖迪拜Jumeirah全区域
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月18日
22:57
SenseTime@SenseTime_AI
43
商汤发布SenseNova-U1 LoRA:12.5倍推理加速

商汤推出 SenseNova-U1-8B-MoT-Infographic 模型的 8-step 蒸馏 LoRA(SenseNova-U1-8B-MoT-Infographic-LoRA-8step-V1.0),实现 12.5 倍推理加速,信息图(infographic)生成质量基本与基模型持平。模型权重已开源至 HuggingFace,GitHub 提供使用文档。

图像生成模型发布部署/工程
21:24
OpenCode@opencode
28
MiniMax M3 收获了大量喜爱 我们在 OpenCode Go 上将 3 倍限制延长到月底。
产品更新部署/工程
21:19
Google DeepMind:Blog(RSS)
精选65
保障AI智能体的未来安全

Google DeepMind发布AI Control Roadmap,这是一套针对内部先进AI智能体的系统级安全框架。该框架在传统模型对齐之上增加防线,假设AI智能体可能不对齐,通过威胁建模、沙箱隔离、端点安全、提示注入防御以及基于已验证行为逐步授予权限的机制建立信任。据估算,到2030年仅美国市场AI智能体就能创造2.9万亿美元经济价值。

智能体DeepMind安全/对齐部署/工程

推荐理由:DeepMind 首次系统性地公开了内部 AI 代理安全控制路线图,把代理当潜在「内鬼」来防的思路很务实,分析了 100 万个任务轨迹的监控实践尤其值得做 Agent 安全的人细看。
19:19
X.PIN@thexpin
47
阿里云在法国启动首个数据中心,计划下半年上线智能体AI服务

阿里云本周在法国启用了首个数据中心,这是继德国和英国之后的第三个欧洲节点,计划今年下半年在该地区推出智能体AI服务。此举正值欧盟委员会6月3日发布《云计算和AI发展法案》,该法案明确指出“有限的数据中心容量”威胁欧洲数字独立。欧洲的数据主权推动旨在减少对美国云巨头AWS、Azure、Google Cloud的依赖。目前阿里云在欧洲的扩张尚未遇到重大政治阻力。

政策/监管行业动态部署/工程
18:21
Artificial Intelligence News(RSS)
53
汇丰银行与Google Cloud扩大AI银行合作

汇丰银行与Google Cloud签署多年合作协议,将在财富管理、金融犯罪风险管理和内部决策支持中部署AI工具,采用Gemini模型和Gemini Enterprise Agent平台。合作预计两年内支持超过200个AI用例,部分有望带来超1亿美元直接收益或效率提升。汇丰现有600多个AI用例,涵盖欺诈检测、交易监控、客户服务等。金融犯罪检测系统自2021年试点已发现2-4倍犯罪行为,每月筛查12亿笔交易,新协议下干预速度提升2倍。财富管理结合AI洞察;AI决策助手减少行政时间至分钟级;超2万名开发者使用编码助手,效率提升15%。汇丰于4月任命首位首席AI官。

DeepMindGoogle行业动态部署/工程
17:17
MarkTechPost(RSS)
41
KV缓存压缩竞赛:TurboQuant vs OSCAR vs EpiCache

长上下文大语言模型的KV缓存随序列和批次线性增长,成为内存和延迟瓶颈。Google与NYU的TurboQuant采用数据无关随机旋转与最优标量量化,在3–4 bit位宽实现近乎无损,4×压缩下Needle-in-a-Haystack全精度召回。Together AI的OSCAR使用注意感知旋转校准,INT2(2.28有效比特)下精度不崩溃,集成SGLang,Qwen3-32B上仅差0.02分,GLM-4.7-FP8匹配BF16,解码速度提升约3倍,KV缓存内存减少约8倍。Apple的EpiCache则针对两者均未解决的多轮对话场景。两者在各自目标位宽上各有优劣,具有理论互补潜力。

Google推理评测/基准部署/工程
17:14
IT之家(RSS)
55
开发者吐槽运营商 Token 套餐:一句"你好"烧掉约 5 万 Token,月成本是主流 AI 套餐五六倍

三大运营商推出 Token 套餐,但实测一句“你好”消耗约 5 万 Token(约 0.125 元),15 元套餐不到 1 小时用尽。开发者称月成本是主流 AI 订阅套餐的五六倍。多地营业厅工作人员对套餐茫然。中国移动江苏 LITE 套餐 5 元/月(250 万 Token),上海有 1 元/包(40 万 Token)。中国电信推出轻享版(9.9 元/1000 万)、畅享版(29.9 元/4000 万)、尊享版(49.9 元/8000 万)每月。三大运营商营收增速均低于 1%,Token 套餐被视为新增长点。

行业动态部署/工程
17:14
IT之家(RSS)
39
应用材料推出智能眼镜全集成视觉系统SENZ

应用材料于6月17日推出面向AI智能眼镜的全集成视觉系统SENZ,集成光波导、光引擎、传感器、视觉矫正、电子调光技术,旨在解决供应链破碎问题,降低设备制造复杂性,让市场参与者无需在性能与尺寸间取舍,专注用户体验优化。关键合作伙伴包括格罗方德(光波导量产)、高通(Snapdragon START白牌计划)、依视路陆逊梯卡(光学系统与商业化战略合作)。

产品更新端侧部署/工程
16:14
IT之家(RSS)
40
小米汽车详解超级电机 V8s EVO:AI 拓扑优化实现 28000rpm 高转速

小米超级电机 V8s EVO 最高转速 28000rpm,借助 AI 拓扑优化模拟超 100 万种硅钢片结构,无需碳纤维缠绕即扛住离心力,单电机输出 611PS。自研碳化硅功率模块支持 800A 有效电流,电控峰值功率密度 120kW/L,电机功率提升 5.9%。峰值效率 98.38%,0.15mm 超薄硅钢片使铁损降 18.7%,X-Pin 绕组降铜损 3.6%,为 YU7 GT 带来 6.4km CLTC 续航提升。双电机(V8s EVO + V6s Plus)合计 1003PS,极速 300km/h,0-100km/h 加速 2.92 秒。经济模式前电机脱开可额外增加 20km CLTC 续航。

教程/实践数据/训练部署/工程
14:45
Hacker News 热门(buzzing.cc 中文翻译)
68
本地版 Qwen 并不是比 Opus 差,它只是另一种工具

一位小型软件公司创始人基于自身业务和开源项目分享,本地 Qwen 27B/35-A3B 模型在特定场景下有实际价值,使用 RTX 6000 Pro 显卡运行,显卡成本已在头两三个月内收回。但本地模型量化后容易出现无限循环和模型幻觉,无法无人监督使用,作者认为不应过度吹捧替代云端 Opus,而是把它看作另一种工具。

开源生态推理现象/趋势部署/工程
13:56
LMSYS:Blog(Chatbot Arena 团队)
精选67
MOSS-TTS-Local-Transformer-v1.5 在 SGLang-Omni 上:原生流式 48 kHz 语音服务

MOSS-TTS-Local-Transformer-v1.5 是一款开源 TTS 模型,支持 48 kHz 立体声、零样本声音克隆、最长 10 分钟长文本合成、时长控制及 31 种语言。其核心采用 Qwen3-4B 骨干与约 2B 参数的 MOSS-Audio-Tokenizer-v2 音频编解码器,通过 12 个 RVQ 码本运行。SGLang-Omni 以三阶段流水线部署该模型。在 Seed-TTS-Eval 上词错误率 5.10%、语音相似度 69.23%,CV3-Eval 上 WER 7.48%、SIM 61.59%,MiniMax Multilingual 上 WER 6.37%、SIM 75.31%,X Voice 上 WER 20.48%、SIM 63.00%。

产品更新语音部署/工程

推荐理由:SGLang-Omni 把 MOSS-TTS 的端到端服务拆成三阶段并做了大量底层优化,对想落地实时语音合成的团队是现成的技术方案,技术细节扎实,可以直接照着搭。
11:44
郭明錤|Ming-Chi Kuo@mingchikuo
61
台积电玻璃核心载板投影片解读

台积电在6月11日日本JPCA Show 2026展示玻璃核心载板投影片,宣布与Ibiden及群创合作,用于CoPoS的oS,结构为玻璃上下各黏合ABF的三层设计。单价较现有ABF载板高出数倍,除Nvidia外另有2家美系客户表达高度兴趣。技术方面,由250x250mm切割,ABF增层采用GL107混搭ABF-GCP,以24–28层测试,电源完整性改善可提升AI算力。TGV为核心know-how,由台积电与群创掌握。目标4Q28–1Q29量产。

现象/趋势部署/工程
11:44
郭明錤|Ming-Chi Kuo@mingchikuo
64
台积电玻璃核心基板开发细节

台积电在JPCA Show 2026公开玻璃核心基板,与Ibiden、Innolux合作,采用玻璃芯夹两层ABF的三层结构,用于CoPoS的“oS”部分。基板单位成本数倍于现有ABF,Innolux处理的玻璃最贵。客户包括Nvidia和两家美国公司。验证显示其解决了力学与电学难题,显著改善电源完整性。目前切割自250×250mm基板,ABF层24-28层,对应2027–2028年AI芯片主流规格。CoW测试车辆已验证复合材料机械结构瓶颈已突破。

现象/趋势部署/工程
11:19
Ant Ling@AntLingAGI
50
蚂蚁百灵与 SGLang 团队合作,将 1T 参数的混合 MoE 模型 Ling-2.6-1T 通过 SGLang-JAX 部署至 TPU v7x。优化包括:升级 Fused MoE V2 内核(token 和累加器驻留 VMEM,双缓冲专家权重,隐藏路由与预取);混合内存池(10 个全注意力层 per-token MLA KV + 70 个 GLA 层 per-request 循环状态);GLA 线性注意力逐块并行预填充;单控制器 DP 保持分组 RMSNorm 芯片本地化。效果:MoE 预填充延迟降低 53%;在 16 芯片 TPU v7x 切片上,解码吞吐量比同类 H200 集群最高提升 1.77 倍。

LMSYS Org: 🚀 Our new blog: Optimizing Ling-2.6-1T on TPU with SGLang-JAX: Hiding MoE Data Movement Behind Compute with One Pallas ...

推理论文/研究部署/工程
11:14
IT之家(RSS)
47
华为昇腾 0 Day 支持智谱 GLM-5.2 模型,提供全面推理优化

昇腾 A3 系列已全面支持 GLM-5.2 单双机及大 EP 推理部署,围绕 MOE 大融合算子、通信计算融合、注意力前处理与多 Token 预测、高并发调度与预填充延迟、智能缓存与索引优化、PD 分离与 Prefix Cache 等关键技术进行高效推理优化。GLM-5.2 在 Code Arena 全球盲测中获可用模型第一;专为长程任务设计,支持 1M 上下文,表现介于 Claude Opus 4.7 与 4.8 之间,为排名最高的开源模型。该模型已在 Day 0 完成与华为昇腾、平头哥、摩尔线程等国产算力平台的推理适配,单位 token FLOPs 降至 2.9 倍。

推理行业动态部署/工程
11:14
Hacker News 热门(buzzing.cc 中文翻译)
精选70
cuTile Rust:安全无数据竞争的 GPU 内核系统

cuTile Rust 是一个基于 tile 的 GPU 编程系统,允许用 Rust 编写内存安全、无数据竞争的内核。它通过 #[cutile::module] 宏将内核 AST 嵌入主机二进制,在运行时经 CUDA Tile IR JIT 编译为 GPU cubin。可变张量在启动前分割,不可变张量共享,启动器在 GPU 工作期间保持所有权。在 NVIDIA B200 上,逐元素操作达 7 TB/s(约 91% 峰值带宽),GEMM 达 2 PFlop/s(约 92% 密集 f16 峰值)。基于 cuTile Rust 构建的 Grout 推理引擎在 RTX 5090 上解码 Qwen3-4B 达 171 tokens/s,在 B200 上解码 Qwen3-32B 达 82 tokens/s。项目处于早期研究阶段。

arXivHugging Face开源/仓库开源生态

推荐理由:用Rust的所有权模型保证GPU内核无数据竞争,性能还能达到峰值的92%,这个方向可能是安全GPU编程的未来,系统编程和推理引擎开发者值得一试。
10:51
Rohan Paul@rohanpaul_ai
52
美国司法部保护 xAI 密西西比州 AI 数据中心,视为国家安全基础设施

美国司法部近日保护 xAI 位于密西西比州的 AI 数据中心,认为高速 AI 基础设施属于美国国家安全基础。司法部将 Grok 及其系统视为关键技术而非普通消费软件,因先进模型可支持国防行动。此举反映政策转变:美国不希望战略 AI 工作负载依赖脆弱供应链、缓慢审批流程或外国控制算力。AI 算力正成为国防资源,可用电力、数据中心规模、模型能力与运营准备度紧密关联。

xAI政策/监管部署/工程
10:14
IT之家(RSS)
34
联想百应 AI 主机 300 上市:AMD 锐龙 AI Max+ 395,26999 元

联想百应 AI 主机 300 今日上架,搭载 AMD 锐龙 AI Max+ 395 处理器,配备 128GB 内存、2TB SSD,支持 2.5GbE 有线网卡与 Wi-Fi 7 无线网卡,到手价 26999 元。该机型内置百应 Clow 智能体协同平台,Skill 广场提供超 2000 个技能,支持自主进化、多级记忆,适用于 AI 短剧制作、专利/销售/经营管理、金融分析、广告营销等场景。

产品更新端侧部署/工程
09:20
OpenRouter:Announcements(RSS)
64
使用OpenRouter连接Claude Code

设置三个环境变量即可将Claude Code连至OpenRouter,无需本地代理或Docker。OpenRouter提供供应商故障转移、预算控制与用量监控,支持Anthropic Skin原生协议,保留Thinking、工具调用、流式输出。可为Opus(架构推理)、Sonnet(日常编码)、Haiku(快速转换)分别指定模型。Fast Mode最高2.5倍速度,仅限Claude Opus 4.6/4.7/4.8,需Claude Code v2.1.96+。团队场景:一个OpenRouter密钥统一计费、设置每密钥限额,活动仪表板查看会话成本。

教程/实践编码部署/工程
关联讨论 1 条OpenRouter:Announcements(RSS)
09:14
IT之家(RSS)
66
WWDC26 苹果 AI 特别讲座:4台 Mac Studio 本地运行 Kimi K2.6 模型

苹果在 WWDC26 特别讲座中演示通过 4 台 Mac Studio 本地运行 1 万亿参数的 Kimi K2.6 模型,使用 LM Studio 和低延迟 RDMA over Thunderbolt 技术。该模型由月之暗面于 2026 年 4 月 20 日发布,升级了代码编写、长程任务执行和 Agent 集群能力。讲座还展示了工程师用单条提示词生成的 WWDC badge tracker 应用,具备 3D 动画、全息视觉效果和 Visual Intelligence 功能。

端侧行业动态部署/工程
08:49
meng shao@shao__meng
82
Vercel 开源 Agent 框架 Eve

Vercel 发布开源 Agent 框架 Eve,核心设计“Agent 即目录”:通过 agent.ts、instructions.md、tools、skills、subagents、channels、schedules、connections 等文件声明行为。内置持久会话(可 checkpoint)、沙箱隔离(本地 Docker/Vercel Sandbox)、Human-in-the-loop 审批(不占算力)、MCP/OpenAPI 连接(鉴权由框架代理)、多 Channel 支持(HTTP/Slack/Discord)、OpenTelemetry 追踪与 eve eval 门禁。本地 eve dev TUI,部署为普通 Vercel 项目,不中断进行中会话。内部已验证:d0 月 3 万+ 查询,Lead Agent 年成本约 $5k 回报 32 倍,Vertex 约 92% 工单自动解决。

Vercel: Introducing eve, an agent framework. agent/ agent.ts instructions.md tools/ skills/ sandbox/ schedules/ Like Next.js, fo...

智能体MCP/工具开源/仓库部署/工程
06:55
Claude Code:GitHub Releases(RSS)
精选57
Claude Code v2.1.181 发布

Claude Code v2.1.181 发布,新增 /config key=value 语法允许在提示中直接设置任意配置项,新增 sandbox.allowAppleEvents 选项使沙盒命令支持 Apple Events,新增 CLAUDE_CLIENT_PRESENCE_FILE 环境变量用于抑制移动端推送通知。内置 Bun 运行时升级至 1.4,改进了长段落流式输出(逐行显示)和 API 连接中断后自动重试。子 agent 面板优化:空闲 agent 30 秒自动隐藏、列表最多 5 行。修复了提示缓存读取、Write/Edit 在网络驱动器产生 0 字节文件、启动性能回归(约 120ms)、启动阻塞(最长 15 秒)、macOS TUI 冻结、子 agent 时长显示错误、API 重试指示器残留、AWS 凭证刷新等问题。

智能体Anthropic产品更新部署/工程

推荐理由:一次工程师式的磨刀更新,修复了网络驱动器写入、macOS TUI 冻结等一批痛感明显的 bug,新增的 /config 快捷语法也顺手,但对非 Claude Code 用户来说就是一串技术细节。
06:14
Cloudflare Blog
精选64
Cloudflare 将更多智能体框架引入平台,以 Flue 为首

Cloudflare Agents SDK 现已成为任何智能体框架均可构建的运行时。Cloudflare 开放了 Agents SDK 原语,Flue 成为首个针对该 SDK 的框架,同时仪表盘中已推出智能体功能。

智能体产品更新部署/工程

推荐理由:Cloudflare 将 Agents SDK 开放为中性运行时,Flue 首个接入,本质还是为 Workers 拉流量,非 Cloudflare 用户不必费心。
05:21
SemiAnalysis@SemiAnalysis_
45
Wide Expert Parallelism增加了每个MoE部署可用的总内存带宽。这意味着模型将MoE专家权重分布到多个GPU上,因此每个GPU只需加载一小部分权重。这转化为每个GPU更高的吞吐量,提升了每美元性能和每瓦性能。
现象/趋势部署/工程
05:18
elvis@omarsar0
70
金融科技公司 Block 自建内部 AI 系统 Builderbot,可跨整个代码库协调多个智能体。工程师在 Slack 中标记后,系统自动研究、规划并交付。当前日处理 20 万次操作,每周合并 1500 个 pull request,贡献了 Block 全部生产代码变更的 15%,将原需数月的流程缩短至数天。DAIR.AI 创始人 Elvis Saravia 强调,只有通过编排层协调多个智能体才能实现此类输出,建议团队自建编排层。

Block: We built an internal AI system called Builderbot. It coordinates agents across our entire codebase. Engineers tag it in ...

智能体大佬观点编码部署/工程
05:18
xAI@xai
62
一键使用预装 Grok Build 的虚拟机

DigitalOcean: .@grok Build is on DigitalOcean Marketplace. 🆕☁️🤖 SSH in. Run grok. Build. @xAI's coding agent, pre-configured on Digi...

xAI产品更新编码部署/工程
04:44
Claude:Blog(网页)
精选65
借助 Workload Identity Federation 安全访问 Claude Platform

Workload Identity Federation (WIF) 已在 Claude Platform 上全面可用。WIF 兼容任何 OIDC 身份提供者,覆盖所有 Claude API 端点(包括第一方 SDK 和 Claude Code)。WIF 用短生命期凭证替代静态 API 密钥,并引入服务账户,每个工作负载拥有独立身份、角色和审计日志。Claude Console 提供引导设置流程,支持 Admin API 进行组织管理。API 密钥可并行使用以便逐步迁移。

Anthropic产品更新部署/工程

推荐理由:这个功能真正解决了企业在生产环境中用 Claude 的最大痛点,现在团队可以完全抛掉静态密钥,用现成的身份体系接入,安全审计也变得顺手。
04:42
Hacker News 热门(buzzing.cc 中文翻译)
49
Browser Use Cloud 基于 Firecracker 重构:嵌套虚拟化下 1 秒启动浏览器

Browser Use Cloud 重建基础设施,让每个浏览器会话在独立的 Firecracker VM 中运行,新会话启动时间不到 1 秒,成本从每浏览器小时 0.06 美元降至 0.02 美元。他们放弃了 Unikraft unikernel 方案,因其自动扩缩容能力不足,曾导致压测使生产环境宕机 45 分钟。新方案选择在普通 EC2 上运行嵌套虚拟化,以换取更快扩缩速度和更低成本,并构建了控制平面实时监控自动扩缩容。启动过程包含恢复 VM 快照、启动 Chromium 并通过 CDP 返回连接 URL,首个瓶颈是嵌套虚拟化下的内存页面错误。

教程/实践部署/工程
02:13
AYi@AYi_AInotes
59
AMD下场锁定CW激光器产能,CPO供应链瓶颈加剧

Trendforce报告显示AMD正积极采购锁定CW激光器供应。此前NVIDIA已与Lumentum/Coherent签订多年协议锁死核心产能,西方独立产能仅剩Sivers、AAOI等少数厂商,Lumentum自身受限可能外包至日本产线,后者已满负荷。CPO+硅光子成AI标配,InP基板持续紧缺。AMD是第一张多米诺骨牌,Amazon、Microsoft等云厂商大概率跟进。但CPO大规模放量或要到2026-2028年,期间存在预期已涨、小盘波动大、LPO技术替代、扩产良率瓶颈及宏观不确定性等风险。

Serenity: Trendforce reports that $AMD is actively trying to secure CW laser supply with multiple major procurement orders... Is p...

现象/趋势部署/工程
01:53
LMSYS:Blog(Chatbot Arena 团队)
精选69
用SGLang-JAX在TPU上优化Ling-2.6-1T:一个Pallas核将MoE数据移动隐藏在计算中

SGLang-JAX现已支持inclusionAI的Ling-2.6-1T(1T稀疏MoE,63B激活参数,256路由专家,top-8路由加共享专家)在TPU v7x上高效推理。团队开发了Fused MoE V2——一个融合scatter、专家FFN和gather的Pallas核,通过将MoE数据移动隐藏在计算中,使MoE预填充延迟从5.16ms降至2.42ms(降幅53%),解码核延迟从0.249ms降至0.211ms(降幅约15%)。仅替换MoE核即提升预填充吞吐量24.8%,解码吞吐量18.5%–35.3%。在SGLang解码基准测试中,16块TPU v7x芯片输出吞吐量达16块H200 GPU的1.29倍(mc=128)至1.77倍(mc=512)。完整上线还包含混合KV/循环内存池、GLA线性注意力和单控制器数据并行支持。

推理论文/研究部署/工程

推荐理由:这是针对TPU上MoE推理的硬核优化复盘,用成本模型定位瓶颈,通过单内核融合把延迟砍半,对做大规模推理工程的团队是高质量参考。
01:36
MarkTechPost(RSS)
精选77
Vercel 发布开源 AI 智能体框架 Eve:每个智能体就是一个文件目录

Vercel 发布开源 AI 智能体框架 Eve(npm 包,Apache-2.0 许可)。Eve 采用文件系统优先设计:每个智能体对应一个磁盘目录,目录结构直接映射模型、指令、工具、技能、连接、子智能体等能力,无需额外注册代码。内置六大生产级能力:持久执行(每步检查点,崩溃后可恢复)、沙箱计算、人机审批、安全连接(支持 MCP 和 OpenAPI)、多通道(Slack、Discord、Teams 等)以及追踪与评估(OpenTelemetry)。Vercel 内部运行了上百个智能体,包括数据分析工具 d0(月处理超3万查询)、自动销售代理 Lead Agent(年费约5000美元、回报32倍)和支持智能体 Vertex(自主解决92%工单)。

智能体产品更新部署/工程

推荐理由:Vercel 把自己跑了 100 多个 agent 的框架开源了,用目录即契约的方式把耐久执行、沙箱、审批等全打包,对想在生产环境跑 agent 的团队是今年最务实的发布之一。
01:17
Rohan Paul@rohanpaul_ai
51
TensorDyne 发布 AI 推理机架 Napier,对数运算实现 13 倍于 NVIDIA GB300 的吞吐

TensorDyne 发布 AI 推理机架 Napier,声称在 DeepSeek-R1 上基于内部模拟达到 363,000 tokens/s(用户速度 210 tokens/s),是 NVIDIA NVL72 GB300(27,400 tokens/s)的 13 倍。Napier 在对数空间中运算,将乘法转为加法,从而降低芯片面积与功耗,更多晶体管用于 SRAM,每 token 能耗更低、推理密度更高。此举改变 AI 推理经济学,不再单纯比拼 FLOPS,而是转向功率、内存局部性、互连延迟与 token 服务成本。

产品更新推理部署/工程
00:45
elvis@omarsar0
60
Rahul 指出,fable+ 类模型本质是英语→代码解释器,Fable 5 最差。diff 大小按风险管控:高风险区(身份/数据/网络/资金)用小 diff,可经验验证代码用大 diff。软件交付速度取决于审查/合并能力而非 PR 生成,瓶颈在 lint、测试、CI、影子验证。智能体需深度理解全栈,风险优先级为安全>正确性>性能。复杂性成本变化,可能值得多维护 50% 代码换 5% 性能提升。低风险时将代码块作黑盒仅做经验验证。逻辑逐行审查成本高,只用于关键处。更快迭代需借助权限 opt-in、影子模式等护栏。

rahul: 1. as a mental model it is more correct to think of fable+ class models as english -> code interpreters - converts your ...

智能体大佬观点编码部署/工程
00:32
Hacker News 热门(buzzing.cc 中文翻译)
62
人工智能需要更多的工程纪律,而不是更少。

Opus 4.5 发布后,AI 能生成与中位数软件工程师同等质量的代码,且更快更便宜。2025 年,智能体框架、工具调用和 MCP 协议等迭代让代码生产从昂贵耗时变为免费即时,代码变得可丢弃和可重新生成。软件团队真正产品是共享理解,而非代码本身。作者认为,面对 AI 带来的变革,需要更多而非更少的工程纪律,以维持对系统的可控和共识。

大佬观点编码部署/工程
6月17日
23:58
Chubby♨️@kimmonismus
45
1/ .@TensordyneInc 刚刚发布了他们的 Napier gen. 声称效率比分解方法(Nvidia/AWS + Groq/Cerebras)好10倍,同时在用户速度上超越它们。 新芯片已流片。在数学和芯片间扩展互连方面有根本性创新。 一个帖子 🧵:
产品更新部署/工程
23:48
OpenCode@opencode
26
GLM-5.2 的需求量正在增长 3 倍 如果你遇到一些问题,我们正在积极处理中

OpenCode: GLM-5.2 now available in Go text · 1M context · same pricing as 5.1

行业动态部署/工程
23:36
OpenRouter@OpenRouter
63
新实验室:成本模拟器 一个简单的工具,用于查看你的真实流量并估算使用不同模型时的成本节省,使用中位数端点定价。
产品更新部署/工程
23:34
Andrew Milich@milichab
47
AWS 开发者现可使用 Grok 4.3 构建应用,该模型在幻觉率和工具调用方面行业领先,由 Bedrock 的安全推理引擎驱动。

xAI: Grok is now available on Amazon Bedrock. AWS developers can now build with Grok 4.3, the industry leader in hallucinatio...

xAI行业动态部署/工程
23:28
Anthropic:Newsroom(网页)
50
Anthropic 在首尔开设办公室并宣布多项韩国AI生态合作

Anthropic 正式启用首尔办公室,并宣布与韩国AI生态的多项合作。NAVER 在全公司部署 Claude Code,数千工程师用于提升编码效率;Nexon 工程团队用 Claude Code 编写游戏代码。LG CNS 将 Claude 推广至数千员工并计划覆盖整个 LG 集团;Hanwha Solutions 通过 AWS Bedrock 部署 Claude 满足数据驻留与安全要求;Samsung SDS 向三星电子员工部署 Claude(包括 Claude Cowork 和 Claude Code)。初创公司 Channel Corp 用 Claude 驱动客户AI平台 Channel Talk。Anthropic 与韩国国家AI研究实验室合作,向至多60名研究员提供 Claude 用于AI安全等研究。非营利组织 Good Neighbors Korea 部署 Claude 减轻行政工作。Claude for Startups 已在韩国上线,并计划与 Replit 等合办黑客马拉松。

Anthropic行业动态部署/工程
22:45
Baidu Inc.@Baidu_Inc
26
海滩。早午餐。海滨步道。循环。 Apollo Go现已覆盖整个Jumeirah区域,连接海滩、酒店、商场、办公室以及迪拜一些最热门的目的地。 如果Jumeirah已经在你的迪拜行程中,何不让旅途本身也成为体验的一部分? 预约一趟Apollo Go,感受未来出行的模样。
行业动态部署/工程
‹ 上一页
1…910111213…50
下一页 ›