6月15日

08:00

HuggingFace Daily Papers（社区热门论文）

本文将多智能体LLM系统的共享状态建模为确定性生成语义下的读-生成-写操作，并在TLA+中形式化四种并发异常。通过274个Verus义务（零assume，零admit）证明检测器对规范的正确性和完备性，实现三个Rust运行时（L0-L1悲观锁、可序列化快照隔离、默认SI）。L2-L4通过执行模式验证实现无依赖预防。再现了字节跳动deer-flow中的静默丢失更新和LangGraph的ToolNode中的tool-effect reordering，并给出形式化修复。

智能体论文/研究部署/工程

6月14日

20:38

IT之家（RSS）

继三星之后，SK 海力士拟向客户提供 HBM4E 样品，最早本月发货

据韩媒报道，SK 海力士正筹备向主要客户送样第七代 HBM 产品 HBM4E，首批样品最快本月出货，最迟不晚于下个月。HBM4E 计划明年正式量产，预计用于英伟达下一代 AI 加速器 Rubin Ultra。此前三星电子已于 5 月 29 日率先向英伟达等客户交付业界首批 12 层 HBM4E 样品。在 COMPUTEX 上，SK 展出了 HBM4E 晶圆，黄仁勋参观并留言“请多生产一些”。

行业动态部署/工程

18:38

IT之家（RSS）

富国银行：亚马逊 AWS 为降低 AI 推理成本，有望采购高通 AI200 芯片

富国银行报告指出，高通有望与亚马逊 AWS 深化合作，为其提供 AI200 等新一代 AI 芯片，以降低推理成本、提升运营利润率。高通于 2025 年 10 月发布 AI200，单颗支持 768GB 内存，并推出专为机架级 LLM、LMM 推理设计的方案。AI200 预计 2026 年扩大部署。AWS 已在提供性价比强劲的高通 AI100 Ultra 芯片服务，富国银行认为 AWS 有望成为高通最重要的超大规模云端合作伙伴。

推理行业动态部署/工程

09:51

Orange AI@oran_ge

Geek: pi + DeepSeek 画的,才发现这个技能不需要生图模型,是通过 LLM 将自然语言描述转为结构化 JSON → Node.js 渲染器用纯几何算法生成 SVG → 注入自包含 HTML。 https://github.com/tt-...

GitHub 开源/仓库开源生态部署/工程

08:37

IT之家（RSS）

三星打造50兆瓦海上浮动AI数据中心，获国际海事初步审批

三星造船事业部设计了一座功率达50兆瓦的海上浮动AI数据中心，从零开始建造专用船舶。该设施停靠近海时可通过海底电缆接入电网，驶往远海后借助液化天然气燃料电池自主发电，并直接抽取海水为服务器降温。三星已携手超微在真实河道与海洋环境中对高性能硬件进行极限测试。设计方案已获国际海事监管机构初步审批，去年秋季与OpenAI签署合作意向书。希腊航运企业Capital Clean Energy Carriers提供资金支持并协助选址。

OpenAI 产品更新部署/工程

08:32

Simon Willison 博客

将 SQLite 结果列映射回源表.列

Simon Willison 为 Datasette 探索了三种方案，使其能对任意 SQL 查询结果补充源表列信息。他使用 Claude Code（Opus 4.8）发现：利用 apsw 库、通过 ctypes 调用 SQLite 内部未暴露的 sqlite3_column_table_name() C 函数，以及分析 EXPLAIN 输出。这些方法可程序化识别 select users.name, orders.total from users join orders on orders.user_id = users.id 等查询中每个结果对应的源表.列，并支持 JOIN 和 CTE 等复杂语法。

开源生态教程/实践部署/工程

08:32

Simon Willison 博客

Pyodide 314.0 支持将 WASM wheel 发布到 PyPI

Pyodide 314.0 发布后，开发者可将为 Pyodide 编译的 Python 包以 wheel 格式发布到 PyPI 并在运行时通过 micropip 安装。此前逾 300 个包需由 Pyodide 维护者统一构建托管。作者用 Codex + GPT-5.5 xhigh 将 Luau 的 WebAssembly 版本打包为 luau-wasm 并上传至 PyPI，wheel 仅 276KB，展示了完整流程。截至发布，已有 28 个 PyPI 包使用新 pyemscripten_202*_wasm32 标签。

产品更新开源生态部署/工程

06:01

swyx@swyx

swyx发出最后呼吁，2026年AI工程调查（AI Engineering Survey）本周末截止。本次调查由Notion和Vercel联合赞助，填写者可赢取Vercel、Notion及AI Engineer大会门票。组织方使用Devin分析了已注册参会者名单，生成了参会社区实时图表，被认为是最具数据驱动力的社区展示。调查结果将在AI Engineer大会主舞台公布。调查链接：ntn.so/ai-survey。

Barr Yaron: Last call for the 2026 AI Engineering Survey 👀 https://ntn.so/ai-survey Excited to be partnering with @NotionHQ and @ve...

行业动态部署/工程

04:20

MiniMax (official)@MiniMax_AI

Love to see it！ 🚀 一天过去，社区已经提交了解码加速优化。🥳

Prince Canuma: Made some improvements on the decode path for MiniMax M3 by @MiniMax_AI on MLX-VLM Faster decode, slightly lighter footp...

开源/仓库部署/工程

02:24

Hacker News 热门（buzzing.cc 中文翻译）

RTX 5080 和 RTX 3090 配置：在 Qwen 3.6 27B Q8 上达到 80 Tok/s

使用 RTX 5080 和 RTX 3090 组合硬件，在 Qwen 3.6 27B Q8 模型推理中获得 80 Tok/s 的速度。

教程/实践端侧部署/工程

02:24

OpenRouter@OpenRouter

精选70

推出Fusion API，市场上最智能的复合模型。 Fusion以一半的价格实现Fable级别的智能。工作原理如下👇

产品更新部署/工程

推荐理由：OpenRouter 的 Fusion API 说能以一半价格达到 Fable 级智能，对开发者选型是个新选项，但没给具体基准，我会先观望实测。

01:32

MarkTechPost（RSS）

如何构建QwenPaw智能体工作区：自定义技能、模型提供商、控制台访问与流式API测试

该教程演示如何构建并测试QwenPaw智能体工作区。步骤包括：安装与初始化QwenPaw、配置工作目录、设置身份认证、通过Colab secrets连接可选模型提供商、创建包含自定义技能与本地知识文件的结构化工作区，以及启动控制台访问与流式API测试。

智能体教程/实践部署/工程

6月13日

22:21

Hacker News 热门（buzzing.cc 中文翻译）

Google Research 利用旧手机打造低碳计算平台

Google Research 提出通过复用淘汰的旧手机来搭建低碳计算平台，相关研究细节已在 research.google 发布。该项目旨在降低计算过程的碳排放，属于可持续硬件利用方向的探索。

Google 论文/研究部署/工程

18:36

IT之家（RSS）

京东健康与北京友谊医院共建消化系统专科大模型，应用胃肠镜早癌筛查

6月13日，京东健康与北京友谊医院宣布合作，共建消化系统专科大模型，重点应用于胃肠镜早癌筛查、疾病诊断等场景。双方将在三个层面推进：共建高质量数据集、联合研发专病大模型、推动线上线下双场景落地。线下，大模型融入消化内科诊疗全流程，开展实时智能筛查、病灶识别、风险研判，并提供诊疗参考、用药预警、病历整理等辅助工具及智能导诊等便民服务。线上，提供全天候健康咨询、症状初筛、居家指导，为慢性胃肠病患者搭建全病程管理体系，并输出权威科普内容。

多模态行业动态部署/工程

18:03

The Decoder：AI News（RSS）

Meta 从"tokenmaxxing"转向 token 管理，内部 AI 成本据报达数十亿美元

Meta 在一份面向 6000 名员工的内部备忘录中透露，仅内部使用 AI 的成本就将达到数十亿美元。从 2027 年起，预算、配额以及名为“AI Gateway”的中央仪表板将管控 token 消耗。CTO Andrew Bosworth 直言：“并非所有行动都是进步，单凭 token 使用量不能衡量任何影响。”

Meta 行业动态部署/工程

17:36

IT之家（RSS）

SpaceX历史性IPO后，马斯克称将深化与英伟达合作

SpaceX完成IPO，首日收涨超19%，市值达2.11万亿美元，马斯克成全球首位万亿富豪。英伟达发文祝贺，马斯克回应称将把合作“提升到新水平”。SpaceX已公布首款AI计算卫星AI1，峰值计算载荷最高150千瓦，配备液冷散热器与微流星体防护。IPO前夕，SpaceX与谷歌签署云服务协议，获得相当于11万块英伟达GPU的计算能力，月费9.2亿美元；近期还与Anthropic签署协议，提供22万块H100、H200、GB200等GPU使用权限，月费12.5亿美元。

行业动态部署/工程

15:36

IT之家（RSS）

微软开源 iOS 流式 Markdown 渲染库 SwiftStreamingMarkdown

微软本周三在 GitHub 开源 SwiftStreamingMarkdown，面向 iOS 平台，专为大语言模型聊天场景的逐字流式渲染优化。采用 MIT 许可证，通过 Swift Package Manager 集成约增加 3 MB 体积，可避免主线程过载。支持 CommonMark 与 GFM 核心子集（标题、段落、粗斜体、删除线、行内代码、链接、代码块、引用块、列表、表格、LaTeX 公式及 LLM 溯源标记），图片仅显示替代文本，未实现语法降级为可读文本。内置过渡动画、数学公式渲染、可配置主题、上下文菜单及交互追踪钩子。在 iPhone XS 高负载测试中，主线程控制优于同类库。

Microsoft 开源/仓库部署/工程

12:36

IT之家（RSS）

摩尔线程 MTT S5000 完成 MiniMax M3 Day-0 适配

6 月 12 日，MiniMax 新一代原生多模态模型 M3 开源，同日摩尔线程完成 MTT S5000 智算卡的 Day-0 适配。该卡凭借硬件级原生 FP8 加速，单卡稠密算力达 1000 TFLOPS，配备 80GB 显存与 1.6TB/s 带宽，支撑百万 token 级长序列。通过 MUSA C++ 与 Triton-MUSA 抽象层实现新算子快速迁移，同步拉起 vLLM 与 SGLang 推理框架，覆盖 FP8 至 FP64 全精度。开发者可基于 MUSA 软件栈与双框架部署。

行业动态部署/工程

10:10

OpenRouter：Announcements（RSS）

OpenRouter 可靠性与自动故障转移：请求如何持续成功

OpenRouter 默认启用提供商故障转移（provider failover），模型回退（model fallbacks）则为选择加入。这两层机制分别应对不同类型的故障：提供商故障转移在 API 调用失败时自动切换至其他提供商，模型回退则在指定模型不可用时切换到备选模型。公告详细说明了各层的工作原理以及故障转移的停止条件。

教程/实践部署/工程

10:10

OpenRouter：Announcements（RSS）

精选66

OpenRouter 模型路由工作原理

OpenRouter 将每个请求路由到 60 多家提供商，用户可自定义提供商顺序、价格上限和回退链，从而灵活控制路由策略。

教程/实践部署/工程

推荐理由：如果你在用 OpenRouter，这篇把默认的逆向平方权重、:nitro/:floor 快捷方式和 model fallback 逻辑讲得很清楚，读完就能调整请求策略。

10:10

OpenRouter：Announcements（RSS）

精选74

Hermes Agent 在 OpenRouter 上的使用指南：设置、模型与路由

Hermes Agent 已通过 OpenRouter 处理超过 17 万亿 tokens。使用指南包括设置流程、选择支持 64K 上下文窗口的模型，以及调整路由策略以兼顾成本与可靠性。

智能体教程/实践部署/工程

推荐理由：OpenRouter 这篇教程把 Hermes Agent 的配置、路由和降本技巧都讲透了，刚上手的人照着走就能跑起来，而且给出了廉价辅助模型的省钱套路，实用性强。

09:36

IT之家（RSS）

6 月 12 日，华为云基于昇腾算力为 MiniMax 原生多模态旗舰模型 M3 提供 Tokens 支持，并完成开源首发适配。M3 采用 MSA 架构，支持 1M 超长上下文及图片、视频输入，可操作电脑桌面。在 SWE-Bench Pro 上超 GPT-5.5 和 Gemini 3.1 Pro，接近 Opus 4.7；SVG-Bench 超 Opus 4.7；OmniDocBench 超 Gemini 3.1 Pro；Claw-Eval 获最高分。华为云完成 MSA 算子适配与 MOE 均衡优化，确保大规模推理稳定。

行业动态部署/工程

09:04

meng shao@shao__meng

为大规模训练 Composer 模型，Cursor 团队构建了始终运行的 Agent 舰队系统

Cursor 团队为训练 Composer 模型构建了一个始终运行的 Agent 舰队系统。主 Agent（Fleet Manager）在远程机器上运行，通过 SSH 连接数百台子 Agent 机器，利用本地工具和磁盘文件“inbox”实现状态共享与协调。每轮循环检查舰队健康，将故障推送至 Slack/PagerDuty，并主动终止或重启进程。子 Agent 并行执行研究实验。系统基于此前长运行 Agent 研究，主 Agent 拥有编码 ML 实验隐性知识的 Skills。核心是使用 Cursor 自身产品，通过 inbox 文件与 Skills 实现大规模 Agent 协同与自我管理。

Lee Robinson: http://x.com/i/article/2065439304785039360

智能体教程/实践编码部署/工程

08:07

SemiAnalysis@SemiAnalysis_

祝贺 @vllm_project 和 @lmsysorg 在 CUDA 和 ROCm 堆栈上于第 0 天发布 MiniMax M3 428B！MiniMax M3 包含： 🟠 块稀疏注意力，预填充比 M2.7 快 9 倍 🟠 第 0 天开放 MXFP8 权重 🟠 此外，@Inferact 发布了第 0 天 EAGLE3 开放权重草稿模型支持期待尝试 MiniMax M3 的性能！

开源生态推理模型发布部署/工程

07:34

Rohan Paul@rohanpaul_ai

NVIDIA 发布首个智能体 AI 基准 AgentPerf：GB300 NVL72 每兆瓦处理智能体数是 H200 的 20 倍

NVIDIA 首次在 AgentPerf（由 Artificial Analysis 开发）中评测智能体 AI。该基准测试的不是传统 token 生成速度，而是每兆瓦可同时运行且保持响应性的编码智能体数量。工作负载模拟真实编码智能体路径（长链模型调用、代码编辑、命令运行、工具延迟、增长上下文），涵盖 12+ 编程语言，请求长度 5K–131K tokens（平均 27K）。结果：GB300 NVL72 在最低服务层每兆瓦达 61.4K 并发智能体，H200 仅为 2.6K（20 倍提升）。性能提升源于 72 GPU 通过 NVLink 组成的机架级系统，配合软件优化（MoE 专家分布、通信与计算重叠、大批量保持）。

评测/基准部署/工程

06:26

Claude Code：GitHub Releases（RSS）

Claude Code v2.1.176 发布

Claude Code v2.1.176 更新：会话标题现按对话语言生成；新增 footerLinksRegexes 设置支持正则匹配页脚行链接徽章；优化 Bedrock 凭证缓存。修复多项问题：环境变量不可再绕过 availableModels 限制；/fast 切换至白名单外模型时拒绝；auto 模式退化为可用 Opus 模型；修正路径 hook 条件匹配；修复 Linux 沙箱内符号链接启动问题；修复 tmux 内 SSH 剪贴板问题；修复 Remote Control 多项连接问题。

智能体 Anthropic 产品更新编码

05:40

OpenRouter：Announcements（RSS）

精选64

如何在OpenRouter上获得最低成本的LLM推理

在OpenRouter上追加:floor可获取最便宜提供商，通过max_price设定花费上限，并可免费使用20多个零成本模型。同时需注意避免计费陷阱。

教程/实践部署/工程

推荐理由：如果你是 OpenRouter 的开发者，这篇教程把成本控制的开关全摆出来了，从 :floor 到免费模型再到 BYOK 的成本账，看完就能立刻调配置省钱。

04:52

Chubby♨️@kimmonismus

Apple用NVIDIA机密计算在谷歌云保护推理隐私

Kim解释Apple如何在Google Cloud上执行推理时保护隐私：最重的请求运行在Google Cloud的Blackwell B200s上，利用NVIDIA Confidential Computing提供基于硬件的安全层，将工作负载隔离在可信执行环境中加密处理数据，确保Google和Apple都无法看到数据。

大佬观点推理部署/工程

03:01

HuggingFace Daily Papers（社区热门论文）

TRACE：将用户修正编译为运行时约束以改善编码智能体

交互式LLM智能体的用户偏好修正常被遗忘，Mem0记忆仍有57.5%相关偏好检查被违反。研究提出TRACE，一种即插即用的技能层管道，从用户聊天修正中挖掘原子规则并编译为运行时检查。在ClawArena上，分布内违规从100.0%降至37.6%，分布外从100.0%降至2.0%；在MemoryArena上，分布内从100.0%降至60.5%，任务通过率匹配或超越最强记忆基线。实验代码已开源。

智能体 arXiv GitHub 论文/研究

01:34

Ars Technica：AI（RSS）

精选72

今年价值1300亿美元的数据中心项目因抗议被叫停

截至今年，抗议活动已成功阻止价值约1300亿美元的AI数据中心项目。反对者通过组织行动阻碍了多地的开发计划，称这一胜利让参与者“尝到了政治权力的滋味”。抗议主要针对数据中心带来的能源消耗、水资源占用和环境影响，部分项目已被政府暂停或重新审查。

政策/监管部署/工程

推荐理由：抗议者让1300亿美元数据中心项目搁浅，这已从地方纠纷演变为全国性政治叙事，AI行业不能再当成个体规划争端，社会反对的剧本正在改写建站地图。

01:04

Ars Technica：AI（RSS）

就总用水量而言，AI数据中心只是沧海一粟

AI数据中心的全球总用水量占比较小，但即使是中等规模的数据中心，也可能对当地水资源造成过大的局部影响。

现象/趋势部署/工程

01:02

Rohan Paul@rohanpaul_ai

Anthropic从租用云算力转向自建数据中心

Anthropic正从租用云算力转向自建数据中心，计划在美国部署超1GW容量，Google可能为其租赁付款提供财务担保。此前Anthropic已承诺超10GW云服务器租赁，包括与Google的2000亿美元协议，以及Akamai、AWS、CoreWeave、Fluidstack的大型合作（含500亿美元Fluidstack合作、AWS Trainium硬件）。此外，Anthropic以每月12.5亿美元租下xAI/Colossus I数据中心全部空间，并租用Colossus II。此举旨在通过自控服务器降低长期计算成本。

The Information: Anthropic is moving forward with a plan to control its own servers for developing AI, giving it the ability to cut its c...

Anthropic Google 行业动态部署/工程

6月12日

23:36

IT之家（RSS）

高盛总裁沃尔德伦：SpaceX 创纪录 IPO 表明投资者愿为 AI、太空基建买单

SpaceX上市首日高开29%，募资750亿美元创全球最大IPO纪录，跻身全球第6大上市公司，马斯克成首位万亿富豪。高盛总裁沃尔德伦称，这表明投资者愿为AI和太空基建买单，预示IPO浪潮，Anthropic和OpenAI均可能今年上市。他还预计2026年并购交易将创纪录，全球并购规模达3.1万亿美元，同比增35.2%。

行业动态部署/工程

23:25

The Verge：AI（RSS）

SpaceX 大规模 IPO：最新消息汇总

SpaceX 于周五进行首次公开募股（IPO），公众首次可以购买这家融合火箭、AI 和社交媒体业务的公司股票。此次融资规模巨大，可能使埃隆·马斯克成为首位万亿富翁，其估值基于将 AI 数据中心发射到太空的业务前景。此外，SpaceX 还获得了一份价值 40 亿美元的合同，用于建造导弹追踪卫星“金穹”。

行业动态部署/工程

22:48

OpenRouter@OpenRouter

OpenRouter宣布本月为"成本降低月"，计划每周至少发布一项降低推理成本的功能。据WSJ报道，OpenRouter提供一系列降本策略，帮助客户应对AI模型突破后常见的成本压力。引用数据显示，过去三年里重大技术突破后往往伴随成本飙升。首批功能已在本周上线，后续清单将持续更新。OpenRouter旨在通过持续优化推理开销，缓解OpenAI、Anthropic等大模型厂商的定价压力。

OpenRouter: This month is, unsurprisingly, Cost Reduction Month. In our data from the last 3 yrs, we commonly see major cost crunche...

产品更新部署/工程

21:35

SemiAnalysis@SemiAnalysis_

伴随着我们的H100 1-Click租赁指数的发布，我们撰写了2026年初GPU租赁市场的实际状况，标题是：计算现货市场从十月的"终于冷却"到大约五个月后再次出现硬性挤压。（1/4） 🧵

现象/趋势部署/工程

19:40

AYi@AYi_AInotes

保姆级IP验货指南：3个网页30秒查清VPS是否适合登海外账号

指南强调IP成色比配置更重要，提供3个免费网页的验货SOP：Scamalytics查Fraud Score（实测0分，Low Risk，黑名单全No）；ipinfo查AS Type（实测为ISP，连接类型dsl，VPN/Proxy/Tor/Hosting均为No）；check-host查全球丢包和延迟（所有节点4/4零丢包，美境内延迟8-59ms）。推荐VoyraCloud住宅IP VPS（华盛顿节点），年中促销（6/9-6/30）年付7折、半年付8折。提醒：IP干净不是免死金牌，账号行为同样重要；普通建站无需住宅IP。

教程/实践部署/工程

19:36

IT之家（RSS）

金山云：7月12日起，AI算力相关产品服务价格上调约15%-50%

金山云因全球AI算力需求攀升、硬件成本上涨，将AI算力相关产品服务价格上调约15%-50%，文件存储相关产品服务价格上调约30%-50%。调整于北京时间2026年7月12日00:00:00生效，存量订单在当前计费周期内不受影响。今年Q1金山云营收27.0亿元，同比增长37.2%，其中智算云账单收入达10.0亿元，同比增长90.1%，占公有云收入比重50.1%。

行业动态部署/工程

16:08

Alibaba Cloud@alibaba_cloud

驱动下一代智能体需要哪些能力？在Qwen Conference上，阿里云CTO兼国际业务总裁李飞飞博士分享了驱动智能体应用的四大基石：模型、智能体云、工具与服务、规模化性能。这些支柱共同使智能体能够推理、自主行动、利用编码等工具完成复杂任务，并高效规模化运行。 #AlibabaAI

智能体现象/趋势部署/工程

15:35

IT之家（RSS）

日产社长称新车研发周期缩短一半，将向中国学习

日产社长伊万·埃斯皮诺萨透露，新车研发周期将缩短至原来的一半。计划2026年冬季推出的新款Skyline研发时间从55个月压缩至2年多。他表示中国在技术、成本和研发周期方面正成为行业标杆，日产要向中国学习。2025年4月推出的纯电动车型N7研发周期已缩短至两年，很大程度上得益于AI应用，提升了设计和测试效率。日产还将推行平台与核心零部件通用化，将多款同平台车型整合为“家族”同步开发，计划2026财年内推广至9成车型。

行业动态部署/工程