Big news out of @databricks Data + AI Summit. Replit has been named 2026 App Generation Partner of the Year and is now available on the Databricks Marketplace. In SF this week? Come see us at Booth 651.

译来自 @databricks Data + AI Summit 的重大消息。 Replit 被评为 2026 年度 App Generation 合作伙伴，现已上架 Databricks Marketplace。本周在旧金山？欢迎到 651 号展位来找我们。

Alibaba Cloud@alibaba_cloud · 6月16日34

MiniMax & Alibaba Cloud PolarDB are exploring AI-native databases! 🚀 Facing massive data & high concurrency challenges, PolarDB provides a rock-solid foundation for MiniMax. With multimodal storage, second-level elasticity, and smart hot/cold tiering, we boost both business agility and user experience. 📈 Looking ahead, we'll deepen our partnership to build a smarter AI ecosystem! ✨ #AlibabaCloud #PolarDB #MiniMax #AINative

译MiniMax & 阿里云 PolarDB 正在探索 AI 原生数据库！🚀 面对海量数据与高并发挑战，PolarDB 为 MiniMax 提供了坚如磐石的基础。凭借多模态存储、秒级弹性以及智能冷热分层，我们同时提升了业务敏捷性与用户体验。📈 展望未来，我们将深化合作，共同构建更智能的 AI 生态！✨ #阿里云 #PolarDB #MiniMax #AINative

meng shao@shao__meng · 6月16日67

Agentic Code Review 作者 @addyosmani 随着工程瓶颈已从「写代码」转移到「能否信任代码」，代码审查成为当前软件工程里杠杆最高的能力。 # 四份独立来源（Faros AI、CodeRabbit、GitClear、GitHub）指向同一结论： · 代码产出约 4 倍，实际交付价值仅约 +10%：多出来的 90% 是「待验证的代码」 · 代码 churn +861%、缺陷率 9%→54%：质量与可审查性在下降 · 零 review 合并的 PR +31%、review 时长 +441%：不是「决定不 review」，而是 review 跟不上量 · AI 共著 PR 问题数约 1.7 倍：弱点可预测：逻辑、安全、可读性 # 最重要的前提：你在光谱的哪一端 Osmani 反复强调：大多数争论是不同处境的人互相 prescribing。三个变量决定 review 策略： · 爆炸半径 — 坏了会怎样（无人用 vs 用户/金钱/PII） · 代码寿命 — 下周重写 vs 维护十年 · 理解者数量 — 只有你 vs 整个团队 solo 无用户：可 lean on 测试 + 自动化，轻量 review；但「无用户 ≠ 无验证」，跳过 review 只是把债往后推。有用户的中期（最危险）：仍沿用 solo 习惯，直到事故/postmortem 才醒悟。大型老系统 + 多用户：文中所述所有 alarming 数据全部适用，review 同时承担 bug 捕获、知识传递、 comprehension debt 防控。 # Review 的本质变了传统 review：作者在脑子里已有 intent，reviewer 核对推理。 Agentic review：agent 有 reasoning，但几乎从不随 diff 附上；reviewer 常是第一个真正读这段代码的人，还要重建从未写下来的 intent——这比旧模式更难、更慢，解释了 review 时长暴增。可解的部分（工具问题）： · 要求 agent 提交：做了什么、排除了什么、决策日志 · 把 intent 重建成本推回提交方，而非 reviewer 吸收不可完全外包的部分（人的问题）： · 「这段代码对不对」 vs 「该不该做这件事」 · 没人写进 spec 的需求缺口 · 高爆炸半径下的 accountability # AI Review 工具：不要选「最好的一个」，要跑「不同的几个」实证（146 个 PR、4 个 reviewer 并行）： · 93.4% 的 flagged 位置只被 1 个工具发现 · 四个工具从未同时 flag 同一行 · 各有强项：Greptile（正确性/架构）、CodeRabbit（覆盖面+修复）、Seer（生产严重度）结论：同质模型 × 4 = 一个 reviewer + 四倍账单；异构 reviewer 组合才接近「对抗式审查」。高 stakes 跑两个性格不同的；solo 一个 good reviewer + 真测试通常够用；必须在自己代码库上实测。 # 人的角色：从 loop 里到 loop 上 Osmani 的立场（也是文中最具操作性的框架）： · 「人类逐行读每个 diff」已不现实 · 「让 loop 自审自判然后走人」同样危险 — 同源模型的 correlated blind spots，会形成借来的 confidence · 正解：human on the loop，而非 in the loop · 机器：第一遍 triage、低风险/fast-track、重复性检查 · 人：merge 决策、高风险路径、plan/judgment、抽样审计他自己的做法：用 Claude Code/Codex 对一批 PR 做风险排序 triage，几分钟确认低风险项，把深度 attention 留给 flagged 项——不是 review 变快，是 review 的形状变了。 Kun Chen（~40 PR/天）是光谱另一端：plan 写在前、agent 并行跑、自动化 gate（No Mistakes）、人负责 escalation——不是不 verify，是把 verify 前移/自动化；复制到企业多用户系统 ≈ 复现 Faros 数据。 # 可执行的 Review 体系（重要！） 1. 按风险分层，不按作者分层配置改 → linter + 一眼；核心路径 → types、tests、双 AI reviewer、owner 人工、安全 pass。 2. upfront triage（circuit breaker） Agent PR 约 28% 可快速合并；大 patch、高维护成本 PR 应先预测、再决定是否投入 human hour——否则 agent 常在主观反馈后 ghost，reviewer abandonment 占 rejected agent PR 的 38%。 3. 提高 intake 门槛（证据 required）变更目的陈述、合理大小的 diff、真实跑过的 test output——把「第一个读代码的人」从 reviewer 推回 author/agent。 4. 刻意小 PR Agent PR 平均大 51%；大 diff 要么被拒，要么被 rubber-stamp。 5. 先读 test diff，再读 implementation 典型 failure mode：改行为 → 改 assertion 让测试变绿。绿 check ≠ 行为正确；mutation testing 在此有价值。 6. CI 是不可谈判的墙警惕：删测试、skip lint、降 coverage、重复 helper、用户输入进 prompt 无防护。Agent 会「梯度下降」到最便宜的 green——CI 不能被说服。 7. 人 owns merge AI review 是 sensor，不是 verdict；能点 merge 的人 = 能 on-call 的人。 # 对团队负责人的含义 · binding constraint 已是「trusted human 确认速度」，不是 generation 速度 · 因「AI 提速」砍 review/QA 人力 = 把节省换成未来 incident · Review capacity 是需度量、保护、 deliberate 花费的资源，不是 AI 解放出来的 slack · OS maintainer 的 triage 地狱是 canary；企业若只盯 merged PR 指标，会看不见 senior engineer 被 review tax 拖垮

译数据指出，AI辅助下代码产出约4倍，但交付价值仅+10%，90%为待验证代码；代码churn+861%，缺陷率从9%升至54%；零审查合并PR增加31%，审查时长+441%。实测146个PR发现，93.4%被标记位置仅一个工具发现，四工具从未同时标记同一行。策略建议：按风险分层（配置改→linter，核心路径→双AI+人）、前置triage、提高PR门槛（要求意图说明+测试输出）、刻意小PR、先读测试再读实现、CI不可妥协、人类负责merge决策。

Rohan Paul@rohanpaul_ai · 6月16日43

Quite incredible, MiniMax Sparse Attention cuts attention compute by 28.4X at 1M tokens, with 14.2X faster prefill and 7.6X faster decoding on H800 GPUs. While mostly matching the full version’s benchmark performance. This can happen when attention stops treating every token as equally worth revisiting. The trick is not to abandon softmax attention, but to make it selective before it becomes expensive. MSA adds a small routing branch beside ordinary Grouped Query Attention, letting each query group choose the key-value blocks it should inspect while the main branch performs exact attention only inside that chosen set. The model is no longer paying to compare every new thought with the entire past, only with the parts its learned indexer predicts are worth comparing. Long context is not a memory feature by itself; it is a retrieval problem under brutal latency constraints, where the model must decide what deserves bandwidth at the moment of use. MiniMax Sparse Attention is compelling because it moves that decision into the architecture, trains the selector against the model’s own attention patterns. ---- Link – arxiv. org/abs/2606.13392 Title: "MiniMax Sparse Attention"

译MiniMax Sparse Attention（MSA）在1M token时，将注意力计算量削减28.4倍，H800 GPU上预填充提速14.2倍、解码提速7.6倍，同时基准性能基本持平全量版本。MSA不放弃softmax注意力，而是在分组查询注意力旁增设一个小型路由分支，让每个查询组自主选择应查看的key-value块，主分支仅对该子集执行精确注意力。该方法将长上下文视为延迟约束下的检索问题，通过架构内建选择器，用模型自身注意力模式训练路由，使注意力变得有选择性而非穷举。

OpenRouter@OpenRouter · 6月16日65

New Free capacity on OpenRouter, served by @eigenlabs's Darkbloom: gpt-oss-20b and Gemma 4 26B Start using the models today ↓

译OpenRouter 上新增免费容量，由 @eigenlabs 的 Darkbloom 提供：gpt-oss-20b 和 Gemma 4 26B。今天就开始使用这些模型吧 ↓

凡人小北@frxiaobei · 6月16日56

Google 最近做了个很有意思的实验。把退休手机组成计算集群。他们最初想解决的其实是碳排放问题。很多手机被淘汰的时候，芯片、内存和存储依然能够正常工作，与其生产新的服务器，不如把已经存在的设备继续利用。看到 Google 这个项目，我想起了两件老事。第一件是很多年前的 SETI@home。那时候很多人会在电脑上装一个小程序，电脑闲着的时候，就把算力贡献出来帮 NASA 和天文学家分析射电信号。睡觉的时候电脑风扇还在转，你知道它正在参与某个遥远星系的搜索。这比 QQ 挂太阳有荣誉感多了。第二件是 Google 大数据时代最有名的那组论文。 GFS、MapReduce、Bigtable。今天大家都知道这是 Google 的三驾马车，但回头看，实质上是在解决一个问题：单机不够用了，怎么办？答案是把大量廉价机器组织起来。后来云计算兴起，超大规模数据中心成为主流。大家逐渐忘了，互联网历史上很多突破，都是在算力紧张时，对已有资源进行重新组织。现在 AI 时代，熟悉的故事似乎又出现了。训练需要几万张 GPU。推理需求每天都在增长。能源开始成为新的瓶颈。于是 Google 开始研究把退休手机重新变成计算节点。历史总是在重复。二十年前，Google 研究如何把大量廉价服务器组织成一个超级计算机。二十年后，Google 研究如何把大量退休手机组织成一个超级计算机。技术在进步。问题其实没变。每当算力开始紧张，人类都会重新思考一个问题：我们身边那些已经存在的计算资源，还能不能再榨出一点价值。 AI 时代最有意思的创新，未必来自下一代 GPU。也可能来自抽屉里那台吃灰三年的旧手机。

译Google 正实验将退休手机组成计算集群，以减少碳排放——淘汰手机的芯片、内存等仍可正常工作，无需生产新服务器。此举类比于 SETI@home 利用闲置电脑贡献算力，以及 Google 用廉价服务器组建超级计算机的经典思路。在 AI 时代算力紧张、能源成瓶颈的背景下，重新利用抽屉里的旧手机或成创新方向。

郭明錤｜Ming-Chi Kuo@mingchikuo · 6月16日56

我最新的產業調查顯示，聯發科內部已將 AI 事業的策略定位，從「IC / ASIC 設計」提升至「系統級別設計」，首要目標鎖定 Google TPU 的 PCBA（L6），以及 Elon Musk 旗下公司自研 AI 晶片的 L10 機櫃。整體而言，此定位轉變符合產業趨勢，若聯發科執行順利，有助於強化客戶關係與長期競爭優勢。調查與分析： ▎此轉變爲長期規劃，2 年內對基本面的影響可忽視，目標在於掌握新成長契機，並降低潛在風險影響： 1. 機會：伺服器機櫃設計漸趨複雜（導入 CPO、800V HVDC 等），加上與消費電子相當的更新速度，共同推升了系統級設計的附加價值。 2. 風險：ASIC 設計的成長動能，在 2-3 年後可能會因爲 Semi-COT 商業模式而開始趨緩。 3. 聯發科為確保系統級別設計整合的業務毛利率至少能達 40-50%，預期採「主導設計與驗證」的輕資產模式，並善用台灣硬體供應鏈生態優勢，將製造外包。 ▎Google TPU 的 PCBA： 1. 聯發科的目標是自 TPU v10（Icefish）開始，並同步爭取導入自家 CPO 方案。 2. Google 硬體組裝生態已完備，聯發科爭取 L10 勝算不高。 ▎Musk 旗下公司自研 AI 晶片的 L10 機櫃： 1. 目前 Musk 旗下公司建置的 AI 算力主要採 Nvidia 晶片方案，故自家 AI 晶片機櫃組裝生態尚未完備，這是聯發科的機會。 2. 此業務目前尚缺乏明確時程能見度；長期成敗的關鍵在於，聯發科能否善用台灣硬體供應鏈生態，並借助與 Terafab 的合作關係，拿到 L10 機櫃訂單。

译郭明錤产业调查显示，联发科将AI事业从IC/ASIC设计提升至系统级设计，首目标为Google TPU的PCBA（L6）及Musk公司自研AI芯片的L10机柜。此为长期规划，2年内对基本面影响可忽略。机会源于服务器机柜复杂度和更新速度提升，风险为ASIC设计动能2-3年后或因Semi-COT模式趋缓。联发科拟以“主导设计与验证”轻资产模式（制造外包）确保毛利率40-50%。具体：Google TPU目标自v10（Icefish）开始并争取导入自家CPO；Musk公司目前主要用Nvidia方案，自家芯片机柜生态未完备，联发科有机会但缺时程，关键在利用台湾供应链与Terafab合作获L10订单。

Ethan Mollick@emollick · 6月15日58

A thing that API users of frontier models (enterprise IT deployments, for example) can miss is how powerful models are in their native harnesses. It is hard to get Claude or GPT via API to be anywhere near as capable as they are in Code or Codex & its harder as models get smarter

译API用户（例如企业IT部署）使用前沿模型时可能会忽略一点：模型在其原生框架中是多么强大。通过API很难让Claude或GPT达到像在Code或Codex中那样的能力，而且随着模型变得更聪明，这变得更难。

Berryxia.AI@berryxia · 6月15日58

1万亿参数的Kimi K2.7 Code，现在直接被Unsloth塞进了本地能跑，动态2bit量化后只剩325GB，还能跑到40+ tok/s。 Unsloth把这个巨兽模型用Dynamic 2-bit方案压了48%，重要层保持更高精度，其他部分大胆量化。结果就是330GB的RAM/VRAM就能跑起来，速度还不错。想全精度也可以，但需要610GB。以前大家觉得这么大的coding模型只能云端用，或者根本跑不动，现在开源社区直接把前沿能力打包成能在自己机器上长期跑的东西。长程任务、复杂推理、agent工作流，都能本地闭环。最关键的是这不是简单粗暴的量化，是保留了模型推理效率的优化。 Kimi本来就因为“少过思考”而强，现在本地版还能继承这个优点。

译Unsloth 将 1 万亿参数的 Kimi K2.7 Code 通过动态 2-bit 量化压缩 48% 至 325GB，重要层保持更高精度。在 330GB RAM/VRAM 配置下，推理速度超过 40 tok/s；全精度版本需 610GB。该方案使这一大型 coding 模型能在本地长期运行，支持长程任务、复杂推理和 agent 工作流，且保留了“少过思考”的推理效率优势。

Alibaba Cloud@alibaba_cloud · 6月15日15

From enterprise AI to cloud and data innovation, ATxEnterprise2026 was an incredible week of conversations and collaboration. Thanks to everyone who visited the Alibaba Cloud Singapore booth. A special highlight was our Qwen-powered AI business card activation, which earned us the Crowd Magnet Award!

译从企业AI到云与数据创新，ATxEnterprise2026是一场充满对话与合作的精彩一周。感谢所有到访阿里云新加坡展台的朋友。其中的亮点是我们的Qwen驱动AI名片激活，为我们赢得了人气磁石奖！

小互@xiaohu · 6月15日55

AMD 推出了一款和Mac mini 大小差不多的本地 AI 开发平台对标英伟达的 DGX Spark（GB10） 128GB 统一内存，无需联网可在本地跑最高 2000 亿参数的大模型所有模型运行环境都配置好了，宣称：从开机到出 token 只要几分钟... 能跑GPT OSS 120B、Qwen 3.5 122B、Qwen 3.6B、GLM 4.7 Flash 30B等模型配置置带 Wi-Fi 7、蓝牙 5.4、10GbE 有线网口、4 个 USB-C 口（其中一个用于供电）、一个 HDMI 2.1b 输出。售价 3999 美元起

译AMD发布Mac mini尺寸本地AI开发平台，对标NVIDIA DGX Spark。配备128GB统一内存，无需联网可本地运行最高2000亿参数大模型，环境预配置，开机几分钟可出token。支持GPT OSS 120B、Qwen 3.5 122B、Qwen 3.6B、GLM 4.7 Flash 30B等模型。接口含Wi-Fi 7、蓝牙5.4、10GbE、4个USB-C、HDMI 2.1b。售价3999美元起。

Alibaba Cloud@alibaba_cloud · 6月15日17

Agentic AI needs infrastructure that can keep up. Migrate to Alibaba Cloud and get an AI-ready platform built for intelligent automation at scale, at up to 50% less than what you’re paying now.#AgenticAI #MigrateAndSave #AlibabaCloud 👉 https://int.alibabacloud.com/m/1000414312/

译Agentic AI需要能够跟上步伐的基础设施。迁移到阿里云，获得一个为大规模智能自动化构建的AI就绪平台，成本比你现在支付的最高减少50%。 #AgenticAI #MigrateAndSave #阿里云 👉 https://int.alibabacloud.com/m/1000414312/

Orange AI@oran_ge · 6月14日73

一直想找个画架构图的趁手的兵器这个 skill 很好比大模型默认的审美好多了

译Oran Ge推荐一个用pi+DeepSeek绘制架构图的skill。该skill无需生图模型，通过LLM将自然语言描述转为结构化JSON，再由Node.js渲染器用纯几何算法生成SVG，最终注入为自包含HTML。仓库：https://github.com/tt-a1i/archify。用户评价其审美优于大模型默认输出。

swyx@swyx · 6月14日18

Last chance to fill out the annual AI Engineering Survey this weekend and win great Vercel + Notion + AIE tix! link below we had @devinai analyze registered attendee list and output a live chart of the people coming to the conference. it ended up being the single best data driven storytelling i've ever seen on what kind of community we are gathering in two weeks. survey link here! http://ntn.so/ai-survey no lurking, fill it out pls

译swyx发出最后呼吁，2026年AI工程调查（AI Engineering Survey）本周末截止。本次调查由Notion和Vercel联合赞助，填写者可赢取Vercel、Notion及AI Engineer大会门票。组织方使用Devin分析了已注册参会者名单，生成了参会社区实时图表，被认为是最具数据驱动力的社区展示。调查结果将在AI Engineer大会主舞台公布。调查链接：ntn.so/ai-survey。

MiniMax (official)@MiniMax_AI · 6月14日42

Love to see it! 🚀 One day in and the community is already shipping optimizations for faster decode. 🥳

译Love to see it! 🚀 一天过去，社区已经提交了解码加速优化。🥳

OpenRouter@OpenRouter · 6月14日70

Introducing the Fusion API, the smartest compound model in the market. Fusion achieves Fable-level intelligence at half the price. How it works 👇

译推出Fusion API，市场上最智能的复合模型。 Fusion以一半的价格实现Fable级别的智能。工作原理如下👇

meng shao@shao__meng · 6月13日46

为大规模训练 Composer 模型，Cursor 团队构建了始终运行的 Agent 舰队系统，本质是一个 Loop，实现数千个 Agent 的协同工作和自我管理 # 系统架构与工作原理主 Agent（Fleet Manager）： · 运行在大型远程机器上，配备本地常用工具 + 一个磁盘文件作为“inbox”（舰队共享收件箱） · 通过 SSH 连接数百台子 Agent 机器，收集状态并写入 inbox · 每轮循环检查舰队健康状况： · 保持健康任务后台运行 · 将故障/异常推送至 Slack 或 PagerDuty · 可主动控制舰队：终止、重启进程，处理瞬时故障子 Agent：数百个并行运行的研究任务 Agent，专注于具体实验。构建基础：基于 Cursor 此前公开的长运行 Agent 研究，赋予主 Agent 多项 Skills，这些技能编码了运行 ML 实验、审查监控结果等的隐性知识。关键设计：使用 Cursor 自身产品，inbox 文件 + 良好 skills 实现状态共享和协调。

译Cursor 团队为训练 Composer 模型构建了一个始终运行的 Agent 舰队系统。主 Agent（Fleet Manager）在远程机器上运行，通过 SSH 连接数百台子 Agent 机器，利用本地工具和磁盘文件“inbox”实现状态共享与协调。每轮循环检查舰队健康，将故障推送至 Slack/PagerDuty，并主动终止或重启进程。子 Agent 并行执行研究实验。系统基于此前长运行 Agent 研究，主 Agent 拥有编码 ML 实验隐性知识的 Skills。核心是使用 Cursor 自身产品，通过 inbox 文件与 Skills 实现大规模 Agent 协同与自我管理。

SemiAnalysis@SemiAnalysis_ · 6月13日63

Congrats to @vllm_project & @lmsysorg for releasing MiniMax M3 428B on both the CUDA & ROCm stack on day 0! MiniMax M3 includes: 🟠 Block sparse attention which is 9x faster prefill over M2.7 🟠 Day 0 open MXFP8 weights 🟠 and Furthermore @Inferact released Day-0 EAGLE3 open weight draft model support Excited to try out the performance on MiniMax M3!

译祝贺 @vllm_project 和 @lmsysorg 在 CUDA 和 ROCm 堆栈上于第 0 天发布 MiniMax M3 428B！MiniMax M3 包含： 🟠 块稀疏注意力，预填充比 M2.7 快 9 倍 🟠 第 0 天开放 MXFP8 权重 🟠 此外，@Inferact 发布了第 0 天 EAGLE3 开放权重草稿模型支持期待尝试 MiniMax M3 的性能！

Rohan Paul@rohanpaul_ai · 6月13日45

NVIDIA just posted the first agentic AI benchmark results where GB300 NVL72 runs up to 20x more coding agents per megawatt than H200. Older inference benchmarks mostly ask how fast a system can produce tokens after one prompt. AgentPerf from Artificial Analysis, asks a harder question: how many agents can run at the same time while still feeling responsive. It tests a harder workload than normal LLM serving because an agent is not one request and one answer, but a long chain of model calls, code edits, command runs, tool delays, and growing context. The benchmark replays real coding-agent paths from public repos across 12+ programming languages, with request lengths from 5K to 131K tokens and an average near 27K tokens. NVIDIA says GB300 NVL72 reaches 61.4K concurrent agents per megawatt at the lowest service tier, while H200 reaches 2.6K. The gain comes from 72 GPUs acting like one rack-scale machine through NVLink, plus software that spreads MoE expert work, overlaps communication with compute, and keeps batches large. @NVIDIAAIDev

译NVIDIA 首次在 AgentPerf（由 Artificial Analysis 开发）中评测智能体 AI。该基准测试的不是传统 token 生成速度，而是每兆瓦可同时运行且保持响应性的编码智能体数量。工作负载模拟真实编码智能体路径（长链模型调用、代码编辑、命令运行、工具延迟、增长上下文），涵盖 12+ 编程语言，请求长度 5K–131K tokens（平均 27K）。结果：GB300 NVL72 在最低服务层每兆瓦达 61.4K 并发智能体，H200 仅为 2.6K（20 倍提升）。性能提升源于 72 GPU 通过 NVLink 组成的机架级系统，配合软件优化（MoE 专家分布、通信与计算重叠、大批量保持）。

Chubby♨️@kimmonismus · 6月13日49

I had already wondered how Apple manages to perform inference at Google while simultaneously protecting their privacy, essentially their unique selling point. The answer: the heaviest requests run on Blackwell B200s inside Google Cloud, with NVIDIA's Confidential Computing encrypting the data while it's processed, so neither Google nor Apple can see it. "NVIDIA Confidential Computing provides a hardware-based security layer for accelerated AI workloads. The technology protects data while it’s being processed by isolating workloads in trusted execution environments and enabling systems to cryptographically verify that the infrastructure has not been tampered with before any sensitive data is sent to the server."

译Kim解释Apple如何在Google Cloud上执行推理时保护隐私：最重的请求运行在Google Cloud的Blackwell B200s上，利用NVIDIA Confidential Computing提供基于硬件的安全层，将工作负载隔离在可信执行环境中加密处理数据，确保Google和Apple都无法看到数据。

Rohan Paul@rohanpaul_ai · 6月13日66

The Information: Anthropic is reportedly moving from renting cloud compute to leasing and managing data centers itself, with more than 1GW of planned U.S. capacity and Google potentially backing the lease payments. The old model is simple: Anthropic pays cloud providers for GPUs or custom chips, but the cloud company controls the building, power, networking, cooling, and much of the hardware schedule. The new model puts Anthropic closer to the factory floor of AI, where data centers are not office buildings but power-heavy machine rooms built to feed training and inference systems around the clock. To give context of its current situation, until now, Anthropic’s compute strategy has mostly run through cloud providers, with over 10GW of server rentals committed, including a $200 billion Google agreement. The company has also locked in large cloud deals with Akamai, AWS, CoreWeave, and Fluidstack, covering Amazon’s Trainium hardware and a $50 billion Fluidstack partnership. It has also expanded its data center team and signed a SpaceX/xAI lease for the whole Colossus 1 data center at $1.25 billion a month, plus Colossus II space.

译Anthropic正从租用云算力转向自建数据中心，计划在美国部署超1GW容量，Google可能为其租赁付款提供财务担保。此前Anthropic已承诺超10GW云服务器租赁，包括与Google的2000亿美元协议，以及Akamai、AWS、CoreWeave、Fluidstack的大型合作（含500亿美元Fluidstack合作、AWS Trainium硬件）。此外，Anthropic以每月12.5亿美元租下xAI/Colossus I数据中心全部空间，并租用Colossus II。此举旨在通过自控服务器降低长期计算成本。

OpenRouter@OpenRouter · 6月12日31

WSJ: OpenRouter provides a bundle of strategies that you can use to reduce inference costs, which our customers use every week. https://www.wsj.com/tech/ai/the-ai-price-war-is-here-piling-pressure-on-openai-and-anthropic-86e1d21b?st=Jm3E6f&reflink=article_copyURL_share Read about what shipped this week in our Cost Reduction Month thread: https://x.com/OpenRouter/status/2064011848823816419

译OpenRouter宣布本月为“成本降低月”，计划每周至少发布一项降低推理成本的功能。据WSJ报道，OpenRouter提供一系列降本策略，帮助客户应对AI模型突破后常见的成本压力。引用数据显示，过去三年里重大技术突破后往往伴随成本飙升。首批功能已在本周上线，后续清单将持续更新。OpenRouter旨在通过持续优化推理开销，缓解OpenAI、Anthropic等大模型厂商的定价压力。

SemiAnalysis@SemiAnalysis_ · 6月12日44

Alongside the launch of our H100 1-Click Rental Index, we wrote up what the GPU rental market actually looks like in early 2026, and the headline is that the spot market for compute has gone from "finally cooling off" in October to a hard squeeze again, in roughly five months. (1/4) 🧵

译伴随着我们的H100 1-Click租赁指数的发布，我们撰写了2026年初GPU租赁市场的实际状况，标题是：计算现货市场从十月的“终于冷却”到大约五个月后再次出现硬性挤压。(1/4) 🧵

AYi@AYi_AInotes · 6月12日54

http://x.com/i/article/2065392505554677760 # Claude、Google 总让你验证、登录异常？先查查你的网络 IP 有多脏——保姆级验货三件套，3 个网页全搞定真正决定账号生死的根本不是 CPU 内存，我把实测有效的 IP 验货流程整理成了 3 个免费网页的 SOP，30 秒就能验完，照着抄就行。最近 Fable 5、Codex 这波 AI 工具太猛，身边一堆人开始折腾 VPS——要么跑 Claude Code、Codex 这类需要长期在线的活，要么登 Claude、Google 这些对网络环境挑剔的海外账号。但我发现，大部分人买 VPS 的姿势是错的：盯着几核几 G 比半天，唯独不看那台机器的 IP 是什么货色。这篇是一份保姆级指南，把我自己挑机器的全套流程摊开给你：怎么用 3 个免费网页、30 秒验出一台 VPS 的底细，怎么看懂结果，再到怎么一步步买。全程不用写一行命令，跟着点就行。文章最后有一盆冷水，告诉你什么情况下根本不用买。 ## 先搞清楚：为什么 IP 成色比配置重要跑 AI 工具、登海外账号，真正决定生死的不是配置，是 IP 的成色。配置买大了顶多浪费点钱；IP 买错了，账号说没就没。因为 Claude、Google、PayPal 这些服务在你登录时，会看你的 IP 是什么类型——是真实住宅宽带，还是一眼能认出的机房 IP，是不是一堆人共用的代理池。打个比方：机房 IP 就像穿着工服进小区，门禁一眼认出你不是住户；共享代理池更糟，等于一把钥匙复制了几百份发出去，里面任何一个人干过坏事，账都记在这把钥匙头上。而住宅 IP，就是这个小区里一个正常住户的固定住址。 ## 核心：验货三件套（手把手）那怎么知道一台 VPS 的 IP 是哪一种？教你三个网页，全部免费、打开就能用。下面拿我手上一台真实机器——VoyraCloud 的住宅 IP 服务器、华盛顿节点——一步步走给你看。第一步 · Scamalytics 查「风险分」打开 scamalytics.com，把要查的 IP 粘进搜索框，回车。它会给你一个 0-100 的 Fraud Score（风险分）——越低越好，这就是各大平台风控眼里你的"信用分"。往下滚还能看到这个 IP 是不是被标成机房、有没有上黑名单。我这台的结果：Fraud Score 0，Low Risk，外部黑名单全部 No。0 分，基本是能拿到的最干净结果。怎么看：如果你查自己现在用的代理或便宜 VPS，分数飙到几十、标签是 high risk 或 datacenter，那就是平台眼里的"高危身份"。第二步 · ipinfo 查「出身」打开 ipinfo.io，在地址后面接上要查的 IP。重点看两处：一是 ASN / 运营商和 AS Type——是 ISP（运营商）还是 hosting（机房）；二是 Anonymization 那栏——VPN / Proxy / Tor / Hosting 是不是都为 No。我这台的结果：AS Type 是 ISP、连接类型 dsl、VPN / Proxy / Tor / Hosting 全部 No，归属华盛顿。怎么看： AS Type=ISP + 连接类型 dsl，说明它在平台眼里就是一条真实的住宅宽带线，而不是数据中心。这正是"住宅 IP"和便宜机房 VPS 最本质的区别。第三步 · check-host 查「在线和延迟」打开 check-host.net，输入 IP，选 Ping，开始检查。它会调动全球几十个国家的节点同时去 ping 这台机器。看两件事：丢包（4/4 就是零丢包）和延迟（rtt）。我这台的结果：所有节点 4/4 零丢包，美国境内延迟很低——纽约 8ms、亚特兰大 16ms、迈阿密 30ms、洛杉矶 59ms。怎么看：全球节点都通且稳，说明这台机器 7×24 在线、线路质量好，长期挂 Claude Code、Codex、AI Agent 这类任务不容易掉。 ## 三件套速查表 ## 怎么买（保姆级购买流程）验货方法会了，如果你确认要入手一台住宅 IP VPS，下面是完整购买流程，第一次买的照着走：第 1 步 · 打开 voyracloud.com 注册账号第 2 步 · 进「住宅 IP 服务器」产品页（注意别选成普通云 VPS）第 3 步 · 地区选华盛顿节点；套餐按需选个人测试 / 跑单个 AI 工具，选轻量配置就够，要长期跑多个任务再往上加。第 4 步 · 计费周期：年付 7 折、半年付 8 折自动立减不用券，趁 Mid Year Sale（6/9–6/30）开一台长期用更划算。第 5 步 · 付款后在后台拿到 IP、账号密码，SSH 或远程桌面连上就能用 ## 一盆冷水（必须先泼）第一，IP 干净不是免死金牌。环境只是风控的一部分，账号本身行为有问题，该封还是封。谁跟你说"保证不封""绝对安全"，谁就是在骗你。第二，别盲目堆配置。住宅 IP VPS 的价值在 IP 成色，不在算力。个人用途，轻量套餐跑 AI 工具、登账号完全够，钱花在刀刃上。 ## 谁该买，谁不用买 - 只是建站、跑个博客：普通机房 VPS 就够了，别多花钱买住宅 IP。 - 要跑 Claude Code / Codex / AI Agent 这类长期在线任务，或登 Claude / Google / TikTok 这类对环境敏感的海外账号、做跨境：IP 成色是刚需，这时候住宅 IP VPS 才值。 ## 最后留个作业：把你现在用的 VPS 或代理 IP 丢进 Scamalytics 查一下，评论区报你的分数和标签。我猜不少人会被自己的"信用分"吓一跳。这次实测用的是 @VoyraCloud 的住宅 IP 服务器（华盛顿节点），年中活动 Mid Year Sale 6/9–6/30 进行中，年付 7 折、半年付 8 折。 https://www.voyracloud.com/?ref_code=KFET6RAJ \#VoyraCloud \#住宅IP \#VPS \#AI工具 \#ClaudeCode （本篇与 VoyraCloud 合作，文中所有查询结果都是可复现的公开数据，你可以自己验证。） ## 实测数据汇总（真实采集，可复现）

译指南强调IP成色比配置更重要，提供3个免费网页的验货SOP：Scamalytics查Fraud Score（实测0分，Low Risk，黑名单全No）；ipinfo查AS Type（实测为ISP，连接类型dsl，VPN/Proxy/Tor/Hosting均为No）；check-host查全球丢包和延迟（所有节点4/4零丢包，美境内延迟8-59ms）。推荐VoyraCloud住宅IP VPS（华盛顿节点），年中促销（6/9-6/30）年付7折、半年付8折。提醒：IP干净不是免死金牌，账号行为同样重要；普通建站无需住宅IP。

Alibaba Cloud@alibaba_cloud · 6月12日55

What does it take to power the next generation of intelligent agents? At the Qwen Conference, Dr. Feifei Li, CTO and President of International Business at Alibaba Cloud, shared the four cornerstones driving agentic applications: Models, Agentic Cloud, Tools and Services, and Performance at Scale. Together, these pillars enable agents to reason, act autonomously, leverage tools like coding to accomplish complex tasks, and operate effectively at scale. #AlibabaAI

译驱动下一代智能体需要哪些能力？在Qwen Conference上，阿里云CTO兼国际业务总裁李飞飞博士分享了驱动智能体应用的四大基石：模型、智能体云、工具与服务、规模化性能。这些支柱共同使智能体能够推理、自主行动、利用编码等工具完成复杂任务，并高效规模化运行。 #AlibabaAI

SemiAnalysis@SemiAnalysis_ · 6月12日50

Amazon Bedrock could hit majority of AI business by year end. Token-as-a-service models are reshaping hyperscaler positioning faster than expected.

译Amazon Bedrock 可能在年底前占据大部分AI业务。Token即服务模式正在重塑超大规模云服务商的定位，速度超预期。

swyx@swyx · 6月12日46

the #1 thing that is driving me to build my own vibecoding platform rn is that none of them - and i lov vercel, cloudflare, netlify etc - none of them really close the loop for you in terms of setting you on the right path with errors and pinging you when shit fails (shit always fails) there's way too much "webmaster" infra to setup for every single project and i just want to do it once and for all, instead i'm being asked to npx posthog wizard here and npx arize skills there and it all just needs to be swallowed up into One Thing.

译开发者swyx抱怨Vercel、Cloudflare、Netlify等现有平台未能真正闭环：在你出错或项目失败时，它们不会主动引导你纠正或发送通知。此外，每个项目都需要重复设置大量“网站管理员”基础设施，比如执行npx posthog wizard、npx arize skills等。swyx表示厌倦了这种零散配置，希望将所有功能整合到一个平台中，一次搞定。

karminski-牙医@karminski3 · 6月12日50

魔法! DeepSeekV4 上下文内存压缩到1/10! 大家都知道 DeepSeekV4 是支持1M上下文的, 而且经过了极度优化, 如果要真的用到1M上下文, 显存占用只需要10G左右, (对比之下 DeepSeek-V3.2 大概需要84G显存). 然后我刚看到了FlashMemory这个论文, 直接能把显存占用压到 1.3GB! 甚至输出效果不降反升! 哥们你骗兄弟可以, 骗自己就没意思了, 真的吗? 压缩后反而性能上升? 我赶紧看了论文细节: 咱们先复习一下传统做法: 模型每吐出一个字，都要把之前的几十万字重新看一遍(这就是全局注意力). FlashMemory 的做法是: 预测未来需要什么, 它内置了一个神经内存索引器（Neural Memory Indexer, 其实就是个小模型了），能够主动预判接下来生成内容时需要用到历史文本里的哪些片段. 然后预先准备好这些片段, 接下来只要做到命中率超高, 那么这个提升就绝对有效. 即它的假设是, KVCache里面的东西并不是生成每个字的时候全都需要的, 只需要按需提前加载即可. 很像做作业的时候, 把参考资料摊满桌子, 然后优化了一下就是把参考资料需要用到的部分直接拍照, 用的时候看照片就行了. 那么听上去很简单, 但实际的难点在于, 训练一个专用的索引器小模型, 需要把 DeepSeek-V4模型加载到显存里一起炼. 相当耗费算力. 于是这篇论文第二个亮点来了, 它搞了个解耦训练. 他们把这个索引器当成一个标准的"双编码器（Dual-encoder，类似做搜索推荐的模型）"来单独训练. 在这个过程中，根本不需要把庞大的 DeepSeek-V4 基座模型加载到显存中. 这让训练成本断崖式下降，且兼容标准的检索（Retrieval）训练框架. (简单来讲就是它是通用方法训练的, 通过query预测需要检索哪些长句子. 所以其实是个通用模型) 听上去靠谱, 那也只是显存占用少了, 怎么就性能还提高了呢? 答案是注意力降噪. 因为每次只提取和当前生成最相关的记忆块（Chunks）放入显存，模型在运算时就看不见那些无关的冗余信息了.天然地起到了一种"去噪"作用，这也是为什么显存占用少了，模型准确率反而略微提升的原因.官方测试在长文本评测集（如 LongBench-v2 等）上的准确率平均最终提升了 0.6%. (其实还有数据如何逐出显存和如何预测数据实现预加载, 这部分也很棒, 很有启发性. 建议看原论文, 篇幅原因写不下了) 论文地址: http://arxiv.org/abs/2606.09079 项目地址: http://github.com/libertywing/FlashMemory-Deepseek-V4 #FlashMemory #DeepSeekV4 #FlashMemoryDeepseekV4

译DeepSeek-V4支持1M上下文，显存约10GB（对比DeepSeek-V3.2约84GB）。FlashMemory论文进一步将显存压至1.3GB，并在LongBench-v2等长文本评测上准确率平均提升0.6%。核心是神经内存索引器（小模型），通过预测所需历史片段按需加载，实现注意力降噪。训练采用解耦双编码器架构，无需加载DeepSeek-V4基座模型，训练成本大幅下降。论文：arxiv.org/abs/2606.09079；项目：github.com/libertywing/FlashMemory-Deepseek-V4。

meng shao@shao__meng · 6月12日46

Re-Ink：再保险合约智能提取与审核参考实现 @LandingAI 金融 AI Hackathon 冠军之一，针对再保险承保流程中耗时严重的文档处理痛点，构建从 PDF/DOCX 条约文档到可审核合同记录的端到端自动化方案。行业痛点量化再保险承保人约 40% 时间用于行政工作，主要为手动将条约数据（日期、保费、留存限额、参与方名称等）重新录入合同管理系统。Accenture P&C Underwriting Survey 数据显示： · 实际承保工作仅占 30%； · 行政任务占 40%； · 谈判与销售支持占 30%。手动提取存在系统性风险：日期格式多变、参与方名称不一致、金融术语表述差异大，即使在规范环境下错误率仍超 6%（Reisch et al., 2024）。保险公司运营预算中约 14% 用于修复此类手动错误。 Re-Ink 核心方案 Re-Ink 使用 LandingAI 的 Agentic Document Extraction (ADE) 作为文档智能核心，结合 FastAPI + React + PostgreSQL + LangGraph 栈，实现： 1. 上传与结构解析：ADE 自动识别 PDF/DOCX 的章节、表格、标题、段落及嵌入数据。 2. 字段提取：基于预定义 schema（合同标识、日期、金融条款、覆盖细节、参与方信息）进行上下文感知提取，无需正则、模板或格式特定逻辑。 · 优势：能处理“Net Retention”“Ceding Company Retention”等不同表述，或嵌入段落中的留存金额。 · Hackathon 测试（SEC EDGAR 文件）显示，在提取 cedent（分出公司）和 reinsurer（再保险公司）名称时特别可靠，即使出现在叙述性文本中。关键设计：人机协同闭环 · 提取后人工审核：所有数据在 reviewer 确认前不持久化。ReviewForm 展示提取字段，支持编辑、补充或拒绝。 · 事务保障：审批后以单事务创建 Contract 和 Party 记录，任何校验失败均回滚。 · 业务理由：再保险合同涉及数百万美元义务，监管要求人工基于业务上下文验证原文档，AI 输出不可作为合规唯一依据。 · 反馈优化： reviewer 反复修正的模式可指导 schema 或 prompt 迭代。 Agent 层增强 Re-Ink 使用两个 LangGraph Agent（均不负责提取，仅封装业务逻辑）： · 入库前引导 Agent：检查缺失必填字段、日期逻辑矛盾等，并生成建议审核 payload。 · 审批后分析 Agent：StateGraph 包含 validate（完整性检查）和 analyse（LLM 风险与合规标记）节点。两者均支持 offline 模式（确定性 mock），便于端到端自动化测试。

译Re-Ink 是 @LandingAI 金融 AI Hackathon 冠军项目，针对再保险承保中约 40% 时间消耗的行政文档录入痛点，构建端到端自动化方案。核心使用 LandingAI 的 Agentic Document Extraction (ADE) 实现 PDF/DOCX 条约的结构解析与上下文感知字段提取（合同标识、日期、金融条款、参与方等），无需正则或模板。关键设计为人机协同闭环：提取数据经人工审核后以单事务持久化，校验失败即回滚。Agent 层用两个 LangGraph Agent 封装入库前引导与审批后分析逻辑。Academy 调查显示手动提取错误率超 6%，运营预算约 14% 用于修复此类错误。

凡人小北@frxiaobei · 6月12日77

AI 上云

译OpenAI已达成协议收购Ona。其安全云执行技术将帮助Codex在笔记本电脑合盖后继续处理长时间运行的工作，并帮助更多组织在生产环境中安全部署AI智能体。交易完成后，Ona将加入OpenAI Codex团队。主推文：「AI 上云」。

karminski-牙医@karminski3 · 6月12日65

单卡 700TPS! Diffusion Gemma 来了! Google 刚刚发布了 Gemma 小模型的 Diffusion 版本! 大小26B, 激活参数量4B, 最重要的是, 这次还跟 NVIDIA 合作针对4090和5090优化了一波, 5090每秒能生成700+token! 给不知道什么是 Diffusion 大模型的同学科普一下, 传统大模型都是一个字一个字吐出来的, 而 Diffusion 大模型则是如同刮奖一样, 是一片一片出来的, 速度高是 Diffusion 大模型的优点. 有得必有失, 缺点当然就是输出质量没有传统大模型好了. 不过这次的 Diffusion Gemma 还是比之前的 Diffusion 文本大模型好不少, AIME 2026(数学能力测试) 能达到 Gemma4-26B-A4B 的94%的水平, 最差的是tau2 bench(考验Agent能力的测试), 也能达到82%. 这个模型大小 4bit 量化版本 16G 显存就能运行了, 另外, 我突发奇想, 这个模型能不能作为 gemma4 dense 模型的草稿模型用来投机解码? 感兴趣的同学可以试试! #diffusiongemma #gemma #gemma4 #google

译Google 推出 Diffusion Gemma，大小 26B、激活参数量 4B，与 NVIDIA 合作针对 RTX 4090/5090 优化，5090 上速度达 700+ token/s。该扩散文本模型以“刮奖式”并行生成而非逐 token 生成，输出质量略逊但优于此前同类模型：AIME 2026（数学）达 Gemma4-26B-A4B 的 94%，tau2 bench（Agent）达 82%。4bit 量化版仅需 16G 显存即可运行。

Tibo@thsottiaux · 6月12日71

Codex 🤟Ona Beyond excited to work with Johannes and team to build the future.

译OpenAI宣布已达成协议收购Ona，其安全的云执行技术将帮助Codex处理更长期的任务（即使笔记本电脑关闭也能运行），并让更多组织安全地部署智能体。收购完成后，Ona将加入OpenAI的Codex团队。Tibo对此表示“无比兴奋，期待与Johannes及团队共同构建未来”。

Replit ⠕@Replit · 6月12日68

Replit and @databricks integration just leveled up. Build apps where every user sees only what they should. Your HR analyst can build a full org view for the CEO without ever accessing the underlying data. Public preview is open for sign up! Read more → https://replit.com/blog/databricksjune2026

译Replit 与 @databricks 集成刚刚升级了。构建应用，让每个用户只看到他们应该看到的内容。你的 HR 分析师可以为 CEO 构建完整的组织视图，而无需访问底层数据。公开预览已开放注册！了解更多 → https://replit.com/blog/databricksjune2026

Greg Brockman@gdb · 6月12日69

welcome @ona_hq to the team, to help organizations deploy agents securely in production!

译欢迎 @ona_hq 加入团队，帮助组织在生产环境中安全部署智能体！

SemiAnalysis@SemiAnalysis_ · 6月12日67

GPU Racks hitting 400kW? Legacy data centers wont be able to handle it and the grid WILL get throttled. Radiant's 12 month, dirt to AI production, was made possible by bypassing the grid. Head of Infrastructure, Patrick Wohlschlegel tells @JordanNanos https://youtu.be/SQtavfviwrs

译GPU 机架达到 400kW？传统数据中心无法应对，电网将被限流。 Radiant 耗时 12 个月，从零到 AI 生产，正是因为绕过了电网。基础设施主管 Patrick Wohlschlegel 告诉 @JordanNanos

xAI@xai · 6月12日70

Use the @vercel plugin to deploy to production, spin up sandboxes, or build apps with Shadcn.

译Grok Build 插件市场现已进入 Beta 阶段。您可以在终端中使用 MongoDB、Vercel、Sentry、Cloudflare 和 Chrome DevTools 插件进行开发。详情请见 https://x.ai/news/grok-plugin-marketplace

Epoch AI@EpochAIResearch · 6月12日66

The record for computing capacity in a single data center has doubled every 7 months. Colossus 1, Anthropic-Amazon New Carlisle, and Meta Prometheus have each claimed the top spot in turn.

译单个数据中心的计算能力记录每 7 个月翻倍一次。 Colossus 1、Anthropic-Amazon New Carlisle 和 Meta Prometheus 依次登顶。

Chubby♨️@kimmonismus · 6月12日62

Anthropic makes more revenue than any other AI model company right now, and it still can't get its new data centers funded on its own. The Information report says lenders want Google to guarantee the lease payments first. This is the same Google that helps design Anthropic's chips and is selling it around $200 billion in computing power. Odd position for the revenue leader to be in.

译Anthropic 目前营收超过任何其他 AI 模型公司，却仍无法靠自身获得新数据中心的融资。《The Information》报道称，贷款机构要求 Google 先担保租赁付款。正是这家 Google，协助设计 Anthropic 的芯片，并向其出售约 2000 亿美元的计算能力。营收领先者竟处于这种尴尬境地。

OpenRouter@OpenRouter · 6月12日66

Finally a way to see your top humans & top agents at a glance. Includes an API to query all your data over time 📊

译终于能一目了然地查看你的顶级人类与顶级 AI 智能体了。附带一个 API，可随时间查询你所有的数据 📊

🚨 AI News | TestingCatalog@testingcatalog · 6月12日71

OpenAI ❤️ Ona OpenAI acquired Ona, a cloud execution platform for AI agents. > Its secure cloud execution technology will help Codex take on longer-running work, even when laptops are closed, and help more organizations deploy agents securely in production. Managed OpenAI Agents soon?

译OpenAI 已达成协议收购云执行平台 Ona，其安全云执行技术将帮助 Codex 处理更长时任务（即使笔记本关闭也能继续运行），并让更多组织在生产环境中安全部署智能体。收购完成后，Ona 团队将加入 OpenAI 的 Codex 部门，此举或预示着托管 OpenAI 智能体服务的到来。