TestingCatalog News 🗞@testingcatalog · 4月17日

Google is rolling out support for Google AI plans on AI Studio! > Access a range of models in AI Studio, higher limits, and more across Google products > Pay-per-request option provides access to "All models & agents" while Google AI subscription doesn't. Agents on AI Studio? 👀

译Google 正在 AI Studio 上推出对 Google AI 计划的支持！ > 在 AI Studio 中访问一系列模型、更高的限额，以及更多跨 Google 产品的功能 > 按请求付费选项提供对"All models & agents"的访问，而 Google AI 订阅则不提供。 AI Studio 上的 Agents？👀

SemiAnalysis@SemiAnalysis_ · 4月17日51

NVIDIA vLLM NVL72 ADVANTAGE: GB200 NVL72 delivers up to 3x performance compared to B200 on @Kimi_Moonshot 's Kimi K2.5. This is enabled by GB200's scale-up network which allows for frontier inference optimizations like wide expert parallelism. Great work to @rogerw0108 @NVIDIAAIDev @vllm_project @inferact @simon_mo_ ! 🚀 Not only is SGLang optimized for disagg+wideEP but vLLM is optimized too!

译NVIDIA vLLM NVL72 优势：与 B200 相比，GB200 NVL72 在 @Kimi_Moonshot 的 Kimi K2.5 上性能提升高达 3 倍。这得益于 GB200 的纵向扩展网络，支持前沿推理优化，如宽专家并行。向 @rogerw0108 @NVIDIAAIDev @vllm_project @inferact @simon_mo_ 致敬，出色的工作！🚀 不仅 SGLang 针对分解+宽专家并行进行了优化，vLLM 也进行了优化！

SemiAnalysis@SemiAnalysis_ · 4月17日

Curious what's in the PR of almost 1400 kernels? Here we walk through a simple batched GEMM kernel 🟠 Tile size: M128, N16, K256 🟠W4A16: matrix A is INT4 with BF16 scaling factor for every 32 elements, matrix B is BF16 🟠3 pipeline stages 🟠1 CTA MMA 🟠Static scheduler This warp specialized kernel has the following warp roles: 🟠Load A 🟠Load A scaling factor (SF) 🟠Load B 🟠Cast A: Dequantize INT4 to BF16. Waits on Load A and Load A SF 🟠MMA: Performs matmul. Waits on Cast A and Load B 🟠Epilogue: Performs activation computation. Waits on MMA An interesting thing about this kernel is that its MMA uses TS mode due to matrix A dequantization requires CUDA cores, which work on registers instead of TMEM. As shown in our microbenchmarking article, TS mode has slightly lower throughput due to SMEM bandwidth bottleneck. In addition, @cursor_ai also shown that the CUDA core / Tensor Core compute gap also creates bottlenecks. To mitigate these issues, we see the kernel uses pipelining, similar to what Cursor did. Microbenchmarking article: https://newsletter.semianalysis.com/p/dissecting-nvidia-blackwell-tensor Cursor blog post: https://cursor.com/blog/kernels

译FlashInfer开源近1400个TRT-LLM-Gen高性能GPU内核，针对LLM推理优化。以W4A16量化GEMM为例，采用INT4权重与BF16激活，通过3级流水线及Warp专精化（加载、反量化、MMA、Epilogue）提升并行效率。因INT4反量化需CUDA核心处理寄存器，MMA被迫使用TS模式而非TMEM，导致SMEM带宽瓶颈。方案借鉴Cursor设计，通过流水线隐藏CUDA与Tensor Core计算差距，缓解吞吐量损失。

SemiAnalysis@SemiAnalysis_ · 4月17日

NVIDIA has a monopoly. Thomas Sohmers is unbothered. @JordanNanos sits down with the Co-Founder & CTO of @Positron_AI to talk FPGA inference, LPDDR memory, and running 16T parameter models on a single box. @trsohmers Tune in: https://youtu.be/B8O3pLcX2w4

译NVIDIA 拥有垄断地位。Thomas Sohmers 不为所动。 @JordanNanos 与 @Positron_AI 的联合创始人兼 CTO 坐下来讨论 FPGA 推理、LPDDR 内存，以及在单个设备上运行 16T 参数模型。 @trsohmers 收看：https://youtu.be/B8O3pLcX2w4

Epoch AI@EpochAIResearch · 4月17日

Errata: Yesterday, we discovered that some of our chip owner estimates were stale—Oracle's Nvidia compute wasn’t subtracted from "Other" as intended. This inflated “Other” by ~1M H100e, 5% of the overall total. In our corrected figures, hyperscalers hold 71% of world AI compute.

译勘误：昨天，我们发现我们对芯片持有者的部分估算数据已过时——Oracle 的 Nvidia 算力未按预期从"其他"类别中扣除。这使得"其他"类别虚增了约100万 H100e，占总体总量的5%。在我们修正后的数据中，超大规模云服务商持有全球 AI 算力的71%。 [引用 @EpochAIResearch]：五家公司——Google、Microsoft、Meta、Amazon 和 Oracle——目前控制着全球约三分之二的算力，较2024年初的约60%略有上升。许多 AI 实验室（包括 OpenAI 和 Anthropic）几乎完全依赖这些超大规模云服务商来获取算力。

宝玉@dotey · 4月17日

马斯克的 xAI 正在把自己变成 GPU 出租商，第一个客户是估值 500 亿美元的编程工具 Cursor。据 Business Insider 报道，Cursor 计划用 xAI 数万块 GPU 来训练其最新编程模型 Composer 2.5。这笔交易让 xAI 从纯粹的模型开发公司，变成了某种程度上的云计算服务商，和亚马逊、微软、Google 以及近年崛起的 CoreWeave 站到了同一条赛道上。为什么 xAI 突然想出租 GPU？一个关键细节透露了答案：xAI 总裁 Michael Nicolls 上周在内部备忘录中承认，公司 GPU 的模型算力利用率（MFU，衡量训练时 GPU 被有效使用的比例）低得令人尴尬，只有大约 11%。行业正常水平是 35% 到 45%。也就是说，xAI 坐拥 20 万块 Nvidia GPU、号称要扩展到 100 万块，但大部分算力其实在空转。与其闲着，不如租出去回点血。这两家公司的关系不只是买卖。今年 3 月，xAI 刚从 Cursor 挖走了两位产品工程负责人 Andrew Milich 和 Jason Ginsburg，两人现在直接向马斯克汇报。现在 xAI 又把算力卖给 Cursor，一边挖人一边做生意，关系颇为微妙。 Cursor 这边也面临不小的压力。上个月 Bloomberg 报道其正在以约 500 亿美元估值进行融资谈判，但 Anthropic 和 OpenAI 都在猛推自家的编程助手。Cursor 3 月发布的 Composer 2 是基于中国初创公司月之暗面（Moonshot AI）的开源模型微调而来，这次 Composer 2.5 选择在 xAI 的基础设施上训练，算是在算力来源上又多了一条路。 xAI 的基础设施团队最近也不太平，上周刚失去了基础设施负责人 Heinrich Küttler，SpaceX 的 Daniel Dueri 被调来接管计算基础设施。马斯克去年底在全员会上放话说 xAI 会靠更多算力打败 OpenAI 和 Anthropic，但目前看来，比起用好算力，xAI 更擅长囤算力。

译xAI计划向Cursor出租数万GPU用于训练Composer 2.5，标志其从模型开发向云计算服务转型。内部备忘录显示，xAI的GPU利用率仅11%（行业正常35-45%），20万块Nvidia GPU大量闲置，出租旨在回血。双方关系微妙，xAI刚挖走Cursor两位高管。Cursor面临激烈竞争，此前Composer 2基于Moonshot AI模型，现借xAI算力寻求突破。

Satya Nadella@satyanadella · 4月16日

Our Fairwater datacenter in Wisconsin is going live, ahead of schedule. As the world’s most powerful AI datacenter, it will bring together hundreds of thousands of GB200s into a single seamless cluster. Congrats to all the teams who made this possible!

译我们位于 Wisconsin 的 Fairwater 数据中心提前上线。作为全球最强大的 AI 数据中心，它将把数十万台 GB200 整合进一个无缝集群。祝贺所有促成此事的团队！ [引用 @satyanadella]：如果智能是计算的对数……那它始于大量计算！这就是为什么我们扩展 GPU 集群的速度比任何人都快。仅去年一年，我们就增加了超过 2 吉瓦的新容量——大约相当于 2 座核电站的输出。今天我们更进一步，宣布全球最强大的 AI 数据中心，位于 Wisconsin 东南部。 Fairwater 是一个由数十万台 NVIDIA GB200 组成的无缝集群，连接所需的光纤足以绕地球 4.5 圈。它将提供当今世界最快超级计算机 10 倍的性能，实现前所未有的 AI 训练和推理工作负载。对于 AI 训练工作负载，你需要指数级规模的计算。这就是为什么我们将数据中心、GPU 集群和网络设计为一个集成系统。这确保从第一天起，单个作业就能在数千个 GPU 上以指数级规模运行。 Fairwater 使用液冷闭环系统为 GPU 散热，建成后运营无需用水。而且我们将所有消耗的能源与可再生能源相匹配。当然，这只是我们在 70 多个区域启用的多个类似站点之一。除了已在全球 100 多个数据中心部署的 AI 基础设施外，我们还在美国其他地点建设多个相同的 Fairwater 数据中心，为全球规模的模型训练、测试时计算、RL 微调和实时推理提供动力。在这样的时期，人们常常随波逐流，事后才想，我们是怎么走到这一步的？通过 Fairwater，我们正在开辟一条新道路：做艰苦的工程工作，将计算、网络和存储整合到一个高度扩展的集群中，并设计闭环能源系统以满足现实世界的计算需求。并与当地社区合作，确保以可持续、创造新就业机会和扩大机会的方式深思熟虑地完成。我们很高兴看到这在 Wisconsin 落地，而我们才刚刚开始。

DogeDesigner@cb_doge · 4月16日

NEWS: Elon Musk's xAI gets USDA backing in pursuit of FedRAMP High authorization. This unlocks secure, truth-seeking AI for the federal government’s most sensitive workloads and multiple agencies are already piloting it. Grok's Government adoption just got a massive boost.

译消息：埃隆·马斯克的 xAI 获得 USDA 支持，以寻求 FedRAMP High 授权。这使联邦政府最敏感的工作负载能够使用安全、追求真相的 AI，且多个机构已在试点使用。 Grok 的政府采用刚刚获得巨大助力。

SemiAnalysis@SemiAnalysis_ · 4月16日30

to be clear, NVIDIA is NOT a car

译需要明确的是，英伟达不是一辆车

SemiAnalysis@SemiAnalysis_ · 4月16日

Makora uses LLMs to write high-performance, low-level GPU code. But the real play is treating codegen as a tailwind. Assume the models keep getting better, then build the entire platform around that.

译Makora 使用 LLMs 编写高性能、低层级的 GPU 代码。但真正的策略是将 codegen 视为顺风。假设模型持续进步，然后围绕这一点构建整个平台。

karminski-牙医@karminski3 · 4月16日

上一个卖鞋的改行跨度这么大的可能是刘备...(by 微博网友每小痛) 这大概是我今天看到的最抽象的新闻了, 卖鞋的公司Allbirds马上要倒闭了, 然后突然宣布转型, 放弃卖鞋改卖算力, 股价单日上涨了430% (他们是在NASDAQ上市的). 大家都在卖算力他咋暴涨的? 他们要卖给用不了 Amazon/GCP/Azure 的人... 另外给大家截图他们上市时候的股价, 单日最高应该是550左右了, 现在跌到了4左右, 然后单日拉升到了17左右.

译面临倒闭危机的鞋履品牌Allbirds宣布全面转型算力服务，放弃原有鞋类业务，NASDAQ股价单日暴涨430%。该公司瞄准无法使用Amazon、GCP、Azure等主流云服务商的客户群体，试图在算力市场寻找差异化生存空间。此前其股价已从历史高点跌至约4美元，受此消息刺激回升至17美元左右。

Chubby♨️@kimmonismus · 4月16日

What’s always seen in AI development is: 1) Models improve through reinforcement learning and algorithmic breakthroughs. 2) Better chips allow for training larger models and more efficient inference. However, what’s often overlooked is the massive scaling of chip production facilities. This means that not only are better models being trained and better chips developed, but production capacity is being expanded at an unprecedented scale to meet the exponentially growing demand for advanced AI silicon. TSMC is building up to 10 fabs simultaneously in Taiwan while expanding to 12 fabs in Arizona, backed by $52–56 billion in 2026 CapEx alone, a 30% year-over-year jump. Total U.S. investment has reached $165 billion, making it the largest foreign direct investment in American history. This isn’t about producing more chips in volume, it’s about scaling compute density at the 2nm and below frontier, where every new node costs exponentially more per wafer but delivers the transistor budgets AI infrastructure demands. Sometimes I just like to dig into the numbers. I thought this is kinda insane.

译AI发展常被忽视的关键是芯片制造产能的指数级扩张。TSMC正同时在中国台湾建设10座、亚利桑那州规划12座先进晶圆厂，2026年资本支出达520-560亿美元，美国总投资达1650亿美元。这不仅是产量扩张，更是为在2nm及以下节点实现计算密度 scaling，满足AI基础设施对晶体管数量的爆发式需求，尽管每片晶圆成本呈指数级增长。

Rohan Paul@rohanpaul_ai · 4月16日

Allbirds announces stunning pivot from shoes to AI, stock explodes more than 300% The company said it is leaving behind its original business after selling its shoe-related IP and other assets for $39M, while the Allbirds brand itself will keep operating under another owner. Its new plan is buying high-performance, low-latency compute hardware and leasing that capacity to customers that cannot get dependable access elsewhere. --- cnbc. com/2026/04/15/allbirds-bird-stock-shoes-ai.html

译Allbirds 宣布从鞋类业务惊人转型至 AI，股价暴涨逾 300% 该公司表示，在以 3900 万美元出售鞋类相关 IP 及其他资产后，将放弃原有业务，而 Allbirds 品牌本身将继续在另一位所有者旗下运营。其新计划是购买高性能、低延迟的计算硬件，并将该算力出租给无法在其他地方获得可靠访问的客户。 --- cnbc. com/2026/04/15/allbirds-bird-stock-shoes-ai.html

Ethan Mollick@emollick · 4月16日

Instead of the gold standard, we can imagine an inference standard of exchange, the FLOP. (As opposed to tokens, this accounts for AI ability) With some AI help, I figure $1 buys roughly 10^17 managed-LLM inference FLOPs. So that $4 coffee would cost half an exaFLOP, choom.

译与其采用金本位，我们可以想象一种推理交换标准，即 FLOP。（与 token 不同，这衡量的是 AI 能力）借助一些 AI 的帮助，我估计 1 美元大约能买到 10^17 次托管 LLM 推理 FLOP。所以那杯 4 美元的咖啡要花费半 exaFLOP，choom。

SemiAnalysis@SemiAnalysis_ · 4月16日

ISSCC 2026: NVIDIA & Broadcom CPO, HBM4 & LPDDR6, TSMC Active LSI, Logic-Based SRAM, UCIe-S and More

AK@_akhaliq · 4月16日46

ClawGUI A Unified Framework for Training, Evaluating, and Deploying GUI Agents paper: https://huggingface.co/papers/2604.11784

译ClawGUI 一个用于训练、评估和部署GUI智能体的统一框架论文: https://huggingface.co/papers/2604.11784

AK@_akhaliq · 4月16日39

Habitat-GS A High-Fidelity Navigation Simulator with Dynamic Gaussian Splatting paper: https://huggingface.co/papers/2604.12626

译Habitat-GS 一种采用动态高斯泼溅的高保真导航模拟器论文: https://huggingface.co/papers/2604.12626

Chubby♨️@kimmonismus · 4月15日

Superintelligence now also available as a podcast Available on all major platforms - Spotify, Apple Podcasts, YouTube, and everywhere you listen. We are bringing you in-depth conversations with the people shaping the AI industry. No hype, no fluff. Just real, unfiltered discussions with founders, researchers, and operators at the frontier. Our first episode is already live: an exclusive interview with Kari Briski, Vice President of Generative AI Software at NVIDIA, recorded live at GTC 2026 in San Jose. We dive deep into Nemotron 3 Super, NVIDIA's 120B parameter hybrid Mamba model, and how it is reshaping enterprise AI architecture. This is just the beginning. Exciting AI startups and some very well-known names in the industry are already lined up. We will announce guests as episodes drop. Subscribe now so you don't miss what's coming.

译Superintelligence正式推出播客节目，已登陆Spotify、Apple Podcasts及YouTube等主流平台。节目摒弃炒作，聚焦AI行业前沿深度对话，与创始人、研究者及从业者真实交流。首期节目为GTC 2026现场录制的NVIDIA生成式AI软件副总裁Kari Briski专访，深入探讨120B参数混合Mamba模型Nemotron 3 Super如何重塑企业AI架构。后续还将陆续推出AI初创公司及行业知名人士的对话。

DogeDesigner@cb_doge · 4月15日

Tesla just taped out the AI5 chip, huge milestone for FSD, Robotaxi & Optimus. • Single AI5 delivers ~5x the real-world compute of a dual AI4 setup • Massive leaps: ~8x compute power, 9x memory & 5x bandwidth vs current gen • One chip matches Nvidia H100 performance for Tesla workloads; dual setup rivals Blackwell, but at way lower cost & power draw • Radically simplified & optimized for edge AI inference (INT4/INT2/FP8 focus), perfect for cars & humanoid robots • Full AI5 computer targets 2,000–2,500 TOPS (vs ~300–500 for AI4) • “AI5 will make the cars almost perfect and greatly enhance Optimus” • “AI5 will punch far above its weight” thanks to Tesla’s tightly co-designed hardware + software stack Built in the USA (TSMC Arizona + Samsung Texas), with Terafab scaling up. Congratulations @elonmusk and @Tesla

译Tesla完成AI5芯片流片，单芯片算力达双AI4的5倍，整体算力提升8倍、内存9倍、带宽5倍。该芯片针对边缘AI推理深度优化，完整算力目标2000-2500 TOPS，单芯片性能匹敌Nvidia H100，双芯片可媲美Blackwell但成本功耗显著降低。AI5将大幅提升FSD、Robotaxi与Optimus性能，由TSMC Arizona与Samsung Texas在美国本土制造。

Ethan Mollick@emollick · 4月15日

Compute constraints are a double bind: On the inference side you need to either (a) raise prices, (b) ration use, and/or (c) serve worse models. This hurts current growth On the training side, you can't train the next gen of models to stay competitive. This hurts future growth

译算力限制是一种两难困境：在推理端，你要么(a)涨价，(b)限制使用，和/或(c)提供更差的模型。这会损害当前增长在训练端，你无法训练下一代模型以保持竞争力。这会损害未来增长

TestingCatalog News 🗞@testingcatalog · 4月15日

Meta has partnered with Broadcom to co-develop next gen MTIA chips that would power AI across Meta apps and services. > Meta Training and InferenceAccelerator

译Meta 已与 Broadcom 合作共同开发下一代 MTIA 芯片，为 Meta 各项应用和服务中的 AI 提供动力。 > Meta Training and Inference Accelerator [引用 @Meta_Engineers]：今天我们宣布与 @Broadcom 扩大合作，共同开发多代下一代 MTIA 芯片。这款定制芯片将有助于为 Meta 所有应用和服务中的 AI 提供动力，确保我们拥有向数十亿人交付个人超级智能所需的大规模计算基础。阅读更多：https://go.meta.me/220372

Epoch AI@EpochAIResearch · 4月15日

Five companies — Google, Microsoft, Meta, Amazon, and Oracle — now control about two-thirds of the world's compute, up slightly from ~60% at the start of 2024. Many AI labs (including OpenAI and Anthropic) depend almost entirely on these hyperscalers for access to their compute.

译五家公司——Google、Microsoft、Meta、Amazon 和 Oracle——目前掌控着全球约三分之二的算力，较 2024 年初的约 60% 略有上升。许多 AI 实验室（包括 OpenAI 和 Anthropic）几乎完全依赖这些超大规模服务商来获取算力。

Rohan Paul@rohanpaul_ai · 4月15日

Older chips are not replaced only because they depreciate. At finer geometries the more advanced chips fail faster from wire movement and melting. But the bigger driver is power: firms replace racks with 2–3x more efficient silicon to grow.

译旧芯片被更换并非只因折旧。在更精细的制程下，更先进的芯片会因导线移动和熔化而更快失效。但更大的驱动因素是电力：企业用效率高出2-3倍的硅片更换机架以实现增长。

Rohan Paul@rohanpaul_ai · 4月15日

Cheap software does not reduce software volume; it increases it. Gartner predicts that by 2026, 40% of enterprise applications will feature AI agents, up from less than 5% in 2025. This is Jevons Paradox applied to enterprise software. And it's creating a flood. Superblocks provides the control layer that sits between fast AI app creation and the company systems those apps need to touch. It treats AI app generation as the easy part and enterprise control as the real product. Every team with a problem and a prompt is now shipping internal tools. Each of these apps touches production data. Each one has its own auth logic, or none at all. Each one lives outside the security perimeter IT spent years constructing. Companies used to have a shadow IT problem. Now they have a shadow app economy. Superblocks provides a very specific enterprise AI stack: let business teams generate internal apps with AI, but keep authentication, integrations, permissions, audit logs, and deployment control in IT’s hands. The key design choice is that apps do not directly touch company systems, because Superblocks sits in the middle as the control layer. 🧵 1.

译杰文斯悖论在AI软件领域再现：开发成本降低反而导致企业应用数量激增。Gartner预测2026年40%企业应用将集成AI代理，催生"影子应用经济"——各团队快速构建的内部工具带来安全、认证、权限等治理风险。Superblocks提供控制层方案，让业务团队用AI生成应用，同时将认证、集成、权限、审计等控制权保留给IT部门，通过中间层架构隔离应用与公司核心系统。

AK@_akhaliq · 4月15日39

Attention Sink in Transformers A Survey on Utilization, Interpretation, and Mitigation paper: https://huggingface.co/papers/2604.10098

译Transformers中的注意力下沉关于其利用、解释与缓解方法的研究综述论文: https://huggingface.co/papers/2604.10098

Chubby♨️@kimmonismus · 4月14日

Leaked memo: OpenAI's Chief Revenue Officer Denise Dresser just dropped a four-page internal memo that reads less like corporate strategy and more like a declaration of war against Anthropic. Leaked memo-highlights screenshotted. The key accusations: Anthropic allegedly inflates its $30 billion run rate by roughly $8 billion through aggressive accounting, failed to secure enough compute infrastructure, and builds its entire narrative on "fear and restriction." Dresser, the former Slack CEO who recently absorbed COO Brad Lightcap's duties, also revealed that OpenAI's new Amazon Web Services partnership has generated "staggering" enterprise demand, while acknowledging that its own Microsoft relationship has limited growth. The memo also introduces OpenAI's new model codenamed "Spud," an agent platform called "Frontier," and a deployment engine called "DeployCo," all designed to lock enterprises into OpenAI's ecosystem.

译OpenAI首席营收官Denise Dresser的泄露备忘录指控Anthropic通过激进会计手段虚增约80亿美元收入，并存在计算基础设施不足及"恐惧营销"问题。Dresser承认与Microsoft的合作限制了增长，但透露与AWS的新合作带来惊人企业需求。备忘录还披露了代号Spud的新模型、代理平台Frontier及部署引擎DeployCo，旨在通过产品矩阵锁定企业客户。

宝玉@dotey · 4月14日72

http://x.com/i/article/2043952912674463744 # 为什么你的"AI 优先"战略可能大错特错？今天刷到《Why Your”AI-First”Strategy Is Probably Wrong》这篇文章（原文翻译我放到下面）几次，说点不一样的。与其说 AI First，不如说软件工程 First。这篇文章看着在讲 AI，底下全是软件工程。抛开后面讲组织和人的部分，原文前半段的重点简单总结一下： AI 时代，人成了瓶颈。 PM 花几周做需求，AI 两小时就能实现，PM 成了瓶颈。QA 测三天，AI 写代码只要两小时，QA 成了瓶颈。团队 25 个人，对手几百人，人力也是瓶颈。怎么办？把人从链条里拿掉。 AI 写代码、AI 审查代码、AI 跑测试、AI 部署上线、AI 监控线上状态，出了问题自动回滚。每天定时扫描日志，自动发现问题、分配任务、跟踪修复。整条流水线跑起来，人只需要在关键节点做判断。至于文中提到的统一代码库，锦上添花，和 AI First 关系不大。有当然更好，没有也有很多替代方案。整套方案听下来，逻辑自洽，效果也漂亮：一天部署好几次，功能当天上当天撤，数据说了算。 ## 先对照自己，想五件事但先别急着照搬，先对照自己的情况想几件事：第一，自动化测试。 AI 改完代码，你得有办法确认它没搞崩别的功能。测试覆盖不够的话，每次 AI 提交代码你都得人工回归一遍，那速度根本快不起来。第二，CI/CD 流程。从提交代码到部署上线，中间的测试、审查、发布、回滚，是不是全自动跑通了？这条流水线不通，AI 写得再快，代码也堆在那儿等人手动处理。第三，A/B 测试和线上监控。新功能上线之后效果好不好，得有数据说话，效果不好得能随时关掉。没有这套机制，AI 一天产出五个功能，你都不知道哪个该留哪个该砍。第四，任务管理。任务得拆到合适的粒度，生命周期得跟踪得住。一个大而模糊的任务丢给 AI，现在的能力还啃不动。多个 Agent 同时干活的时候，谁做哪个、哪个优先、做到什么程度，这些都得有地方管。第五，系统架构。架构太乱或者压根没有架构的代码，AI 维护起来跟人一样头疼。上下文塞满了还是搞不清边界在哪，改一处崩三处。这几条里如果有做不到的，就得靠人去补。补不上，AI First 就只是一句口号。 ## 什么场景适合，什么不适合但假设你全做到了，就能 AI First 了？还是不行。这套玩法只适合一部分场景。适合的场景：后端逻辑为主、界面不复杂的产品，比如 API 服务、数据处理平台、内部工具。功能好不好，跑一下数据就知道，不需要人去盯着每个像素。原文里的就是个 Agent 平台，本质上是后端驱动的产品，可以用这套打法。再比如早期产品快速试错，功能上了不行就撤，用户预期本来就没那么高，AI 的速度优势能充分发挥。不适合的场景： - UI 密集的产品。自媒体天天喊前端已死，但你让 AI 做个复杂界面试试，各种易用性问题、交互细节、视觉还原，它搞不定的。否则马斯克靠 AI 早就改了不知道改版 X 多少次了。 - 功能质量敏感的产品。 Anthropic 和 OpenAI 不知道 AI First 吗？他们敢在 Claude Code 和 Codex 上这么搞吗？让 AI 全自动迭代自家的核心产品，用户不骂死才怪。 - 安全性要求高的场景。银行系统、在线交易平台，AI 代码出个差错，那可不是回滚能解决的。 ## AI First 的真正终点 AI First 的方向没有错，它代表的是一种意识的转变：每做一个决策的时候，想一想这件事能不能让 AI 来做，如果不能，缺什么条件，怎么把条件补上。但这种意识要落地，靠的不仅是买几个 AI 工具的订阅，还需要把基础搭好。测试、CI/CD、监控、架构、任务管理，这些做扎实了，AI 的能力自然能释放出来。做不好，加再多 AI 也是在沙子上盖楼。从这个角度看，AI First 的终点未必是让 AI 干所有的活，而是借着这股力量，把你一直想做但没动力做的工程改进，真正推动起来。仰望星空是好的，但也还要脚踏实地。 ## 为什么你的“AI 优先”战略可能大错特错【翻译】作者：Peter Pang 原文：Why Your “AI-First” Strategy Is Probably Wrong 我们 99% 的生产环境代码都是由 AI 编写的。上周二早上 10 点，我们上线了一项新功能，中午进行了 A/B 测试，结果下午 3 点就把它砍掉了，因为数据表现不佳。下午 5 点，我们又发布了一个优化后的版本。如果放在三个月前，这样一个完整的迭代周期至少需要六个星期。我们能做到这一步，绝不是因为在代码编辑器里装了个 Copilot 插件那么简单。我们彻底打破了原有的工程研发流程，并围绕 AI 进行了全面重构。我们改变了做计划、写代码、测试、部署以及团队组织的方式。我们甚至重塑了公司里每个人的角色。 CREAO 是一个 AI 智能体 (AI Agent) 平台。公司有 25 名员工，其中 10 名是工程师。我们在 2025 年 11 月开始研发智能体，就在两个月前，我从零开始，彻底重组了整个产品架构和工程工作流。 OpenAI 在 2026 年 2 月发布了一个新概念，完美总结了我们一直在做的事情。他们称之为脚手架工程 (Harness Engineering，(注：Harness 原意为马具或安全带，在软件工程中通常指测试支架或脚手架，这里指为 AI 提供工作环境和约束条件的系统工程))：工程团队的核心工作不再是写代码了，而是赋能智能体，让它们去完成有价值的工作。当系统出错时，解决办法绝不是“再试一次”或“再努力点”。真正的解决思路是去问：AI 缺失了什么能力？我们该如何让这个能力对智能体变得清晰可见，并强制它们去执行？我们自己摸索出了这个结论，只是当时还没有一个现成的名词来定义它。 ## “AI 优先”不等于“使用 AI” 大多数公司只是把 AI 强行塞进现有的工作流里。工程师打开 Cursor 辅助写代码，产品经理用 ChatGPT 帮写需求文档，测试团队 (QA) 尝试用 AI 生成测试用例。整个工作流程还是老样子。效率确实提升了 10% 到 20%，但本质上的结构没有任何改变。这顶多叫“AI 辅助” (AI-assisted)。真正的“AI 优先” (AI-first)，意味着你要基于“AI 是主力构建者”这一核心假设，彻底重新设计你的流程、架构和组织。你要停止问“AI 能怎么帮助我们的工程师？”，转而问“我们该如何重构一切，让 AI 去做构建工作，而工程师只负责指引方向和判断好坏？” 这两种思路带来的差距，是指数级的。我看到很多团队自称“AI 优先”，却依然在跑原来的敏捷冲刺周期，用着一样的 Jira 任务看板，开着一样的每周站会，还要经过一样的 QA 验收签字流程。他们只是把 AI 强加进了现有的循环里，而没有重新设计这个循环。这种现象的一个典型表现，就是现在常说的凭感觉编程 (Vibe Coding)。打开 Cursor，不断调整提示词直到代码能跑通，提交代码，然后不断重复。这种方式只能用来做原型验证。一个真正用于生产环境的系统，必须是稳定、可靠且安全的。当 AI 来写代码时，你需要建立一个能兜底并确保这些特性的系统。你需要构建的是系统，而那些提示词是用完即弃的。 ## 我们为什么必须改变去年，我仔细观察了团队的工作方式，发现了三个差点要了我们命的瓶颈。产品管理的瓶颈我们的产品经理过去要花好几周的时间来调研、设计和详细规划产品功能。几十年来，产品管理一直都是这么运作的。但是，AI 智能体实现一个功能只需要两小时。当开发时间从几个月被极度压缩到几个小时，那长达数周的规划周期就成了最大的拖油瓶。花几个月去构思一个想法，然后只用两小时就把它做出来，这太不合逻辑了。产品经理必须进化成具备产品思维的架构师，以快速迭代的节奏工作，否则就得退出开发环节。产品的设计必须通过“快速原型 - 发布 - 测试 - 迭代”的循环来完成，而不是靠委员会开会去评审那些长篇大论的需求文档。测试 (QA) 的瓶颈情况如出一辙。AI 智能体花两小时上线一个功能后，我们的 QA 团队要花好几天去测试各种边缘和极端情况。开发两小时，测试三天。于是，我们用 AI 构建的自动化测试平台取代了人工 QA，用 AI 来测试 AI 写的代码。验证的速度必须赶上开发的速度。否则，你只是在离旧瓶颈十英尺远的地方，又建了一个新瓶颈而已。人力的瓶颈我们的竞争对手有 100 倍甚至更多的人在做同样的工作，而我们只有 25 人。我们不可能靠疯狂招人来赶超他们，我们只能靠“重新设计”来杀出一条血路。我们需要把 AI 深度贯穿到三个系统中：如何设计产品、如何实现产品、以及如何测试产品。如果其中任何一个环节依然靠纯人工，它就会拖垮整个流水线。 ## 一个大胆的决定：统一架构我得先拿代码库开刀。过去我们的架构散落在多个独立的系统中。修改一个功能可能需要同时动三四个代码仓库。从人类工程师的角度来看，这勉强还能应付。但从 AI 智能体的视角来看，这就像个黑盒。智能体看不到全貌，无法推理跨服务的连锁反应，也不能在本地跑集成测试。我不得不把所有代码整合到一个大型代码库 (Monorepo) 中。原因只有一个：让 AI 能纵览全局。这就是脚手架工程理念在实际中的运用。你把越多部分的系统转化为 AI 可以检查、验证和修改的形态，你获得的杠杆效应就越大。碎片化的代码库对 AI 是隐形的，而统一的代码库对它们来说则是清晰易读的。我花了一周的时间设计新系统：规划阶段、实施阶段、测试阶段、集成测试阶段。接着，我又用了一周时间，利用智能体帮忙重构了整个代码库。 CREAO 本身就是一个智能体平台。我们用自己的智能体，重建了运行智能体的平台。如果一个产品能自己构建自己，那就说明这条路走得通。 ## 我们的技术栈下面是我们的技术栈，以及每个模块的作用。底层基础设施：AWS (亚马逊云服务) 我们运行在 AWS 上，使用了自动扩缩容的容器服务和熔断回滚机制。如果部署后监控指标恶化，系统会自动回滚到上一个安全版本。 CloudWatch 是整个系统的中枢神经。所有服务都有结构化的日志，设定了超过 25 个自动警报，自动化工作流每天都会查询自定义指标。每一个基础设施部件都会暴露出结构化、可查询的信号。(注：结构化日志指按统一格式记录的日志，便于机器读取；可查询信号指 AI 能直接检索的关键运行数据) 如果 AI 读不懂日志，它就无法诊断问题。 CI/CD：GitHub Actions 每一次代码修改都要经过一个死磕到底的六阶段流水线： > 验证 CI → 构建并部署到开发环境 → 测试开发环境 → 部署到生产环境 → 测试生产环境 → 正式发布每个拉取请求 (Pull Request, 简称 PR，(注：即提交代码变更的请求)) 上的把关机制，强制执行类型检查、代码规范检查、单元和集成测试、Docker 构建、利用 Playwright 进行的端到端测试，以及环境一致性检查。没有任何一个阶段可以跳过。不允许任何人工强行绿灯。整个流水线是绝对确定性的，这样 AI 才能预测结果并推理出失败的原因。 AI 代码审查：Claude 每一个 PR 都会触发 Claude Opus 4.6 进行三轮并行的 AI 审查： 1. 代码质量：检查逻辑错误、性能问题、可维护性。 1. 安全性：漏洞扫描、认证边界检查、注入攻击风险。 1. 依赖项扫描：供应链风险、版本冲突、开源协议问题。这些是必须通过的拦截关卡，而不只是提提建议。它们和人工审查并行运作，批量拦截人类容易漏掉的错误。当你一天要部署 8 次时，没有哪个肉眼凡胎的工程师能对每个 PR 都保持高度专注。工程师还可以在任何 GitHub Issue 或 PR 中圈一下 @claude，让它提供实施方案、开启调试会话或进行代码分析。AI 智能体能看到整个大型代码库。所有的上下文在不同的对话中是无缝贯通的。自愈反馈循环这是整个体系的灵魂。每天早上（UTC 时间 9:00），自动化健康检查工作流准时启动。Claude Sonnet 4.6 会查询 CloudWatch，分析所有服务的错误模式，并生成一份系统健康执行摘要，发送到团队的聊天群里。这都不需要任何人主动去吩咐。一小时后，分诊引擎启动。它会将生产环境里的错误信息进行分类聚类，从 9 个维度评估每个问题的严重程度，并在任务管理系统中自动生成调查工单。每个工单都贴心地附带了日志样本、受影响的用户、受影响的接口以及建议的排查方向。系统还会自动去重。如果现有的工单已经涵盖了同类错误，它会更新那个工单。如果以前解决过的问题又出现了，它会敏锐地检测到倒退 (Regression) 并重新打开工单。当工程师提交修复代码时，同样的流水线会接管一切。Claude 会进行三轮审查，CI 进行验证。六阶段部署流水线将其推送到各个环境并进行测试。部署完成后，分诊引擎会再次检查监控数据。如果原先的错误解决了，工单就会自动关闭。每个工具只负责一个阶段。没有哪个工具试图包揽一切。这个日常循环创造了一个“自愈闭环”：以最少的人工干预，完成错误的检测、分诊、修复和验证。我曾对《商业内幕》的记者说：“AI 会负责写代码并提交，人类只需要负责审核有没有战略风险就行了。” 功能开关与辅助技术栈我们用 Statsig 来管理功能开关 (Feature Flags，(注：一种在代码中控制功能是否启用的技术，允许在不重新部署代码的情况下随时开关功能))。每个新功能上线前都藏在开关后。发布模式非常稳健：先对团队内部开放，然后按百分比灰度发布，最后全面开放或直接砍掉。所谓的“一键关闭”能瞬间停用功能，根本不需要重新部署。如果一个功能导致数据指标变差，我们几个小时内就会把它撤下来。糟糕的功能在上线当天就会“死掉”。A/B 测试也是跑在同一套系统上的。 Graphite 负责管理代码分支：合并队列会重新跑一遍验证，只有一路绿灯才会合并到主干。这让我们可以一边高频提交代码，一边有条不紊地审查。 Sentry 报告所有服务的结构化异常，再由分诊引擎将其与监控数据结合。Linear 则是面向人类的界面：自动创建带有严重程度评分和调查建议的工单，后续验证通过后自动关闭。 ## 一个功能如何从想法走向生产环境新功能开发路径 1. 架构师以结构化提示词的形式定义任务，包含代码库上下文、目标和约束条件。 1. 智能体拆解任务、规划实施方案、编写代码并自动生成配套的测试。 1. 开启 PR。Claude 进行三轮审查。人类审查员只检查高维度的风险，而不去逐行死磕代码。 1. 流水线验证：类型检查、代码规范、单元测试、集成测试、端到端测试。 1. 排队、重新验证、通过后合并。 1. 六阶段部署流水线将其推送到不同环境，每个阶段都伴随测试。 1. 面向团队内部开启功能开关。逐步灰度发布。紧盯数据指标。 1. 一旦数据恶化，随时一键关闭。遇到严重问题自动触发熔断回滚。 Bug 修复路径 1. 监控系统侦测到错误。 1. Claude 分诊引擎评估严重程度，自动创建一个包含完整排查上下文的工单。 1. 工程师介入调查。此时 AI 其实已经做完了诊断工作。工程师只需验证结论并提交修复代码。 1. 走同一套严格的代码审查、验证、部署和监控流水线。 1. 分诊引擎重新验证。如果确认解决，工单自动关闭。这两条路径用的是完全同一套流水线。同一个系统，同一个标准。 ## 成果如何在过去 14 天里，我们平均每天进行 3 到 8 次生产环境部署。在旧模式下，这整整两周的时间里，我们连一次发布都做不出来。糟糕的功能在上线当天就会被砍掉。新功能在构思出来的当天就能上线。A/B 测试能实时验证业务效果。很多人以为我们是在牺牲质量换取速度。恰恰相反，用户参与度上升了，付费转化率也上升了。我们做出了比以前更好的产品，因为反馈闭环变得极短。每天发布一次你能学到的东西，绝对比每个月发布一次要多得多。 ## 全新的工程组织架构未来只会存在两种类型的工程师。架构师只有一两个人。他们设计标准作业程序，教 AI 如何工作。他们构建测试支架、集成系统和分诊网络。他们拍板系统架构和边界。他们来定义在智能体眼里什么才叫“好”。这个角色需要极其深厚的批判性思维。你要做的是挑 AI 的刺，而不是盲从它。当智能体提出一个方案时，架构师要能敏锐地找到漏洞：它遗漏了哪些失效模式？越过了哪些安全边界？积累了什么技术债？我拥有物理学博士学位。读博期间我学到的最有用的东西，就是如何质疑假设、给论点做压力测试，以及寻找逻辑漏洞。在未来，批评 AI 的能力将比写代码的能力更有价值。当然，这也是最难招人的岗位。操作员其他所有人。工作依然重要，但结构变了。现在是 AI 给人类分配任务。分诊系统发现了一个 Bug，创建工单，亮出诊断结果，然后把它分配给合适的人。人类去调查、验证，并批准修复方案。AI 负责提交代码，人类负责审核有没有风险。这些工作依然需要极高的技能和专注力，但它们不再需要旧模式下那种从头构建系统架构的推理能力。谁适应得最快？我观察到了一个出乎意料的现象：初级工程师比资深工程师适应得更快。没有形成传统思维定式的初级工程师，感到如虎添翼。他们掌握了能无限放大自身影响力的工具，而且没有十几年的老习惯需要去破除。而拥有丰富传统经验的资深工程师，则经历了最痛苦的挣扎。他们过去需要辛辛苦苦干两个月的活，现在 AI 一小时就干完了。对那些花了好几年时间才练就一身稀缺技能的人来说，这实在是一个难以接受的暴击。我不是在评判对错，只是陈述我看到的现实。在这场变革中，适应能力远比积累的过往技能更重要。 ## 人性的一面管理层的消亡两个月前，我要花 60% 的时间在人员管理上。对齐优先级、开会、给反馈、辅导工程师。今天：不到 10%。传统的 CTO 模型告诉你，要赋能团队去做架构，培训他们，把工作交接出去。但如果这个系统只需要一两个架构师，那我就必须先亲自动手去建。我从“管理者”变回了“建造者”。我现在每天大概从早 9 点写代码到凌晨 3 点。我设计系统的底层逻辑和架构，维护整个基础设施的脚手架。压力更大了。但我很享受这种纯粹“建造”的快乐，而不是天天去跟人“对齐”。争吵少了，关系好了我和联合创始人以及工程师们的关系，反倒比以前更好了。转型前，我与团队的大部分互动都是在开会。讨论技术取舍，争论优先级，为技术决策争得面红耳赤。在传统模式下，这些对话是必需的，但也极其耗费心神。现在我依然会和团队交流。我们聊工作之外的话题，轻松闲聊，或者组织团建去放松。我们相处得更融洽了，因为我们不再为那些现在完全可以让系统代劳的工作而吵架了。焦虑是真实存在的我不想假装大家都很开心。当我不再每天找大家沟通工作时，一些团队成员感到了不安。CTO 不找我说话意味着什么？在这个新世界里我的价值到底在哪？这些担忧都非常合理。有些人在群里争论“AI 到底能不能取代我的工作”，花的时间比实际干活的时间还长。转型期不可避免地会带来焦虑。对此我也没有什么完美的安抚话语。但我有一个原则：我们不会因为一个工程师在线上写了个 Bug 就开除他。我们会改进审查流程、加强测试、增加护栏。对待 AI 也是一样。如果 AI 犯了错，我们就去构建更好的验证机制、更清晰的约束条件和更强的系统可观测性。 ## 工程之外我看到一些公司在工程研发上采用了“AI 优先”，但其他部门依然是纯手工作业。如果工程师几小时就能发布一个功能，而市场部要花一周来发公告，那市场部就是新的瓶颈。如果产品团队还在按“月”来做规划，那产品规划就是瓶颈。在 CREAO，我们将AI 原生的运作方式推行到了所有职能部门： - 产品更新说明：由 AI 根据代码变更记录和功能描述自动生成。 - 功能介绍视频：由 AI 自动生成动态演示。 - 社交媒体日常发布：由 AI 策划并自动发帖。 - 健康报告和数据分析：由 AI 从监控和生产环境数据库中提取生成。工程、产品、市场和用户增长都在同一个“AI 原生”的工作流里运转。如果一个部门以智能体的光速运转，而另一个部门还在以人类的龟速爬行，那么人类的速度就会拖慢整个公司的脚步。 ## 这意味着什么对工程师而言你的核心价值正在从“写代码的产量”转移到“做决策的质量”。能快速敲代码的能力，每个月都在贬值。而评估、批判和指导 AI 的能力，正在快速升值。对产品的敏锐度和品味至关重要。你能不能扫一眼 AI 生成的 UI 界面，在用户抱怨之前就直觉发现它不对劲？你能不能看一眼架构提案，就一眼看穿 AI 漏掉的系统性风险？我总是告诉我们 19 岁的实习生：去刻意练习批判性思维。学着去评估论点、寻找逻辑漏洞、质疑想当然的假设。去学习什么是好的设计。这些技能是自带复利效应的。对 CTO 和创始人而言如果你们产品规划功能的时间，比写代码实现的时间还长，赶紧从那里开始动刀子。在大规模引入 AI 智能体之前，先建好测试的脚手架。没有极速验证做后盾的极速 AI，只会带来快速累积的技术灾难。从一名架构师开始。找一个能把这套系统建起来并证明它行之有效的人。等系统跑通了，再安排其他人进入“操作员”的角色。将“AI 原生”强行推入每一个职能部门。做好心理准备，肯定会遇到阻力和反对。对整个行业而言 OpenAI、Anthropic 以及许多独立团队都在向着同样的原则靠拢：结构化的上下文、专业化的智能体、持久化的记忆，以及执行闭环。脚手架工程正在成为行业的标配。驱动这一切的引擎是模型能力的进化。我把 CREAO 最近发生的所有质变，都归功于过去这两个月。Claude Opus 4.5 做不到的事，Opus 4.6 已经能做到了。下一代模型只会让这种变革来得更猛烈。我相信，“一人公司”将变得非常普遍。如果一个架构师带着一群智能体就能干 100 个人的活，很多公司根本就不需要雇佣第二名员工。 ## 一切才刚刚开始我接触过的大多数创始人和工程师，还在沿用传统的模式。一部分人开始考虑转型，但真正迈出这一步的寥寥无几。一位记者朋友告诉我，她就这个话题大概采访了五个人。她说我们走得比任何人都靠前：“我觉得没有任何人像你们一样，完完全全重构了整个工作流。” 任何团队都可以用现有的工具做到这一点。我们的技术栈里，没有任何一个是独家机密。真正的竞争优势，在于你下定决心要围绕这些工具彻底重塑一切，并愿意承受随之而来的巨大代价。这种代价是真金白银且痛彻心扉的：员工的迷茫与焦虑、CTO 每天工作 18 个小时的煎熬、资深工程师对自身价值的自我怀疑，以及那段旧系统已拆毁而新系统还未跑通的、令人窒息的两周真空期。我们扛下了这些代价。两个月后，数据说明了一切。我们构建了一个智能体平台。而这个平台，正是我们用智能体建起来的。

译文章指出，盲目追求“AI优先”战略可能是错误的，真正的瓶颈在于软件工程基础。如果自动化测试、CI/CD流程、A/B测试与监控、任务管理和系统架构等基础不扎实，AI的效能将无法释放。真正的“AI优先”应是一种推动必要工程改进的意识和动力，促使企业夯实基础，从而释放AI的生产力。

Ethan Mollick@emollick · 4月14日

Interesting: "Currently, 38% of Americans live within 5 miles of at least one operational data center... Living near a data center doesn’t have much of an effect on public opinion about the facilities." From now on, it looks like most DCs will be rural. https://www.pewresearch.org/short-reads/2026/04/13/most-new-data-centers-in-the-us-are-coming-to-rural-areas/

译有趣："目前，38%的美国人居住在至少一个运营中的数据中心5英里范围内……住在数据中心附近对公众对这些设施的看法影响不大。" 从现在起，看起来大多数数据中心将位于农村地区。https://www.pewresearch.org/short-reads/2026/04/13/most-new-data-centers-in-the-us-are-coming-to-rural-areas/

SemiAnalysis@SemiAnalysis_ · 4月14日

7 of the top 10 companies by market cap depend almost entirely on TSMC's ability to produce chips. Trillions in revenue. Concentrated in one specific cluster of fabs within a square mile in Taiwan. That's not a supply chain, that's a single point of failure.

译全球市值前十的公司中有7家几乎完全依赖 TSMC 生产芯片的能力。数万亿美元营收。集中在台湾一平方英里内的特定晶圆厂集群中。那不是供应链，那是单点故障。

Rohan Paul@rohanpaul_ai · 4月14日

Strix (@strix_ai ) is making AI useful in security where it actually counts: inside the loop of testing, verifying, and patching. I like the part that it treats AI as an adaptive operator sitting on top of deterministic security tools. Strix is an open-source framework for autonomous pentesting across apps, APIs, and repositories with 23.6K+ Github stars ⭐️ - 80,000+ users worldwide - 15B+ LLM tokens processed daily - 78,000+ vulnerabilities reported - multiple CVEs assigned - deployed by enterprise security teams worldwide The real pitch is not that AI can spot bugs. It is that security findings should arrive with proof, a fix, and a place in the merge loop, not as a late report someone has to interpret. That sounds minor until you look at the mechanism. Strix is built around dynamic testing, proof-of-concept validation, autofix pull requests, retesting, and CI/CD hooks that can block insecure code before it ships. IMO, continuous pentesting only matters if it can narrow scope to changed code, run headlessly in pipelines, and accumulate context over time, and the new platform is explicitly built around those exact behaviors. What is probably true is that this model can remove a lot of appsec friction, especially where teams are drowning in “possible” issues and need validation fast. This is not another scanner that throws guesses at a team. Strix is built around attacker style testing, so it uses browser actions, traffic inspection, terminal work, Python, and code context to prove whether a flaw is actually usable. 🧵 1.

译Strix 是开源自主渗透测试框架，以 AI 作为确定性安全工具之上的自适应操作员。其核心机制围绕动态测试、POC 验证、自动修复 Pull Request 和 CI/CD 钩子构建，可在代码合并前阻断不安全代码。不同于传统扫描器仅抛出猜测，Strix 采用攻击者风格测试，通过浏览器操作、流量检查等方式验证漏洞可利用性，使安全发现附带证明和修复方案直接融入开发流程。

Ethan Mollick@emollick · 4月13日

Six months ago, there was a lot of focus on the idea that the there would be a massive glut of unused computing power which would could a recession as AI use plateaued. The "compute bubble" belief was absolutely everywhere. The degree to which this was wrong deserves some notice

译六个月前，人们非常关注一种观点，即随着AI使用趋于平稳，将会出现大量闲置的计算能力，从而引发经济衰退。"算力泡沫"的说法无处不在。这种错误程度值得关注。

karminski-牙医@karminski3 · 4月13日

Gemma4提速秘籍! 一条命令速度提升23%! 不卖关子哈, 记得用推测性解码, 这次Gemma4发布的模型尺寸梯次正好适合用推测性解码, 如果你在用31B dense 觉得不够快, 可以再加上E2B(5.1B)作为草稿模型, 我实测RTX5090可以把吐字(解码)速度提升23%! 从61 token/s 提升到了76 token/s. 并且推测性解码本身是不会降智的. 等会, 你要问什么是推测性解码(投机解码, Speculative Decoding)? 简单来讲, 大模型跑得慢, 那我们就用小模型先跑, 然后把小模型的输出批量的发给大模型让大模型判断对不对, 小模型跑对了多少就保留多少, 因此最差情况都是至少第一个token是对的(原理见上图). 有同学会问了, 那这不还是要让大模型重新生成, 速度提升在哪里? 答案是, 目前大模型推理【算力】是过剩的, 【显存带宽】是不足的, 所以处理输入(预填充, prefill, 更多需要浮点性能)速度都很快. 因此小模型输出一大堆, 然后反馈给大模型判断这个过程(当作 prompt), 就是prefill, 会很快, 远超过大模型直接吐字(解码, decoding, 更多需要显存带宽)的速度. 只要小模型速度足够快, 哪怕接受率再低, 都会产生速度优势, 推测性解码就是巧妙地利用了这一点. 最后我把我测试的最佳参数放在了图3, 大家可以参考. 另外记得不要混搭, Gemma4就搭配Gemma4, 不要搭配Qwen3.5. 会出现不兼容问题. #gemma4 #llamacpp #qwen35 #本地大模型 #推测性解码

译Gemma4可通过推测性解码实现23%推理加速。实测RTX5090上，31B dense主模型搭配E2B(5.1B)草稿模型，速度从61 token/s提升至76 token/s。该技术利用大模型算力过剩而显存带宽不足的特性，由小模型快速生成候选序列，大模型通过prefill阶段批量验证，避免逐token解码的带宽瓶颈。注意需保持模型系列一致性，Gemma4应搭配同系列草稿模型，不可与Qwen3.5混用。

Nathan Lambert@natolambert · 4月12日

Seems like 30-200B open models are getting a massive surge in usage at least partially related to openclaw, but it's very hard to attribute back to. How could we make this easier for the ecosystem to measure?

译30-200B 参数规模的开源模型近期使用量激增，部分与 OpenClaw 相关，但难以精确归因。作者询问如何建立更清晰的生态系统测量机制来追踪此类影响。

Rohan Paul@rohanpaul_ai · 4月12日

Brad Gerstner (@altcap): AI economics flipped: firms with owned compute keep infra costs fixed while revenue scales. OpenAI’s compute margins rose from 35% to 70%, Anthropic went from -94% to +40%, and physical power is now the main bottleneck.

译AI 经济学发生翻转：拥有自有算力的公司基础设施成本固定，收入随规模扩大。OpenAI 算力利润率从 35% 升至 70%，Anthropic 从 -94% 转正至 40%，物理电力已成为主要瓶颈。

Rohan Paul@rohanpaul_ai · 4月11日

Reuters: Anthropic is considering a custom AI chip program, which would move it from renting other companies’ compute to trying to control one of the most expensive bottlenecks in AI. The pressure is simple: training and serving stronger models now depends on scarce chips, and scarcity can slow product growth even when demand is exploding. Anthropic already uses Google TPUs and Amazon chips, so building its own silicon would not replace those overnight and would more likely give it bargaining power, supply insurance, and hardware tuned for Claude. The timing is notable because Anthropic says its revenue run rate jumped from about $9B at the end of 2025 to more than $30B in 2026, which raises the value of every compute decision. A custom chip effort can cost about $500M before mass deployment, because chip design, verification, software support, and manufacturing mistakes are all brutally expensive. --- reuters .com/business/anthropic-weighs-building-it-own-ai-chips-sources-say-2026-04-09/

译Anthropic正考虑启动定制AI芯片项目，以应对训练和服务大模型所需的稀缺算力瓶颈。尽管该公司已使用Google TPUs和Amazon芯片，自研硅片不会立即替代现有方案，但将增强议价能力、保障供应并为Claude定制优化硬件。这一考虑恰逢其收入年化增长率从2025年底的约90亿美元跃升至2026年的逾300亿美元之际。据悉，此类项目在大规模部署前需耗资约5亿美元。

SemiAnalysis@SemiAnalysis_ · 4月11日

Jensen showing Rubin Ultra as an MCM was the real tell. This is not just Nvidia gluing more dies together because it feels like the next cool architecture move. It is what happens when reticle limits, power density, yield, and package economics all start forcing the same answer. (1/5)🧵

译Jensen 将 Rubin Ultra 展示为 MCM 才是真正的信号。这不仅仅是 Nvidia 因为觉得这是下一个很酷的架构动作而把更多芯片粘在一起。而是当光罩限制、功率密度、良率和封装经济性都开始迫使得出相同答案时发生的事情。(1/5)🧵

SemiAnalysis@SemiAnalysis_ · 4月11日53

GPU, TPU or Trainium Dario?

译CoreWeave与AnthropicAI达成多年协议，为Claude AI模型的开发和部署提供支持。目前，前10大AI模型提供商中有9家运行在CoreWeave平台上。该平台强调其在大规模和高可靠性方面的优势，成为AI构建者在处理关键任务时的首选云服务，自称为“AI的Essential Cloud”。

SemiAnalysis@SemiAnalysis_ · 4月11日

InferenceX is the industry standard research platform for benchmarking AI chip performance across the world's most popular open-source LLM inference frameworks, updated continuously as the landscape evolves. We are proud to be supported by some of the leading figures across AI research, chip design, and the broader inference community.

译InferenceX 是行业标准的研究平台，用于在全球最受欢迎的开源 LLM 推理框架中对 AI 芯片性能进行基准测试，并随行业格局演变持续更新。我们很荣幸得到 AI 研究、芯片设计及更广泛推理领域一些领军人物的认可与支持。

Epoch AI@EpochAIResearch · 4月10日

The Iran War and Hormuz shutdown have disrupted oil, gas, and helium exports and threatened data centers and investments in the Gulf states. @justjoshinyou13 explores how a prolonged Iran war could affect AI, and why it probably won’t completely derail the compute buildout.

译伊朗战争及霍尔木兹海峡关闭已扰乱油气与氦气出口，威胁海湾地区数据中心与投资。分析指出，长期冲突虽将影响AI供应链，但不太可能彻底阻碍全球计算能力扩张进程。

AK@_akhaliq · 4月10日

DMax Aggressive Parallel Decoding for dLLMs paper: https://huggingface.co/papers/2604.08302

译DMax 提出针对扩散语言模型（dLLM）的激进并行解码方案，突破传统顺序生成限制，显著提升推理速度。论文已发布。