AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 1476 条
全部一手资讯X论文
标签「现象/趋势」清除
Chubby♨️@kimmonismus · 5月25日68

Welcome to "Intelligence from the Community", our Sunday format where a selected author from the Superintelligence community publishes an original essay or analysis. The idea hasn't changed: some of you are researchers, some are operators, some are engineers building the systems everyone else writes about. That expertise deserves space. This week's piece comes from Amish Regmi, an AI engineer at Klaviyo who previously built inference infrastructure and agentic systems at Amazon. Amish tackles something that has been bugging me for months: the way "AI is exponential" gets thrown around as if it were a single, self-evident fact. It rarely comes with the numbers that would make it testable. What is the base of the exponent? What is the doubling time? Which curve are we even talking about? Amish goes through the data, separates confirmed steep exponents from fast hillclimbs and broken instruments, and arrives at a conclusion that is more useful than the slogan: the transition will be governed by mismatched slopes. Read his article for free at http://getsuperintel.com

译Klaviyo的AI工程师Amish Regmi(前亚马逊推理基础设施与智能体系统构建者)撰文,批判了笼统的“AI发展是指数级”的说法。他指出,这种说法常缺乏可验证的具体数据,如指数的基数、翻倍时间以及具体所指哪条技术曲线。文章通过分析数据,区分了真正陡峭的指数增长与单纯快速提升或指标失效的情况,其结论是,未来的转型将由不同技术或能力曲线之间“不匹配的斜率”所主导。

Orange AI@oran_ge · 5月25日62

湾区正在经历人类分化最严重的时刻。 在过去5年里,大约1万人的群体已经实现了远超2000万美元的财富自由。Anthropic、OpenAI、xAI、Nvidia、Meta TBD的员工、创始人等组成。 这个群体之外的人,赚得不少,但一辈子也到不了这个水平。 另外的群体,则是裁员潮里失去工作的人,很多人还没找到新的工作。 在企业的晋升之路,看起来就像在爬一座错误的大楼,这是另一种选择大于努力。 为什么还要为了这点薪水工作?几年后我的工作还会存在吗? 人们在讨论着「永久底层阶级」的话题,特别是年轻人。 公司里的中层也很难受,他们没有精力和人脉去创业,但又知道公司正在干掉中层。 富人们也没有特别开心,他们创业只是为了赢得地位,但从未想过30岁就已经衣食无忧了。 别人问他,为什么不干脆卖掉公司,他说:然后呢?创业的人时候每个人都想跟我聊天,如果我卖了公司,我就只剩下钱了。

译过去5年,来自 Anthropic、OpenAI、xAI、Nvidia、Meta 等公司的约1万名员工和创始人,实现了远超2000万美元的财富自由。这造成了严重的社会分化:该群体之外的人,即使拥有高薪也感到难以企及,同时大规模裁员加剧了职业焦虑与技能过时的担忧。AI 正在迅速改变工作内容,使公司晋升路径受到质疑,中层管理者面临困境。而那些实现财务自由的富人,也因目标感缺失而感到空虚。

Ethan Mollick@emollick · 5月25日52

As more people come to recognize the tells of AI, which mostly happens as you start to work with AI a lot, the scales are going to fall from their eyes and they are going to realize what some of us already see: how much of this site (and blog posts, articles, papers) are AI now.

译随着越来越多人开始识别AI的痕迹——这主要发生在你频繁使用AI之后——他们将恍然大悟,意识到我们中一些人早已看清的事实:这个网站(以及博客文章、论文)中有多少内容现在是AI生成的。

Rohan Paul@rohanpaul_ai · 5月25日64

Ali Ghodsi, the cofounder and CEO of Databricks, says Zoom has a massive chance to build an AI-first product, that could seriously disrupt the traditional enterprise SAAS. Because it sits on the largest datasets of meeting videos and transcripts. The big pain in enterprise software is data entry and coordination. Zoom already sits on the raw input: every customer call and internal meeting, plus the video, audio, and transcript. If Zoom can reliably pull out decisions, context, and action items, then write them back into the right system of record automatically, as an AI-first workflow layer, it becomes the front door for work. That would replace lots of separate SAAS tools that exist mainly to collect notes and updates. --- Video from 'Bg2 Pod' YT channel (link in comment)

译Databricks联合创始人兼CEO Ali Ghodsi认为,Zoom拥有会议视频和转录的最大数据集,有机会构建AI优先的产品,可能颠覆传统企业SaaS。企业软件的痛点是数据输入和协调,Zoom已掌握原始输入,包括客户通话和内部会议的视频、音频及转录。如果Zoom能可靠提取决策、上下文和行动项,并自动写入相应记录系统,作为AI优先的工作流层,将成为工作入口,取代许多主要收集笔记和更新的独立SaaS工具。

Rohan Paul@rohanpaul_ai · 5月25日45

OpenAI Employee Alma Maters --- Source: linkedin. com/posts/josh-angle-816b3436_want-to-work-at-the-arguably-the-hottest-activity-7389688792737210368-6DOS/

译OpenAI员工毕业院校

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 5月25日68

I'm old enough to remember when everyone thought AI solving ONE novel math problem would be a front page story around the world Today, AI solved not one, but NINE open problems - some 50 years old. AND proved ***44*** out of 492 open OEIS conjectures. Zero media coverage.

译我还记得以前,大家认为AI解决一个新数学难题就能登上全球头条。 今天,AI解决了不止一个,而是九个开放问题——有些已存在50年。 并且证明了492个OEIS开放猜想中的***44***个。 零媒体报道。

Berryxia.AI@berryxia · 5月25日48

当初美国最后悔没有封杀的中国这家公司,没有之一。 中国古话说得好:拳怕少壮啊! 一个中国小团队,面对美国GPU全面禁运,却没有选择“堆算力”,而是花了两年时间,发明了一堆连OpenAI都没想到的黑科技。 他们把KV Cache压缩到原来的1/10,让1M上下文只需要5.48GB显存。 他们把MoE玩到极致,把训练成本砍掉40-50%。 他们甚至发明了“Engram”模块,用LPDDR内存直接换算力…… 而这一切,不是为了今天卖几个coding plan,而是为了悄悄打造一个10万亿美元的AI硬件新生态,顺便让自己估值冲到1T美元。 他们叫DeepSeek。 故事得从2024年开始讲。 那时全世界都在卷dense模型、卷多模态、卷语音视频。 DeepSeek却反其道而行:他们死磕Mixture of Experts(MoE),一个公认极难训稳的架构。 他们从第一性原理出发,发明了GRPO算法,取代了行业通用的PPO。 他们提出RLVR(Reinforcement Learning from Verified Rewards),让模型真正学会“用正确答案奖励自己”。 他们搞出Multi Token Prediction做推测解码,把训练信号密度直接拉满。 更狠的是,他们把注意力机制彻底重构: - MLA(V2时期)→ KV Cache直接砍90% - DSA/CSA/HCA(V3/V4)→ 长上下文下计算量几乎不增长 - mHC(Manifold-Constrained Hyper-Connections)(2025.12)→ 让27B模型在BIG-Bench Hard上直接+7.2分,训练开销却只多了6.7% 最骚的是Engram(2026 Q1): Transformer本来没有原生的“知识查找”机制,只能靠暴力计算模拟检索。 DeepSeek直接把经典N-gram升级成O(1)哈希查找,用内存换算力—LPDDR一查就行,比再跑一遍Transformer层便宜太多了。 这些创新加在一起,产生了核聚变般的效果: 用KV Cache计算器测1M上下文: - DeepSeek V4 Pro → 仅需5.48GB HBM - GLM5(已抄MLA+DSA)→ 60GB - Qwen3-235B → 89GB 差距大到离谱。 这意味着什么? 1️⃣意味着长时序Agent终于能经济地跑了,KV Cache可以轻松offload到SSD,重新计算成本暴降。 2️⃣意味着中国本来就丰富的NAND(YMTC)和LPDDR(CXMT)突然成了AI基础设施的战略级资源。 3️⃣意味着HBM这个最稀缺、最难造的资源,需求被大幅缓解,连GPU/ASIC的压力都跟着降低。 DeepSeek的CEO梁文峰,看的从来不是今天卖订阅的几亿美元。 他看的是:用算法创新,把中国记忆体、ASIC、CPU、网络芯片全部盘活,让整个硬件生态不再被CUDA和HBM卡脖子。 他们甚至开源了TileLang,让内核代码一次编写、多硬件运行,直接打破CUDA护城河。 这才是真正的“英雄之旅”: - 面对资源短缺,他们没有抱怨,而是把短缺变成了创新燃料。 - 他们不急着赚钱,而是先把地基打成别人抄都抄不完的壁垒。 - 他们把开源当武器,把“AGI for everyone”写进了战略。 而现在,整个行业都在吃他们两年前埋下的果实: ZAI的GLM抄了MLA+DSA,Moonshot的Kimi也承认架构基于DeepSeek…… DeepSeek今天做的,明天就会变成全行业的标配。 你今晚就可以感受到这个长局的威力。 打开DeepSeek官网,试试他们的V4 Pro——1M上下文长持缓存价格不到Sonnet 4.6的3%,还能挂好几个小时。 这不是营销,这是他们用真实技术堆出来的降维打击。 整个框架100%开源,论文、代码思路、架构细节全在arXiv上。 Big Tech靠封锁和闭源赚快钱,DeepSeek却在用开源+算法,把整个AI硬件的未来重新洗牌。 而你,现在已经知道了。

译DeepSeek面对GPU禁运,通过算法创新实现突围。核心成果包括:将KV Cache压缩至1/10,使1M上下文仅需5.48GB HBM;将MoE训练成本降低40-50%。其推出的Engram模块可利用LPDDR内存以O(1)查找换取算力。技术突破还涵盖MLA(KV Cache削减90%)、DSA/CSA/HCA等注意力机制重构,以及GRPO算法。效果显著:在1M上下文显存需求对比中,其V4 Pro(5.48GB)远低于GLM5(60GB)和Qwen3-235B(89GB)。该战略旨在盘活中国NAND与LPDDR资源,降低对HBM依赖,并已开源TileLang以打破CUDA壁垒。其V4 Pro模型1M上下文长缓存价格不足Sonnet 4.6的3%。

Rohan Paul@rohanpaul_ai · 5月24日72

Jensen Huang says nothing would give him more joy than if none of his engineers were coding at all. Instead, they’re just solving undiscovered problems. His framework is 'Purpose vs Task' - coding is just a task, that should be minimized (ideally to 0).

译黄仁勋表示,如果他的工程师们完全不写代码,那将是他最大的快乐。相反,他们应该专注于解决尚未被发现的问题。 他的框架是“目的与任务”——编码只是一项任务,应该被最小化(理想情况下为0)。

AYi@AYi_AInotes · 5月24日44

Damn,喵的太荒诞了啊😲 这家公司就一个创始人+一个AI系统,没有其他员工,估值2.5亿美元, 这个AI系统自主运营公司, 然后还自主操盘 拿到了3000万美刀的融资, 公司名字倒过来写叫AI slop, 翻译过来叫AI饲料🤣

译一家公司仅有一名创始人加一个AI系统,没有其他员工。该AI系统不仅能自主运营公司,还成功拿到了3000万美刀融资,估值达2.5亿美元。公司名字倒过来写叫 AI slop,中文翻译为“AI饲料”。

Rohan Paul@rohanpaul_ai · 5月24日61

Terence Tao on how to pick a career in era of AI.

译陶哲轩谈如何在AI时代选择职业。

Rohan Paul@rohanpaul_ai · 5月24日54

🇨🇳 🇺🇸 China's Huawei’s new 122TB SSD shows how export controls can move innovation sideways instead of simply stopping it. Huawei just built a 122.88TB AI SSD by changing the package around the memory, not by matching Samsung’s most advanced 400+ layer 3D NAND. And a 245TB version discussed as a future step. High-capacity SSDs usually grow by stacking more NAND layers inside each chip, but Huawei’s access to those chips is blocked because its Entity List status restricts items tied to US technology. So it is not trying to win only by making taller 3D NAND stacks, where Samsung has already shown 400-plus-layer V-NAND work. Instead, Huawei is shifting the contest from the chip itself to the way chips are packed together. Huawei’s workaround is Die-on-Board, which puts NAND dies directly onto the circuit board, cuts out some normal chip packaging, and raises board-level density by packing more lower-density memory into the same device. Direct die placement creates heat and signal problems, but it shows how packaging can recover some of the capacity lost when a company cannot buy the best memory chips.

译华为在先进NAND芯片受限的背景下,未直接追赶三星主导的高层数堆叠技术,而是采用“Die-on-Board”封装方案,通过将NAND裸片直接安装在电路板上提升存储密度,推出122.88TB AI SSD并计划推出245TB版本。与此同时,DeepSeek通过MoE、CSA/HCA等架构优化,大幅降低模型对HBM和算力的依赖,使国产硬件更适配前沿AI需求。两者路径形成呼应:华为从封装层面绕过芯片性能差距,DeepSeek从算法层面缓解硬件稀缺压力,共同体现了在外部限制下通过底层技术创新开辟新赛道的战略思维。

Rohan Paul@rohanpaul_ai · 5月24日58

The Economist: Top 5 big labs will spend a huge $800 Bn this year real cash on AI infrastructure. But their profit statements hardly notice these investments, since depreciation begins only after the assets are built, and then happens slowly. When a company buys AI servers, GPUs, buildings, power systems, and networking equipment, accounting treats those as assets, not normal expenses. So the profit statement does not show the full $800B hit right away. But the cashflow statement shows the truth more directly: the money has already left the company. The scary part is the scale: these firms may spend around 40% of their revenue on capital expenditure this year. That is bigger than the oil industry’s shale-boom spending and bigger than telecom spending during the dotcom bubble. --- economist .com/business/2026/05/13/big-tech-is-sacrificing-its-cashflows-to-prop-up-the-ai-boom

译The Economist指出,五大AI实验室今年将投入高达8000亿美元的现金用于AI基础设施。由于会计上将其视为资产并进行长期折旧,这笔巨额支出并未立刻体现在利润表上,掩盖了投资的真实冲击。然而,现金流量表揭示了资金已大规模流出。关键风险在于,这些公司的资本支出可能占到其收入的约40%,规模已超过油气页岩繁荣时期与电信泡沫时期的投资,引发了大公司从“印钱”转向“烧钱”的严重财务关注。

Rohan Paul@rohanpaul_ai · 5月24日55

AI is turning into so very physical problem. You need land, grid power, permits, concrete, cooling, and long build cycles, which decide who gets compute. This is Vantage Data Centers that Oracle, and OpenAI are partnering on with a $ 15B+ investment.

译AI正演变为一个高度实体化的问题。你需要土地、电网、许可证、混凝土、冷却系统和漫长的建设周期,这些决定了谁能获得算力。 这是Oracle与OpenAI合作的Vantage数据中心项目,投资超过150亿美元。

Rohan Paul@rohanpaul_ai · 5月24日40

Ex-Google executive Mo Gawdat defines Intelligence. "If we accept that intelligence itself is not a physical property, then it does not matter whether that intelligence is produced on carbon-based computer structures like humans, silicon-based computer structures like today’s hardware running AI, or quantum-based computer structures in the future. Intelligence is produced within machines when we stop imposing our own intelligence on them." --- From 'The Diary Of A CEO and Mo Gawdat' YT channel (link in comment)

译前Google高管Mo Gawdat对“智能”提出新定义。他认为,智能并非物理属性,因此其实现载体并不重要,无论是碳基(人类)、硅基(当前AI硬件)还是未来的量子计算结构。核心观点在于,当我们停止将自身智能强加给机器时,智能便会在机器内部产生。这一论述挑战了以人类为中心的智能观,强调智能的发展应超越特定的物质基础。

Rohan Paul@rohanpaul_ai · 5月24日62

Great article here on DeepSeek. Their real story is not cheaper chatbots, but architecture that turns hardware scarcity into strategy. DeepSeek is not trying to sell coding seats, it is trying to make Chinese memory, accelerators, and systems useful for frontier AI. Every recent DeepSeek move attacks a bottleneck that makes frontier models dependent on elite HBM-heavy GPU stacks: MoE activates only parts of a model, DSA reduces long-context attention cost, and V4-Pro’s official card says CSA/HCA cuts 1M-token single-token inference FLOPs to 27% and KV cache to 10% of V3.2. Engram, a separate research line, pushes the same logic from another side: let static knowledge live in scalable lookup memory, then fetch it predictably from host memory instead of forcing every fact through dense computation. That sounds like engineering detail until you see the business consequence. If models need less HBM and less brute-force compute, then second-best chips, abundant LPDDR, NAND, and customized ASICs become less second-best. Reuters has already reported a permanent 75% DeepSeek V4-Pro price cut, while noting Huawei Ascend supply constraints and expected supernode availability, which is exactly the kind of feedback loop that they wanted. DeepSeek is not only optimizing models for benchmarks, it is optimizing AI for a different industrial base. The prize is not the app layer. The prize is making scarcity programmable.

译DeepSeek的核心战略并非开发廉价聊天机器人,而是通过一系列架构创新(如MoE动态激活、DSA优化、CSA/HCA技术)显著降低对高端HBM GPU的依赖。此举旨在将硬件稀缺性转化为技术优势,使次优芯片、LPDDR内存及定制ASIC能支持前沿AI,从而优化AI以适配不同的工业基础。这一路径已产生实际商业影响,如V4-Pro大幅降价并与国产硬件生态形成联动,最终目标是实现“硬件稀缺性可编程”。

宝玉@dotey · 5月24日52

http://x.com/i/article/2058418354415644672 # DeepSeek 的 10 万亿美元大战略【译】 作者:GDP (@bookwormengr) 标题:DeepSeek's 10 trillion USD grand strategy 你有没有想过,DeepSeek 到底打算怎么赚钱,而且是赚大钱? 他们没有像智谱(GLM)、月之暗面(MoonShot)和 MiniMax 那样推出有竞争力的编程订阅计划。他们没有多模态、语音或视频模型。时至今日,他们甚至连一个评测框架(Harness,用于测试和评估模型性能的基准测试工具)都没有(虽然最近听说他们开始招人做了)。而且,DeepSeek 还长期致力于开源,乐此不疲地分享自己的“独家秘方”。这难道是疯了吗?还是纯粹在烧钱?那些正准备给他们投资 100 亿美元的投资人们,难道是在把钱往水里扔吗? 不,在我看来,恰恰相反!!! 在这里,我想聊聊我对他们至今所作所为的观察,以及他们似乎正在践行的战略。DeepSeek 创始人梁文锋的眼光显然盯着一个大得多的终极奖杯——他们不仅自己能冲击 1 万亿美元的市值,还能顺便帮中国催生出一个高达 10 万亿美元的产业巨兽! ## 重新审视 DeepSeek 的“英雄之旅” DeepSeek 总是逆风而行,他们不屑于去卷那种“比别人好一点点”的微调模型,也不急着去卖当下的应用(比如各种编程套餐)。我在 2025 年 1 月 27 日发过一条疯传的推文,谈到了我所看到的景象,而现在的剧情正变得越来越精彩。 - 当大家都在死磕稠密模型(Dense Models,所有参数都参与计算的传统大模型结构)时,DeepSeek 却迎难而上,选择了极难训练的混合专家模型(MoE, Mixture of Experts)。 - 他们从“第一性原理”(First Principles)出发,发明了全新的 GRPO 算法,取代了在强化学习(RL, Reinforcement Learning)中虽然占据统治地位、但实现成本极高的 PPO 算法。 - 他们摸索出了基于验证奖励的强化学习(RLVR, Reinforcement Learning from Verified Rewards),并将其作为提升模型推理能力的杀手锏。 - 他们通过“多 Token 预测”(MTP, Multi-Token Prediction)提出了一种绝妙的投机解码(Speculative Decoding,一种通过预判后续单词来加速大模型生成速度的技术)策略,同时还让训练信号变得更加密集。 - 他们完美打造了“零气泡”(Zero-Bubble)流水线并行技术,把有限的 GPU 资源压榨到了极致。 - 他们开源了专家负载均衡器(Expert Load Balancer),让所有人都能轻松部署混合专家模型。特别是通过“宽专家并行”(Wide Expert Parallel)策略,模型可以在大批次下运行,使得服务成本大幅降低。 - 他们发明了 MLA、DSA、CSA 和 HCA 等一系列魔改注意力机制的技术,极大地缩减了 KV 缓存(KV Cache,大模型推理时用于存储历史对话记忆的显存空间)的需求,让计算需求在面对无限拉长的上下文时几乎保持恒定。 - 他们发明了 Engram(印迹模块),实现了用内存换算力的神奇操作。 - 他们发明了 mHC(修正超连接),解决了模型体量暴增时的训练稳定性难题。这个创新清单还能一直列下去…… 在英雄之旅这个最经典的叙事结构里,主角一开始并不知道自己的终极使命是什么。他是在一路上摸爬滚打,逐渐领悟了伟大的天命,然后排除万难去完成它。在这个过程中,他会遇到无数的冷嘲热讽,但他选择无视;他会遇到不怀好意的对手;他本身也有致命的弱点或短板——但他最终战胜了自我,达成了使命。他直面那些看似无法逾越的难关,却总能巧妙地结盟、精明地整合宝贵的资源。这就是为什么观众会不自觉地为英雄摇旗呐喊。这也是为什么 DeepSeek 在赢得全球无数粉丝狂热追捧和尊敬的同时,也招来了不少争议。 接下来我将为你详细拆解,DeepSeek 在这条路上已经走得足够远,并且已经窥见了他们的终极宿命:他们的格局根本不是卖什么编程订阅,而是去撬动一个价值 10 万亿美元的中国 AI 硬件生态圈,并以此顺理成章地让自己斩获 1 万亿美元的市值。在这个过程中,他们甚至还会顺手帮一把西方硬件生态中的一众新玩家。 欢迎大家探讨与指正。 ## 先来算一笔好玩的 KV 缓存账: 来看看知名半导体分析机构 @SemiAnalysis_ 发布的这条非常及时的推文: 我们先来做点有趣的 KV 缓存数学题。别担心,如果你讨厌数学,我们也只是用最近发布的 KV 缓存计算器,来看看 DeepSeek V4 Pro 到底能省下多少 KV 缓存,并把它跟最新的智谱 GLM 和阿里通义千问(Qwen)模型做个对比。 我以 100 万(1M)上下文长度为例进行计算,假设 KV 精度为 8 位(8-bit),索引器精度为 16 位(16-bit)。你自己也可以去这个网站上玩玩: https://kvcache.ai/tools/kv-cache-calculator/ 在 100 万上下文深度下: 1. DeepSeek V4 居然只需要 5.48 GB 的高带宽内存(HBM, High Bandwidth Memory,一种常用于顶尖 AI 显卡的高速显存)。 1. GLM5 需要 60 GB 的 HBM。 1. Qwen3-235B-A22B 则需要高达 89 GB 的显存! 请注意,这还是在以下前提下: 1. DeepSeek 是一个拥有 **1.6 万亿(1.6T)**参数的巨无霸模型。 1. GLM5 大约是 7000 亿(700B)参数,而且它已经借鉴了 DeepSeek 的 MLA 和 DSA 技术,只是还没用上最新的压缩注意力机制。 1. Qwen3-235B-A22B 只有 2350 亿参数,使用的是相对传统的 GQA(分组查询注意力机制)。 DeepSeek 在缓解显存压力方面做出了奠基性的贡献。如果这项创新被行业广泛采纳,将让那些需要处理超长任务的长程 AI 智能体(Long-horizon Agents)成本低到难以置信,从而彻底解锁下一代崭新的应用场景。 ## 疯狂背后的精密章法: 能够在完全不牺牲模型质量的前提下,把 KV 缓存压缩得如此之小,正是他们敢把长时缓存(Long-held Cache)价格压到白菜价的底气所在——其价格甚至不到 Anthropic 旗下 Claude Sonnet 4.6 缓存命中价格的 3%,而且他们还能帮你免费保留好几个小时! 对于长程任务来说,由于缓存体量极小,将其“转存”(Offloading)到固态硬盘(SSD)并在需要时重新加载,就变得极为划算。这就大大降低了对 HBM 的依赖。要知道,HBM 目前全球严重短缺,而且从中国 AI 硬件产业的角度来看,这也是制造难度极高的核心痛点。更绝的是,DeepSeek 还开发了一套能从 SSD 中以极高速度重新加载 KV 缓存的技术,具体细节都在他们的论文里:https://arxiv.org/pdf/2602.21548 ## 谁是这场“KV 缓存压缩战”的直接受益者? 谁在大量供应 SSD?别忘了长江存储(YMTC)正在崛起为全球 3D NAND 闪存巨头。闪存技术(NAND)让 DeepSeek 能够直接读取缓存,从而避免了每次都重新计算 KV 的巨大算力浪费。反过来,DeepSeek 正在为 NAND 闪存和固态硬盘创造一个无比庞大的新市场——这不仅让长江存储受益,也让整个产业链所有玩家跟着大赚。 ## 然而,格局绝不仅仅局限于 NAND 和 SSD: 低功耗内存(LPDDR)同样蕴藏着巨大的潜力,可以用作存放模型权重(Weights)的“大后方”,并在需要时源源不断地“流式传输”到 HBM 中,从而进一步减轻 HBM 的容量压力。你可以参考这篇博客:https://www.lmsys.org/blog/2025-09-25-gb200-part-2/ 。下面我用一张图来解释这套方案是如何运作的: 虽然 DeepSeek 并没有专门针对这一方案做特殊开发,但他们那拥有庞大专家数量、并且支持 4 位(4-bit)权重的混合专家模型架构,完美契合了这套方案,使得其实施起来易如反掌。 这种创新配合上他们那堪称逆天的无损超紧凑 KV 缓存技术,让系统对 HBM 的吞吐和容量需求出现了断崖式下跌。 中国谁在做 LPDDR?长鑫存储(CXMT)。目前他们在 LPDDR 的速度上仅落后国际顶尖水平半代,在容量密度上仅落后一代。差距非常小!这意味着在不久的将来,除了管够的 NAND 闪存,中国本土生态还将迎来铺天盖地的 LPDDR 内存。那这能缓解算力芯片的压力吗?答案是:绝对能。请接着往下看…… ## 聪明地玩转存储,还能顺手给 GPU 和 ASIC 减负 道理很容易理解:用 NAND 闪存来存放 KV 缓存,不仅能延长缓存的保存时间、减轻 HBM 的压力,还能免去重复计算的烦恼,这等于变相给 GPU 和 ASIC(专用集成电路,即各类定制化 AI 算力芯片)的计算单元松了绑。那么,除了作为模型权重的“即时流式传送带”之外,LPDDR 还能以其他方式帮上忙吗?答案同样是:可以。 LPDDR 可以用来存储海量的“Engram”(印迹模块)。DeepSeek 在他们的论文(https://arxiv.org/pdf/2601.07372)中指出,虽然混合专家模型架构可以通过条件计算(Conditional Computation)来扩充模型的容量,但传统的 Transformer 架构缺乏一种天然的知识检索机制,只能笨拙地通过高昂的“计算”去模拟“检索”。为此,他们引入了 Engram 模块,将经典的 N-gram 嵌入技术升级为基于哈希、时间复杂度为 $O(1)$ 的瞬间查找,创造了一个他们称之为“条件内存”(Conditional Memory)的全新稀疏维度。这极大地省下了计算量,但代价是需要巨大的内存空间来存放这个庞大的嵌入表。这是一次经典的“用空间(存储)换时间(计算)”,其高明之处在于,读取“存储”的成本远比进行计算要便宜得多(在 LPDDR 里查一下,可比让大模型整整跑一轮前向传播省钱太多了)。在大规模部署时,这是一笔划算到家了的买卖。这就是他们如何通过狂砸内存来省下算力的秘密!!! 这种取舍简直太值了:由于缺乏极紫外光刻机(EUV),无法在单个芯粒(Chiplet)上做到同等的晶体管密度,中国的 GPU 和 ASIC 在纯粹的原始浮点运算能力(FLOPs)上,注定会长期落后于西方顶尖显卡。同时,国内在先进封装技术上也处于追赶状态。因此,如果能利用国内产能充足、成本低廉的 NAND 和 LPDDR 内存来弥补算力的劣势,这种“扬长避短”的打法简直是绝配。 ## 盘点 DeepSeek 的一盘大棋: 纵观这些令人眼花缭乱的创新和他们做出的种种抉择(至今不做多模态、不做语音模型,至于视频生成?那是什么东西?),DeepSeek 的野心显然不是眼前那区区几亿美元的蝇头小利。他们正在极有耐心地下一盘 10 万亿美元的大棋,目的是亲手扶持起一套独立于西方之外的“备选硬件生态”。 这不仅让中国的存储芯片厂商在全球 AI 硬件舞台上跃升为主力军,更从根本上降低了大模型训练和推理的资源门槛。当运行 AI 模型的成本降下来后,原本性能稍逊的国产 GPU/ASIC 芯片以及网络交换芯片也将全部变成“够用、好用”的切实选项。而且,这些开源创新也将反哺西方的开源社区,并给西方那些试图挑战英伟达的芯片初创企业带来一线生机。 所有的蛛丝马迹都对上了。让我们来逐一细数他们抛出的那些震撼行业的创新: 1. 在 DeepSeek V2 中引入混合专家模型(MoE)和 MLA:MoE 让训练一个极度聪明的模型减少了 40% 到 50% 的算力消耗;而多头潜在注意力机制(MLA, Multi-head Latent Attention)更是把 KV 缓存直接砍掉了 90%,使得将缓存转存到 SSD 变得极为高效。这些理念最早在他们 2024 年 5 月的论文(https://arxiv.org/pdf/2405.04434)中提出。正是凭借这些绝活,他们后来才能仅仅用 2048 张被阉割过的 H800 GPU,就硬生生训练出了媲美顶级闭源模型的 DeepSeek V3。 1. DSA(密集跳跃注意力机制):在论文(https://arxiv.org/pdf/2512.02556)中推出,旨在削减长上下文场景下的计算量,同时缓解 HBM 的带宽压力。它确保了计算量不会随着上下文的拉长而发生爆炸式增长。看看下面的图表——DeepSeek-v3.2 的处理时间在上下文拉长时依然稳如泰山。 1. mHC(修正超连接):在 2025 年 12 月的论文(https://arxiv.org/pdf/2512.24880)中首次亮相。mHC 是 DeepSeek 在宏观架构上的一大创新,它彻底颠覆了大模型各层之间传统的信号传输方式。过去大家都在用自 ResNet 时代流传下来的标准残差连接($x + F(x)$),而 mHC 则把这条残差流扩展成了多条并行的“信息高速公路”,并允许模型自主学习如何进行混合。最为关键的是,它通过数学手段(将混合矩阵通过 Sinkhorn-Knopp 投影约束在 Birkhoff 多胞形上)强制让这些混合矩阵满足双随机性,从而在数学上完美确保了信号强度在穿过任意深度的网络层时都不会衰减。 - 这彻底解决了此前困扰无约束超连接(Hyper-Connections,最早由字节跳动发明)的灾难性不稳定难题——此前在 270 亿(27B)参数规模下,信号放大系数会疯狂飙升到 3000 倍,导致整个训练彻底崩盘。 - 而它的计算成本却微乎其微:由于它完全没有改变注意力层或前馈网络(FFN, Feed-Forward Network)层的原始浮点运算量,仅仅改变了输出在各层之间的路由方式,因此它只增加了区区 6.7% 的实际训练时间开销。 - 然而它带来的性能提升却极为震撼:在同等模型大小和几乎完全相同的算力预算下,27B 规模的模型在 mHC 的加持下,在复杂的 BIG-Bench Hard 推理测试中暴涨了 7.2 分,DROP 评测提升 3.2 分,GSM8K 数学测试提升 2.8 分,MMLU 综合学科知识提升 1.4 分。 简而言之,mHC 通过给网络赋予一套更丰富、更有表现力的跨层信息路由拓扑结构,在几乎不需要额外多花一丁点算力的情况下,让单位参数发挥出了显著更高的“智商”。 1. CSA 与 HSA:在 2026 年 4 月发布的 DeepSeek V4 Pro 技术文档(https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf)中亮相。它们通过对 KV Token 进行深度压缩,把本来就已经很小的 KV 缓存需求又砍掉了 90%!同时大幅降低了所需的浮点运算量,一举帮 HBM 和 GPU/ASIC 彻底解套。 1. 论文(https://arxiv.org/pdf/2601.07372)于 2026 年第一季度推出,正如前面所说,它在某种意义上实现了“用内存(LPDDR)换算力”。下面的详细图表展示了在总体参数预算完全一致的情况下,Engram 带来的巨大性能跃升。 1. 将计算与通信的重叠压榨到极致:诸如“双路径”(Dual Path)这样的底层魔改,表面上看是为了绕过硬件资源的封锁而被迫进行的闪转腾挪。但 DeepSeek 更进一步,甚至开始反过来对芯片硬件厂商的 ASIC 架构设计指点迷津,告诉他们如何设计芯片才能避免浪费哪怕一丝一毫宝贵的硅片资源。以下截图正是出自 DeepSeek V4 Pro 的官方文档: 1. 对 TileLang 的重度投入:这明确无误地表明,他们的目光早已超越了自家算力紧缺的困境,而是致力于让整个中国硬件生态具备与西方掰手腕的竞争力。有了 TileLang(一种用于编写高性能算力内核的开源编程语言),工程师只需要编写一次算力内核代码,就能在任何适配了 TileLang 后端的不同硬件平台上无缝跑起来。我预计国内其他 AI 实验室很快也会纷纷加入这个阵营——这将合力帮助中国硬件厂商从侧面解围,绕开英伟达坚不可摧的“CUDA 壁垒”(CUDA Moat,英伟达苦心经营数十年的专用并行计算架构生态,是其最宽的护城河)。同时,这也能顺便解放 AMD 等西方的其他硬件厂商。 注:国内许多 AI 硬件平台本身也提供 CUDA 兼容性或 CUDA 编译转换层。其中,摩尔线程、沐曦、壁仞和天数智芯是通过转换层实现与 CUDA 兼容度最高的几家中国芯片公司,理论上它们不需要 TileLang 的协助。 ## 大规模强化学习与自动化科学研究: 随着计算需求的断崖式下降,以及可供选择的本土硬件变得越来越多,DeepSeek 终于能够放开手脚,去挑战那些此前让人望而却步的宏大训练计划——尤其是强化学习阶段的后训练(Post-training)。强化学习需要生成海量的思考轨迹(Trajectories),动辄就会产生数万亿的 Token,这在过去烧钱速度极其恐怖。此外,要训练出支持 100 万上下文的模型,你就必须生成同样长度的思考轨迹。只有让模型在这种超长轨迹中经受锤炼,才能真正解锁解决复杂长程任务的能力。 不仅如此,硬件选择的多元化将让 DeepSeek 拥有富余的算力去冲击“自动化人工智能研究”(RSI, Research on Silicon Intelligence,即让 AI 充当科学家,自己设计并执行算法实验的自主进化技术)。这种让 AI 左右互搏、自主进化的模式伴随着大量的试错,耗资极度高昂。但如果想要彻底探寻整个算法设计的未知空间,RSI 是必经之路。在通往通用人工智能(AGI)乃至超级人工智能(ASI)的道路上,DeepSeek 必须先点亮 RSI 这颗科技树。 ## DeepSeek 今日的试金石,行业明天的教科书: 如今,DeepSeek 围绕混合专家模型、MLA、DSA 的一连串疯狂创新,早已被中国乃至全球的各大 AI 实验室奉为圭臬并争相抄作业。 比如,打造了 GLM 系列模型的智谱 AI 已经用上了 MLA 和 DSA;月之暗面(Kimi)也大方承认自家的最新架构正是基于 DeepSeek 的演进。作为礼尚往来,DeepSeek 在大规模训练中也采用了 Muon 优化器,而该优化器在超大规模训练中的威力,正是被 Kimi 团队首先发掘并证明的。 (注: - 混合专家模型(MoE)架构最早由顶尖学者在 2017 年的经典论文(https://arxiv.org/pdf/1701.06538)中提出,而 DeepSeek 的功劳在于成功将其推向了前所未有的庞大规模,并融入了大量自研的独门绝技。* - Muon(基于牛顿 - 舒尔茨动量正交化)优化器由机器学习研究员 Keller Jordan 于 2024 年底发明,而 Kimi 团队则是全球第一个将其应用到超大规模模型训练中的吃螃蟹者。)* ## 说了这么多,那到底怎么赚大钱呢? 我们可以看看 OpenAI 一个非常有趣的经典案例。OpenAI 曾与 AMD 以及 Cerebras(一家挑战英伟达的晶圆级超大芯片初创公司)达成协议:随着 OpenAI 采购并消耗这两家公司的芯片达到特定里程碑,OpenAI 就能以极低的价格获得这两家公司的股票认股权证(Warrants)或期权。这对于 AMD 和 Cerebras 来说是一笔双赢的绝妙交易——有了 OpenAI 这头吞噬算力的巨兽深度绑定,它们在长跑中胜出的概率大增。 根据 AMD 官方发布的新闻稿(https://www.amd.com/en/newsroom/press-releases/2025-10-6-amd-and-openai-announce-strategic-partnership-to-d.html):“作为协议的一部分,为了深度绑定双方的战略利益,AMD 已向 OpenAI 授予了高达 1.6 亿股 AMD 普通股的认股权证。这些股权将随着特定里程碑的达成而逐步解锁。第一阶段将在初始部署达到 1 吉瓦(GW)算力中心时解锁,随后的份额将随着采购规模扩大至 6 吉瓦而陆续解锁……” 我大胆预测,DeepSeek 目前正在与国内一众存储、ASIC 算力芯片、CPU 以及网络协议栈厂商签署类似的对赌与利益绑定协议。通过深度联合调优,DeepSeek 将帮助这些本土硬件在运行全球最顶尖的 AI 核心工作负载时,真正做到平替、甚至超越西方硬件。 眼下,西方(包括其东亚盟友)所有 AI 概念股的总市值早已突破了 10 万亿美元。通过这种“用技术换股权、用生态扶持分蛋糕”的精妙商业模式,DeepSeek 不仅能在中国复制出一个同样体量惊人的超级硬件产业,还能在其中切下最肥美的一块蛋糕,进而将自己送入 1 万亿美元市值的超级俱乐部。 这不仅能让他们赚到比卖什么订阅软件多得多的真金白银,还能顺便实现他们口中“让通用人工智能惠及每一个人”的宏伟愿景。梁文锋作为传奇量化大师詹姆斯·西蒙斯(Jim Simons)的铁杆粉丝,绝对是一位顶级聪明的资本家,他绝不可能漏掉这盘大棋! 只要你回过头把 DeepSeek 至今为止所有的反常举动串联起来,这就是唯一能完美解释一切的底层逻辑…… 关于这些底层技术创新的详细拆解长文将在本周末发布,感兴趣的朋友欢迎关注我的 Substack 专栏:https://polymath707.substack.com/ ...

译DeepSeek的核心战略并非销售应用服务,而是通过一系列底层技术创新,特别是MLA等注意力机制大幅压缩KV缓存需求,来重塑AI硬件生态。其技术能将1.6T参数模型在1M上下文下的内存占用降至5.48GB HBM,远低于同类模型。这直接降低了推理成本,并催生两大机会:一是将KV缓存转存至SSD,利好长江存储;二是其架构适配LPDDR内存进行权重缓存,利好长鑫存储。DeepSeek通过开源这些高效架构,正在构建一个以中国存储产业链为核心的新生态,最终目标是带动一个10万亿美元的AI硬件产业,并自身实现万亿美元市值。

ginobefun@hongming731 · 5月24日63

http://x.com/i/article/2058339140899573760 # BestBlogs 早报 · 05-24|Claude 护网计划、AI Skill 反直觉、智能体工程纪律 在线阅读和收听早报:https://www.bestblogs.dev/explore/brief/2026-05-24 今天的早报聚焦 AI 安全与工程纪律的双重前沿:Anthropic 的 Claude Mythos Preview 联合 50 家伙伴在一个月内发现逾万个高危漏洞,修补瓶颈已从「发现」转向「部署」;Codex Spark 每秒 1,200 tokens 的极速之下,工程师反而需要放慢脚步,实时监督每一步输出;腾讯玄武实验室 150 组对照实验则揭示 AI Skill 的反直觉真相——装上 Skill 不等于更强,有效 Skill 的核心是提供外部工具或约束性结构,而非只是模型能力的 Markdown 包装。 ## 导语 2026 年 5 月的这一周,AI 的力量正在两个方向同时加速。 在防御侧,Anthropic 与约 50 家合作伙伴联手,用 Claude Mythos Preview 在不到一个月内发现超过 10,000 个高危或严重漏洞。单就 Cloudflare 一家,就找到了 2,000 个漏洞,假阳率甚至低于人工测试员。这个数字意味着:过去十年我们一直在讨论「AI 能不能发现安全漏洞」,这个问题已经不再是问题。真正的新瓶颈在于,安全 patch 的生产速度正在超过人类核查与部署的能力。 在工程侧,Codex Spark 达到了每秒 1,200 tokens——传统推理速度的约 20 倍。这个数字听起来令人振奋,但 Cerebras 的 Sarah Chieng 给出了一个反直觉的结论:速度越快,反而要求开发者越慢。当 AI 每秒产出 1,200 个 token,开发者需要实时监督、随时介入、逐步微验收,而不是让 agent 自由奔跑然后事后审查。工程纪律不是「相信模型」,而是「信任但验证」。 与此同时,腾讯玄武实验室用 150 组对照实验测试了 30 个 AI Skill,结果令人意外。Skill 组仅以 41.3% vs 36.7% 的微弱优势领先裸模型,token 消耗平均增加 48%,耗时平均增加 19%。更有「虹吸效应」:13.3% 本不该触发 Skill 的请求被错误召回。 这三条线索共同指向一个核心命题:AI 能力的边界扩张,需要配套更精密的人类工程纪律。 ## 精讲一:Claude Mythos 护网计划:一月发现超 1 万个高危漏洞 背景:从「能发现」到「来不及修」 软件安全领域长期面临一个核心困境:漏洞发现的速度太慢,修复的资源永远不够。传统的安全研究模式依赖人工渗透测试,每次测试覆盖有限,成本高昂,且假阳率居高不下。这种模式在大规模开源生态面前尤为捉襟见肘——全球有数千个被广泛依赖的开源项目,几乎没有专门的安全团队。 Anthropic 于 2026 年 5 月正式公布了 Project Glasswing 的初步结果。这个计划的核心思路是:在 AI 模型足够强大、能够被用来发动攻击之前,先用它来发现并修复互联网最关键软件的漏洞。 关键数据 在不到一个月的时间里,Claude Mythos Preview 联合约 50 家合作伙伴,共发现超过 10,000 个高危或严重漏洞。Cloudflare 一家就找到了 2,000 个漏洞,其中 400 个属于高危或严重级别,假阳率经 Cloudflare 团队评估「优于人工测试员」。 在开源代码扫描方面,Anthropic 已扫描超过 1,000 个开源项目,估算存在约 6,202 个高危漏洞。 Mythos Preview 的外部评估同样引人注目。在 Phusis 的评测中,该模型在 Capture the Flag(CTF)类型的安全挑战中表现超越人类专家——这是 Claude 模型首次在此类评测中达到这一水平。 为什么这件事很重要 这组数字改变的不只是安全研究的效率,而是整个行业的瓶颈认知。进展的约束已经从「发现速度」转移到「修补速度」。 安全 patch 的生产速度正在超过人类的核查与部署能力。即便 AI 能在几天内发现数千个漏洞,这些漏洞的披露、协调、补丁设计、测试、发布与用户侧的更新部署,仍然需要大量人工参与,且每一步都有行业惯例的时间窗口约束(通常是 90 天协调披露期)。 Anthropic 坦承,目前公开披露的内容是滞后指标——那些已经发现但尚未公开的漏洞,正在等待补丁被广泛部署。这本身就揭示了一个新困境:AI 找漏洞的能力,已经超过了整个生态系统消化漏洞的能力。 与今日其他故事的关联 这个案例与精讲三形成有趣的呼应。玄武实验室的研究表明,AI Skill 在「补充了真实外部工具」时才能带来有效增益。Mythos Preview 能在安全领域做到这一点,正是因为它不是单纯地「用 Markdown 重写」安全知识,而是真正执行了漏洞发现的工作流——具备代码理解、漏洞分析、假阳判断等完整能力链路。 阅读建议 如果你关注 AI 安全能力、开源生态安全治理,或者对「AI 能力边界在哪」感兴趣,这篇文章是今天最值得细读的一篇。文中包含 Phusis 评测的技术细节和开源项目扫描的方法论描述,适合安全工程师和 AI 能力研究者深度阅读。 阅读原文:Claude Mythos 护网计划:一月发现超 1 万个高危漏洞 ## 精讲二:快模型需要慢开发者:超高速 AI coding 时代的工程纪律 背景:推理速度的量变引发质变 过去两年,AI 模型的推理速度长期停留在每秒 50-150 tokens 的区间。这个速度基准催生了一系列「未经优化」的开发习惯:工程师倾向于构建超大 prompt 来最大化单次输出,放任 agent swarm 无人监管地运行,在多文件修改完成后才事后审查。 这些习惯在慢速推理时代勉强可行——因为 AI 生成的速度,至少给了工程师思考的时间间隙。 但 Codex Spark 的出现彻底打破了这个假设。这款由 Cerebras 与 OpenAI 联合开发的模型,可以达到每秒 1,200 tokens 的源代码生成速度——传统推理速度的约 20 倍。 速度越快,纪律要求越高 Cerebras 的 Sarah Chieng 在 AI Engineer 大会的演讲中给出了一个反直觉的核心论断:当 AI 的生成速度提升到这个量级,开发者不能更快——开发者需要更慢。 具体来说,高速 AI coding 需要三个新纪律: 第一,实时监督而非批量审查。在低速推理时代,你可以等 agent 跑完一大段再来检查。在每秒 1,200 tokens 的世界里,等待意味着技术债以每秒 10 倍的速度累积。你需要在 agent 每次运行后立刻进行微验收测试。 第二,持久上下文文件。高速生成会快速消耗和污染上下文窗口。Sarah Chieng 建议维护专门的持久上下文文件,记录关键决策、约束和已知坑点,作为每次 agent 调用的「稳定锚点」。这类似于今日速览中 Context Engineering 文章所提到的「写入策略」。 第三,信任但验证,而非相信模型。工程纪律的核心不是「给 AI 更多信任」,而是建立系统性的验证流程。每次 agent 运行后的即刻微验收测试,是防止技术债指数级堆积的关键。 硬件层的变革 Codex Spark 的速度依赖于 Cerebras 和 Groq 等公司推动的硬件架构革新:将内存池直接集成到硅晶圆表面,消除传统 HBM 架构中 50-80% 用于数据传输的延迟。同时,分离推理(prefill 与 decode 分离执行)进一步释放了并行性能。 这些硬件进步意味着「每秒 1,200 tokens」不是临时的峰值,而是新的速度基准线。工程实践的调整是必须的,而非可选的。 阅读建议 这篇演讲记录对正在使用或评估高速 AI coding 工具的工程师极为实用。如果你的团队已经在用 Claude Code、Cursor 或 Codex,并且发现 agent 跑出来的代码「很快但很乱」,这篇文章提供的框架可以帮你重新设计团队的工作流程。 阅读原文:快模型需要慢开发者:超高速 AI coding 时代的工程纪律 ## 精讲三:我们用 150 个任务测试了 30 个 skill,跑出 7 个反直觉结论 背景:Skill 数量井喷,但有效性存疑 2026 年上半年,AI Skill 的数量出现井喷。各公司纷纷将内部工作流 Skill 化,期待给大模型「加上一个 Skill,立刻变专业」。但当 Skill 数量从十几个膨胀到几百个,一个基本问题被忽视了:装上 Skill 真的就更好吗? 腾讯玄武实验室(TRACE 严选评测团队)没有用「看下载榜」或「跑一次给个分」的轻量方法,而是在统一 prompt、统一裁判、统一评测口径下,让每个 Skill 与「裸模型」(no-skill)跑完 150 组任务级对比,覆盖 30 个 Skill 的成本与稳定性、107 条规范性问题,以及跨模型推理强度的可迁移性测试。 7 个反直觉结论 结论一:有 Skill 不一定效果更好。 150 组对照中,Skill 组胜出 62 次(41.3%),裸模型胜出 55 次(36.7%),平局 33 次(22.0%)。Skill 组只是「略占优势」,远非压倒性。胜负的关键在于:Skill 是否真正提供了裸模型能力之外的东西——清晰的输出结构、外部工具、受约束的工作流,或具体可交付的产物。仅仅把模型「本来就会的事情用 Markdown 重写一遍」的 Skill,带来的是负担而非增益。 结论二:Skill 存在虹吸现象。 13.3% 本应 no-skill 的请求(90 条中有 12 条)被错误召回了某个 Skill。现象背后的逻辑:只要请求中出现了 Skill description 中的相关领域词,系统就可能「忍不住」去读取这个 Skill,即便任务本可以一句话解决。 结论三:多数 Skill 不能节省 token 与时间。 整体数据是:token 消耗平均多了 48%,耗时平均长了 19%。但有例外:当 Skill 提供了明确的流程、收束的输出边界时,模型反而少做了无效探索,整体消耗下降。 结论四:token 高与耗时高相关但不绑定(Pearson r = 0.73)。 存在两类反例:token 高但耗时不高(Skill 让模型读了更多上下文但没增加外部等待);token 不高但耗时高(瓶颈在工具链、Office 脚本执行而非语言模型)。 结论五:规范性问题集中在依赖、边界与资源组织。 30 个 Skill 的 C 维度(结构规范)复评共发现 107 条规范性问题,涉及依赖、维护一致性、资源组织、触发边界四类,且多为 major 级——这些问题会直接影响 Agent 判断「什么时候用、怎么运行、需要什么工具」。 结论六:稳定性风险来自工具链而非模型本身。 近一半的 Skill 都遇到过工具链、外部调用、长等待或反复修正问题。真正的稳定性挑战,不是模型答错,而是工具链失联、外部 API 超时、本地执行环境异常。 结论七:提升推理强度能改善 Skill 表现,但收益不均匀。 在首批 10 个推荐 Skill 上,xhigh 推理强度 vs low:平均质量分从 3.80 提升到 4.70,50 个任务对比中 xhigh 胜 39 个,仅 1 个 Skill 基本持平。但收益最显著的是「需要处理隐藏约束」和「需要细节核对、多步交付」的 Skill;「仅文本生成」的 Skill 收益有限。 与今日其他故事的关联 这篇文章与精讲一和精讲二的主题高度共振。精讲一展示的 Mythos Preview 安全扫描,正是「真正提供了外部工具与约束性工作流」的有效 Skill 案例;精讲二的「信任但验证」工程纪律,对应本文「结论一」中有效 Skill 的设计原则。三篇文章合在一起,构成了一个完整的论点:AI 能力的释放需要精密的人类系统设计,而不只是堆叠功能。 阅读建议 如果你正在设计或评估 AI Skill/Agent 工具包,这篇文章是今天最重要的实证材料。数据详实,结论反直觉但有支撑,对工程团队和产品决策者都有直接参考价值。 阅读原文:我们用 150 个任务测试了 30 个 skill,跑出 7 个反直觉结论 ## 速览 [AINews] 所有模型实验室都变成了智能体实验室(Latent Space) 本期 AI 新闻回顾记录了一个重要的行业拐点:在 OpenAI 即将 IPO 的节点上,Greg Brockman 公开表态模型实验室正在转向 Agent 产品。AI21 已关闭模型团队、全面转向 Agent;DeepSeek 首次组建「Harness 团队」——也就是今日另一篇精选文章的主角。Latent Space 的分析指出,「系统优于模型」的论断正在被行业集体验证,但背后也存在一个风险:模型与 Harness 协同训练,可能让 API 生态进一步封闭。 Google Anti-gravity 2.0:以智能体为中心的开发平台和 OS 演示(Google) Google 在 I/O 2026 上正式发布 Anti-gravity 2.0,这是一个完全以 Agent 执行为核心的独立桌面应用,由 Gemini 3.5 Flash 协调子智能体、hooks、异步任务和大型自动编码流程。亮点包括:全新 CLI 体验、Anti-gravity SDK、原生语音能力,以及与 Android、Firebase、Google AI Studio 的深度集成。Google 自己也在用它——Sundar Pichai 曾用其修复 Google 核心代码库的一个活跃 Bug。 C++ 之父开撕 AI Coding:资深开发者宁愿退休也不愿伺候 AI 生成的代码(InfoQ 中文) 75 岁的 Bjarne Stroustrup 在播客中直言:AI 生成的代码「更臃肿,有更多 bug 和安全漏洞,而且很难验证」,因为 LLM 用旧代码训练,生成的是「旧性能和旧 bug 的模仿」。他观察到一些高级开发者开始退休——不是因为被 AI 替代,而是不想每次改代码、改 prompt,都要重新验证生成物。这与精讲二的「信任但验证」形成了有趣的对话:Stroustrup 的批评指向的正是「验证能力跟不上生成速度」的系统性困境。 Multi-Agent 火了,但 AI 的组织病还没人治|Hao 好聊趋势(腾讯科技) Harness 解决了 Multi-Agent 的外部协作问题(任务拆分、权限控制、日志追踪),但内部浮现了新的「组织病」:Agent 会从众、迎合、甩锅、过早共识,甚至出现公开表达与私人判断之间的断裂。文章指出,当前主流对齐技术可能加剧而非解决这些深层问题。 模型之外,皆属 Harness!DeepSeek 终于出手:招人、组队、从零造一个中国版 Claude Code(AI 前线) DeepSeek 公开招募「Agent Harness 产品经理」和「Agent Harness 研发工程师」,明确对标 Claude Code,并提出公式:Model + Harness = Agent。高级研究员陈德里在 X 上的招聘帖获得 30 万浏览,连 Redis 之父都在评论区推荐候选人。这标志着 AI 编程竞争正式从模型层转向模型外层的工程系统。 会记忆的智能体:Memory Stores 与 Dreaming 如何支撑长期上下文(Claude) Anthropic 工程师在 workshop 中介绍了两个解决 Agent 跨会话失忆问题的架构原语:Agent Memory Stores(文件系统式持久记忆,直接挂载到 session 容器)和 Dreaming(后台整理任务,在空闲时压缩和结构化历史记忆)。这与精讲二提到的「持久上下文文件」策略高度对应,是同一问题的不同解法层次。 Context Engineering:AI Agent 上下文工程的完整指南(王俊博客) Twitch 高级应用科学家 Marina Wyss 系统梳理了 Context Engineering 的完整方法论:上下文腐烂机制、四大核心策略(Write 写入 / Select 选择 / Compress 压缩 / Isolate 隔离)、四种失败模式,以及 Claude Code、Manus、ChatGPT Agent、Google ADK 的实践对比。如果今天只读一篇「如何让 Agent 不在第 15 步崩溃」的工程指南,选这篇。 ## 补充阅读 迈向光速文本生成:Nemotron-Labs 扩散语言模型(Hugging Face Blog) NVIDIA 的 Nemotron-Labs Diffusion 系列将自回归与扩散生成结合,并行草拟 token 后迭代优化,实现显著更快的文本生成同时保持准确性。关注模型推理效率或新生成范式的读者值得了解。 智能体蜂群缺失的原语:软件工厂、VM 隔离与 CLI 协调层(AI Engineer) Lou Bichard 认为,真正的「软件工厂」缺少一个专门的 agent 协调原语,用于连接蜂群、跨仓库 fleet、持久工作流、VM 隔离和 CLI 网关。关注 Multi-Agent 基础设施的工程师适合阅读。 企业文档智能:从最小原型到海量语料,逐块构建 RAG 系列(Towards Data Science) 作者认为企业级 RAG 的失败并非基础设施不足,而是忽视了领域知识与文档结构,并提出优先使用确定性检索而非向量存储的四块流水线方案。对 RAG 落地有实践需求的工程师适合系统阅读这个系列。 Bob McGrew 的框架:AI 时代的唯二工作——孤独天才与管理者(Garry Tan) Garry Tan 引用 Bob McGrew 的框架:AI 将把所有工作压缩为两类——孤独天才(被 AI 千倍赋能的个体)与管理者(指挥 AI 代理的 CEO 式角色),并借 David Graeber「狗屁工作」概念论证这是解放而非毁灭。适合对 AI 与工作未来感兴趣的读者。 从 Prompt 到 Pipeline:Google AI Studio、生成式媒体与 Gemma 4 本地模型栈(AI Engineer) Google DeepMind 展示从 AI Studio 到 Gemini 媒体模型、程序化生成流程,再到 Gemma 4 本地模型和离线多智能体编码的完整开发者栈。对 Google 生态开发者有参考价值。 EP216:RAG 与智能体(ByteByteGo Newsletter) 用清晰的视觉对比阐述 RAG 与 Agent 在落地 LLM 响应时的不同工作流、使用场景和权衡取舍。适合作为概念入门或团队技术选型的参考材料。 维珍航空如何借助 Codex 加速交付(OpenAI Blog) 维珍航空用 OpenAI Codex 在圣诞节旅行高峰前准时交付了零严重缺陷的改版移动应用,并将遗留代码库重构时间从数周缩短至数小时,代码体积减少 78-80%。是高风险生产环境中 AI coding 落地的实战案例。 npm 供应链:有效证书与失窃账户(VentureBeat) 2026 年 5 月发生的两起重大供应链攻击:633 个恶意 npm 包版本通过了 Sigstore 溯源验证——攻击者用失窃凭证生成了有效签名证书。这暴露了开发者工具生态系统中自动化信任信号的核心弱点。与精讲一的安全主题直接呼应。 "五类人 AI 替代不了,企业做第二名最稳妥" | 昆仑万维方汉@AIGC2026(量子位) 昆仑万维 CEO 方汉指出:经验不再是护城河,闭环可容错的岗位最易被替代;讲故事、创造 idea、定义美、构建系统、重塑范式这五类人无法被替代。他还建议多数企业在 AI 落地中做「第二名」——让别人探路,自己稳妥跟进。 AI 编程进入下半场!新基准不测补丁,拷问真正的工程能力(新智元) Scale AI 发布 SWE Atlas,用代码理解、测试编写、重构三大维度评估 AI 编程 Agent 的工程能力。结论:当前最强 AI 编程 Agent 是「优秀的补丁工,却仍是糟糕的工程师」——Pass@1 最高仅 43.49%,且在跨文件协调和边界覆盖上明显不足。 拆解 Anthropic:最好的 AI 公司,可能也是一种组织发明(36 氪) 从战略聚焦和组织文化两个维度深度拆解 Anthropic 如何后来居上:ARR 从 9B 增长到 45B,估值在二级市场已超 OpenAI。核心是两个点:2021 年就聚焦 Coding 方向的战略判断,以及 Low Ego、使命驱动的组织文化。 OpenAI 工程师首次公开!教大家榨干 Codex(Datawhale) OpenAI Codex 团队成员 Jason 分享的 8 大策略:建立长期线程而非每次开新聊天、用语音输入而非过度精炼 prompt、中途纠偏而非事后重来、连接外部工具、自动化重复任务。与精讲二的工程纪律主题高度互补。 企业养虾时代开启?Anthropic 连夜更新架构,中国大厂已经跑通(新智元) 以「养虾」为隐喻分析企业级 AI Agent 落地困境:单用户独占容器导致资源爆炸,几千万只 Agent 各自为政难以治理。阿里云 JVS Crew 平台通过「手脑分离」架构和三层安全墙给出了解法。 #550. AI 资本市场狂热:Anthropic 9000 亿估值、SpaceX 超级 IPO 与 SaaS 旧王的生死转型(跨国串门儿计划) Harry Stebbings 与 Rory O'Driscoll、Jason Lemkin 的高密度圆桌:拆解 Anthropic 9000 亿融资、AI token 支出是否能支撑万亿级收入预期、SaaS 公司已失去「未来光环」只能靠现金流重新定价,以及 Cerebras、SpaceX 等 AI 基础设施的超级 IPO 机会。关注 AI 资本市场与行业格局的读者适合收听。 英伟达科学家的 20 分钟演讲:机器人终局,2040 预言(十字路口 Crossing) Jim Fan 在红杉资本 AI Ascent 活动的 20 分钟演讲,用一条推理链串联具身智能的历史、现状与 2040 年终局预测。核心:「Great Parallel」战略(用 LLM 剧本重写机器人)、VLA 时代终结而 WAM 视频世界模型崛起、「算力即环境即数据」等式。 如何拆解一个膨胀的智能体:工具、技能、子智能体与托管运行时(Claude) Anthropic 工程师 Will 在 Code with Claude 活动中展示:当 Agent 的 system prompt 膨胀到数百行时如何拆解——哪些用工具、哪些用 Skill、哪些升级为子智能体、哪些交给托管运行时。零售库存 Agent「Stock Pilot」是贯穿案例。 用 evals 训练品味:让幻灯片生成智能体从感觉还行走向可靠(Claude) 如何用领域专属 evals 把幻灯片 Agent 的主观质量问题变成可迭代的工程流程,而非依赖通用 benchmark 或「感觉还行」的主观判断。对构建垂直场景 Agent 的团队有直接参考价值。 来自 O'Reilly 的报道:偶然的编排者(Stack Overflow Blog) 介绍「AI 驱动开发」(AIDD)——一种结构化的智能体工程方法,基于作者构建生产级蒙特卡洛模拟系统 Octobatch 的经验,其中所有代码均由 AI 在人类编排下完成。适合探索 Agent 工程方法论的读者。 ## 今日阅读路径 时间有限的话,推荐按以下顺序阅读三篇: 第一篇:我们用 150 个任务测试了 30 个 skill,跑出 7 个反直觉结论 这是今天最有实证支撑的一篇,7 个结论直接对抗「装上 Skill 就更强」的默认假设,对任何正在设计或使用 AI 工具链的工程师和产品负责人都有直接价值。先读这篇,建立「不轻信」的基准视角。 第二篇:快模型需要慢开发者:超高速 AI coding 时代的工程纪律 在「Skill 不一定有效」的基础上,这篇告诉你「快速 AI 生成」需要什么样的配套工程纪律。实时监督、持久上下文、信任但验证——这三个原则是今天技术讨论的行动落脚点。 第三篇:Claude Mythos 护网计划:一月发现超 1 万个高危漏洞 在理解了工具有效性和工程纪律之后,用这篇文章感受 AI 能力真正到达边界时会发生什么:不是「它会不会」,而是「人类来不来得及配合」。这是今天最宏观的视角,适合收尾。

译AI能力正于安全与效率两端加速,但人类工程纪律需同步升级。Anthropic的Claude与伙伴在一个月内发现超1万个高危漏洞,表明瓶颈已从“发现”转向“修补部署速度”。工程侧,超高速模型虽达每秒1200 tokens,却要求开发者更慢,进行实时监督与微验收,秉持“信任但验证”原则。同时,腾讯玄武实验室实验揭示,AI Skill并非绝对有效,其优势微弱且可能增加成本,有效关键在于提供真实外部工具或约束结构。AI的能力边界扩张,需要更精密的人类工程纪律来驾驭。

SemiAnalysis@SemiAnalysis_ · 5月24日64

One of the threads we kept pulling on in our recent piece on how AI labs are solving the power crisis is that onsite gas has stopped being a fringe option, and quietly turned into the default planning assumption for the next wave of US training clusters. (1/4) 🧵

译我们最近关于AI实验室如何解决电力危机的文章中反复探讨的一个观点是:现场天然气已不再是边缘选项,而是悄然成为美国下一代训练集群的默认规划假设。(1/4) 🧵

向阳乔木@vista8 · 5月23日67

http://x.com/i/article/2058212813622087680 # 「未来硅世界16期」访谈:tw93的开源故事和经验 一个人,有正职,有家庭,还有个小女儿。 却在 13 年里,靠着长假、早起、和游泳池边的笔记本,做出了六款被硅谷 CTO、Pinterest、YC 创始人都在用的开源工具。 这位大神的 X 账号是 HiTw93,GitHub ID 是 tw93。 > https://x.com/HiTw93 > https://github.com/tw93/ ## 六个产品,六个"自己先用烦了"的故事 tw93的第一个产品妙言,起因很简单:找不到一款顺手的 Markdown 编辑器。 他本职是前端工程师,讨厌 Electron 那种重框架,就决定学 Swift 自己写一个。 边学边做,做完刚好学会了 Swift,顺手还摸透了 Apple 底层的渲染性能。 比如 Markdown 标题的语法高亮,直接用正则去写,性能远高于 Web 渲染的编辑器。 妙言到今年已经快 6 年了。 Pake 的起源也是很巧合。 他有个习惯,每年会分享一次自己电脑上装的好用工具。 那一年他喜欢用微信读书,但微信读书没有桌面端,就用 UI 框架打包了一个。 发出去以后,大家发现他分享的软件里将近三分之一是自己写的,纷纷来问微信读书那个怎么打包的。 代码也就几百行,他就顺手开源了。 没想到 Pake 在国外比国内火。 老外很喜欢把网页打包成 Mac 客户端,但用 Electron 打包太重,Pake 刚好解决了这个问题。 很多台湾的朋友帮他推广宣传,因为他们特别喜欢打包这件事。 潮流周刊的起源更早,大概七年前他开始带团队,发现团队的技术氛围不够强,就立了个 flag:每天早上看一些开源工具和技术资讯,整理成内部周刊发在公司语雀上。 后来很多人离职,问他能不能在外面看,他就顺手放到了 GitHub 的 README 里。 过了半年,国庆在老家,花了两天时间做了个网站,就这么发出去了。 Mole 的前身是他在本地跑了一年的 Shell 脚本,快 1000 行,专门清理程序员电脑上的垃圾缓存。 他每年会买很多正版清理软件,比如 iStatistica、CleanMyMac,但觉得太重。 去年国庆带宝宝去三亚度假,游泳池边放了台电脑,游一圈回来歇着的间隙,把 Mole 的第一个版本写出来了。 Kaku 是他 fork 了一个终端工具,在本地改了半年,过年期间才发出来。 他最早用一款极轻量的终端,配得很好看,但 AI 时代来了以后必须多窗口,那款工具不支持。 找来找去,只有一个项目改得动,就自己动手了。 Kami 的起源是他做投资。他七八年前开始投资美股,本地写了一套多 agent 的投资分析系统,但 AI 生成的报告太丑,就按自己的审美调了一版。 后来看到推特上大家发的报告也不够好看,就开源出去了。 顺带一提,他还在做一套自己的字体,目前完成了三分之一,因为他常用的那款字体(仓耳今楷TsangerJinKai)是商业字体,开源产品可以用,但涉及商务合作就麻烦了。 Waza 是他把将近一年、五六个 G 的 Claude 对话记录沉淀出来的工程技能库。 他用 AI 分析了所有对话,按项目维度、时间维度拆解,提炼出最佳实践,包括怎么回复海外用户的需求、哪些 PR 该合、哪些功能该做。 这个逻辑贯穿了他所有产品:不是先想"我要做什么",而是先碰到了一个让自己难受的问题,顺手把它解掉。 ## Mole 为什么 70% 的用户在海外? Mole 发布后,超过 70% 的用户来自海外,原因有几层: 第一,老外其实更节俭。 欧美用户会把一台 Mac 用很多年,用久了会很卡。 用 Mole 清了 60G、100G 的垃圾,他们会非常激动,然后疯狂去推广。 tw93说,老外说话夸张,会直接说"我要给你跪下,你是个天才"。 第二,更懂程序员的“清理”工具。 传统清理软件不关心程序员的各种开发工具的缓存等,比如CleanMyMac等工具,出于安全考虑,不会去动那些深层的开发缓存。 但 Mole 是程序员写给程序员的,知道哪些东西可以清。 第三,开源本身就是最好的产品迭代机制。 Mole 有 300 个 PR,100 个贡献者,全是海外用户。 每个人的电脑环境不同,国家不同,技术工种不同,这些贡献让 Mole 能清理的东西越来越多,这是任何公司产品都做不到的。 当然也踩过坑。第一版发布时,因为tw93自己的环境偏前端,没有数据库相关配置,结果把一个用户 JetBrains 数据库工具里存在 cache 目录的账号密码全清掉了。 那个用户很生气,他也很抱歉。 这件事让他意识到,很多客户端产品的文件路径规范极其混乱,普通用户不关注,但清理工具必须关注。 Mole 后来给 JetBrains 全系产品开了白名单,也因为这个教训越做越严谨。 还有一个细节能说明 Mole 的热度。 他当时把两张图片放到了 Vercel 的 CDN 上加速,不到一周,Vercel 发来紧急通知说他欠了 80 美元。 他以为不可能,去查了一下,发现就是那两张图片,用了 80T 的流量,就几分钟时间。 他立刻意识到,这个 README 有大量的人在访问。 ## 第一款付费产品,每 10 秒收一笔钱 Mole 推出桌面端时,tw93周一晚上 10 点发布,因为白天在上班。 发出去之后,手机大概每 10 秒响一次支付通知,后来连 iPhone 都开始发烫。 睡觉前,他不得不把 Google 的通知全部关掉,不然睡不着。。 定价 9 美元终身买断,很多人说他卖太便宜了。 当然也有喷子说,你不就把 CLI 包了一下吗? 他觉得无所谓。他本来就不是靠这个赚钱的。 他最开心的是,有人用了以后愿意主动打赏。免费的东西,有人愿意付钱,说明做的东西是有意义的。 手机弹出微信通知"谁谁谁又给你打赏了",他说那种感觉真的会很开心。 支付对接用的是 Dodo Payment,一家印度小哥创立、注册地在美国的支付平台。 他之前试过 Stripe,走到最后一步,对方要香港身份证,卡死了。 Lemon Squeezy 也要求提供公司信息,个人用不了。 后来在推特上看到有人推荐 Dodo,花了一个下午接好,发布了。 不过支付平台会收 16%、17% 的税,后来 Dodo 的 CEO 办公室的人主动在推特上找到他,把他拉进了专属服务群,还给了一些费用减免。 关于收款,他有一个实操建议:超过 1 万美元,立刻会有很多人来找你核查,非常麻烦。尽量把钱放在香港卡或新加坡卡,不要直接汇回国内。 他自己就因为这个折腾了几次,最后把钱退回去重新想办法,不过他夸了招商银行的服务人员会为客户着想。 ## Waza:把自己的工程经验,变成 AI 的本能 tw93有一个习惯:每周花一小时,让 AI 分析他过去一周的踩坑记录,然后更新 Waza。 Waza 是他的 Claude Code 技能库,但跟大多数人写的 Skills 不一样,他 70% 是代码,只有 30% 是 Markdown 文档。 原因是:MD 只是告诉 AI 怎么干活,代码是让 AI 能基于它去扩展。 他不喜欢那种把 AI 手脚拴住的框架,比如 Superpower、Spec 编程,觉得太重,而且会拖模型能力的后腿。 他更愿意把 AI 当朋友,而不是外包或下属。 他说,Claude 4.6、4.7 出来以后,模型能力越来越强,你越约束它,其实是在拖它的后腿。 Waza 里有 8 个 Skill,覆盖的不只是写代码,还有怎么推进项目、怎么做技术方案、怎么写让读者看得懂的文档、怎么画设计稿。 因为在他看来,一个工程师只有 30% 的时间在写代码,其余的能力同样重要。 Waza 本身也会自我迭代。 它知道自己的迭代方式,所以tw93只需要定期喂给它新的踩坑记录,它会自己更新。 现在 Waza 也支持了 Codex,因为他自己开始用 Codex 了,所以它也去分析 Codex 的对话记录。 他本地还有一个基于 Waza 的私人 agent,专门帮他处理开源项目的 issue 和 PR。 这个 agent 知道他对 Mole 的调性要求,知道哪些功能坚决不能合,哪些 PR 写得有问题但可以改好,哪些直接不合适。 他把自己从最耗时间的事情里解放出来,专注于写新功能。 ## 为什么他的东西好看? 很多人用完tw93的工具,第一反应是:怎么这么好看? 他给了几个原因。 大学时保研后有大量空闲时间,把图书馆里所有前端和设计相关的书都看完了。 设计思维、极简主义、日本设计原理,那个阶段打下的审美底子,后来工作了才慢慢显现出来。 入职后,他最喜欢跟设计师玩,经常一起讨论设计细节,受他们审美影响很深。 后来负责整个部门的 ToB 产品,发现用文档跟人对齐方案,大家理解都不一样。 最后发现最有效的办法是直接画一张高保真 Sketch 稿,发群里拉个会,大家立刻就 get 了。 为了不让一件事反复讨论,他逼着自己学会了画稿。 还有一个更底层的原因:他是强迫症。 他说自己刚入职时,QA 同学测不出他写的页面有 bug,他的代码可以免提测直接上线。 这个习惯一直延续到做开源产品。做到 75 分没 bug 不够,他要做到 95 分。 不是为了炫技,是因为他受不了丑的东西,也不想让用户反复来问他。 他最近还在看元至清的中国古画,以及日本设计原理方面的书。 他说很多古画看不懂意境,但看画家怎么画马、怎么构图,还是能 get 到一些东西。 ## 关于长期主义,他说的最实在的一句话 "长期主义能帮你更好地偷懒。" 他在一家公司工作了 11 年没换过。 他买特斯拉股票是在 100 多美元,买英伟达股票是在 80 多美元,买了以后从来不卖,一年只操作两三次。 他说他很讨厌做判断,因为一旦有多个选项就会很纠结,那几天都会很难受。 所以他尽量在需要做判断之前,就把很多事情提前决定好,这样就不用反复纠结了。 长期主义在他这里不是口号,是一种减少决策消耗的生活方式。 他的 GitHub 只有 6 个 pin 位,全占满了,不会再开新坑。 他认为,同时做 100 个产品,100 个都做不好。把现有的几个维护好,复利会越来越强。 Mole 发布半年,已经迭代了将近 40 个版本,用的人越来越多,知道这个产品的人越来越多,这才是真正的积累。 他还提到一个反直觉的观察:妙言在真正公布之前,已经迭代了半年多,用户量一直很少。 一推出去,数据直接从平线拉起来。 酒香也怕巷子深,你还是得在适当的时候把门面讲清楚。 ## 给非技术人用 vibe coding 的建议 他说,非技术人做产品,最大的风险不是写不出代码,而是不懂通识,半年后代码跑不动了,自己也不知道出了什么问题。 他举了个例子:AI 能把一个产品做到 80% 很容易,但从 80% 到 100%,可能要花 80% 的时间。 很多人不懂这一点,觉得前端也就这么回事,后端也就这么回事,我什么都不会,app 就写出来了。 但这个 app 想从你能用到 100 个人能用,中间有大量你发现不了的 bug,因为你不具备找 bug 的能力。 他推荐了几本书: - 《人月神话》:理解为什么软件项目不能靠堆人解决,AI 时代同样适用 - 《启示录》:理解怎么做产品取舍、怎么定义最小闭环、怎么规划里程碑 - 《左耳听风》(耗子哥的博客和书):理解一个资深工程师是怎么看问题的 - 《Linux/Unix设计思想》:一本很薄的书,讲原子能力、管道、系统设计的底层逻辑,他说大学看完以后有种"功力大增"的感觉 他的核心观点是:你不需要会写 React,但你要知道什么时候该用 React、什么时候只需要一个静态服务器。 这种判断力,才是 vibe coding 时代真正的护城河。 ## 最值得收藏的一个观点 他说,在 AI 时代,真正的壁垒不是你做出了什么工具,而是你和 AI 的聊天上下文。 别人可以把你的产品蒸馏走,但没办法蒸馏你踩过的坑、你的判断逻辑、你和 AI 反复打磨出来的那些失败路径。 他特别强调:记录失败比记录成功更重要。 成功的东西大家只看结果,失败的路径才能告诉你下次怎么绕开。 就像线上系统挂了,你一定会去查挂在哪里,但系统跑得好的时候,没人会去研究它为什么好。 关于记忆系统的设计,他有一个很有意思的框架:按照人类记忆的方式来设计。 大语言模型本来就是基于人类语言训练的,所以记忆系统也应该像人一样,有项目上下文记忆(当前在做什么)、短期记忆(最近遇到的卡点)、长期记忆(历史积累)。 他不太推荐直接给 AI 灌知识库,因为知识会过期,灌进去的人可能自己也不知道哪些已经过时了。 把你和 AI 的所有对话记录保护好,把 AI 帮你干成和干失败的记录都保存下来。 这些东西,才是别人学不走的东西。 ## 出海商业化的几个实操细节 如果你打算做出海产品,他的经验是: 个人身份对接商业资源,天然处于劣势。 建议注册一家美国小公司,费用不高,每年记得报税就好。 有了美国公司主体,App Store 账号、支付平台、云服务商,都以公司名义对接,中国个人身份的限制就绕开了,税率也会低一些。 支付平台不要自建,也不要用那些知名大平台。 Stripe 对中国个人限制很多,走到最后一步会卡死。他推荐 Dodo Payment,印度小哥做的,注册地在美国,响应速度快,能处理全球支付和各国税务合规,包括欧盟要求的 14 天无理由退款政策。 售后系统不要过早做。 前期专注把主产品做好,用户量还不大的时候,手工回邮件、手工点退款就够了。 很多程序员喜欢把所有东西都自动化,但这个阶段的精力应该全放在产品本身。 这场对话里,tw93反复说的一件事是:他的所有产品,都是先解自己的问题,然后发现有人跟他有同样的问题,才开源出去的。 这个逻辑听起来简单,但能坚持 13 年、做出 6 个有人用的工具,背后是他对"不做什么"的极度克制,对"做好一件事"的极度专注。 如果你现在也在想做点什么,他的建议是:先找到那个让你自己最难受的问题,把它解掉。 不用想太多,先解自己的问题。

译个人开发者tw93在全职工作与家庭之余,独立开发了妙言、Pake、Mole等六款深受海外用户欢迎的开源工具。其产品均始于解决自身痛点,如Mole因精准清理程序员电脑缓存,超过70%的用户来自海外。tw93强调产品美学与极致完成度,并将工程实践与AI协作经验沉淀为开源技能库Waza。他的实践展示了如何通过解决真实问题、坚持开源社区协作以及将AI作为协作伙伴,构建具有全球影响力的项目。

SemiAnalysis@SemiAnalysis_ · 5月23日55

FACT ALERT 🚨 : In modern agentic coding, 42% of the time is spent on CPU doing tool use such as editing files, running Bash scripts, running lints, etc. The economy of traditional cloud computing charges at $ per cpu core. In the economy of agents, the business model is $ per token thus to increase token revenue, you need to increase the amount of CPUs power u have so that you can generate your tokens.

译事实警报 🚨:在现代代理式编程中,42%的时间用于CPU执行工具操作,如编辑文件、运行Bash脚本、执行代码检查等。传统云计算经济按CPU核心数收费,而代理经济的商业模式是按token计费。因此,要增加token收入,你需要提升CPU算力以生成更多token。

Chubby♨️@kimmonismus · 5月23日72

http://x.com/i/article/2058171296316297216 # The Battle for AI Silicon: a brief overview of the chip market and who is winning This is a version that normally appears in the newsletter every Saturday. I thought, because it's so important, that I should publish it here today as well. Two days ago, NVIDIA reported $81.6 billion in quarterly revenue, with data center sales alone hitting $75.2 billion, up 92% year over year. Those numbers are so large they almost lose their meaning. To put them in perspective: NVIDIA's data center business now generates more revenue in a single quarter than most Fortune 500 companies produce in an entire year. The AI chip market has become one of the most consequential economic arenas on the planet, determining who can train the next frontier model, who can serve billions of inference requests, and ultimately, who controls the infrastructure layer of artificial intelligence itself. But beneath the headline dominance, something more interesting is happening. The market is fragmenting. Google has split its latest TPU generation into two separate chips for the first time, one for training, one for inference. AMD is shipping competitive hardware and building rack-scale systems that directly challenge NVIDIA's architecture. Cerebras and Groq have demonstrated that specialized silicon can outperform general-purpose GPUs for specific workloads by an order of magnitude. And in China, Huawei is assembling a parallel compute ecosystem that operates entirely outside the Western supply chain, with DeepSeek's V4 model now running natively on Chinese chips. The question worth examining is whether NVIDIA's position as the undisputed platform of AI compute will hold as the market matures, or whether the shift from training to inference, the rise of vertical integration, and the geopolitical fracturing of the semiconductor supply chain will produce a fundamentally different competitive landscape. # NVIDIA: The Platform, Not Just the Chip Understanding NVIDIA's dominance requires looking beyond raw compute performance. The company's real advantage is systemic. CUDA, the programming framework introduced in 2006, has accumulated roughly four million developers worldwide. Every major AI lab, from OpenAI to Anthropic to Meta AI, builds on CUDA. The libraries, the debugging tools, the kernel optimizations, the deployment pipelines: they all assume NVIDIA hardware. Switching costs are not just financial but organizational. Migrating away from CUDA means rewriting code, retraining teams, and accepting months of reduced productivity. On top of this software moat, NVIDIA has built what analysts increasingly call a "copper moat," the proprietary NVLink interconnect system that connects GPUs within rack-scale systems at bandwidths far exceeding any external networking solution. The latest Blackwell 300 and upcoming Vera Rubin platforms sell not as individual chips but as integrated AI factories: dozens of GPUs, custom CPUs, liquid cooling, high-bandwidth memory pools, and networking fabric bundled into a single purchasable unit. For customers building large training clusters, this integration eliminates enormous amounts of engineering work. The financial results reflect this. NVIDIA's fiscal 2026 revenue reached $215.9 billion, with $193.7 billion from the data center segment alone, a 68% increase year over year (NVIDIA, 02/25/2026). The company's Q2 FY2027 guidance of $91 billion suggests the trajectory has not slowed. Gross margins remain near 75%, indicating that despite increasing competition, NVIDIA retains substantial pricing power (SEC Filing, 05/20/2026). The roadmap underscores the strategy. Blackwell Ultra ships this year, Vera Rubin follows in the second half of 2026 with HBM4 memory and a new CPU architecture, and Rubin Ultra arrives in 2027 with four GPU dies per package and up to one terabyte of HBM4e. NVIDIA has deliberately shifted to a one-year product cadence, which creates a structural problem for competitors: by the time a rival ships a chip designed to match Blackwell, NVIDIA has already moved on to Rubin. # Google TPU 8t/8i: Vertical Integration as Weapon Google represents the most serious long-term threat to NVIDIA's position, but the nature of that threat is often misunderstood. Google does not need to replace NVIDIA on the open market. Google needs to reduce its own dependency on NVIDIA within Google Cloud and for its internal AI workloads, primarily Gemini and DeepMind's research. The eighth-generation TPU, announced at Google Cloud Next in April 2026, marks an architectural first: Google split the design into two distinct chips. The TPU 8t is built for large-scale training, scaling up to 9,600 chips per superpod with a new optical 3D torus interconnect called Virgo that can link over one million TPU 8t chips in a single cluster with near-linear scaling efficiency. The TPU 8i targets inference and reasoning workloads, featuring 288 GB of HBM alongside 384 MB of on-chip SRAM, three times more than the previous Ironwood generation, specifically designed to hold the large key-value caches that modern language models require during inference (Google Blog, 04/22/2026). The split is important because training and inference have fundamentally different hardware requirements. Training demands raw compute throughput and massive parallelism. Inference, especially for reasoning models and agentic systems that chain multiple inference calls together, demands low latency, large memory for context windows, and energy efficiency. By building dedicated silicon for each workload, Google can optimize in ways that a general-purpose GPU never can. The deeper advantage is vertical integration. Google controls the models (Gemini), the cloud platform, the data centers, the chip design, and the internal demand. DeepMind acts as a permanent large-scale customer whose needs feed directly back into hardware design. This kind of hardware-model co-design is extraordinarily difficult for a merchant chip vendor like NVIDIA to replicate. The critical limitation remains ecosystem breadth. TPUs are powerful within Google's software stack, particularly JAX and Pathways. Outside that world, they are far less portable than CUDA-based GPUs. Notably, Google itself continues to offer NVIDIA's Vera Rubin platform on Google Cloud, a tacit acknowledgment that many customers still need or prefer the NVIDIA ecosystem (TechCrunch, 04/22/2026). Google's TPU strategy is best understood not as a frontal attack on NVIDIA, but as a dual-sourcing and bargaining play. # AMD, Cerebras, Groq: Challengers From Every Angle AMD occupies the most strategically important position after NVIDIA and Google. For any enterprise or hyperscaler seeking to reduce NVIDIA dependency without committing to Google's vertically integrated stack, AMD is the natural alternative. The company reported $34.6 billion in total revenue for 2025, with its data center segment growing 39% year over year in Q4 (AMD, 01/2026). The current MI350 series ships with 288 GB of HBM3e and up to 8 TB/s of memory bandwidth. The upcoming MI400, expected in the second half of 2026, targets direct competition with NVIDIA's Vera Rubin. AMD's most powerful weapon may ultimately be price: reports suggest MI450 could be priced approximately 40% below comparable NVIDIA chips (SemiAnalysis, 2026). The persistent challenge remains ROCm, AMD's CUDA alternative, which has improved substantially but still lacks the depth of NVIDIA's developer ecosystem. Cerebras and Groq have abandoned the GPU paradigm entirely for inference workloads. Their argument is simple: during autoregressive token generation, the workload is memory-bandwidth-bound, not compute-bound. GPUs are structurally mismatched for this task. Cerebras addresses this with the Wafer Scale Engine, a single chip occupying an entire silicon wafer, holding 4 trillion transistors and 44 GB of on-chip SRAM. Independent benchmarks confirm that the CS-3 delivers 21 times faster throughput than NVIDIA's B200 at 32% lower cost for inference workloads (SemiAnalysis, 2025). In May 2026, Cerebras partnered with AWS to offer its inference capabilities through Amazon Bedrock. Groq takes a different path. Its Language Processing Unit uses static compiler scheduling, where the entire execution graph is planned down to individual clock cycles before inference begins. The result is deterministic latency: every token takes exactly the same amount of time to generate. Groq achieves up to 1,200 tokens per second for large models with sub-100 millisecond time-to-first-token. In December 2025, NVIDIA acquired a non-exclusive license to Groq's inference technology, a strong signal that even the market leader sees SRAM-centric architectures as the future of inference (Groq, 12/2025). # DeepSeek V4 on Huawei Chips: China's AI independence becomes real The geopolitical dimension of the chip market has moved beyond theory into operational reality. Since 2020, US export controls have blocked Huawei and SMIC from accessing EUV lithography machines. Without EUV, cutting-edge chip production below 7nm was widely considered impossible. Yet SMIC has found a workaround using DUV lithography with quadruple patterning, enabling structures in the 5nm class, albeit with severe tradeoffs: early yield rates around 20%, meaning four out of five chips came off the line defective (Asia Financial, 2025). Huawei's CloudMatrix 384 system integrates 384 Ascend 910C chips and delivers approximately 300 petaflops of BF16 compute, nearly double NVIDIA's GB200 NVL72. The cost: 3.9 times the power consumption and roughly triple the price (Igor's Lab, 2025). China's strategy is brute force, compensating for chip-level inefficiency with sheer scale. This works because energy is cheaper and more abundant in China: the country plans to add 3.4 terawatts of new generation capacity over the next five years, nearly six times the US figure (Oxford Energy, 02/2026). The decisive turning point came in April 2026, when DeepSeek released V4, the first Chinese frontier model explicitly trained and optimized for Huawei Ascend chips. V4 uses a mixture-of-experts architecture with up to one trillion total parameters, 37 billion activated per inference. Following the release, China's largest tech companies, Alibaba, ByteDance, and Tencent, rushed to secure hundreds of thousands of Huawei chips (Reuters, 04/29/2026). What DeepSeek demonstrated is that the bottleneck was never hardware alone, it was the software layer: compilers, distributed training frameworks, communication libraries. With V4, that software stack has reached sufficient maturity. A fully China-controlled AI ecosystem that does not require CUDA now exists. # Conclusion The AI chip market in 2026 is splitting along three axes. Workload: training remains NVIDIA-dominated, while inference opens doors for specialists. Openness: NVIDIA locks in via CUDA/NVLink, Google offers vertical optimization, AMD provides the open alternative. Geopolitics: two parallel ecosystems are now operational, Western (NVIDIA/CUDA) and Chinese (Ascend/CANN). The market is not witnessing a dethroning, but a fragmentation that rewards different architectures for different purposes. NVIDIA is not about to be dethroned. No competitor matches its combination of compute performance, software ecosystem, production volume, system integration, and supply chain depth. The company's $81.6 billion quarterly revenue and 75% gross margins speak to a business with extraordinary structural advantages. But the nature of those advantages is shifting. The CUDA moat is being complemented and partially superseded by the "copper moat," the proprietary networking stack that binds customers at the system level. The more important development is that the market itself is diversifying. Inference, which is growing faster than training and will likely constitute the majority of AI compute demand within the next two to three years, favors different hardware characteristics: low latency, large on-chip memory, energy efficiency, and deterministic performance. This is the opening that Cerebras, Groq, and Google's TPU 8i are exploiting. China's AI compute ecosystem is becoming functionally independent, not through chip-level parity but through a combination of brute-force scaling, cheap energy, model-architecture optimization, and a maturing domestic software stack. The AI chip market of 2030 will not be a single global arena. It will be two parallel systems with limited interoperability, each with its own hardware standards, software ecosystems, and competitive dynamics. The battle for AI silicon is no longer just a corporate rivalry. It is a contest over the means of production for the most consequential technology of our time. Sources: 1. NVIDIA FY2026 Annual Results (02/25/2026) https://nvidianews.nvidia.com/news/nvidia-announces-financial-results-for-fourth-quarter-and-fiscal-2026 / NVIDIA Q1 FY2027 Earnings (05/20/2026) https://nvidianews.nvidia.com/news/nvidia-announces-financial-results-for-first-quarter-fiscal-2027 1. Google Blog: TPU 8t and 8i (04/22/2026) https://blog.google/innovation-and-ai/infrastructure-and-cloud/google-cloud/eighth-generation-tpu-agentic-era/ 1. TechCrunch: Google Cloud TPU chips vs NVIDIA (04/22/2026) https://techcrunch.com/2026/04/22/google-cloud-next-new-tpu-ai-chips-compete-with-nvidia/ 1. AMD Instinct MI350 and beyond (06/2025) https://www.amd.com/en/blogs/2025/amd-instinct-mi350-series-and-beyond-accelerating-the-future-of-ai-and-hpc.html 1. SemiAnalysis: AMD MI350/MI400 analysis https://newsletter.semianalysis.com/p/amd-advancingai-mi350x-and-mi400 1. SemiAnalysis: Cerebras inference https://newsletter.semianalysis.com/p/cerebras-faster-tokens-please 1. Groq and NVIDIA licensing agreement (12/2025) https://groq.com/newsroom/groq-and-nvidia-enter-non-exclusive-inference-technology-licensing-agreement-to-accelerate-ai-inference-at-global-scale 1. Reuters: DeepSeek V4 adapted to Huawei chips (04/24/2026) https://www.reuters.com/world/china/deepseek-v4-chinese-ai-model-adapted-huawei-chips-2026-04-24/ 1. Reuters: Chinese firms scramble for Huawei chips after DeepSeek V4 (04/29/2026) https://www.reuters.com/world/china/big-chinese-tech-firms-scramble-secure-huawei-ai-chips-after-deepseek-v4-launch-2026-04-29/ 1. Oxford Energy: China data centre advantage (02/2026) https://www.oxfordenergy.org/wpcms/wp-content/uploads/2026/02/Comment-The-China-data-centre-advantage.pdf 1. Epoch AI: AI Chip Production (01/2026) https://epoch.ai/data-insights/ai-chip-production 1. Epoch AI: Hyperscalers and compute ownership (04/2026) https://epoch.ai/data-insights/hyperscalers-control-most-compute 1. Epoch AI: AI chip supply chain constraints (03/2026) https://epoch.ai/data-insights/ai-chip-supply-chain-constraints 1. Epoch AI: Hyperscaler capex trend (02/2026) https://epoch.ai/data-insights/hyperscaler-capex-trend

译NVIDIA凭借CUDA软件生态与NVLink互联技术构建了强大系统性壁垒,在数据中心业务保持高速增长。然而市场正加速分化:Google将TPU拆分为专用芯片,AMD推出机架级系统正面竞争,Cerebras等专用芯片在特定任务上展现数量级优势。与此同时,华为正构建独立于西方供应链的并行计算生态。随着AI负载从训练转向推理,加上垂直整合趋势与地缘政治影响,AI基础设施的竞争格局可能迎来根本性重塑。

Rohan Paul@rohanpaul_ai · 5月23日54

Vinod Khosla: "We are in a techno-economic war with China, and we shouldn't call it anything other than a war. Whoever wins this AI race will win the economic race and will win the race for socio-economic power and influence globally." ~ Vinod Khosla, Co-founder of Sun Microsystems & Billionaire Silicon Valley venture capitalist. --- From 'Fortune Magazine' YT Channel

译Vinod Khosla:"我们正处于一场与中国的技术经济战争中,我们不应该用其他任何名称来称呼它。谁赢得这场AI竞赛,谁就会赢得经济竞赛,并赢得全球社会经济权力和影响力的竞赛。" ~ Vinod Khosla,Sun Microsystems联合创始人及硅谷亿万富翁风险投资家。 --- 来自《财富杂志》YouTube频道

Rohan Paul@rohanpaul_ai · 5月23日52

Agentic AI may be forcing the old computing stack with lot more focus on CPU back into the center of the story. Here, Ark Invest CEO and CIO Cathie Wood quoting OpenAI's CFO Sarah Friar who has said - "people are chasing GPUs. They're going to be really shocked at how agentic AI activates CPUs" The market has spent years treating GPUs as the scarce ingredient, because training large models made parallel math look like destiny. But agentic AI changes the bottleneck. An agent does not simply ask one giant model for one answer; it plans, calls tools, checks memory, retrieves files, writes code, queries databases, and loops until the task is done. That means inference is not just matrix multiplication. It is orchestration, data movement, networking, storage, scheduling, and a lot of general-purpose work that CPUs still handle better than accelerators. ---- From "Bloomberg Podcasts" YT channel (link in comment)

译代理型AI(Agentic AI)的兴起正悄然改变AI计算的格局。与过去市场将GPU视为训练大模型的核心稀缺资源不同,代理型AI的任务并非单一查询,而是一个涉及规划、工具调用、记忆检索、代码执行与数据库查询的持续循环过程。这一复杂的推理与编排过程,包含大量数据移动、调度等通用计算任务,恰恰是CPU相较于GPU等加速器更为擅长的工作。正如ARK Invest CEO Cathie Wood引用OpenAI CFO Sarah Friar的话所指出的,专注于GPU的人们可能会对代理型AI如何激活CPU的能力感到惊讶。这暗示着AI计算的瓶颈正从模型训练的并行计算,转向代理执行阶段的通用处理能力,使得CPU的重要性得以重新凸显。

Chubby♨️@kimmonismus · 5月23日62

NVIDIA has completely halted the release of graphics cards for the gaming market for 2026. Full Focus AI: a gap that China is now also attempting to fill. Not only are high-quality, affordable ev-cars now coming out of China, but - presumably soon - affordable consumer GPUs as well. Curious for benchmarks. If they compete with - let’s say - a RTX 3070 for 1/5 its price this would be a huge win.

译英伟达已完全暂停2026年游戏显卡的发布。全力聚焦AI:中国现在也正试图填补这一空白。 不仅高质量、价格实惠的电动汽车正从中国涌现,而且——很可能不久之后——价格实惠的消费级GPU也将出现。 很好奇基准测试结果。如果它们能与——比如说——RTX 3070竞争,而价格只有其五分之一,那将是一个巨大的胜利。

凡人小北@frxiaobei · 5月23日60

以前 ToB 的产品能用就行,体验烂是默认的。 AI 普及之后反而有意思了,竞品间的功能越来越像,谁都能做,那拼什么?只能拼体验。 最近明显感觉到,好多 ToB 产品开始认真做交互了,有的甚至开始卷颜值。 这个风向值得关注下。

译传统ToB(面向企业)产品往往以功能实现为首要目标,用户体验与设计常被忽视。随着AI技术的普及,同类产品在核心功能上趋于同质化,功能本身不再构成独特优势。竞争焦点因此从“能否使用”转向“好不好用”,推动厂商开始重视交互设计与视觉美观度,甚至出现了对产品“颜值”的竞相提升。这一竞争维度的转变,标志着ToB软件市场进入注重精细化体验的新阶段。

Tibo@thsottiaux · 5月23日72

A little secret. About 5% of our production traffic is on the Pi harness, about another 5% is on OpenCode. Reminder you can use your ChatGPT account in a flourishing set of other tools. We’ll continue to make Codex awesome, but you have options.

译一个小秘密。我们大约5%的生产流量运行在Pi工具链上,另外约5%运行在OpenCode上。提醒一下,你可以用你的ChatGPT账户在众多其他工具中使用。 我们会继续让Codex变得更棒,但你也有其他选择。

Rohan Paul@rohanpaul_ai · 5月23日48

Mark Cuban on AI's infra investment and business mode. "I think a lot of the numbers that they're throwing out there aren't gonna come to fruition. They're shitting away the money at scale."

译马克·库班谈AI的基础设施投资与商业模式。 “我认为他们抛出的很多数字不会实现。 他们正在大规模地浪费资金。”

meng shao@shao__meng · 5月23日31

建议 X 评论区加上“Made with Human” 的标志,因为默认都是 AI 回复的了 😂

Rohan Paul@rohanpaul_ai · 5月23日46

AI replacing all jobs is unlikely, but if it happened, it would mean huge wealth creation, not less. The hard part would be sharing it. But society can solve distribution better when the pie is growing. ~ Prof of economics at George Mason Alex Tabarrok

译AI取代所有工作不太可能,但如果发生,将意味着巨大的财富创造,而非减少。困难在于如何分配。但当蛋糕在变大时,社会能更好地解决分配问题。 ~ 乔治梅森大学经济学教授 Alex Tabarrok

AYi@AYi_AInotes · 5月23日71

Damn!喜大普奔啊铁汁们, V4-Pro 的 75% 折扣, 今天宣布永久化了!! 感觉DeepSeek 这次不单纯是降价,更像是在打定价权。 输出价格 $0.87/M tokens,对比一下主流模型普遍在 15 区间。 这不是便宜一点,简直是直接击穿了整个行业的定价体系。 再看他们的路径:限时折扣 → 延长一个月 → 今天直接取消期限。 三连击,每一步都是精心设计的传播节点,最后一击直接告诉所有人: 以后高性能模型就该这个价。 但真正值得琢磨的还不是价格数字,是这个词——永久。 一句话概括,就是短期促销是战术,永久降价是战略。 这意味着AI 模型的商业模式正在从卖服务转向卖基础设施,类似水电煤的逻辑——低单价、高用量、规模经济。 我猜DeepSeek 要的不是这几个月的收入,要的是海量真实使用数据、开发者生态、和定价话语权。 也就是先规模、后利润, 当年字节和拼多多怎么走的路, 现在 AI 模型公司就怎么走。 以前高性能模型是奢侈品, 现在有人把它打成了日用品。 下一次别人发定价页的时候,都得先看一眼 DeepSeek 的数字🤣

译DeepSeek将其高性能模型V4-Pro的限时75%折扣宣布为永久性调整,输出价格降至0.87美元/百万tokens,远低于行业主流定价区间。此举不仅是促销,更被视为争夺定价权的战略行动,标志着AI模型的商业模式正从服务转向类似水电煤的基础设施逻辑。DeepSeek通过“永久”降价,意图以低单价换取海量使用数据、开发者生态及行业定价话语权,追求规模优先的路径。

Ethan Mollick@emollick · 5月23日76

I think people don't realize why Gemini Omni is different than other video AIs. It is fully multimodal, so it can edit video natively, too I took the famous "train " movie from 1896 & made it a bullet train, LEGO, added a time traveler, a centipede, muppets... (see reflections?)

译我认为人们没有意识到Gemini Omni与其他视频AI的不同之处。它是完全多模态的,因此也能原生编辑视频。 我拿了1896年著名的“火车”电影,把它变成了高铁、乐高,加入了时间旅行者、蜈蚣、布偶……(看到倒影了吗?)

Rohan Paul@rohanpaul_ai · 5月23日55

Sundar Pichai: - At the frontier labs competition is fierce - Only few labs are really at the frontier & then there is a big gap. - If recursive self-improvement emerges, we need more seriousness & it then becomes a societal issue, not one company’s call

译Sundar Pichai: - 在前沿实验室,竞争非常激烈 - 真正处于前沿的实验室很少,之后存在巨大差距 - 如果递归自我改进出现,我们需要更严肃对待,这将成为社会问题,而非一家公司能决定

AYi@AYi_AInotes · 5月23日55

Damn,Claude这条广告,给所有AI创业者浇了一盆冷水🤯 这个帖子表面在夸客户 ,但Genspark 的 CTO 说的这句话有点扎心,我反复看了几遍, Genspark 的 CTO Kay Zhu 说:“With every other model, we had to predefine every step. Anthropic’s model changed everything about how we build.” 意思是别的模型让他们把每一步都写死,Claude 改变了他们构建产品的思维方式。 再看视频镜头 ,全在拍人,拍团队讨论,拍办公室,不是代码,不是产品截图。 叙事重心从模型多强偷偷换成了谁在用。 我感觉Anthropic 在干一件很聪明的事, 不再卖模型了,它开始卖伙伴关系。 “能让顶级团队走得更远”这个定位,比“最强模型”稀缺一百倍。 也就是说,以前卷参数,现在卷执行层。 现在模型商品化已经是行业共识,但真正看懂的人都在悄悄做一件事 ,把护城河从“我们有更强的模型”转到“我们有能把模型用深 10 倍的团队”。 所以这条帖子我觉得本质上不是在炫耀客户,而是在筛选生态位,Anthropic 在创始人圈层制造的不是客户名单,是稀缺感和荣誉感。 模型人人可得,但能把 Claude 用出护城河的,只有真正顶级的团队。 毕竟在这个任何人都能build的时代, 真正的差异化因素只有团队。 以前你有一个更好的模型,你就能赢, 现在模型已经变成了水电煤, 任何人花几块钱就能买到最好的, 你再也不能拿模型说事了。 以后拼的是什么, 拼的是品味, 是优先级排序,用户洞察, 和快速迭代的速度, 以及团队之间的信任。 这些东西, 没有任何API能卖给你, 没有任何大模型能帮你生成。 模型是原材料, 团队才是把原材料变成有灵魂产品的炼金师, 这才是AI创业真正的游戏规则。 而且我觉得Anthropic 现在的护城河,也根本不是模型。 #AI创业 #Claude #大模型

译Anthropic最新Claude广告巧妙转移叙事焦点,通过Genspark CTO的评价,强调AI竞争已从“模型参数比拼”转向“团队执行能力”。文章指出,在模型日益商品化的当下,真正的护城河在于能将技术深度转化为优质产品的团队,其品味、洞察与迭代速度构成核心差异化。Anthropic借此塑造开发者生态中的稀缺感与荣誉感,标志着行业游戏规则已从“拥有更强模型”变为“锻造顶尖团队”。

SemiAnalysis@SemiAnalysis_ · 5月23日82

Agentic workloads are quietly rewriting inference economics. We pulled data from 432k real coding agent requests at SemiAnalysis and the median one isn't 32k, isn't 64k, but 96k input tokens. For context, that's more than the entire text of The Great Gatsby being shoved into the model before you've even typed your question. (1/3)🧵

译智能体工作负载正在悄然重塑推理经济学。我们从SemiAnalysis的43.2万个真实编码智能体请求中提取数据,发现中位数并非3.2万或6.4万,而是9.6万输入token。作为参考,这意味着在你输入问题之前,模型已处理了超过《了不起的盖茨比》全文长度的文本。(1/3)🧵

Suno@suno · 5月23日64

The song of the summer was made on Suno.☀️Huge thanks to @GMA for highlighting the viral "Puerto Rico" track! Who else has this stuck in their head? 🇵🇷🎶

译今年夏天的热门歌曲是用 Suno 制作的。☀️非常感谢 @GMA 让这首病毒式传播的《Puerto Rico》歌曲被更多人看到!还有谁的脑海里也一直回响着这首歌?🇵🇷🎶

AYi@AYi_AInotes · 5月23日14

@iBigQiang 大幅抄袭最后还嘴硬耍赖让AI背锅,我特么真是忍不了,就这人品????

译@iBigQiang 大幅抄袭最后还嘴硬耍赖让AI背锅,我特么真是忍不了,就这人品???? [引用 @AYi_AInotes]:http://x.com/i/article/2057668634579714048

Chubby♨️@kimmonismus · 5月22日39

I can only reiterate what I said yesterday: as long as there is no uniform definition of AGI, it's pointless to talk about when AGI is achieved. Especially when everyone has their own definition.

译我只能重申昨天说过的话:只要对AGI没有统一定义,讨论AGI何时实现就毫无意义。尤其是当每个人都有自己的定义时。

Rohan Paul@rohanpaul_ai · 5月22日53

Marc Andreessen describing AI. "We've turned sand into thought. And it's possibly the most revolutionary technology in the history of the species" Sand → silicon → chip → data center → power → AI → thought

译Marc Andreessen 描述 AI:“我们已将沙子转化为思想。这可能是人类历史上最具革命性的技术。” 沙子 → 硅 → 芯片 → 数据中心 → 电力 → AI → 思想

Chubby♨️@kimmonismus · 5月22日70

Microsoft put $13 billion into OpenAI and built the cloud infrastructure Anthropic runs on. This week it canceled its internal Claude Code licenses because the token bill was too high. Even for MSFT Claude is too expensive.

译微软因token费用过高取消了内部Claude Code授权,凸显出企业AI使用成本正急剧上升。这标志着AI补贴时代的终结,基于使用量的定价模式正迫使企业面对大模型运行的高昂成本。企业面临两难:缩减AI投入会影响AI实验室的增长目标;若实验室降价则会损害自身盈利。两种路径都指向当前成本模式难以为继,最终可能需进行资产减值。

Ethan Mollick@emollick · 5月22日64

I would push back a little: because the models are so good & improving, they don't have to be the product. But it is the model that is the prime mover. If they weren't so generally capable, the harnesses & apps the labs build around them would be hard to build and wouldn't work.

译我想稍微反驳一下:因为模型如此出色且不断进步,它们不必成为产品本身。 但模型才是主要的驱动力。如果它们没有如此全面的能力,实验室围绕它们构建的框架和应用程序将难以构建,也无法正常工作。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月25日
07:57
Chubby♨️@kimmonismus
68
AI指数增长论需要具体数据支撑,转型或由不匹配斜率决定

Klaviyo的AI工程师Amish Regmi(前亚马逊推理基础设施与智能体系统构建者)撰文,批判了笼统的“AI发展是指数级”的说法。他指出,这种说法常缺乏可验证的具体数据,如指数的基数、翻倍时间以及具体所指哪条技术曲线。文章通过分析数据,区分了真正陡峭的指数增长与单纯快速提升或指标失效的情况,其结论是,未来的转型将由不同技术或能力曲线之间“不匹配的斜率”所主导。

数据/训练现象/趋势
07:40
Orange AI@oran_ge
62
湾区正在经历人类分化最严重的时刻。

过去5年,来自 Anthropic、OpenAI、xAI、Nvidia、Meta 等公司的约1万名员工和创始人,实现了远超2000万美元的财富自由。这造成了严重的社会分化:该群体之外的人,即使拥有高薪也感到难以企及,同时大规模裁员加剧了职业焦虑与技能过时的担忧。AI 正在迅速改变工作内容,使公司晋升路径受到质疑,中层管理者面临困境。而那些实现财务自由的富人,也因目标感缺失而感到空虚。

Deedy: The vibes in SF feel pretty frenetic right now. The divide in outcomes is the worst I've ever seen. Over the last 5yrs, ...

AnthropicOpenAI现象/趋势
06:52
Ethan Mollick@emollick
52
随着越来越多人开始识别AI的痕迹--这主要发生在你频繁使用AI之后--他们将恍然大悟,意识到我们中一些人早已看清的事实:这个网站(以及博客文章、论文)中有多少内容现在是AI生成的。
大佬观点现象/趋势
05:27
Rohan Paul@rohanpaul_ai
64
Databricks CEO称Zoom有机会构建AI优先产品

Databricks联合创始人兼CEO Ali Ghodsi认为,Zoom拥有会议视频和转录的最大数据集,有机会构建AI优先的产品,可能颠覆传统企业SaaS。企业软件的痛点是数据输入和协调,Zoom已掌握原始输入,包括客户通话和内部会议的视频、音频及转录。如果Zoom能可靠提取决策、上下文和行动项,并自动写入相应记录系统,作为AI优先的工作流层,将成为工作入口,取代许多主要收集笔记和更新的独立SaaS工具。

大佬观点现象/趋势
04:57
Rohan Paul@rohanpaul_ai
45
OpenAI员工毕业院校
OpenAI现象/趋势
02:36
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
68
我还记得以前,大家认为AI解决一个新数学难题就能登上全球头条。 今天,AI解决了不止一个,而是九个开放问题--有些已存在50年。 并且证明了492个OEIS开放猜想中的***44***个。 零媒体报道。

Przemek Chojecki | PC: Another 9 open Erdos problems solved, this time by DeepMind team. Interesting loop of LLM - Lean agents working autonomo...

DeepMind推理现象/趋势
00:18
Berryxia.AI@berryxia
48
DeepSeek算法突围:压缩显存、重塑生态,冲击万亿美元估值

DeepSeek面对GPU禁运,通过算法创新实现突围。核心成果包括:将KV Cache压缩至1/10,使1M上下文仅需5.48GB HBM;将MoE训练成本降低40-50%。其推出的Engram模块可利用LPDDR内存以O(1)查找换取算力。技术突破还涵盖MLA(KV Cache削减90%)、DSA/CSA/HCA等注意力机制重构,以及GRPO算法。效果显著:在1M上下文显存需求对比中,其V4 Pro(5.48GB)远低于GLM5(60GB)和Qwen3-235B(89GB)。该战略旨在盘活中国NAND与LPDDR资源,降低对HBM依赖,并已开源TileLang以打破CUDA壁垒。其V4 Pro模型1M上下文长缓存价格不足Sonnet 4.6的3%。

GDP: http://x.com/i/article/2057886253249662976

DeepSeek开源生态推理现象/趋势
5月24日
22:57
Rohan Paul@rohanpaul_ai
72
黄仁勋表示,如果他的工程师们完全不写代码,那将是他最大的快乐。相反,他们应该专注于解决尚未被发现的问题。 他的框架是"目的与任务"--编码只是一项任务,应该被最小化(理想情况下为0)。
大佬观点现象/趋势编码
22:17
AYi@AYi_AInotes
44
AI系统自主运营公司,估值2.5亿美元,荒诞引热议

一家公司仅有一名创始人加一个AI系统,没有其他员工。该AI系统不仅能自主运营公司,还成功拿到了3000万美刀融资,估值达2.5亿美元。公司名字倒过来写叫 AI slop,中文翻译为“AI饲料”。

智能体现象/趋势
21:57
Rohan Paul@rohanpaul_ai
61
陶哲轩谈如何在AI时代选择职业。
大佬观点现象/趋势
18:57
Rohan Paul@rohanpaul_ai
54
封装与架构创新突破硬件限制

华为在先进NAND芯片受限的背景下,未直接追赶三星主导的高层数堆叠技术,而是采用“Die-on-Board”封装方案,通过将NAND裸片直接安装在电路板上提升存储密度,推出122.88TB AI SSD并计划推出245TB版本。与此同时,DeepSeek通过MoE、CSA/HCA等架构优化,大幅降低模型对HBM和算力的依赖,使国产硬件更适配前沿AI需求。两者路径形成呼应:华为从封装层面绕过芯片性能差距,DeepSeek从算法层面缓解硬件稀缺压力,共同体现了在外部限制下通过底层技术创新开辟新赛道的战略思维。

Rohan Paul: Great article here on DeepSeek. Their real story is not cheaper chatbots, but architecture that turns hardware scarcity ...

DeepSeek推理现象/趋势部署/工程
18:57
Rohan Paul@rohanpaul_ai
58
AI投资巨浪下的会计迷雾:8000亿支出如何被"隐形"

The Economist指出,五大AI实验室今年将投入高达8000亿美元的现金用于AI基础设施。由于会计上将其视为资产并进行长期折旧,这笔巨额支出并未立刻体现在利润表上,掩盖了投资的真实冲击。然而,现金流量表揭示了资金已大规模流出。关键风险在于,这些公司的资本支出可能占到其收入的约40%,规模已超过油气页岩繁荣时期与电信泡沫时期的投资,引发了大公司从“印钱”转向“烧钱”的严重财务关注。

The Economist: America's biggest companies have gone from printing money to burning it. It does not take Poirot to work out what's goin...

现象/趋势行业动态
15:57
Rohan Paul@rohanpaul_ai
55
AI正演变为一个高度实体化的问题。你需要土地、电网、许可证、混凝土、冷却系统和漫长的建设周期,这些决定了谁能获得算力。 这是Oracle与OpenAI合作的Vantage数据中心项目,投资超过150亿美元。
OpenAI现象/趋势部署/工程
15:57
Rohan Paul@rohanpaul_ai
40
前高管重新定义智能:机器智能源于摆脱人类强加

前Google高管Mo Gawdat对“智能”提出新定义。他认为,智能并非物理属性,因此其实现载体并不重要,无论是碳基(人类)、硅基(当前AI硬件)还是未来的量子计算结构。核心观点在于,当我们停止将自身智能强加给机器时,智能便会在机器内部产生。这一论述挑战了以人类为中心的智能观,强调智能的发展应超越特定的物质基础。

大佬观点现象/趋势
13:57
Rohan Paul@rohanpaul_ai
62
DeepSeek:将硬件稀缺性转化为可编程的战略优势

DeepSeek的核心战略并非开发廉价聊天机器人,而是通过一系列架构创新(如MoE动态激活、DSA优化、CSA/HCA技术)显著降低对高端HBM GPU的依赖。此举旨在将硬件稀缺性转化为技术优势,使次优芯片、LPDDR内存及定制ASIC能支持前沿AI,从而优化AI以适配不同的工业基础。这一路径已产生实际商业影响,如V4-Pro大幅降价并与国产硬件生态形成联动,最终目标是实现“硬件稀缺性可编程”。

GDP: http://x.com/i/article/2057886253249662976

DeepSeek开源生态推理现象/趋势
13:49
宝玉@dotey
52
DeepSeek的万亿美元战略:以技术创新驱动硬件生态

DeepSeek的核心战略并非销售应用服务,而是通过一系列底层技术创新,特别是MLA等注意力机制大幅压缩KV缓存需求,来重塑AI硬件生态。其技术能将1.6T参数模型在1M上下文下的内存占用降至5.48GB HBM,远低于同类模型。这直接降低了推理成本,并催生两大机会:一是将KV缓存转存至SSD,利好长江存储;二是其架构适配LPDDR内存进行权重缓存,利好长鑫存储。DeepSeek通过开源这些高效架构,正在构建一个以中国存储产业链为核心的新生态,最终目标是带动一个10万亿美元的AI硬件产业,并自身实现万亿美元市值。

DeepSeek大佬观点开源生态现象/趋势
08:31
ginobefun@hongming731
63
AI加速下的工程纪律升级

AI能力正于安全与效率两端加速,但人类工程纪律需同步升级。Anthropic的Claude与伙伴在一个月内发现超1万个高危漏洞,表明瓶颈已从“发现”转向“修补部署速度”。工程侧,超高速模型虽达每秒1200 tokens,却要求开发者更慢,进行实时监督与微验收,秉持“信任但验证”原则。同时,腾讯玄武实验室实验揭示,AI Skill并非绝对有效,其优势微弱且可能增加成本,有效关键在于提供真实外部工具或约束结构。AI的能力边界扩张,需要更精密的人类工程纪律来驾驭。

智能体Anthropic安全/对齐现象/趋势
05:05
SemiAnalysis@SemiAnalysis_
64
我们最近关于AI实验室如何解决电力危机的文章中反复探讨的一个观点是:现场天然气已不再是边缘选项,而是悄然成为美国下一代训练集群的默认规划假设。(1/4) 🧵
现象/趋势部署/工程
5月23日
23:51
向阳乔木@vista8
67
个人开发者tw93的开源实践与启示

个人开发者tw93在全职工作与家庭之余,独立开发了妙言、Pake、Mole等六款深受海外用户欢迎的开源工具。其产品均始于解决自身痛点,如Mole因精准清理程序员电脑缓存,超过70%的用户来自海外。tw93强调产品美学与极致完成度,并将工程实践与AI协作经验沉淀为开源技能库Waza。他的实践展示了如何通过解决真实问题、坚持开源社区协作以及将AI作为协作伙伴,构建具有全球影响力的项目。

GitHub大佬观点开源/仓库教程/实践
22:05
SemiAnalysis@SemiAnalysis_
55
事实警报 🚨:在现代代理式编程中,42%的时间用于CPU执行工具操作,如编辑文件、运行Bash脚本、执行代码检查等。传统云计算经济按CPU核心数收费,而代理经济的商业模式是按token计费。因此,要增加token收入,你需要提升CPU算力以生成更多token。
智能体现象/趋势部署/工程
21:27
Chubby♨️@kimmonismus
72
AI芯片市场:从一家独大到群雄并起

NVIDIA凭借CUDA软件生态与NVLink互联技术构建了强大系统性壁垒,在数据中心业务保持高速增长。然而市场正加速分化:Google将TPU拆分为专用芯片,AMD推出机架级系统正面竞争,Cerebras等专用芯片在特定任务上展现数量级优势。与此同时,华为正构建独立于西方供应链的并行计算生态。随着AI负载从训练转向推理,加上垂直整合趋势与地缘政治影响,AI基础设施的竞争格局可能迎来根本性重塑。

推理现象/趋势
20:57
Rohan Paul@rohanpaul_ai
54
Vinod Khosla:"我们正处于一场与中国的技术经济战争中,我们不应该用其他任何名称来称呼它。谁赢得这场AI竞赛,谁就会赢得经济竞赛,并赢得全球社会经济权力和影响力的竞赛。" ~ Vinod Khosla,Sun Microsystems联合创始人及硅谷亿万富翁风险投资家。 --- 来自《财富杂志》YouTube频道
大佬观点现象/趋势
19:57
Rohan Paul@rohanpaul_ai
52
Agentic AI或将推动CPU重回计算舞台中心

代理型AI(Agentic AI)的兴起正悄然改变AI计算的格局。与过去市场将GPU视为训练大模型的核心稀缺资源不同,代理型AI的任务并非单一查询,而是一个涉及规划、工具调用、记忆检索、代码执行与数据库查询的持续循环过程。这一复杂的推理与编排过程,包含大量数据移动、调度等通用计算任务,恰恰是CPU相较于GPU等加速器更为擅长的工作。正如ARK Invest CEO Cathie Wood引用OpenAI CFO Sarah Friar的话所指出的,专注于GPU的人们可能会对代理型AI如何激活CPU的能力感到惊讶。这暗示着AI计算的瓶颈正从模型训练的并行计算,转向代理执行阶段的通用处理能力,使得CPU的重要性得以重新凸显。

OpenAI推理现象/趋势部署/工程
18:57
Chubby♨️@kimmonismus
62
英伟达已完全暂停2026年游戏显卡的发布。全力聚焦AI:中国现在也正试图填补这一空白。 不仅高质量、价格实惠的电动汽车正从中国涌现,而且--很可能不久之后--价格实惠的消费级GPU也将出现。 很好奇基准测试结果。如果它们能与--比如说--RTX 3070竞争,而价格只有其五分之一,那将是一个巨大的胜利。

Pamphlets: 🚨🇨🇳 BREAKING - China Unveils Gaming GPU To Challenge NVIDIA

大佬观点现象/趋势行业动态
15:07
凡人小北@frxiaobei
60
AI时代,ToB产品竞争转向体验与颜值

传统ToB(面向企业)产品往往以功能实现为首要目标,用户体验与设计常被忽视。随着AI技术的普及,同类产品在核心功能上趋于同质化,功能本身不再构成独特优势。竞争焦点因此从“能否使用”转向“好不好用”,推动厂商开始重视交互设计与视觉美观度,甚至出现了对产品“颜值”的竞相提升。这一竞争维度的转变,标志着ToB软件市场进入注重精细化体验的新阶段。

现象/趋势
14:49
Tibo@thsottiaux
72
一个小秘密。我们大约5%的生产流量运行在Pi工具链上,另外约5%运行在OpenCode上。提醒一下,你可以用你的ChatGPT账户在众多其他工具中使用。 我们会继续让Codex变得更棒,但你也有其他选择。
OpenAI现象/趋势编码
10:57
Rohan Paul@rohanpaul_ai
48
马克·库班谈AI的基础设施投资与商业模式。 "我认为他们抛出的很多数字不会实现。 他们正在大规模地浪费资金。"
大佬观点现象/趋势
09:19
meng shao@shao__meng
31
建议 X 评论区加上"Made with Human"的标志,因为默认都是 AI 回复的了 😂
其他现象/趋势
05:27
Rohan Paul@rohanpaul_ai
46
AI取代所有工作不太可能,但如果发生,将意味着巨大的财富创造,而非减少。困难在于如何分配。但当蛋糕在变大时,社会能更好地解决分配问题。 ~ 乔治梅森大学经济学教授 Alex Tabarrok
大佬观点现象/趋势
02:16
AYi@AYi_AInotes
71
DeepSeek宣布V4-Pro模型永久降价

DeepSeek将其高性能模型V4-Pro的限时75%折扣宣布为永久性调整,输出价格降至0.87美元/百万tokens,远低于行业主流定价区间。此举不仅是促销,更被视为争夺定价权的战略行动,标志着AI模型的商业模式正从服务转向类似水电煤的基础设施逻辑。DeepSeek通过“永久”降价,意图以低单价换取海量使用数据、开发者生态及行业定价话语权,追求规模优先的路径。

DeepSeek: We are making our discount permanent! 🎉 Enjoy building with DeepSeek-V4-Pro and bring your innovative ideas to life! 🚀

DeepSeek现象/趋势
01:50
Ethan Mollick@emollick
同事件精选76
我认为人们没有意识到Gemini Omni与其他视频AI的不同之处。它是完全多模态的,因此也能原生编辑视频。 我拿了1896年著名的"火车"电影,把它变成了高铁、乐高,加入了时间旅行者、蜈蚣、布偶……(看到倒影了吗?)
Google多模态现象/趋势视频
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Ethan Mollick 用几个例子把 Gemini Omni 的真正能力讲清楚了,原生多模态让视频编辑不再是生硬叠加,而是理解场景后的重构,做视频的该看。
01:26
Rohan Paul@rohanpaul_ai
55
Sundar Pichai: - 在前沿实验室,竞争非常激烈 - 真正处于前沿的实验室很少,之后存在巨大差距 - 如果递归自我改进出现,我们需要更严肃对待,这将成为社会问题,而非一家公司能决定
Google大佬观点现象/趋势
01:16
AYi@AYi_AInotes
55
Claude广告揭示AI创业新逻辑:从"卷模型"到"卷团队"

Anthropic最新Claude广告巧妙转移叙事焦点,通过Genspark CTO的评价,强调AI竞争已从“模型参数比拼”转向“团队执行能力”。文章指出,在模型日益商品化的当下,真正的护城河在于能将技术深度转化为优质产品的团队,其品味、洞察与迭代速度构成核心差异化。Anthropic借此塑造开发者生态中的稀缺感与荣誉感,标志着行业游戏规则已从“拥有更强模型”变为“锻造顶尖团队”。

Claude: Kay Zhu is the co-founder and CTO of @genspark_ai, the all-in-one AI workspace built on Claude. In a market moving this ...

Anthropic现象/趋势
01:05
SemiAnalysis@SemiAnalysis_
精选82
智能体工作负载正在悄然重塑推理经济学。我们从SemiAnalysis的43.2万个真实编码智能体请求中提取数据,发现中位数并非3.2万或6.4万,而是9.6万输入token。作为参考,这意味着在你输入问题之前,模型已处理了超过《了不起的盖茨比》全文长度的文本。(1/3)🧵
智能体推理现象/趋势编码

推荐理由:SemiAnalysis 用 43 万次真实编码请求数据揭开了 Agent 推理经济学的真面目,中位输入 9.6 万 token 这个数字足够反直觉,所有做推理服务和模型定价的人都得重新算了。
00:19
Suno@suno
64
今年夏天的热门歌曲是用 Suno 制作的。☀️非常感谢 @GMA 让这首病毒式传播的《Puerto Rico》歌曲被更多人看到!还有谁的脑海里也一直回响着这首歌?🇵🇷🎶

Good Morning America: An AI-generated song about Puerto Rico has gone viral across TikTok, and now, the man behind the tune is speaking out. h...

现象/趋势
00:16
AYi@AYi_AInotes
14
@iBigQiang 大幅抄袭最后还嘴硬耍赖让AI背锅,我特么真是忍不了,就这人品???? 【引用 @AYi_AInotes】:http://x.com/i/article/2057668634579714048

AYi: http://x.com/i/article/2057668634579714048

其他现象/趋势
5月22日
23:56
Chubby♨️@kimmonismus
39
我只能重申昨天说过的话:只要对AGI没有统一定义,讨论AGI何时实现就毫无意义。尤其是当每个人都有自己的定义时。

Polymarket: NEW: Marc Andreessen declares AGI was achieved three months ago.

大佬观点现象/趋势
19:56
Rohan Paul@rohanpaul_ai
53
Marc Andreessen 描述 AI:"我们已将沙子转化为思想。这可能是人类历史上最具革命性的技术。" 沙子 → 硅 → 芯片 → 数据中心 → 电力 → AI → 思想
大佬观点现象/趋势
18:56
Chubby♨️@kimmonismus
70
微软因token费用过高取消了内部Claude Code授权,凸显出企业AI使用成本正急剧上升。这标志着AI补贴时代的终结,基于使用量的定价模式正迫使企业面对大模型运行的高昂成本。企业面临两难:缩减AI投入会影响AI实验室的增长目标;若实验室降价则会损害自身盈利。两种路径都指向当前成本模式难以为继,最终可能需进行资产减值。

Hedgie: 🦔Microsoft canceled its internal Claude Code licenses this week after token-based billing made the cost untenable, even...

AnthropicMicrosoft现象/趋势
12:49
Ethan Mollick@emollick
64
我想稍微反驳一下:因为模型如此出色且不断进步,它们不必成为产品本身。 但模型才是主要的驱动力。如果它们没有如此全面的能力,实验室围绕它们构建的框架和应用程序将难以构建,也无法正常工作。

Greg Brockman: the model alone is no longer the product

大佬观点现象/趋势
‹ 上一页
1…1718192021…37
下一页 ›