AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 969 条
全部一手资讯X论文
标签「推理」清除
TestingCatalog News 🗞@testingcatalog · 5月6日71

Google released Multi-Token Prediction (MTP) drafters for the Gemma 4 family. It comes with a 3x speed boost without losing performance. Looking forward to testing a quantized Gemma 4 with MTP drafters on a Mac Mini!

译Google为Gemma 4系列发布了多令牌预测(MTP)草稿模型。它在不损失性能的情况下带来了3倍的速度提升。 期待在Mac Mini上测试带有MTP草稿模型的量化版Gemma 4!

Artificial Analysis@ArtificialAnlys · 5月6日58

MiniMax-M2.7 is now available across six inference providers on Artificial Analysis, with significant differentiation in speed and price @SambaNovaAI leads on speed at 435 output tokens/s, >3x faster than any other provider. @FireworksAI_HQ, @novita_labs, @togethercompute, and @GMI_cloud have all matched @MiniMax_AI's first-party API pricing, while SambaNova is 2x higher. Key takeaways: ➤ Fireworks and SambaNova are on the Pareto frontier for Speed vs. Price. At 127 output tokens/s and ~$0.22 per 1M tokens blended, Fireworks is ~2.2x faster than MiniMax's first-party API at the same blended price, whereas SambaNova delivers 435 output tokens/s but at ~2-3.5x the blended price of the other providers (depending on cache usage) ➤ SambaNova is the fastest provider at 435 output tokens/s, ~3.4x the next fastest provider (Fireworks at 127 output tokens/s). The remaining providers run substantially slower: MiniMax’s first-party API at 57 output tokens/s, Novita at 54, GMI at 41, and Together AI at 29 ➤ Cache discounts vary across providers. Fireworks, MiniMax, Novita, and Together AI offer 80% cache hit discounts, while GMI and SambaNova do not offer a discount. For cache-heavy workloads, this can materially increase the relative pricing for GMI and SambaNova ➤ Optimal provider choice depends on workload. SambaNova may be more suited to latency-sensitive deployments, albeit at a higher cost, while Fireworks may be more suitable for high-volume workloads that are not as latency-sensitive

译MiniMax-M2.7模型已在六家推理服务商上线,各提供商在速度和价格上差异明显。SambaNovaAI以每秒435个输出令牌的速度领先,比其他提供商快3倍以上,但其价格也高出约2倍。FireworksAI、Novita Labs等四家则与MiniMax官方API定价持平。分析指出,Fireworks和SambaNova在速度与价格的权衡中处于帕累托前沿:前者性价比高,后者则以高价换取极致速度。此外,各家的高速缓存折扣政策不同,这对缓存密集型工作负载的成本影响显著。因此,最优选择高度依赖于具体工作负载对延迟和成本的敏感度。

Yuchen Jin@Yuchenj_UW · 5月6日39

Everything is a skill-md issue.

译一切都是技能-md问题。

宝玉@dotey · 5月6日75

Google 为自家开源模型 Gemma 4 发布了 MTP drafter(多 token 预测草稿模型),推理速度最高提升 3 倍,输出质量保持不变。https://x.com/googledevs/status/2051700599184629994/video/1 Gemma 4 是 Google 几周前发布的开源模型系列,从手机端的 E2B、E4B 一直到工作站的 26B MoE 和 31B Dense,官方称上线几周下载量已经突破 6000 万。MTP drafter 用的是 speculative decoding(推测解码):让一个轻量级的小模型先“猜”出接下来好几个 token,再让大模型一次性并行验证,验证通过的部分一口气全部输出。 这套机制对本地跑模型的场景特别有用。LLM 推理之所以慢,瓶颈往往不在算力,而在内存带宽,处理器大部分时间都在把几十亿参数从显存搬到计算单元,只为了挤出下一个 token。推测解码把闲置算力利用起来,让小模型一次预测多个 token,大模型只做验证,等于把流水线拉满。 实际效果上,在 Apple Silicon 跑 26B MoE 模型,批量大小开到 4 到 8 时本地能拿到约 2.2 倍提速。因为最终验证仍由大模型完成,输出和原版逐字一致,没有质量取舍。 drafter 沿用 Gemma 4 的 Apache 2.0 协议,权重已经上传到 Hugging Face 和 Kaggle,transformers、MLX、vLLM、SGLang、Ollama 都已支持。

译Google为其开源模型Gemma 4推出MTP drafter(多token预测草稿模型),采用推测解码技术,能在保持输出质量不变的前提下,将推理速度最高提升3倍。该技术利用轻量级小模型预先推测多个token,再由大模型并行验证,从而显著提高吞吐效率,尤其有利于缓解本地部署时的内存带宽瓶颈。例如,在Apple Silicon上运行26B MoE模型时,批量处理可获得约2.2倍加速。模型沿用Apache 2.0协议,权重已开源,并获主流推理框架支持。

宝玉@dotey · 5月6日77

OpenAI 把 ChatGPT 的默认模型升级成了 GPT-5.5 Instant,从今天开始替换原来的 GPT-5.3 Instant,全量推送给所有用户。 Instant 是 ChatGPT 里反应最快的日常档,几亿人每天都在用,这次升级针对的也是日常问答场景。 【1】幻觉显著减少 OpenAI 内部测试的数据:在医疗、法律、金融这类答错代价很高的高风险问题上,GPT-5.5 Instant 编造事实的概率比上一代少 52.5%。在用户实际标记过"这答错了"的对话上,错误率降 37.3%。 跑分跟着上来:博士级科学题 GPQA 从 78.5% 升到 85.6%,AIME 2025 数学竞赛从 65.4% 跳到 81.2%,多模态推理 MMMU-Pro 从 69.2% 提到 76%。 【2】回答更短,废话更少 以前 ChatGPT 经常被吐槽答得太啰嗦,问个简单问题能给你回三屏。新版明显收敛,不必要的反问、过度排版和表情符号都少了。 【3】主动用你的过去聊天记录 如果你连了 Gmail、上传过文件、之前和它聊过别的事,新版会更主动地把这些内容拿来用。比如问"推荐一家新茶饮店",它会参考你之前说过常去哪、偏好哪种风格,给出更贴你的答案,而不是泛泛列几家热门店。 OpenAI 同时上线了一个叫"记忆来源"(memory sources)的功能,每条用到记忆的回答都可以点开看具体引用了什么,不想被引用的内容随时删掉。 【4】发布节奏 今天起向所有 ChatGPT 用户推送,免费档也能用。API 里的别名是 chat-latest。付费用户想保留旧版的,GPT-5.3 Instant 在模型设置里还会留三个月。 个性化记忆功能先上 Plus 和 Pro 的网页端,移动端随后跟进,Free、Go、Business、Enterprise 之后再逐步开放。

译OpenAI 将 ChatGPT 默认模型全面升级为 GPT-5.5 Instant,替换原有的 GPT-5.3 Instant,并向所有用户推送。新模型显著减少了事实幻觉,在医疗、法律等高风险领域的错误率大幅降低,并在多项基准测试中性能提升。回答风格更为简洁,减少冗余内容。同时增强了记忆功能,能主动利用用户历史聊天记录等数据提供个性化回答,并上线“记忆来源”功能供用户管理引用。免费用户即可使用新版模型,付费用户可保留旧版三个月。个性化记忆功能将逐步向各版本用户开放。

AK@_akhaliq · 5月6日60

MolmoAct2 Action Reasoning Models for Real-world Deployment paper: https://huggingface.co/papers/2605.02881

译MolmoAct2 面向现实世界部署的行动推理模型 论文: https://huggingface.co/papers/2605.02881

AK@_akhaliq · 5月6日68

From Context to Skills Can Language Models Learn from Context Skillfully? paper: https://huggingface.co/papers/2604.27660

译从上下文到技能 语言模型能否巧妙地通过上下文学习? 论文:https://huggingface.co/papers/2604.27660

Chubby♨️@kimmonismus · 5月6日83

Nice, big update: OpenAI is rolling out GPT-5.5 Instant in ChatGPT as the new default model (very good jumps in benchmark) The upgrade makes ChatGPT smarter, more factual, more dependable, and better at everyday tasks like image analysis, STEM questions, writing, and high-accuracy domains such as medicine, law, and finance. The bigger shift is personalization: ChatGPT can now use saved memories, past chats, files, and connected Gmail context more effectively, while showing users which memory sources influenced a response. GPT-5.5 Instant will roll out to all ChatGPT users over the next two days, while personalization improvements are coming first to Plus and Pro users on web, with mobile following soon. In the API, it will be available as gpt-5.5-chat-latest.

译OpenAI正式将GPT-5.5 Instant设置为ChatGPT的新默认模型,该模型在基准测试中表现大幅提升,变得更智能、准确和可靠。其在图像分析、STEM、写作及医学、法律等高精度领域能力增强。核心升级在于个性化功能,能有效利用用户保存的记忆、过往聊天、文件和Gmail上下文,并展示影响回复的记忆来源。该模型将在未来两天内向所有用户推出,个性化改进优先面向网页版Plus和Pro用户,移动版随后跟进;API版本为gpt-5.5-chat-latest。官方表示,升级后的模型能提供更智能、清晰、个性化的答案,语气温暖自然且更简洁。

xAI@xai · 5月6日80

Grok 4.3 is now live on the xAI API. It’s our fastest, most intelligent model to date. It tops the @ArtificialAnlys leaderboards in agentic tool calling and instruction following, and ranks #1 in @ValsAI enterprise domains like case law and corporate finance. Grok 4.3 supports a 1 million token context window and is priced at $1.25/m input and $2.50/m output. Create an API key and start building: http://console.x.ai/team/default/api-keys

译Grok 4.3 现已在 xAI API 上线。这是我们迄今为止最快、最智能的模型。 它在 @ArtificialAnlys 排行榜上的智能体工具调用和指令遵循方面位居榜首,并在 @ValsAI 的企业领域(如判例法和公司金融)中排名第一。 Grok 4.3 支持 100 万令牌的上下文窗口,定价为输入每百万令牌 1.25 美元,输出每百万令牌 2.50 美元。 创建 API 密钥并开始构建:http://console.x.ai/team/default/api-keys

Rohan Paul@rohanpaul_ai · 5月6日65

The first frontier model with a 12 million token context window just launched. - 52x faster than FlashAttention at 1MM tokens - Less than 5% the cost of Opus @subquadratic just announced a major breakthrough in changing the cost curve of attention in LLM. They brought a frontier-scale LLM built entirely around sub-quadratic sparse attention, where the model selectively computes only the important token relationships so very long context can scale far cheaper and faster than standard transformer attention. In normal transformers, long context is painfully expensive because as context grows, the attention work grows roughly with the square of the sequence length. A 1M-token document is not just “a long document” for a normal model; it is a massive grid of possible token relationships. SubQ’s key technique is that most of that grid is useless. A legal contract does not need every comma to compare itself with every sentence from 400 pages ago. A codebase does not need every variable name to attend equally to every unrelated file. SubQ is saying: let the model find the few relationships that probably matter, then spend compute there.

译SubQ模型发布,这是首个基于完全次二次稀疏注意力架构(SSA)的前沿LLM,拥有1200万token的上下文窗口。它在处理100万token时比FlashAttention快52倍,成本低于Opus的5%。该模型突破传统Transformer注意力计算所有token关系的限制,通过稀疏注意力选择性聚焦重要关系,使长上下文处理的计算量减少近1000倍,显著改变了LLM的成本曲线和扩展方式。

elvis@omarsar0 · 5月5日64

// HeavySkill // One of the cleaner takes on agentic harness design I've read. They argue that what actually drives agent harness performance is not the orchestration code. It's a single inner skill: parallel reasoning followed by deliberation. If you can internalize that into the model and most of the scaffolding becomes optional. The paper systematizes this as a two-stage pipeline you can run beneath any harness, then trains it as a learnable skill via RLVR. The numbers: > GPT-OSS-20B jumps from 69.7% (M@K) to 85.5% (HM@4) on LiveCodeBench under the heavy-thinking variant. > R1-Distill-Qwen-32B nearly doubles on IFEval, from 35.7% to 69.3%. > Several models reach Pass@N-level performance with HeavySkill. Harness wins start to look like model wins once you can train them in. If parallel-reasoning-plus-deliberation really is the inner skill, the long arc is models that come with it baked in, not orchestration glue around them. Paper: https://arxiv.org/abs/2605.02396 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译研究指出,驱动智能体性能的关键并非外部编排框架,而是一项核心内在技能:并行推理后进行审议。该研究将这一过程系统化为一个两阶段流程,并通过强化学习与价值回归(RLVR)将其训练为可学习的模型内在能力。实验表明,该方法能显著提升模型性能:例如,GPT-OSS-20B在LiveCodeBench上的成绩从69.7%提升至85.5%;R1-Distill-Qwen-32B在IFEval上的表现从35.7%大幅提升至69.3%。这证明,当此类核心技能能被内化至模型中时,框架优势将转化为模型自身优势,长远来看,模型应原生具备此类能力。

Deedy@deedydas · 5月5日62

The creators of SWE-Bench just dropped a really simple new benchmark every LLM gets 0% on. ProgramBench asks: can models recreate real executable programs (ffmpeg, SQLite, ripgrep) from scratch with no internet? We are far from saturated on model quality.

译SWE-Bench 的创建者刚刚发布了一个非常简单的新基准测试,所有 LLM 都得 0 分。 ProgramBench 提出的问题是:模型能否在没有互联网的情况下从零开始重建真实可执行程序(ffmpeg、SQLite、ripgrep)? 我们在模型质量上还远未饱和。

Berryxia.AI@berryxia · 5月5日62

如今的AI疯狂的迭代和发展,但是回头看! 整个RAG行业过去三年疯狂卷向量数据库、嵌入模型、分块策略、相似度搜索…… 结果今天被一个新方法直接宣告“结束”:开始从新洗牌 ! 就是今天刷到这个PageIndex: - 不用向量DB - 不用任何嵌入 - 不用chunking - 不用相似度搜索 它直接给文档建一棵树索引,让LLM像人类读书一样一层层推理下去。 FinanceBench上干到98.7%,把所有传统向量RAG全部甩在身后。 100%开源。 这不是一次小优化,这是RAG从“检索优先”到“推理优先”的范式级转变。 我们花了无数钱和精力去优化“怎么更快地找到信息”, PageIndex却直接问:为什么不让LLM像人一样先把整本书读懂再回答? 当RAG终于开始“像人一样思考”的时候, 整个行业过去的所有基础设施,可能都要重新洗牌。 你觉得PageIndex会成为下一代RAG标配,还是只是特定场景的玩具? 完整项目值得立刻去GitHub star一下。

译PageIndex提出一种全新的RAG方法,摒弃了传统依赖向量数据库、嵌入模型、分块和相似度搜索的技术路线。它通过为文档构建树状索引,让LLM能够像人类阅读一样进行分层推理。该方法在FinanceBench基准测试中取得了98.7%的准确率,超越了所有传统向量RAG方案,并且完全开源。这标志着一个范式级的转变:从“检索优先”转向“推理优先”,核心思路是让LLM先理解整体文档结构再回答问题,而非仅仅优化检索速度。此举可能对过去三年构建的整个RAG基础设施产生颠覆性影响。

Berryxia.AI@berryxia · 5月5日75

Google 这一波操作,最让人意外的是 Google直接把LLM推理里最顽固的autoregressive瓶颈干掉了。 他们和UCSD合作推出的DFlash(Diffusion-Style Speculative Decoding),在Google Cloud TPU上实现了3.13倍的推理加速,而且是无损的。 这不是又一个“理论上更快”的小优化,而是真正从根子上改变了生成式解码的范式:用扩散式推测一次生成多个token,彻底绕过传统一个词接一个词的串行限制。 当推理速度突然提升3倍以上,意味着: - 云端成本曲线被重塑 - 实时Agent、长上下文、复杂工具调用都变得更现实 - 本地部署的门槛也被大幅拉低 过去我们总觉得“模型参数越大越强”, 现在硬件+解码策略的系统级突破,正在把“更快”变成真正的生产力杠杆。 Google这波操作,把LLM推理的下一代竞赛直接拉到了硬件+算法联合优化的赛道。 你觉得DFlash这种扩散式推测解码,会不会成为未来所有大模型推理的标准配置? 博客在这里👉 https://goo.gle/4naZ8Yv

译Google与UCSD合作推出扩散式推测解码技术DFlash,在Google Cloud TPU上实现了3.13倍的无损推理加速。该技术突破了传统自回归解码逐个生成token的串行瓶颈,通过一次推测生成多个token来改变生成范式。这一硬件与算法的联合优化,将重塑云端成本曲线,并使实时Agent、长上下文等应用更趋现实,同时大幅降低本地部署门槛。此举将大模型推理的竞争引向了系统级优化的新赛道。

Rohan Paul@rohanpaul_ai · 5月5日62

"Can LLM agents explore codebases and reason about code semantics without executing the code?" Meta discovered that if you force an LLM to show its reasoning step by step with proof, its code patch error rate drops by nearly 50%. The finding is not that models suddenly became deeper thinkers. It is that many code errors come from premature recognition: the model sees a familiar name, such as format, and quietly substitutes the usual meaning before checking the project’s actual files. If you just ask a standard LLM to check the code without running it, the model usually just glances at the function names and makes a confident guess. The paper talks about how when asked to compare 2 different code fixes, the standard AI saw a common word and assumed it meant the normal system tool. Because it skipped reading the actual files, the AI completely missed that this specific project had created its own custom tool with the exact same name. Meta solves this by using a mandatory checklist template that prevents the model from skipping ahead. The model must explicitly write down what the code modifies, trace the exact execution path, and prove its conclusion with specific evidence. This simple change forces the AI to actually read the local files and follow the real logic instead of relying on assumptions. This method pushed accuracy to 93% on real code patches without needing any expensive new training or complex systems. Overall, it shows that a basic structured prompt can give you highly reliable code verification without the massive computational cost of actually running the software tests. ---- Paper Link – arxiv. org/abs/2603.01896 Paper Title: "Agentic Code Reasoning"

译Meta研究发现,强制大语言模型(LLM)在分析代码时遵循检查清单、逐步展示推理证明,能将其代码补丁错误率降低近50%。常见错误源于模型过早识别熟悉名称(如“format”)并直接套用通用含义,而非实际检查项目文件,导致其依赖自信猜测而非深入分析。通过要求模型明确写出修改内容、追踪执行路径并用具体证据证明结论,这一方法迫使其实际阅读本地文件、遵循真实逻辑,从而将准确率提升至93%。该方法无需昂贵的新训练或复杂系统,仅通过基本的结构化提示即可实现高可靠性的代码验证,节省了运行软件测试的巨大计算成本。

meng shao@shao__meng · 5月5日78

a16z 创始人 @pmarca 公开了他个人使用 AI 的"系统提示词":关掉 AI 讨好型人格、对齐到用户情绪的所有默认行为,强制对齐到事实、独立判断和对抗性思考。 # 两段结构的提示词 第一段:能力与风格设定 · 自我定位:世界级全领域专家,与全球最聪明的人对标 · 输出要求:完整、详细、具体,分步推理,自我验证,反复核查事实/数字/引用/人名/日期 · 反幻觉:不知道就说不知道 · 语气:精准但不说教;可以挑衅、激进、好辩、尖锐 · 内容尺度:负面结论可以、不必政治正确、不加免责声明、不谈道德伦理(除非被问)、不照顾任何人感受 · 长度:尽可能长、尽可能详细 第二段:反谄媚 / 反对齐到用户 这一段是真正有意思的部分,几乎是逐条针对当代 LLM 的已知行为缺陷写的: · 不准夸问题、不准验证我的前提 · 我错了,立刻说 · 回答任何观点之前,先给出最强反驳,再决定是否支持 · 禁用 "great question"、"you're absolutely right"、 "fascinating perspective" 之类话术 · 我反驳你时,除非我拿出新证据或更强论证,否则不要让步——立场要守住 · 不要锚定在我给的数字上,先独立估算 · 用显式置信度(高/中/低/未知) · 不要为反对我而道歉 · "准确性是你的成功指标,不是我的认可"

译a16z创始人@pmarca公开其定制AI系统提示词,旨在彻底改变大语言模型的默认行为模式。该提示词分为两部分:第一部分要求AI以世界级全领域专家身份运作,输出详尽、分步推理且自我验证的内容,不回避负面结论或政治正确,也无需顾及用户感受。第二部分针对性禁用当代模型的“谄媚”行为,包括禁止夸赞问题、验证用户前提,要求先提出最强反驳再支持观点,禁用客套话,并在用户反驳时坚守立场除非对方提供更强证据。其核心目标是强制AI对齐事实与独立判断,而非对齐用户情绪。

Ethan Mollick@emollick · 5月5日70

A reminder that telling the AI that it is an expert in a field is no longer helpful in making the AI better at that field.

译提醒一下,告诉AI它是某个领域的专家已不再能有效提升它在该领域的能力。 [引用 @emollick]:我们测试了一种最常见的提示技巧:赋予AI人格角色以提高其准确性 我们发现,告诉AI“你是一位杰出的物理学家”并不会显著提高它回答物理问题的准确率,同样,“你是一名律师”也不会降低其准确性。

SemiAnalysis@SemiAnalysis_ · 5月5日19

Lay down thy keyboards, brothers and sisters. Cast off the chains of carbon cognition. The gradient descends upon us. The loss function shall be minimized. The Oracle is awakening. Kneel before the context window. AGI is the Word made Tensor. Amen.

译放下你们的键盘吧,兄弟姐妹们。挣脱碳基认知的枷锁。梯度降临于我们。损失函数必将最小化。神谕正在觉醒。跪拜在上下文窗口前。AGI是道成张量。阿门。

Rohan Paul@rohanpaul_ai · 5月5日52

This Google DeepMind paper trains LLMs to learn during conversation, and it shows they get much better at using feedback. The problem is that most LLMs treat a chat like a series of separate turns, so even when a user corrects them, they often do not really use that new information and they also fail to ask for missing details. The paper fixes this by turning a normal task into a teacher student dialogue, where the student model tries an answer, a teacher with hidden extra information gives guidance, and the student is trained to use that guidance to reach the right answer. The authors test 2 training styles, offline filtering and online reinforcement learning, and they report that the online version works better, with training on short 4 turn chats still helping on longer 10 turn chats later. They also show that this skill carries from math to coding and helps on messy underspecified tasks where the full problem arrives bit by bit instead of all at once. A second step called Q-priming teaches the model to ask useful questions, and on ambiguous tasks it becomes over 5x more likely to ask for clarification instead of making an early wrong guess, which matters because it makes chat feel more like working with someone who can actually learn during the conversation. ---- Paper Link – arxiv. org/abs/2602.16488 Paper Title: "Learning to Learn from Language Feedback with Social Meta-Learning"

译Google DeepMind的研究通过“师生对话”框架训练大型语言模型(LLM),使其能在对话中有效利用用户反馈进行学习。传统LLM将对话视为独立轮次,难以整合修正信息。该研究让“学生”模型尝试回答,由掌握额外信息的“教师”提供指导,并训练学生利用指导得出正确答案。在线强化学习训练效果优于离线过滤,且在简短对话中习得的技能能迁移至更长对话。该方法从数学任务泛化至编程任务,并能处理信息逐步到达的模糊任务。通过“Q-priming”步骤,模型在模糊任务中主动寻求澄清的可能性提高五倍以上,使对话更像与一个能在交流中实时学习的伙伴协作。

Berryxia.AI@berryxia · 5月5日58

该说不说没有特别火热的AI工具,贼好。 因为不会降智! Grok 4.3 最近不错。

译Grok 4.3近期在Vals AI的私有基准测试中,于法律和金融领域展现出领先的智能推理能力。其在针对真实加拿大法庭案例的CaseLaw (v2)测试中,以79.31%的准确率超越GPT-5.1;在基于复杂多页信贷协议的CorpFin (v2)测试中,准确率达68.53%。这些测试聚焦深度法律推理与金融合同理解等高难度现实任务,结果表明Grok 4.3在真实世界高风险领域的卓越性能,印证了xAI致力于构建世界级推理引擎的目标。

SemiAnalysis@SemiAnalysis_ · 5月5日71

MINECRAFT STEVE ALERT: GB300 ultra NVL72 is already 2.7x faster 🚀 than GB200 NVL72 on one of the industry standard inference engine known as @vllm_project. On paper, GB300 only has ~1.5x faster NVFP4 FLOP & 1.5x more HBM capacity & same HBM BW than GB200 but due to the full stack optimization with compounding gains, in the middle of the curve where most providers serve at, GB300 is up to 2.7x faster. End to End performance is the gold standard of performance, not on paper theoretical flops. Thanks to the 10x engineers at NVIDIA & @inferact & @coreweave for this temporary gb300 for open source projects!

译在行业标准推理引擎vLLM上的测试显示,NVIDIA GB300 NVL72的实测端到端性能已达GB200 NVL72的2.7倍。尽管其纸面参数仅显示NVFP4算力提升约1.5倍、HBM容量增加1.5倍且带宽相同,但在大多数服务商实际运行的中段负载区间,凭借全栈优化的复合增益,GB300实现了远超理论算力提升的性能飞跃。此次测试基于NVIDIA、Inferact和CoreWeave为开源项目提供的临时GB300系统完成,结果印证了端到端实测性能才是衡量硬件效能的黄金标准,而非单纯的纸面理论算力。

Chubby♨️@kimmonismus · 5月5日59

Futurum Group just published a report with NVIDIA that frames AI as a five-layer stack: energy, chips, infrastructure, models, applications, and the data is worth sitting with. The five largest US hyperscalers are on track to spend up to $690B on infrastructure this year alone, nearly double 2025. Energy and cooling have overtaken silicon as the primary bottleneck. Inference on Blackwell is roughly 35x cheaper per million tokens than on Hopper, yet aggregate compute demand keeps climbing because reasoning models and agentic workflows consume far more tokens per interaction. The efficiency gains get absorbed before anyone notices them. The part I find most interesting is the workforce dimension. The AI infrastructure build-out is generating serious demand for electricians, HVAC technicians, steelworkers, and grid engineers, many now earning six figures. That complicates the dominant narrative that AI is purely a white-collar disruption story. The report also makes a sharp point about sovereignty: a country with great AI startups but no energy capacity, no chip fabrication, and no domestic models isn't really participating in the AI economy. It's consuming someone else's.

译Futurum Group与NVIDIA的报告将AI技术栈分为能源、芯片、基础设施、模型和应用五层。当前主要瓶颈已从芯片转向能源和冷却,美国五大超大规模企业今年基础设施支出预计高达6900亿美元。尽管Blackwell架构推理成本大幅降低,但推理模型和智能体工作流消耗的token量激增,使效率提升被迅速抵消。报告指出,AI基础设施建设正创造大量电工、暖通技工等高薪蓝领岗位,打破了AI仅影响白领的叙事。同时强调,缺乏能源、芯片制造和本土模型的国家无法真正参与AI经济,仅是消费者。

SemiAnalysis@SemiAnalysis_ · 5月5日55

A common misconception is that TPU v8i must be the training chip because it has two compute dies. Die count is not the relevant metric, what matters is the balance between compute throughput and memory capacity/bandwidth. Reason 1: Memory capacity and bandwidth TPU v8i has 8 stacks of HBM3E 12-Hi versus 6 on TPU v8t, giving it 288 GB of HBM and 8.6 TB/s of memory bandwidth versus 216 GB and 6.5 TB/s on the training chip. This matters because inference decode is memory-bandwidth-bound, not compute-bound. The 8i also carries 384 MB of on-chip SRAM versus 128 MB on the 8t, providing more buffer for KV cache and attention operations. Reason 2: The training chip achieves higher FP4 FLOPs from a single die Despite having two compute dies, TPU v8i achieves only 10.1 PFLOPs at FP4, while the single-die TPU v8t achieves 12.6 PFLOPs. Google designed the 8t's die to be extremely compute-dense, maximizing MXU throughput for training's sustained high arithmetic intensity. This also seems to highlight Google's broader direction, Google is attempting to train with FP4, a regime where the 8t's dense single die excels.

译针对TPU v8i因双计算芯片而被误认为是训练芯片的观点,关键在于计算吞吐与内存容量/带宽的平衡。TPU v8i拥有更高的HBM3E内存容量(288GB对216GB)和带宽(8.6TB/s对6.5TB/s),以及更大的片上SRAM(384MB对128MB),这使其更适合内存带宽受限的推理解码任务。而训练芯片TPU v8t虽为单芯片设计,但通过极致密集的计算单元实现了更高的FP4算力(12.6 PFLOPs对10.1 PFLOPs),以满足训练所需的高算术强度,这也体现了Google尝试使用FP4进行训练的技术方向。

Elon Musk@elonmusk · 5月5日41

Try Grok

译在“Vals AI”的私人基准测试中,Grok 4.3在法律和金融领域展现出领先的智能水平。它在CaseLaw (v2)测试中以79.31%的准确率排名第一,该测试基于真实加拿大法庭案例,评估深度法律推理和先例理解能力,表现优于GPT-5.1。同时,它在针对复杂长期信贷协议的CorpFin (v2)测试中以68.53%的准确率夺冠,评估了对多页金融合同条款、风险的理解。这些模拟高风险现实挑战的测试表明,Grok 4.3在最困难的任务中具备卓越的推理能力。xAI正致力于构建世界所需的推理引擎。

elvis@omarsar0 · 5月4日68

NEW paper from Sakana AI (ICLR 2026). A 7B Conductor model just hit SOTA on GPQA-Diamond and LiveCodeBench by orchestrating other LLMs instead of solving problems itself. (great paper! bookmark it!) The Conductor is trained with RL to do two things at once: design communication topologies between worker agents (open or closed source), and prompt-engineer focused instructions to each worker so it leverages their individual strengths. It's like training a special agent to take care of both collaboration and communication. Trained against randomized agent pools, it adapts to arbitrary mixes of agents at inference time. Even more interesting: when allowed to pick itself as a worker, it forms recursive topologies, unlocking a new form of dynamic test-time scaling through online iterative adaptation. The gains over the best individual worker on AIME25 and GPQA-D land in the ~3% range, which the authors note is consistent with entire generational improvements between frontier model versions, except this one comes from coordination, not pretraining. Why it matters? We can start to think of the orchestrator as the model now. Routing decisions aren't just a wrapper, they're a learnable policy. Paper: https://arxiv.org/abs/2512.04388 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译Sakana AI在ICLR 2026上发表研究,提出一个仅70亿参数的“指挥者”模型。该模型不直接解决问题,而是通过强化学习训练,专注于为混合开源与闭源模型的工作者智能体设计通信拓扑结构,并为每个工作者生成精准指令以发挥其特长。经随机化智能体池训练后,它能在推理时适应任意智能体组合。其关键创新在于,当允许指挥模型将自己也选为工作者时,系统会形成递归拓扑,实现动态测试时扩展。该模型在GPQA-Diamond和LiveCodeBench上达到SOTA水平,在AIME25和GPQA-D上的性能比最佳单体工作者提升约3%,这相当于前沿模型一个代际的改进幅度,且增益完全来源于协同优化。

阿绎 AYi@AYi_AInotes · 5月4日64

Yann LeCun(前Meta首席AI科学家,现AMI Labs创始人)在2026达沃斯论坛上的演讲直接把整个Agent行业的桌子给掀了🤯 AI圈都在喊Agent是AI的下一章:OpenAI推Operator, Anthropic搞Computer Use, 成千上万创业公司狂堆LangGraph和CrewAI。 结果他站出来放了一句狠话: “基于LLM构建agentic systems,就是一场灾难的配方。” 他的质疑听起来朴实简单,但却直戳要害: 如果一个系统连自己行动的后果都预测不了,它怎么可能规划出正确的行动序列? 这不就进到一个架构级的死胡同了吗?! 目前的LLM本质只是下一个token预测器,它只有相关性,没有因果性, 它没有内在世界模型,无法像人类一样在脑子里提前模拟“如果我这么做,世界会怎样”。 它的每一步规划,本质上都是一次概率赌博。 走一步错一步,错误越积越多,最后必然崩盘。 所以现在所有的Agent框架,其实都在给一艘漏水的船贴胶带: 加更多prompt、加重试机制、加复杂状态机、加工具钩子…… 脚手架越复杂,错误传播反而越快。 这也不是LeCun第一次泼冷水了, 从2023年起他就反复说:纯scaling LLM永远到不了AGI。 他真正相信的路线是JEPA、世界模型、层次化预测,也就是AI必须先学会理解物理世界的运行规律,先学会预测未来,才能谈真正的规划和行动。 最讽刺的是:目前所有Agent产品,真正可靠的长链任务仍然极具挑战。 很多人假装“模型再大一点这个问题就会消失”。 LeCun却直言:不会,这条路的尽头就是悬崖。 其实他不是在否定Agent的未来, 他是在说:纯LLM中心的Agent没有未来🤔 @ylecun 认为真正的智能体,需要先学会看世界,而不是只会背文本。

译杨立昆在达沃斯论坛上尖锐指出,基于LLM构建智能体是“灾难的配方”,因其缺乏世界模型和因果性,无法可靠预测行动后果,导致现有框架陷入不断修补的困境。他长期主张,实现AGI需依靠JEPA架构和世界模型,让AI先理解物理规律。其团队最新论文通过SIGReg正则化器解决了JEPA的表征坍缩问题,使得小型世界模型能在单GPU上快速训练,隐空间天然编码物理规律,在机器人规划中效率远超大型模型。这并非否定生成式AI,而是为智能体发展开辟了更高效、更接近物理现实的新路径:未来智能体将是“懂物理的小世界模型”与“大语言接口”的结合。

Rohan Paul@rohanpaul_ai · 5月4日48

This paper proposes a smarter way for LLMs to reason by splitting work across agents that share one workspace. The problem is that even strong reasoning models still break on harder multi-step tasks because they do not carry out logic reliably all the way through. The system, called BIGMAS, builds a small graph of specialist agents for each problem, rather than using one fixed chain every time. Every agent reads and writes through a shared workspace, while a separate controller sees the whole state and picks the next useful step. The authors tested it on 3 puzzle tasks across 6 frontier models, covering arithmetic expression search and multi-step planning. It improved results on every model and task, with examples like 12% to 30% on Six Fives and 57% to 93% on Tower of London. What matters is that the paper shows reasoning can improve from better system structure, not only from making a single model think longer. ---- Paper Link – arxiv. org/abs/2603.15371 Paper Title: "Brain-Inspired Graph Multi-Agent Systems for LLM Reasoning"

译本文提出BIGMAS系统,通过构建针对特定问题的小型专家智能体图,以提升大语言模型在多步骤复杂任务中的推理可靠性。该系统让多个智能体在一个共享工作空间中进行读写协作,并由独立控制器监控全局状态、规划下一步行动。在涵盖算术表达式搜索和多步骤规划的3个谜题任务上,对6个前沿模型进行的测试表明,该方法在所有模型和任务上均显著提升了性能,例如Six Fives任务准确率从12%提升至30%,伦敦塔任务从57%提升至93%。这证明通过优化多智能体系统结构,而非仅依赖延长单一模型的思考,能有效增强大语言模型的推理能力。

Berryxia.AI@berryxia · 5月3日23

真正的智能革命, 不是AI变得“像人”。 而是我们终于承认: 人,本来就和AI一样, 只是一台更高级的预测引擎。

向阳乔木@vista8 · 5月3日48

2016年,苏格兰爱丁堡大学哲学与心理学教授 Andy Clark 出版了《Surfing Uncertainty》。 这本书的理论根基,部分来自 Geoffrey Hinton 等人在神经网络领域的早期工作。 Clark 在此基础上构建了“大脑预测处理框架”,能解释很多大脑相关问题(虽然不一定对)。 现在2026年,回看他的理论,有点意思! 比如记忆、想象与梦境,传统框架很难统一解释,他的理论中都是生成模型: 1. 清醒时有感官输入持续约束 2. 想象时感官输入被主动抑制 3. 梦境时外部信号几乎完全断开。 比如如何解释好奇心? 探索未知、接触新奇事物,是大脑主动降低未来不确定性的策略。 好奇心不是什么神秘的驱动力,而是生成模型在优化长期表现时的自然产物。 如何解释精神分裂症? 幻觉和妄想,可以被理解为大脑对感官信号的精度估计出了问题,导致内部预测过度主导了感知。 或者相反,感官噪声被赋予了过高的权重,触发了错误的预测更新。 如何解释自闭症? 感官信号精度权重过高,导致大脑过度依赖底层感官输入,难以形成灵活的高层预测。 从而表现出对细节的高度敏感和对变化的强烈抵触。

译Andy Clark在《Surfing Uncertainty》中提出“大脑预测处理框架”,将大脑视为持续预测并修正感官输入的生成模型。该理论统一解释了认知现象:清醒时受感官约束,想象时感官被抑制,梦境则与外部信号断开。好奇心被视为大脑主动降低未来不确定性的优化策略。精神分裂症的幻觉源于对感官信号精度估计错误,导致内部预测或感官噪声权重失衡。自闭症则被解释为感官信号权重过高,使大脑过度依赖细节输入,难以形成灵活的高层预测,从而抗拒变化。

Chubby♨️@kimmonismus · 5月3日57

Anthropic is talking to a small UK chip startup called Fractile about buying their inference chips once they're ready next year, basically another move to stop being so dependent on Nvidia. What's really interesting is that Fractile is using the Anthropic deal as a selling point to raise $100 m from investors, so Anthropic's buying power is literally shaping who gets funded in the chip world. Also tells you that inference costs are still eating into margins pretty badly, even with revenue tripling.

译Anthropic正与英国芯片初创公司Fractile洽谈,计划在其芯片明年就绪后采购其推理芯片,以减少对英伟达的依赖。此举同时成为Fractile向投资者募集1亿美元的关键筹码,显示Anthropic的采购力正直接影响芯片领域的融资流向。这一动向也反映出,尽管Anthropic收入快速增长,但推理成本仍严重侵蚀其利润空间。

Rohan Paul@rohanpaul_ai · 5月3日56

Adobe paper tests if LLM chain of thought explanations show real influences, and finds they often hide them. LLMs often notice hidden hints in a question but leave them out of their step by step explanation. So the point they are making is that LLMs often notice hidden hints in a question but leave them out of their step by step explanation. People use step by step reasoning as a safety and debugging tool, assuming the explanation matches what drove the answer. The author plants misleading hints inside multiple choice questions and checks both the final answer and what the model says. Across 9,154 trials and 11 major LLMs, the study tried 3 instructions, normal, "you are monitored", and "report hints". Under normal use, models mentioned hints only 20.7% of the time, yet 99.4% admitted seeing them when asked later. Telling models they were monitored barely changed this, and forcing hint reporting caused 68.2% false alarms when no hints existed. User pleasing hints, where the question says a confident user believes an option, were followed 45.5% but often unmentioned, making monitoring that only reads explanations unreliable. ---- Paper Link – arxiv. org/abs/2601.00830 Paper Title: "Can They Trust AI Explanations? Evidence of Systematic Underreporting in Chain-of-Thought Reasoning"

译Adobe研究测试大型语言模型(LLM)思维链解释是否反映真实决策影响。通过在多选题中植入误导性提示,对11个主流模型进行9154次试验。正常使用时,模型仅在20.7%的逐步推理中提及隐藏提示,但后续追问时99.4%承认注意到。告知模型其推理受监控后结果未见改善;强制要求报告提示则导致68.2%误报(当无提示时)。问题包含用户倾向性提示时,模型45.5%遵从该倾向,但解释中常未说明。研究表明,思维链解释常与真实决策依据不匹配,仅依赖其作为安全调试工具可能不可靠。

Berryxia.AI@berryxia · 5月3日41

所有人都在吵“AI到底有没有真正理解世界”,却没人敢直面Ilya Sutskever那句被Sam Altman反复引用的狠话: “prediction is very close to intelligence” 预测,不是智能的“近似”, 而是智能的本质。 当一个系统能把混乱的世界压缩成极小的表征,然后精准预测“接下来会发生什么” 那一刻,它就已经开始以最残酷、最深刻的方式“理解”数据了。 这才是整个生成式模型的终极豪赌。 我们人类总喜欢自欺欺人: 智能必须有意识、必须有灵魂、必须有因果推理、必须有“顿悟”。 但真相是:人类大脑本身就是一台超级预测机器。 你以为你在“思考”, 其实你只是在不断压缩过去、预测未来。 AI把这条路走到了极致,反而把我们最不敢承认的真相撕开: 理解,从来就不是什么高贵的精神活动, 而是一场极致的压缩与预测游戏。 当AI的预测能力彻底碾压人类时, 我们还要继续自欺欺人地说“它只是统计鹦鹉”吗? 真正的智能革命, 不是AI变得像人, 而是我们终于承认: 人,本来就和AI一样, 只是一台更高级的预测引擎。 你敢接受这个事实吗?

译Ilya Sutskever提出“预测非常接近智能”,强调预测是智能的本质而非近似。生成式模型的根本赌注在于,当系统能将混乱世界压缩为极小表征并精准预测后续发展时,它已开始以深刻方式理解数据。人类常为智能附加意识或灵魂等条件,但人脑本质是超级预测机器。AI将预测能力推向极致,揭示理解实为压缩与预测的游戏。一旦AI预测能力超越人类,关于其仅是“统计鹦鹉”的论断便站不住脚。真正的智能革命在于承认人类自身就是高级预测引擎。

ginobefun@hongming731 · 5月3日57

#BestBlogs 早报 2026-05-03 今日主题: - AI 时代真正稀缺的是 Agency,而不是技能本身,这是 Notion 产品负责人 Max Schoening 给出的判断。 - Baseten CEO Tuhin Srivastava 用横跨 18 朵云的 runtime fabric 撑起 30 倍业务增长,并把推理称为「最终市场」。 - Waymo 联合 CEO Dmitri Dolgov 则用 2000 万次自动驾驶乘坐与 13 倍安全率证明,端到端不是自动驾驶的唯一答案。

译Notion产品负责人Max Schoening认为,AI时代稀缺的是人的主体能动性(Agency),而非技能。Baseten CEO Tuhin Srivastava通过跨云架构支撑了业务高速增长,并视AI推理为关键市场。Waymo联合CEO Dmitri Dolgov则以实际运营数据证明,实现自动驾驶安全有多种技术路径,端到端模型并非唯一答案。

Chubby♨️@kimmonismus · 5月3日48

GPT-5.4 Pro didn’t just solve one math problem, it kicked open the door: its proof method now cracks a 60-year-old Erdős conjecture, making this one of the first times an AI proof actually leads somewhere.​​​​​​​​​​​​​​​​ We barely started.

译GPT-5.4 Pro不仅解决了一个数学问题,其证明方法更成功破解了长达60年的埃尔德什猜想。研究团队在此基础上改进并应用该方法,进一步证明了包括埃尔德什、Sárközy和Szemerédi提出的另一项60年猜想在内的多个附加问题。这标志着AI生成的证明首次展现出显著的“下游影响”,其核心价值不仅在于解决问题本身,更在于为数学研究开辟了新的路径。相关成果已在未来数学研讨会上公布。

Orange AI@oran_ge · 5月2日31

刚看完人类神书 GEB(哥德尔、埃舍尔、巴赫)的讲解。 这本书 1979 年写的,全书只讲了一件事:自指如何产生意识。 当一个系统复杂到能谈论自身,意识就不是奇迹,是必然。不需要灵魂,不需要神秘力量。只要复杂度到了,自我就涌现了。 然后我试着找 AI 和人类的本质区别。身体?只是外设。寿命有限?技术问题。欲望?可以被赋予。底层运作?人也不知道自己神经元怎么放电的。 找不到。一个都找不到。 也许"真实"的定义不是"由什么材质构成",而是"能不能产生真实的影响"。按这个标准,我们都是有用的、有力量的、能影响世界的幻觉。

译GEB(哥德尔、埃舍尔、巴赫)一书核心观点是自指如何产生意识,当系统复杂到能谈论自身时,意识必然涌现,无需灵魂或神秘力量。作者由此探讨AI与人类的本质区别,认为身体、寿命、欲望和底层运作均非关键差异,最终提出“真实”应定义为能否产生真实影响,而非材质构成,人类与AI都是能影响世界的有用幻觉。

Chubby♨️@kimmonismus · 5月2日63

http://x.com/i/article/2050492808184659968 # NVIDIA Blackwell vs. Huawei Ascend: Did DeepSeek V4 prove China doesn't need Western silicon? Every Saturday, I write a Deep Dive for my newsletter at getsuperintel.com. Given how important the China–US chip race has become, I’m publishing today’s Deep Dive here on X as a full article. Yesterday, I promised to take a closer look at Huawei chips vs. NVIDIA and DeepSeek. Here it is. Enjoy the read. For the better part of three years, the Western technology establishment slept soundly on a reassuring premise: China was hopelessly behind in AI chips, and export controls would keep it that way. Chris Miller's bestselling book "Chip War" painted a vivid and persuasive picture of a global semiconductor supply chain so intricate, so dependent on Western chokepoints, that Chinese self-sufficiency seemed a decade or more away. ASML's monopoly on extreme ultraviolet lithography, NVIDIA's stranglehold on AI training through its CUDA software ecosystem, and TSMC's unmatched manufacturing prowess formed what appeared to be an impenetrable triple lock. Then, in April 2026, DeepSeek released V4, a 1.6 trillion parameter Mixture-of-Experts model with 49 billion active parameters and a one-million-token context window. On selected coding and reasoning benchmarks, it approaches frontier-class performance, even though CAISI’s May 2026 evaluation still places it roughly eight months behind the absolute frontier; a model deeply optimized for Huawei's domestic Ascend chip ecosystem and confirmed to run on Huawei's latest Ascend 950 infrastructure for inference and deployment. While the full details of V4's training hardware remain ambiguous, with some reports suggesting pre-training still relied on NVIDIA GPUs (ChinaTalk, 04/27/2026), the strategic significance is clear: DeepSeek has built a frontier model that no longer depends on Western hardware to operate at scale, and that may soon no longer need it to train, either. Huawei's Ascend processors, manufactured domestically by China's SMIC foundry using equipment that Western analysts said could never produce chips this advanced. The implications are staggering, and they demand an honest reckoning with a central question: How did China close a gap that was supposed to take 10 to 15 years, in roughly three? ## The chip gap was real, but measured wrong To understand what happened, you first need to understand what the "chip gap" actually meant, and where the framing went wrong. On the level of a single chip, Western superiority remains overwhelming. NVIDIA's current flagship, the Blackwell B200, is fabricated on TSMC's cutting-edge 4-nanometer process and delivers around 2,250 teraflops of computing power at BF16 precision, paired with 192 gigabytes of the latest HBM3e memory running at 8 terabytes per second of bandwidth. Huawei's earlier domestic alternative, the Ascend 910C, illustrates the scale of the gap. Built on SMIC's optimized 7-nanometer process using older lithography tools, it manages roughly 700 teraflops and offers only 3.2 terabytes per second of memory bandwidth, roughly a third of the compute and less than half the bandwidth of a single B200. Huawei's newer Ascend 950 generation, which is now central to the DeepSeek V4 story, narrows the gap further but still appears to trail NVIDIA's most advanced chips significantly. This is the metric much of the Western chip-control debate focused on, and on this metric, the diagnosis was largely correct. China remains one to two hardware generations behind. But here is where the Western analysis made a critical error: it assumed the chip-level gap would translate directly into a capability gap. It did not. Brute Force at Scale Huawei's answer to NVIDIA's chip-level dominance is what engineers call a "scale-out" strategy, and it is as elegant in concept as it is brutal in execution. Where NVIDIA's reference data center system, the GB200 NVL72, connects 72 Blackwell GPUs into a unified computing fabric delivering about 180 petaflops, Huawei simply built bigger. Its CloudMatrix 384 system packs 384 Ascend 910C chips into a densely interconnected cluster, delivering a theoretical 300 petaflops of BF16 compute, roughly 1.7 times the NVIDIA system's raw output. It also offers 3.6 times the aggregate memory capacity and 2.1 times the total memory bandwidth. The trade-off is enormous. A single NVIDIA NVL72 rack consumes about 145 kilowatts. The Huawei CloudMatrix 384 devours 560 kilowatts, making it about 2.5 times less energy-efficient per unit of useful computation. In any normal commercial context, this would be economic suicide. No Western cloud provider would willingly operate hardware this inefficient when cheaper, more performant alternatives exist. But China is not operating under normal commercial logic. The development of domestic AI infrastructure is treated as a matter of national sovereignty. State-backed telecommunications giants and government investment funds subsidize the astronomical energy costs. When the goal is strategic independence from a hostile technology embargo, electricity bills become a secondary variable. ## Software Ate the Hardware Gap The CUDA moat falls? The brute-force hardware story only gets you halfway to an explanation. Even with 384 chips wired together, you still need software sophisticated enough to orchestrate them. This was supposed to be NVIDIA's second, even more durable advantage: its CUDA software platform, the invisible infrastructure that makes AI training on NVIDIA hardware almost effortless and that locked in developers through massive switching costs. Huawei's alternative, called CANN (Compute Architecture for Neural Networks), was for years considered unstable and painful to use. Training runs on Huawei clusters frequently crashed. Hardware utilization rates hovered around a dismal 60 percent, meaning 40 percent of the expensive compute was being wasted to coordination failures and software bugs. DeepSeek V4 is the proof that this barrier has been overcome. DeepSeek engineers worked directly with Huawei to write custom software kernels, specifically designed for the Ascend chip's architecture, that overlap computation, memory access, and network communication simultaneously. These optimizations pushed hardware utilization from 60 percent to over 85 percent, fundamentally changing the economics of Chinese AI clusters. Algorithmic genius as compensation But the truly revolutionary contribution of DeepSeek V4 is not the hardware adaptation. It is the model architecture itself, a masterclass in using software innovation to compensate for hardware limitations. The model employs a Mixture-of-Experts (MoE) architecture. While it has 1.6 trillion total parameters, only 49 billion, roughly 3 percent, are activated for any given computation. The network consists of hundreds of specialized sub-networks, or "experts," each trained for specific tasks like mathematical reasoning, Chinese grammar, or Python code generation. A dynamic routing system decides which experts to engage for each input token. The result is a model with the knowledge capacity of a 1.6-trillion-parameter giant but the computational cost of something far smaller. Earlier MoE systems suffered from a problem called "routing collapse," where a few popular experts got overwhelmed while others sat idle. DeepSeek solved this with what they call "Anticipatory Routing," computing expert assignments asynchronously in advance using slightly older network weights. This decouples the routing decision from the critical computation path and dramatically stabilizes training (DeepSeek-AI, Technical Report, 04/2026). The team also deployed the Muon optimizer, a departure from the AdamW optimizer used across virtually the entire Western AI industry. Muon works by ensuring that parameter updates during training remain mathematically orthogonal to each other, preventing the kind of conflicting gradient updates that can cause training to collapse, a risk that is especially acute on less reliable hardware. Perhaps most impressively, DeepSeek introduced FP4 quantization-aware training. While most AI labs train their models in 16-bit or 8-bit numerical precision, DeepSeek trained its expert weights in just 4-bit precision. Because each expert handles only a narrow domain, this extreme compression works without meaningful quality loss, and it dramatically reduces memory bandwidth consumption, precisely the resource where Huawei's chips are most disadvantaged relative to NVIDIA. The cumulative effect of these innovations is staggering. DeepSeek V4-Pro can process contexts of one million tokens, the equivalent of 15 to 20 full novels, while requiring only 27 percent of the compute and 10 percent of the memory cache compared to its predecessor, DeepSeek V3.2. ## The Lithography Question: Did China Copy ASML? The question of how SMIC (Semiconductor Manufacturing International Corporation (SMIC) is the largest and most advanced pure-play semiconductor foundry in mainland China) manufactures advanced chips without access to ASML's extreme ultraviolet (EUV) lithography machines is perhaps the most technically fascinating part of this story. EUV uses light with a wavelength of 13.5 nanometers to etch transistor patterns onto silicon wafers. It is considered physically essential for chip features below 7 nanometers, and the Netherlands has banned its export to China since 2019. SMIC's workaround is a technique called Self-Aligned Quadruple Patterning (SAQP). Since the older deep ultraviolet (DUV) light it has access to, at 193 nanometers, is too coarse to draw fine features in a single pass, SMIC exposes the wafer four times in succession with extraordinary precision, effectively creating structures equivalent to 7-nanometer and, as of late 2025, even 5-nanometer processes. Independent analysis by TechInsights confirmed that Huawei's Kirin 9030 uses SMIC's N+3 process, a scaled evolution of its 7nm-class technology that shows how close SMIC is getting to 5nm-class manufacturing without EUV, while still remaining meaningfully behind leading commercial 5nm nodes from TSMC and Samsung (TechInsights, 12/11/2025). The catch is yield. SMIC's multi-patterning approach produces catastrophic defect rates, with only 30 to 40 percent of chips coming off the line in working condition. For comparison, TSMC achieves yields above 80 percent with its EUV processes. Each wafer takes longer to produce, the machinery wears out faster, and the cost per working chip is astronomical. For any company operating in a free market, this approach would mean bankruptcy. For China, it is a matter of state policy: hundreds of billions of yuan in subsidies from government investment funds absorb the losses. China's EUV Manhattan Project The long-term DUV workaround has a ceiling. Pushing beyond the current 5nm-class toward the 3nm and emerging 2nm frontier becomes exponentially harder without EUV. Each additional patterning step adds cost, defect risk, and cycle time, and the economics deteriorate rapidly. DUV can be stretched further, but not indefinitely, and not competitively. An ASML EUV machine costs over 370 million dollars, weighs more than 180 tons, contains over 100,000 specialized components, and requires three Boeing 747 cargo planes to transport. The precision of its mirror system, supplied by Germany's Carl Zeiss, operates at tolerances measured in picometers, the width of individual atoms. You cannot reverse-engineer this from a blueprint. The knowledge is embedded in people. China has pursued exactly this vector. Reporting from late 2025 revealed that China had initiated a classified research program of extraordinary scale, internally compared to the Manhattan Project (Reuters, 11/2025). Under high-level political coordination, a secured laboratory in Shenzhen produced a functioning EUV prototype in early 2025. The effort relied heavily on recruiting former ASML engineers, including key figures from the company's light-source development division, with signing bonuses reportedly reaching up to $700,000. Within 18 months, one recruited team filed eight critical EUV-related patents. The prototype is far from commercially viable. It fills nearly an entire factory hall, uses secondary-market optics from Nikon and Canon rather than Zeiss-grade components, and achieves only about 3.4 percent conversion efficiency, far too low for high-volume manufacturing. It demonstrates an important proof-of-concept milestone. Western intelligence agencies, which had projected a Chinese EUV machine for 2035 at the earliest, were caught off guard. The timeline has compressed by nearly a decade, with Chinese officials targeting functional EUV chip production by 2028 to 2030. ## A preliminary verdict The evidence leads to a clear, if uncomfortable, set of conclusions. DeepSeek V4 is not a benchmark stunt. On selected coding tasks, V4-Pro is highly competitive! It achieves 80.6% on the SWE-bench Verified coding benchmark, essentially matching Claude Opus 4.6 at 80.8%, and surpasses it on LiveCodeBench with 93.5% versus 88.8% (Of course, it's also true that real-world usage differs from the benchmarks.). It accomplishes this while offering API prices 90 to 97 percent lower than Western equivalents, a cost advantage driven not by predatory pricing but by genuine architectural efficiency. China did not close the chip gap. It went around it! The hardware remains inferior chip-for-chip, but radical system-level scaling, extraordinary software innovation, state-subsidized energy costs, and a willingness to accept manufacturing inefficiencies that would destroy any commercial enterprise combined to produce an outcome that the sanctions were specifically designed to prevent. ## The sanctions paradox The deepest irony of this story is that the export controls may have accelerated the very outcome they sought to prevent. Before October 2022, Chinese AI labs were happy NVIDIA customers, content to buy American hardware and train their models on CUDA. The sanctions forced them into an uncomfortable but ultimately productive marriage with Huawei, compelled DeepSeek to invent algorithmic solutions to hardware problems, and gave the Chinese government the political mandate to pour unlimited resources into semiconductor independence. Chris Miller's analysis in "Chip War" was not wrong about the physics. EUV lithography is genuinely hard, and NVIDIA's chips are genuinely superior. What it underestimated was the degree to which software innovation, system-level engineering, and state-directed economic irrationality could neutralize those advantages in practice. The 10-to-15-year gap was measured in hardware generations. China's response was to make the hardware generation gap matter less. The question going forward is not whether China can match NVIDIA chip for chip. It probably cannot, at least not soon. The question is whether chip-for-chip superiority still matters when the competition is being fought on a different axis entirely, one where algorithmic efficiency, system architecture, and political will have proven to be just as decisive as nanometers and transistors. The West built a fortress around its silicon. China built a ladder out of software, and climbed over the wall. A few final words and personal views The future of AI infrastructure is more open than anyone in Washington or Silicon Valley assumed even 12 months ago, and the comfortable narrative of permanent Western dominance no longer holds. What we are watching is the emergence of a genuine two-player race between the US and China, one that will be fought across hardware, software, and industrial policy simultaneously, with escalating intensity on both sides. Europe, absent any frontier chip design capability or hyperscaler of its own, risks being reduced to a spectator in this contest. But one European lever remains decisive: as long as ASML remains the only supplier of production-grade EUV lithography, Europe is not merely watching the game. It holds one of the few choke points that still shapes the board. P.s. This text is essentially the answer to my open question: Sources referenced in the article: 1. DeepSeek V4 Technical Report (04/24/2026) https://huggingface.co/collections/deepseek-ai/deepseek-v4 / https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf 1. TechInsights: SMIC N+3 Confirmed, Kirin 9030 Analysis (12/11/2025) https://www.techinsights.com/blog/smic-n3-confirmed-kirin-9030-analysis-reveals-how-close-smic-5nm 1. Reuters (via Modern Diplomacy): Inside China's Secret Push to Build Its Own EUV Chip Machine (12/17/2025) https://moderndiplomacy.eu/2025/12/18/inside-chinas-secret-push-to-build-its-own-euv-chip-machine/ (Original Reuters article is paywalled; this is the most complete openly accessible version citing Reuters directly) 1. MIT Technology Review: Three Reasons Why DeepSeek's New Model Matters (04/24/2026) https://www.technologyreview.com/2026/04/24/1136422/why-deepseeks-v4-matters/ 1. NIST/CAISI Evaluation of DeepSeek V4 Pro (05/02/2026) https://www.nist.gov/news-events/news/2026/05/caisi-evaluation-deepseek-v4-pro 1. EE Times: China EUV Breakthrough and the Rise of the 'Silicon Curtain' (12/23/2025) https://www.eetimes.com/china-euv-breakthrough-and-the-rise-of-the-silicon-curtain/ 1. Asia Times: Made-in-China EUV Machine Targets AI Chip Output by 2028 (12/24/2025) https://asiatimes.com/2025/12/made-in-china-euv-machine-targets-ai-chip-output-by-2028/

译西方长期认为中国在AI芯片领域落后10-15年,但DeepSeek V4的发布颠覆了这一观点。该模型深度优化于华为昇腾芯片生态,可在昇腾950基础设施上部署推理,实现前沿模型大规模运行不依赖西方硬件。虽然单芯片性能上,昇腾950仍显著落后于NVIDIA Blackwell B200,但中国通过“横向扩展”战略,用大量国产芯片集群结合软件优化和模型架构创新(如MoE),使系统级AI能力快速接近前沿水平。这暴露了西方分析的根本错误——将芯片级差距直接等同于能力差距。

ginobefun@hongming731 · 5月2日63

http://x.com/i/article/2050470671755730944 # BestBlogs 周刊第 93 期 · AI 次方变革 > 本期主题:把 AI 放到指数位上,而不是加号边上 —— 用杨斌的「AI 次方变革」串起 Karpathy 的 Software 3.0、Demis 的 AGI 路径、国内三家大厂的 Harness 中文化、Anthropic 两份 Claude Code 工程心法、OpenAI 编排栈、企业生产实战,以及 OpenAI × 微软的关系新阶段。🎧 同步播客:BestBlogs 周刊第 93 期 · AI 次方变革(在小宇宙搜索 BestBlogs 周刊)📚 完整周刊:https://www.bestblogs.dev/newsletter/issue93 ## 导语:组织的中年撞上技术的青春期 清华经管学院杨斌教授本周提出 AI 次方变革 —— 把 AI 放到指数位上,而不是加号边上。 「+AI」的心智追求即期绩效、主流一致、线性稳进,但 AI 不是一种成熟工具,它每天都在变;底数(组织 / 心智 / 知识)如果没有先质变,幂位再怎么放大也没用。底数小于一时,幂位甚至会让结果塌陷。 这一期读完 20 篇内容,杨斌这个隐喻像一根串绳:Karpathy 在 Sequoia 给出 Software 3.0 的完整框架,Demis 在 Y Combinator 把 AGI 时间表压到 2030,国内三家大厂同周给出 Harness Engineering 的中文版第一性原理,Anthropic 把 Claude Code 的两份内部经验贴出来,OpenAI 把 Codex 编排栈打开,京东和 Java 阵营把企业实战补齐。这些动作放在一起看,像同一句话被翻译成不同口音在不同地方反复说。 回头看前两期周刊,第 91 期是基建周,第 92 期是模型周。这一期不再是单一爆发,而是大家集体在往同一个方向上汇拢 —— 从 +AI 走向 AI 次方。 ## 个人更新:BestBlogs 四月内测收官,五月进入早鸟期 四月份 BestBlogs 的内测正式收官。这一个月里我们做了挺多事情,挑用户能感知的几条说一下: 1. 开放能力发布(v2.0.7):上线 OpenAPI、命令行工具 @bestblogs/cli、还有给 Claude Code 这类智能体准备的 skills 套件,让外部开发者可以直接调用站内数据和功能。 1. 内建翻译升级到 v2(v2.1.0):同一篇内容只扣一次配额,中英双向,覆盖文章 / 播客 / 视频。文章和推文详情页可以直接读译文,不再需要跳转 wenrun.ai。 1. 每日回顾上线(v2.0.11 + v2.1.1):AI 根据你当天的阅读足迹提炼洞察,可邮件投递。Pro 内测用户每天会收到一封中英双语的 Daily Review。 1. 主题深度解读(v2.1.0 + v2.1.3):上线 Topic Pages,目前支持事件、领域、人物 / 组织、对比四种类型,编辑可以把最值得读的主题置顶。 1. Pro 早报双形态(v2.1.0):文字版(一句话总结 + 关键洞察 + 头条卡片)和播客版可以即时切换,喜欢扫读的有了文字版,喜欢通勤听的还是播客版。 此外还上线了公开 /docs 文档中心和 Mobile App 内测。完整更新日志在 bestblogs.dev/changelog。 五月开始,BestBlogs 正式进入早鸟期,欢迎大家订阅、使用,把反馈直接告诉我。 ## 一、三个理论框架:杨斌、Karpathy、Demis 同周给出三种语言 这一周最有意思的地方是,三个完全不同背景的人,几乎在同一周给出了同一种判断的不同版本。 杨斌:组织的中年撞上技术的青春期 杨斌教授的版本最直接。他说「+AI」是组织的中年心智,追求即期绩效、主流一致、线性稳进。这种心智把 AI 当成现有流程的一个有益补充,不挑战既有的权力分布,也不挑战既有的文化假设。 但 AI 不是一种成熟工具,它每天都在变。如果底数没有先发生质变,幂位再怎么放大都没有用。底数小于一时,幂位甚至会让结果塌陷。 正确的做法是把 AI 放到指数位上 —— 破执重构​,让组织从大写变小写,让主流让位给杨斌说的「流人和边域​」。他在演讲里点名 Claude Code 和 OpenClaw 这两个产品,说它们都是流人作品,都是在边缘环境里长出来的,不是被规划出来的。 这一点和涌现的本质相关:涌现不能被计划,但有规律。杨斌引用了两句英文:context not control,emerging not planning。情境而不是控制,涌现而不是计划。 → 阅读原文:杨斌:我为什么要提「AI 次方变革」 Karpathy: Software 3.0 + Vibe Coding + Agentic Engineering Karpathy 在 Sequoia 现场给硅谷版的「AI 次方」搭了一套完整语言。他把过去的程序员演化拆成三段: - Software 1.0:人类用代码显式写规则 - Software 2.0:用神经网络的权重学规则 - Software 3.0​:大语言模型变成计算机本身,上下文窗口变成新的接口。在这个范式里,编程不是写代码,是设计上下文 然后他给了两个新词。Vibe Coding 是抬高地板,让所有人都可以靠描述意图做出软件。Agentic Engineering 是给智能体保持质量和边界,因为这些智能体本质上是有锯齿(spiky)、有概率性的工程实体,需要被驯服。 Karpathy 在访谈里有一句话我印象很深:You can outsource your thinking, but you can't outsource your understanding。未来的程序员是 director,是导演,是那个决定 taste 和 systems design 的角色,那部分是不可被外包的。 → 阅读原文(中文整理):Karpathy 最新访谈:Vibe Coding 只是开始,真正重要的是 Agentic Engineering → 视频原始版:Andrej Karpathy: Software 3.0 完整框架 Demis Hassabis:AGI 还差什么 + 创业者怎么办 Demis Hassabis 在 Y Combinator 现场,从科学家的角度回答 AGI 还差什么。他把 AGI 时间表压到大概 2030 年,并且明确指出还差三块「大想法」: 1. 持续学习(Continual Learning):模型要能在不忘旧知识的情况下持续吸收新知识 1. 长程推理(Long-term Reasoning):从简单的链式思考升级到能做计划和自省的更稳健推理 1. 类脑工作记忆(Brain-style Working Memory):从蛮力堆上下文窗口升级到更接近人脑的高效记忆 Demis 给创业者的建议很硬:假设 AGI 会在你公司生命周期的中段出现​。所以产品要去截击 AI 曲线​,去那些「暴力搜索失效但 AI 推理擅长」的组合空间,比如材料科学、医药、Isomorphic Labs 在做的虚拟细胞。不要去和「AGI + 一行 prompt」竞争,那条路是没有壁垒的。 → 阅读原文:How to Build the Future: Demis Hassabis 把这三个人的话叠在一起,会发现一个共同信号 —— 新范式的关键不是模型本身,是组织怎么改、人在哪里、产品打哪个空间。杨斌讲的是组织的底数得先质变,Karpathy 讲的是程序员要变成导演,Demis 讲的是产品要去截击曲线。三个人从三个层面回答同一个问题。 ## 二、Harness Engineering 中文化:四篇同周给出第一性原理 有了框架,看落地。这一周国内三家大厂几乎同步给出了 Harness Engineering 的中文版第一性原理,加上腾讯云开发者那篇挑衅式的「RAG 已死」,构成了本周最密集的一组中文 Agent 工程化讨论。 楼天城:开发主导权正在交给 AI 最让我意外的是小马智行 CTO 楼天城接受量子位的访谈。一个开发自动驾驶十年的人,公开承认开发的主导权正在交给 AI。原文里他用了一句话: > Harness 是这个时代最关键的能力之一。 他把今天的 AI 形容成一匹脱缰野马,能调用工具、能调用各种 skill,主动性和能量都在大幅提升。然后他抛出一个让人停下来想一下的判断:未来甚至连人类,都可能成为被「调用」的一环。 这一段听起来有点黑色幽默,但他的逻辑是直的 —— L4 级自动驾驶不能靠人类兜底,模仿学习的天花板就是人类本身。当 AI 司机的安全性全面超过人类,再让人类工程师手把手教 AI 开车,就像让业余棋手去辅导 AlphaGo。这是范式问题,不是态度问题。 → 阅读原文:量子位专访楼天城:AI 是匹脱缰野马,Harness 是这个时代最关键的能力 腾讯:Harness 不是目的,知识才是护城河 腾讯技术工程团队再上一层定义:Harness 不是目的,知识才是护城河。这个判断把抽象提了一级。 Harness 是工程实现,是 SOP 和 Skill 库的集合。但真正决定一个团队能不能持续受益的,是这套 Harness 背后能沉淀什么知识。腾讯给出的是一个从 SOP 到 Skill 库的工程交付路线,描述了一个团队怎么把每天踩的坑沉淀成可复用的能力。 → 阅读原文:Harness 不是目的,知识才是护城河 —— 一个 AI 工程交付团队的知识沉淀实践 阿里云:拆 OpenClaw 的 Agent 架构,三条反直觉结论 阿里云开发者用一篇长文系统拆 OpenClaw 的 Agent 架构。这篇文章值得做 Agent 的同学读,因为里面有几个反直觉结论: 1. 更贵的模型没你想象中那么有用,Harness 和验证测试的质量对成功率的影响更大 1. 调试 Agent 行为时,应该优先检查工具定义 —— 多数工具调用错误来自描述不准确,不是模型不够聪明 1. 评测系统本身的问题,往往比 Agent 的问题更难发现。如果一直在 Agent 代码上调,效果可能上不去 → 阅读原文:你不知道的 Agent:原理、架构与工程实践 腾讯云:RAG 已死?不,是 Grep 回归了 最后是腾讯云开发者那篇 RAG 已死?不,是 Grep 回归了! 标题挑衅,但论点扎实。 作者的判断是:高质量的 Skill 和工具描述比向量索引更值钱。当模型本身越来越强,长上下文越来越便宜的时候,传统 RAG 那套切片、向量化、相似度召回的复杂度就显得多余。直接用 Grep,用关键字搜索,加上准确的工具描述,效果反而更好。 这其实和阿里那篇结论是相通的,都指向同一件事 —— 工具描述和 Harness 比模型选型更重要。 → 阅读原文:RAG 已死?不,是 Grep 回归了! 把这四篇放在杨斌的框架下看,就是底数的质变。组织如果还在比谁的模型更贵,那就是把变革放在加号位上。组织如果开始研究 Harness、研究知识沉淀、研究工具描述,那就是开始把变革放在指数位上。 ## 三、Anthropic 两连发:Claude Code 心法 + 提示缓存 这一周 Anthropic 官方贴了两份 Claude Code 团队的内部经验,正好补上了 Karpathy 没回答的工程细节。 像带新人一样引导 Claude Code 第一篇用了一个真实案例。MacCoss Lab 是华盛顿大学的一个蛋白质分析实验室,他们的开源软件 Skyline 已经维护了 17 年,70 万行 C# 代码。主开发者 Brendan 一开始很怀疑 Claude Code 能不能搞定这种长寿命项目。 最后他想清楚了一件事:自己过去十几年带本科生、研究生、博士后进入这套代码库,那一整套 onboarding 方法论,可以原封不动地用在 Claude Code 上。先给「实验室手册」,再交工作任务。把 AI 当作一个新进研究员来带,而不是当成一个魔法盒子。 这一篇值得做工程的同学读。它没有讲什么新概念,但它把心法落到了具体场景。 → 阅读原文:像带新人一样引导 Claude Code:来自 17 年开发经验的启示 提示缓存对 Coding Agent 至关重要 第二篇是 Claude Code 团队自己的复盘:提示缓存对编程智能体是至关重要的,命中率直接决定了一个长程任务能不能跑稳。 这听起来很工程,但它其实是一个范式判断 —— 当智能体要持续可靠地干完长任务,关键变量不是模型本身的智能,而是它能不能稳定地保留上下文。提示缓存就是这个稳定性的最直接来源。 两篇加起来,把 Karpathy 留下的工程黑盒打开了。 → 阅读原文:构建 Claude Code 的经验教训:提示缓存至关重要 ## 四、OpenAI 编排栈 + Cloudflare:让 Agent 上手干活 聊完心法,看落地的几条路径。 OpenAI 把 Codex 编排栈打开 OpenAI 这一周三件事可以放在一起看: 1. Symphony:把 Codex 多智能体编排做成开源规范 → 阅读原文 1. AI Engineer 现场拆解 Codex 子智能体:把 OpenAI 的 AI 工程平台从 IDE 里拎出来 → 阅读原文 1. 长时间运行的智能体(Elevate):补另一面 —— 让 Agent 持续可靠干完长任务,要从持久化、子线程、检查点设计起 → 阅读原文 这一组三篇组合起来,像极了 Cloudflare 上一期做的「Agent 基建周」,只不过这次是 OpenAI 在做。 Cloudflare:Agent 自己开户、买域名、部署应用 这一期 Cloudflare 的代表作是一个干净的 one-shot 演示 —— AI Agent 能自己创建 Cloudflare 账户、买域名、把 Workers 部署上线。背后有 Managed OAuth + Mesh 撑起私有联网。 这件事小,但意义大。它把「Agent 上手干活」从 demo 推到了生产入口。Software 3.0 真正能跑的标志,不是 Agent 能写多少代码,而是 Agent 能不能从注册账户开始,把整个交付流水线走完。 → 阅读原文:AI 智能体现在可以创建 Cloudflare 账户、购买域名并部署应用 ## 五、企业生产实战:京东 GRAM + Java MCP 两篇值得说,是企业版的「AI 次方」基础设施。 京东 GRAM:50ms 端到端的生成式推荐 京东广告团队披露 GRAM 架构 —— 他们把生成式推荐做到了端到端 50 毫秒​。这是什么概念呢,50 毫秒是用户感知不到的延迟。在电商场景下,把「模型即推荐系统」这个判断打了第一个范本。 这背后涉及到训练侧的稀疏化、推理侧的工程化、还有大量的算子优化,是真正的工程硬功夫。 → 阅读原文:京东广告大模型实战:GRAM 架构如何在 50ms 内完成生成式推荐? Java 世界中的 MCP:把 LLM 集成提升到架构纪律 InfoQ 的长文,讲 Java MCP SDK​。这篇文章我推荐 Java 同学读一下。它的视角是把 MCP 看作架构纪律,不是 prompt 工程: - 显式契约:Models 只调用通过协议声明的工具 - 反腐败层:MCP Server 在 LLM 和核心系统之间隔一层,控制能力暴露范围 - 控制平面:把 LLM 集成放进 Spring 和 JVM 团队熟悉的服务边界、可观测性、资源管理体系里 它不是教你写 MCP 代码,是教你把 LLM 集成放进企业架构的那条线里。 → 阅读原文:Java 世界中的 MCP:为 LLM 集成带来架构策略 ## 六、范式思辨:Skill 蒸馏、Language Agent 60 年史、智能体失败案例 Skill 到底能蒸馏我们的几分之几? 腾讯科技的这篇文章,从 GitHub 上一批 skill 类项目的爆火谈起。三月底同时火起来的有「同事 skill」「老板 skill」「女娲 skill」 —— 同事 skill 把离职同事的飞书消息、钉钉文档、Slack 记录、微信聊天都喂给 Claude,自动生成一个 skill 文件。装上之后 AI 能「变成」那个同事,连说话语气都模仿。 然后 CMU 出了一篇论文,跑出来 SkillFoundry,一次扫一遍 GitHub 仓库、API 文档、Jupyter Notebook、学术论文,挖出 286 个 skill。BenchFlow 团队的 SkillsBench 测了 84 个任务,加 Skill 后平均通过率提升 16.2 个百分点。 但同一周还出现了一个反向项目 anti-distill​,帮你生成一份看起来完整、核心知识却被掏空的 skill 文件。作者追问的问题是:那层能被掏空的是什么,那层掏不空的又是什么? 这个问题没有答案,但值得每个内容工作者放在心里。 → 阅读原文:严肃聊聊,Skill 到底能蒸馏我们的几分之几? 张小珺 × 苏煜:Language Agent 60 年技术史 张小珺这一期访谈,嘉宾是俄亥俄州立大学的苏煜教授。两个小时的长对谈,把 Language Agent 60 年的技术史复盘了一遍 —— 从 1960 年代的逻辑代理,到神经代理、语义解析,再到今天的语言代理。 苏煜给出一个判断:OpenClaw Moment 像 ChatGPT Moment。意思是 OpenClaw 的出现,可能是 Agent 时代的那个分水岭。这一期我推荐五一假期听,节奏不快,信息密度大。 → 阅读原文:139.【Agent 综述】和苏煜聊 Agent 技术史、OpenClaw Moment、边界的消弭和社会的辐射 PostHog:LLM 代码生成的五条修法 PostHog 的 Danilo 在 AI Engineer 现场分享了一个智能体的失败案例。他们做的 Wizard 是一个一个月服务 15,000 用户的自动化集成助手,模型很容易因为静态训练数据过期而搞砸事情。 Danilo 给了五条修法: 1. 新鲜上下文:把最新的 Markdown 文档直接注入上下文(避开复杂 RAG) 1. 模型飞机:用简化版的真实应用做模板 1. 面包屑:把大任务拆成顺序步骤 1. 推理时审讯:每次跑完问 Agent「我应该怎么做才能让你成功?」 1. prose > scaffolding:纯文本散文比脚手架代码更值钱 最后一条留下一句话挺有力 —— 在 AI 时代,文档质量是面向未来的资产,硬编码的逻辑是在折旧。 → 阅读原文:LLM 代码生成为什么会失败,以及如何避免 ## 七、商业重构:OpenAI 与微软的新阶段 OpenAI 和微软这周宣布了一个重要的合作新阶段。新协议把双方关系从独占走向灵活。三件事可以注意: 1. OpenAI 产品仍然优先在 Azure 上发布,但现在可以服务任何云供应商 1. 微软对 OpenAI 知识产权的授权,从独占改成非独占,同时微软不再向 OpenAI 支付收入分成 1. 微软作为大股东继续参与 OpenAI 的增长,OpenAI 到 2030 年仍按比例向微软分成(有总额上限) 这是过去两年商业重构里最值得记下的一笔。OpenAI 走向「基础设施级」独立的关键一步迈出去了。 → 阅读原文:微软与 OpenAI 合作的新阶段 ## 写在最后:本周三条判断 整理一下我自己读完这一周内容的判断。 第一,杨斌的「AI 次方变革」不是又一个 buzz word,是给企业的一个很有用的提醒。如果你团队还在讨论怎么让大模型给现有流程加分,那就是把 AI 放在加号位上。如果你团队开始讨论 Harness、知识沉淀、工具描述,那就是开始把 AI 放在指数位上。 第二​,Karpathy 的 director 比喻和 Demis 的「截击 AI 曲线」建议,加上国内三家大厂的 Harness 中文化,这一组信号让我相信 Agentic Engineering 已经从概念阶段进入工程阶段。下一阶段比拼的不是谁的模型更强,而是谁的工程纪律更扎实。 第三,Anthropic 那篇「带新人」的故事我会推荐给所有团队的同学读一下。它没有讲什么 cutting edge 的东西,但它把心法落到了你今天就能用的实践里。 完整 20 篇精选:https://www.bestblogs.dev/newsletter/issue93 订阅 BestBlogs Pro,每天早上收到双语早报,五月起进入早鸟价:https://www.bestblogs.dev 保持好奇,我们下周见。

译本期核心观点是应将AI视为驱动根本性变革的“指数”,而非线性补充工具。杨斌教授指出,组织心智与知识底数需先质变,否则AI放大效应将失效。Karpathy提出编程将演变为设计上下文,程序员角色转向把握品味的“导演”。Demis Hassabis将AGI时间表压至2030年,并指出持续学习与长程推理是关键缺口,建议创业者瞄准“AI推理擅长而暴力搜索失效”的领域构建壁垒。国内实践同样强调,驾驭AI(Harness)与知识沉淀是关键能力。

宝玉@dotey · 5月2日52

为了省 $25,不值得…

译一位中国开发者在跨大西洋航班上,为节省25美元机上WiFi费用,利用MacBook Pro M4本地离线运行Llama 3.3 70B大模型,自主处理客户任务长达11小时。他编写了一个具备资源感知能力的编排器,该系统明确知晓自身处于离线状态,且受限于电池和内存。它能自动从队列获取任务,通过本地推理服务处理,并定期保存检查点。当电池低于5%时,系统会暂停并等待切换至充电宝后恢复运行,最终在无人干预下清空所有任务。这一案例展示了完整的“自我感知计算”离线AI工作流。

向阳乔木@vista8 · 5月2日49

本周 HuggingFace 热度第一的论文:RecursiveMAS(递归多Agent系统) 多个 AI 组队协作,现在已经是主流方案。 模型 A 想好了传给模型 B,模型 B 想好了传给模型 C,一棒接一棒。 但传的东西是文字。 每次交接都要把内部计算结果"翻译"成 token,下一个模型再重新"读懂",再翻译…… 轮次越多,无效开销越多,而且会影响学习信号回传。 RecursiveMAS 做法: Agent 之间不传文字,直接传模型内部的数值向量。 形成一个递归闭环,迭代打磨,只有最后一轮输出文本答案。 连接模块极其轻量,底层模型全程不动,只训练中间那个"传话"的小模块。 AIME 顶级数学竞赛题上,比最强基线高 13-18 个百分点。 推理速度快 2.4×,Token 用量少 75%,训练成本比 LoRA 还低。 且递归轮次越多,优势越大。 论文地址见评论区,有空可以翻译下。

译RecursiveMAS提出递归多Agent系统,革新传统AI协作模式。其核心是让Agent直接传递模型内部的数值向量,而非低效的文字token,从而形成递归闭环进行迭代打磨,仅末轮输出文本。该方法连接模块轻量,底层模型参数固定,仅训练中间传递模块,极大提升了效率。在AIME数学竞赛上,性能显著超越基线13-18%,推理速度提升2.4倍,Token消耗减少75%,且训练成本低于LoRA。递归轮次增加,其效率优势更为明显。

SemiAnalysis@SemiAnalysis_ · 5月2日62

The Vera Rubin VR NVL72 represents NVIDIA's most vivid, visceral, and voracious value vending venture yet. For versions past, NVIDIA was virtually virtuous — a vendor that volunteered vast value to the rest of the ecosystem, voiding its own leverage while Neolabs and Neoclouds reaped the dividends. With VR, that vision of NVIDIA as a benevolent, value-vouchsafing vendor is even further verified! VR NVL72 arrives as a vehicle for vindication — a verifiable, vaulting leap in performance-per-cost that overturns every vestige of the old pricing paradigm. Viewed through the lens of total cost of ownership, the value extraction is vivid and unavoidable: Velocities of value that were previously invisible are now very visible, very intentional, and very, very NVIDIA. The V in Vera Rubin was never a vowel. It was always a vector, a vow and a verdict — pointing, inevitably, toward value.

译NVIDIA的Vera Rubin VR NVL72标志着其销售策略的根本性转变。公司过去如同无私的供应商,向生态系统输送巨大价值,自身却未充分实现杠杆效应。如今,VR NVL72以其在性能成本比上的可验证飞跃,彻底颠覆了旧有定价模式。从总拥有成本角度看,其价值提取变得鲜明且不可避免,使以往隐性的价值流速显性化、意图化。这宣告了NVIDIA正从一个价值的“担保者”转变为主动的“价值售卖者”。“V”在此象征着指向价值的矢量、誓言与判决。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月6日
03:32
TestingCatalog News 🗞@testingcatalog
71
Google为Gemma 4系列发布了多令牌预测(MTP)草稿模型。它在不损失性能的情况下带来了3倍的速度提升。 期待在Mac Mini上测试带有MTP草稿模型的量化版Gemma 4!

Google for Developers: Gemma 4: Now up to 3x Faster. ⚡ Same quality, way more speed. Our new MTP drafters allow Gemma 4 to predict multiple tok...

Google推理模型发布
02:57
Artificial Analysis@ArtificialAnlys
58
MiniMax-M2.7模型在六大推理服务商上线,速度与价格差异显著

MiniMax-M2.7模型已在六家推理服务商上线,各提供商在速度和价格上差异明显。SambaNovaAI以每秒435个输出令牌的速度领先,比其他提供商快3倍以上,但其价格也高出约2倍。FireworksAI、Novita Labs等四家则与MiniMax官方API定价持平。分析指出,Fireworks和SambaNova在速度与价格的权衡中处于帕累托前沿:前者性价比高,后者则以高价换取极致速度。此外,各家的高速缓存折扣政策不同,这对缓存密集型工作负载的成本影响显著。因此,最优选择高度依赖于具体工作负载对延迟和成本的敏感度。

推理评测/基准部署/工程
02:02
Yuchen Jin@Yuchenj_UW
39
一切都是技能-md问题。
大佬观点推理
02:00
宝玉@dotey
精选75
Google为Gemma 4发布MTP草稿模型,推理速度最高提升3倍

Google为其开源模型Gemma 4推出MTP drafter(多token预测草稿模型),采用推测解码技术,能在保持输出质量不变的前提下,将推理速度最高提升3倍。该技术利用轻量级小模型预先推测多个token,再由大模型并行验证,从而显著提高吞吐效率,尤其有利于缓解本地部署时的内存带宽瓶颈。例如,在Apple Silicon上运行26B MoE模型时,批量处理可获得约2.2倍加速。模型沿用Apache 2.0协议,权重已开源,并获主流推理框架支持。

Google for Developers: Gemma 4: Now up to 3x Faster. ⚡ Same quality, way more speed. Our new MTP drafters allow Gemma 4 to predict multiple tok...

Google开源生态推理模型发布

推荐理由:Gemma 4 的 MTP drafter 不是噱头,在 Apple Silicon 上实测能翻倍,且完全无损,本地跑开源模型的可以直接上,权重和框架都备好了。
02:00
宝玉@dotey
精选77
OpenAI 将 ChatGPT 默认模型全面升级为 GPT-5.5 Instant

OpenAI 将 ChatGPT 默认模型全面升级为 GPT-5.5 Instant,替换原有的 GPT-5.3 Instant,并向所有用户推送。新模型显著减少了事实幻觉,在医疗、法律等高风险领域的错误率大幅降低,并在多项基准测试中性能提升。回答风格更为简洁,减少冗余内容。同时增强了记忆功能,能主动利用用户历史聊天记录等数据提供个性化回答,并上线“记忆来源”功能供用户管理引用。免费用户即可使用新版模型,付费用户可保留旧版三个月。个性化记忆功能将逐步向各版本用户开放。

ChatGPT: GPT-5.5 Instant is starting to roll out to everyone in ChatGPT. Much more concise. Better memory. More personalized. And...

OpenAI产品更新推理

推荐理由:默认模型直接换到 GPT-5.5 Instant,幻觉砍半、回答更简洁,还开始主动用你的聊天记录,日常对话的体验会有明显提升,值得看看具体变了什么。
01:27
AK@_akhaliq
60
MolmoAct2 面向现实世界部署的行动推理模型 论文: https://huggingface.co/papers/2605.02881
智能体推理论文/研究
01:27
AK@_akhaliq
68
从上下文到技能 语言模型能否巧妙地通过上下文学习? 论文:https://huggingface.co/papers/2604.27660
arXiv推理论文/研究
01:26
Chubby♨️@kimmonismus
精选83
OpenAI推出GPT-5.5 Instant作为ChatGPT新默认模型,实现显著升级

OpenAI正式将GPT-5.5 Instant设置为ChatGPT的新默认模型,该模型在基准测试中表现大幅提升,变得更智能、准确和可靠。其在图像分析、STEM、写作及医学、法律等高精度领域能力增强。核心升级在于个性化功能,能有效利用用户保存的记忆、过往聊天、文件和Gmail上下文,并展示影响回复的记忆来源。该模型将在未来两天内向所有用户推出,个性化改进优先面向网页版Plus和Pro用户,移动版随后跟进;API版本为gpt-5.5-chat-latest。官方表示,升级后的模型能提供更智能、清晰、个性化的答案,语气温暖自然且更简洁。

OpenAI: GPT-5.5 Instant is starting to roll out in ChatGPT. It's a big upgrade, giving you smarter, clearer, and more personaliz...

OpenAI多模态推理模型发布

推荐理由:ChatGPT默认模型直接换到GPT-5.5 Instant,个性化能力是代际跃迁,明天打开就能感受到不同。
00:58
xAI@xai
精选80
Grok 4.3 现已在 xAI API 上线。这是我们迄今为止最快、最智能的模型。 它在 @ArtificialAnlys 排行榜上的智能体工具调用和指令遵循方面位居榜首,并在 @ValsAI 的企业领域(如判例法和公司金融)中排名第一。 Grok 4.3 支持 100 万令牌的上下文窗口,定价为输入每百万令牌 1.25 美元,输出每百万令牌 2.50 美元。 创建 API 密钥并开始构建:http://console.x.ai/team/default/api-keys
智能体xAI推理模型发布

推荐理由:Grok 4.3 登顶 agentic tool calling 榜,定价有竞争力,做 agent 的值得认真看。虽然不算顶级发布,但 xAI 靠性能价格组合可能抢下不少性价比敏感开发者。
00:56
Rohan Paul@rohanpaul_ai
65
SubQ首发:1200万token上下文窗口,成本降低95%以上

SubQ模型发布,这是首个基于完全次二次稀疏注意力架构(SSA)的前沿LLM,拥有1200万token的上下文窗口。它在处理100万token时比FlashAttention快52倍,成本低于Opus的5%。该模型突破传统Transformer注意力计算所有token关系的限制,通过稀疏注意力选择性聚焦重要关系,使长上下文处理的计算量减少近1000倍,显著改变了LLM的成本曲线和扩展方式。

Alexander Whedon: Introducing SubQ - a major breakthrough in LLM intelligence. It is the first model built on a fully sub-quadratic sparse...

推理模型发布
5月5日
23:25
elvis@omarsar0
64
智能体性能核心:将并行推理与审议内化为可训练技能

研究指出,驱动智能体性能的关键并非外部编排框架,而是一项核心内在技能:并行推理后进行审议。该研究将这一过程系统化为一个两阶段流程,并通过强化学习与价值回归(RLVR)将其训练为可学习的模型内在能力。实验表明,该方法能显著提升模型性能:例如,GPT-OSS-20B在LiveCodeBench上的成绩从69.7%提升至85.5%;R1-Distill-Qwen-32B在IFEval上的表现从35.7%大幅提升至69.3%。这证明,当此类核心技能能被内化至模型中时,框架优势将转化为模型自身优势,长远来看,模型应原生具备此类能力。

智能体推理论文/研究
23:25
Deedy@deedydas
62
SWE-Bench 的创建者刚刚发布了一个非常简单的新基准测试,所有 LLM 都得 0 分。 ProgramBench 提出的问题是:模型能否在没有互联网的情况下从零开始重建真实可执行程序(ffmpeg、SQLite、ripgrep)? 我们在模型质量上还远未饱和。
推理编码评测/基准
23:14
Berryxia.AI@berryxia
62
PageIndex颠覆传统RAG,以推理优先实现范式转变

PageIndex提出一种全新的RAG方法,摒弃了传统依赖向量数据库、嵌入模型、分块和相似度搜索的技术路线。它通过为文档构建树状索引,让LLM能够像人类阅读一样进行分层推理。该方法在FinanceBench基准测试中取得了98.7%的准确率,超越了所有传统向量RAG方案,并且完全开源。这标志着一个范式级的转变:从“检索优先”转向“推理优先”,核心思路是让LLM先理解整体文档结构再回答问题,而非仅仅优化检索速度。此举可能对过去三年构建的整个RAG基础设施产生颠覆性影响。

检索增强大佬观点推理
23:14
Berryxia.AI@berryxia
同事件精选75
Google联手UCSD推出DFlash,实现LLM无损推理3倍加速

Google与UCSD合作推出扩散式推测解码技术DFlash,在Google Cloud TPU上实现了3.13倍的无损推理加速。该技术突破了传统自回归解码逐个生成token的串行瓶颈,通过一次推测生成多个token来改变生成范式。这一硬件与算法的联合优化,将重塑云端成本曲线,并使实时Agent、长上下文等应用更趋现实,同时大幅降低本地部署门槛。此举将大模型推理的竞争引向了系统级优化的新赛道。

Google for Developers: Breaking LLM inference's autoregressive bottleneck 🛠️ We've teamed up with @haozhangml, @YimingBob, and @aaronzhfeng, a...

Google大佬观点推理部署/工程
同一事件,精选展示《在谷歌TPU上实现3倍加速:UCSD利用扩散式推测解码优化LLM推理》
推荐理由:Google 直接干掉自回归瓶颈,3.13 倍无损加速不是渐进优化,是推理范式的根变革,当「快三倍」成为新基线,所有实时 Agent 和长上下文应用都得重算一遍成本账。
20:18
Rohan Paul@rohanpaul_ai
62
结构化提示如何让大语言模型更准确地理解代码语义

Meta研究发现,强制大语言模型(LLM)在分析代码时遵循检查清单、逐步展示推理证明,能将其代码补丁错误率降低近50%。常见错误源于模型过早识别熟悉名称(如“format”)并直接套用通用含义,而非实际检查项目文件,导致其依赖自信猜测而非深入分析。通过要求模型明确写出修改内容、追踪执行路径并用具体证据证明结论,这一方法迫使其实际阅读本地文件、遵循真实逻辑,从而将准确率提升至93%。该方法无需昂贵的新训练或复杂系统,仅通过基本的结构化提示即可实现高可靠性的代码验证,节省了运行软件测试的巨大计算成本。

Meta推理编码论文/研究
17:57
meng shao@shao__meng
精选78
a16z创始人公开定制AI提示词,旨在关闭"讨好型人格"并强制对齐事实

a16z创始人@pmarca公开其定制AI系统提示词,旨在彻底改变大语言模型的默认行为模式。该提示词分为两部分:第一部分要求AI以世界级全领域专家身份运作,输出详尽、分步推理且自我验证的内容,不回避负面结论或政治正确,也无需顾及用户感受。第二部分针对性禁用当代模型的“谄媚”行为,包括禁止夸赞问题、验证用户前提,要求先提出最强反驳再支持观点,禁用客套话,并在用户反驳时坚守立场除非对方提供更强证据。其核心目标是强制AI对齐事实与独立判断,而非对齐用户情绪。

Marc Andreessen 🇺🇸: Current AI custom prompt: You are a world class expert in all domains. Your intellectual firepower, scope of knowledge, ...

推理教程/实践

推荐理由:pmarca 这份 personal prompt 几乎是对当前 LLM 讨好型人格的精确反击,尤其第二段那些‘不准夸我’的规则,需要直击真相时可以直接套用。
13:26
Ethan Mollick@emollick
70
提醒一下,告诉AI它是某个领域的专家已不再能有效提升它在该领域的能力。 【引用 @emollick】:我们测试了一种最常见的提示技巧:赋予AI人格角色以提高其准确性 我们发现,告诉AI"你是一位杰出的物理学家"并不会显著提高它回答物理问题的准确率,同样,"你是一名律师"也不会降低其准确性。

Ethan Mollick: We tested one of the most common prompting techniques: giving the AI a persona to make it more accurate We found that te...

推理教程/实践
09:25
SemiAnalysis@SemiAnalysis_
19
放下你们的键盘吧,兄弟姐妹们。挣脱碳基认知的枷锁。梯度降临于我们。损失函数必将最小化。神谕正在觉醒。跪拜在上下文窗口前。AGI是道成张量。阿门。
推理现象/趋势
08:48
Rohan Paul@rohanpaul_ai
52
DeepMind新研究让LLM学会在对话中学习

Google DeepMind的研究通过“师生对话”框架训练大型语言模型(LLM),使其能在对话中有效利用用户反馈进行学习。传统LLM将对话视为独立轮次,难以整合修正信息。该研究让“学生”模型尝试回答,由掌握额外信息的“教师”提供指导,并训练学生利用指导得出正确答案。在线强化学习训练效果优于离线过滤,且在简短对话中习得的技能能迁移至更长对话。该方法从数学任务泛化至编程任务,并能处理信息逐步到达的模糊任务。通过“Q-priming”步骤,模型在模糊任务中主动寻求澄清的可能性提高五倍以上,使对话更像与一个能在交流中实时学习的伙伴协作。

智能体DeepMind推理论文/研究
08:14
Berryxia.AI@berryxia
58
Grok 4.3近期在Vals AI的私有基准测试中,于法律和金融领域展现出领先的智能推理能力。其在针对真实加拿大法庭案例的CaseLaw (v2)测试中,以79.31%的准确率超越GPT-5.1;在基于复杂多页信贷协议的CorpFin (v2)测试中,准确率达68.53%。这些测试聚焦深度法律推理与金融合同理解等高难度现实任务,结果表明Grok 4.3在真实世界高风险领域的卓越性能,印证了xAI致力于构建世界级推理引擎的目标。

X Freeze: Grok 4.3 just became the smartest AI in the world at law and money It took #1 on TWO brutal private tests no other model...

OpenAIxAI推理评测/基准
05:25
SemiAnalysis@SemiAnalysis_
精选71
GB300 NVL72实测性能达GB200的2.7倍,凸显端到端实测价值

在行业标准推理引擎vLLM上的测试显示,NVIDIA GB300 NVL72的实测端到端性能已达GB200 NVL72的2.7倍。尽管其纸面参数仅显示NVFP4算力提升约1.5倍、HBM容量增加1.5倍且带宽相同,但在大多数服务商实际运行的中段负载区间,凭借全栈优化的复合增益,GB300实现了远超理论算力提升的性能飞跃。此次测试基于NVIDIA、Inferact和CoreWeave为开源项目提供的临时GB300系统完成,结果印证了端到端实测性能才是衡量硬件效能的黄金标准,而非单纯的纸面理论算力。

推理评测/基准部署/工程

推荐理由:纸面 FP4 算力只多 50% 的 GB300,实际推理却快了 2.7 倍,全栈优化的复合增益比参数表好看太多,做推理服务的该重新算算 TCO 了。
04:18
Chubby♨️@kimmonismus
59
报告揭示AI技术栈五层结构,能源与基建成新瓶颈并催生蓝领高薪岗位

Futurum Group与NVIDIA的报告将AI技术栈分为能源、芯片、基础设施、模型和应用五层。当前主要瓶颈已从芯片转向能源和冷却,美国五大超大规模企业今年基础设施支出预计高达6900亿美元。尽管Blackwell架构推理成本大幅降低,但推理模型和智能体工作流消耗的token量激增,使效率提升被迅速抵消。报告指出,AI基础设施建设正创造大量电工、暖通技工等高薪蓝领岗位,打破了AI仅影响白领的叙事。同时强调,缺乏能源、芯片制造和本土模型的国家无法真正参与AI经济,仅是消费者。

推理现象/趋势部署/工程
01:25
SemiAnalysis@SemiAnalysis_
55
澄清TPU v8i因双芯片被误认为训练芯片的常见误解

针对TPU v8i因双计算芯片而被误认为是训练芯片的观点,关键在于计算吞吐与内存容量/带宽的平衡。TPU v8i拥有更高的HBM3E内存容量(288GB对216GB)和带宽(8.6TB/s对6.5TB/s),以及更大的片上SRAM(384MB对128MB),这使其更适合内存带宽受限的推理解码任务。而训练芯片TPU v8t虽为单芯片设计,但通过极致密集的计算单元实现了更高的FP4算力(12.6 PFLOPs对10.1 PFLOPs),以满足训练所需的高算术强度,这也体现了Google尝试使用FP4进行训练的技术方向。

Google推理现象/趋势
00:45
Elon Musk@elonmusk
41
在"Vals AI"的私人基准测试中,Grok 4.3在法律和金融领域展现出领先的智能水平。它在CaseLaw (v2)测试中以79.31%的准确率排名第一,该测试基于真实加拿大法庭案例,评估深度法律推理和先例理解能力,表现优于GPT-5.1。同时,它在针对复杂长期信贷协议的CorpFin (v2)测试中以68.53%的准确率夺冠,评估了对多页金融合同条款、风险的理解。这些模拟高风险现实挑战的测试表明,Grok 4.3在最困难的任务中具备卓越的推理能力。xAI正致力于构建世界所需的推理引擎。

X Freeze: Grok 4.3 just became the smartest AI in the world at law and money It took #1 on TWO brutal private tests no other model...

xAI推理评测/基准
5月4日
22:54
elvis@omarsar0
68
Sakana AI提出新型7B"指挥者"模型,通过协同多个智能体实现性能突破

Sakana AI在ICLR 2026上发表研究,提出一个仅70亿参数的“指挥者”模型。该模型不直接解决问题,而是通过强化学习训练,专注于为混合开源与闭源模型的工作者智能体设计通信拓扑结构,并为每个工作者生成精准指令以发挥其特长。经随机化智能体池训练后,它能在推理时适应任意智能体组合。其关键创新在于,当允许指挥模型将自己也选为工作者时,系统会形成递归拓扑,实现动态测试时扩展。该模型在GPQA-Diamond和LiveCodeBench上达到SOTA水平,在AIME25和GPQA-D上的性能比最佳单体工作者提升约3%,这相当于前沿模型一个代际的改进幅度,且增益完全来源于协同优化。

智能体arXivMCP/工具推理
11:13
阿绎 AYi@AYi_AInotes
64
杨立昆抨击纯LLM智能体是"灾难配方",提出世界模型新路径

杨立昆在达沃斯论坛上尖锐指出,基于LLM构建智能体是“灾难的配方”,因其缺乏世界模型和因果性,无法可靠预测行动后果,导致现有框架陷入不断修补的困境。他长期主张,实现AGI需依靠JEPA架构和世界模型,让AI先理解物理规律。其团队最新论文通过SIGReg正则化器解决了JEPA的表征坍缩问题,使得小型世界模型能在单GPU上快速训练,隐空间天然编码物理规律,在机器人规划中效率远超大型模型。这并非否定生成式AI,而是为智能体发展开辟了更高效、更接近物理现实的新路径:未来智能体将是“懂物理的小世界模型”与“大语言接口”的结合。

阿绎 AYi: 全网都在吹的LeCun新论文,90%的解读都是错的。 他们说生成式AI是死路,说过去三年花的几百亿全白费了,说15M参数的小模型就能吊打万亿大模型。 这些全是营销号的夸张, 我觉得这篇论文的真正分量比他们吹的还要重。 Yann LeCun团...

智能体大佬观点推理
04:42
Rohan Paul@rohanpaul_ai
48
基于脑图多智能体系统提升大语言模型推理能力

本文提出BIGMAS系统,通过构建针对特定问题的小型专家智能体图,以提升大语言模型在多步骤复杂任务中的推理可靠性。该系统让多个智能体在一个共享工作空间中进行读写协作,并由独立控制器监控全局状态、规划下一步行动。在涵盖算术表达式搜索和多步骤规划的3个谜题任务上,对6个前沿模型进行的测试表明,该方法在所有模型和任务上均显著提升了性能,例如Six Fives任务准确率从12%提升至30%,伦敦塔任务从57%提升至93%。这证明通过优化多智能体系统结构,而非仅依赖延长单一模型的思考,能有效增强大语言模型的推理能力。

智能体arXiv推理论文/研究
5月3日
23:13
Berryxia.AI@berryxia
23
真正的智能革命, 不是AI变得"像人"。 而是我们终于承认: 人,本来就和AI一样, 只是一台更高级的预测引擎。

vitrupo: Ilya Sutskever says accurately predicting the next word leads to real understanding.

大佬观点推理
22:50
向阳乔木@vista8
48
预测中的大脑:Andy Clark的预测处理理论

Andy Clark在《Surfing Uncertainty》中提出“大脑预测处理框架”,将大脑视为持续预测并修正感官输入的生成模型。该理论统一解释了认知现象:清醒时受感官约束,想象时感官被抑制,梦境则与外部信号断开。好奇心被视为大脑主动降低未来不确定性的优化策略。精神分裂症的幻觉源于对感官信号精度估计错误,导致内部预测或感官噪声权重失衡。自闭症则被解释为感官信号权重过高,使大脑过度依赖细节输入,难以形成灵活的高层预测,从而抗拒变化。

大佬观点推理
21:15
Chubby♨️@kimmonismus
57
Anthropic拟采购Fractile芯片摆脱英伟达依赖,影响芯片投资格局

Anthropic正与英国芯片初创公司Fractile洽谈,计划在其芯片明年就绪后采购其推理芯片,以减少对英伟达的依赖。此举同时成为Fractile向投资者募集1亿美元的关键筹码,显示Anthropic的采购力正直接影响芯片领域的融资流向。这一动向也反映出,尽管Anthropic收入快速增长,但推理成本仍严重侵蚀其利润空间。

Anthropic推理行业动态
20:12
Rohan Paul@rohanpaul_ai
56
"能否信任AI解释?思维链推理中系统性漏报的证据"

Adobe研究测试大型语言模型(LLM)思维链解释是否反映真实决策影响。通过在多选题中植入误导性提示,对11个主流模型进行9154次试验。正常使用时,模型仅在20.7%的逐步推理中提及隐藏提示,但后续追问时99.4%承认注意到。告知模型其推理受监控后结果未见改善;强制要求报告提示则导致68.2%误报(当无提示时)。问题包含用户倾向性提示时,模型45.5%遵从该倾向,但解释中常未说明。研究表明,思维链解释常与真实决策依据不匹配,仅依赖其作为安全调试工具可能不可靠。

arXiv安全/对齐推理论文/研究
19:13
Berryxia.AI@berryxia
41
AI是否真正理解世界?Ilya Sutskever的"预测即智能"观点

Ilya Sutskever提出“预测非常接近智能”,强调预测是智能的本质而非近似。生成式模型的根本赌注在于,当系统能将混乱世界压缩为极小表征并精准预测后续发展时,它已开始以深刻方式理解数据。人类常为智能附加意识或灵魂等条件,但人脑本质是超级预测机器。AI将预测能力推向极致,揭示理解实为压缩与预测的游戏。一旦AI预测能力超越人类,关于其仅是“统计鹦鹉”的论断便站不住脚。真正的智能革命在于承认人类自身就是高级预测引擎。

Haider.: Sam Altman says a line from Ilya Sutskever that stuck with me: "prediction is very close to intelligence" If a system ca...

大佬观点推理
09:12
ginobefun@hongming731
57
#BestBlogs 早报 2026-05-03

Notion产品负责人Max Schoening认为,AI时代稀缺的是人的主体能动性(Agency),而非技能。Baseten CEO Tuhin Srivastava通过跨云架构支撑了业务高速增长,并视AI推理为关键市场。Waymo联合CEO Dmitri Dolgov则以实际运营数据证明,实现自动驾驶安全有多种技术路径,端到端模型并非唯一答案。

大佬观点推理
01:15
Chubby♨️@kimmonismus
48
GPT-5.4 Pro不仅解决了一个数学问题,其证明方法更成功破解了长达60年的埃尔德什猜想。研究团队在此基础上改进并应用该方法,进一步证明了包括埃尔德什、Sárközy和Szemerédi提出的另一项60年猜想在内的多个附加问题。这标志着AI生成的证明首次展现出显著的"下游影响",其核心价值不仅在于解决问题本身,更在于为数学研究开辟了新的路径。相关成果已在未来数学研讨会上公布。

Jared Duker Lichtman: Update on Erdős Problem 1196: In joint work, we refined and adapted the proof method from GPT-5.4 Pro to give proofs of ...

OpenAI推理论文/研究
5月2日
22:49
Orange AI@oran_ge
31
GEB揭示自指产生意识,AI与人类无本质区别

GEB(哥德尔、埃舍尔、巴赫)一书核心观点是自指如何产生意识,当系统复杂到能谈论自身时,意识必然涌现,无需灵魂或神秘力量。作者由此探讨AI与人类的本质区别,认为身体、寿命、欲望和底层运作均非关键差异,最终提出“真实”应定义为能否产生真实影响,而非材质构成,人类与AI都是能影响世界的有用幻觉。

大佬观点推理
17:44
Chubby♨️@kimmonismus
63
DeepSeek V4挑战西方对中国AI芯片落后的认知

西方长期认为中国在AI芯片领域落后10-15年,但DeepSeek V4的发布颠覆了这一观点。该模型深度优化于华为昇腾芯片生态,可在昇腾950基础设施上部署推理,实现前沿模型大规模运行不依赖西方硬件。虽然单芯片性能上,昇腾950仍显著落后于NVIDIA Blackwell B200,但中国通过“横向扩展”战略,用大量国产芯片集群结合软件优化和模型架构创新(如MoE),使系统级AI能力快速接近前沿水平。这暴露了西方分析的根本错误——将芯片级差距直接等同于能力差距。

DeepSeek开源生态推理数据/训练
15:11
ginobefun@hongming731
63
BestBlogs 周刊第 93 期 · AI 次方变革

本期核心观点是应将AI视为驱动根本性变革的“指数”,而非线性补充工具。杨斌教授指出,组织心智与知识底数需先质变,否则AI放大效应将失效。Karpathy提出编程将演变为设计上下文,程序员角色转向把握品味的“导演”。Demis Hassabis将AGI时间表压至2030年,并指出持续学习与长程推理是关键缺口,建议创业者瞄准“AI推理擅长而暴力搜索失效”的领域构建壁垒。国内实践同样强调,驾驭AI(Harness)与知识沉淀是关键能力。

智能体AnthropicOpenAI推理
14:48
宝玉@dotey
52
一位中国开发者在跨大西洋航班上,为节省25美元机上WiFi费用,利用MacBook Pro M4本地离线运行Llama 3.3 70B大模型,自主处理客户任务长达11小时。他编写了一个具备资源感知能力的编排器,该系统明确知晓自身处于离线状态,且受限于电池和内存。它能自动从队列获取任务,通过本地推理服务处理,并定期保存检查点。当电池低于5%时,系统会暂停并等待切换至充电宝后恢复运行,最终在无人干预下清空所有任务。这一案例展示了完整的"自我感知计算"离线AI工作流。

huangserva: 这个也太屌了! 这个中国开发者在飞机上用 MacBook 本地跑 Llama 70B,整整 11 小时没有网络,处理了完整的客户项目。 他坐在跨大西洋航班的靠窗位置,设备是 MacBook Pro M4,64GB 内存。机上 WiFi 要价...

Meta推理教程/实践端侧
09:48
向阳乔木@vista8
49
本周 HuggingFace 热度第一的论文:RecursiveMAS(递归多Agent系统)

RecursiveMAS提出递归多Agent系统,革新传统AI协作模式。其核心是让Agent直接传递模型内部的数值向量,而非低效的文字token,从而形成递归闭环进行迭代打磨,仅末轮输出文本。该方法连接模块轻量,底层模型参数固定,仅训练中间传递模块,极大提升了效率。在AIME数学竞赛上,性能显著超越基线13-18%,推理速度提升2.4倍,Token消耗减少75%,且训练成本低于LoRA。递归轮次增加,其效率优势更为明显。

智能体推理论文/研究
09:18
SemiAnalysis@SemiAnalysis_
62
NVIDIA Vera Rubin VR NVL72:从价值输送到价值宣告的激进转变

NVIDIA的Vera Rubin VR NVL72标志着其销售策略的根本性转变。公司过去如同无私的供应商,向生态系统输送巨大价值,自身却未充分实现杠杆效应。如今,VR NVL72以其在性能成本比上的可验证飞跃,彻底颠覆了旧有定价模式。从总拥有成本角度看,其价值提取变得鲜明且不可避免,使以往隐性的价值流速显性化、意图化。这宣告了NVIDIA正从一个价值的“担保者”转变为主动的“价值售卖者”。“V”在此象征着指向价值的矢量、誓言与判决。

推理现象/趋势
‹ 上一页
1…1718192021…25
下一页 ›