thanks to the Thinking Machines team, we used Tinker to prototype our reward models and train the prompt expander via RL. for more information, read the full technical report on the data, architecture, and training behind Krea 2 👇

译感谢Thinking Machines团队，我们使用Tinker原型化了我们的奖励模型，并通过RL训练了提示词扩展器。更多信息，请阅读关于Krea 2背后数据、架构和训练的完整技术报告 👇

Rohan Paul@rohanpaul_ai · 21小时前55

California’s first AI unemployment tracker found a 20% rise among highly educated claimants in exposed jobs. Researchers matched unemployment claims to occupations where LLMs can handle major task shares. The job stress appeared in narrower places, especially college graduates, Bay Area workers, and tech sectors. Bay Area high-exposure claims rose more than 50%, then remained above the statewide pattern. Information and professional services showed the most industry pressure, alongside finance-heavy exposure. AI is not hitting California’s whole labor market evenly, but white-collar risk looks real. Overall, there was no evidence, von Wachter said, of a larger statewide surge in layoffs among workers.

译加州首个AI失业追踪器研究发现，在LLM可承担主要任务份额的暴露岗位中，高学历人群的失业救济申请上升20%。湾区高暴露岗位申请增长超50%，且持续高于全州水平。信息与专业服务及金融行业承受压力最大。但研究者von Wachter指出，全州范围内并未出现大规模裁员潮。白领岗位风险真实存在，但影响集中在大学毕业生、湾区和科技行业，并非均匀分布。

Rohan Paul@rohanpaul_ai · 1天前46

AI’s foundation model race is shifting from who has the biggest model to which architecture can outgrow the transformer. Architecture is becoming the real fault line in AI. Mapping the Foundation Model Landscape: The AI market is usually mapped by who is winning. The more consequential question is which research bet wins. This is a discussion of the foundation model market based on what each lab is building and what architecture it is betting on, rather than who raised the most money or had the loudest launch. Organized around the divide that will define the next 2 years. The 2 real axes are scope and architecture: scope asks whether a lab is building a general model or a domain model, while architecture asks whether it is still scaling transformers or moving into the Post-Transformer camp. The transformer still dominates because it turned attention into a scalable machine for prediction, and that 2017 design remains the backbone of modern foundation models. The pressure now comes from a simple weakness: attention gets expensive as context grows, while real products increasingly demand long memory, low latency, and continuous interaction. That is why the most interesting labs are no longer just asking who can train the largest model. They are asking whether intelligence needs a different operating rhythm. 🧵 1/8

译AI基础模型竞赛焦点从“谁有最大模型”转向“哪种架构能超越Transformer”。核心分界线是继续扩展Transformer还是转入后Transformer阵营。两大维度：范围（通用vs领域模型）和架构（Transformer vs后Transformer）。Transformer仍主导，但注意力机制随上下文增长成本激增，而实际产品需要长记忆、低延迟、持续交互。前沿实验室不再只问谁能训练最大模型，而是追问智能是否需要不同的运行节奏。这场架构之争将在未来2年定义行业格局。

Nathan Lambert@natolambert · 1天前43

I'm doing Q&A videos as I roll through my course. Here's the next one, covering subtle fixes to the on-policy distillation and reward model derivations, common notation traps when doing this math, and more added resources to go deeper (e.g. @johnschulman2's kl estimation blog). Q&A 2 is here! 00:00 Derivation fixes 06:10 Code examples & additional resources 08:08 Extra RL notation and notes Keep sending questions on YouTube, GitHub, and Discord. Phoebe and I are loving them.

译我在课程中陆续制作 Q&A 视频。这是下一期，涵盖 on-policy 蒸馏和奖励模型推导中的细微修正、做这类数学时常见的符号陷阱，以及更多深入资料（例如 @johnschulman2 的 KL 估计博客）。 Q&A 2 来了！ 00:00 推导修正 06:10 代码示例与额外资源 08:08 更多 RL 符号与注释继续在 YouTube、GitHub 和 Discord 上发送问题吧。我和 Phoebe 都很喜欢这些问题。

elvis@omarsar0 · 1天前46

Highly-recommended read. Even with all the research, fine-tuning is such an underexplored problem. Based on what I've seen among the top AI-powered orgs, we are on the cusp of a fine-tuning revolution. Agentic fine-tuning is going to dramatically change things in AI.

译DAIR.AI 创始人 Elvis Saravia 认为微调问题仍未被充分探索，当前正处于微调革命前夜，智能体微调将大幅改变 AI 格局。@rahulgs 进一步指出，微调或 RL 定制模型本质上是对模型进步的押注，在开源发布速度极快的当下，容易导致基座模型迅速过时（如 Kimi 2.6 仅数月就已落后）。为此他们推出 PorTAL，允许快速切换基座模型，将已学到的任务特定行为无缝迁移到新模型上，从而摆脱基座过时的困境。

Ethan Mollick@emollick · 1天前54

The discussion here on AI futures can be a little too credulous of company visions. People tend to push what they have. The three big AI labs will say bigger models are the future. Every other firm has only small models to sell, so they will tell you small models are the future.

译这里关于AI未来的讨论有时过于轻信公司愿景。人们往往推销自己所拥有的。三大AI实验室会说更大的模型是未来。其他所有公司只有小模型可卖，所以他们会告诉你小模型是未来。

Rohan Paul@rohanpaul_ai · 1天前53

This is truly a great use of AI. Ivo Benchmarks is turning a company’s legal contract review history into live guidance for the lawyer reviewing the next deal. AI must make a private judgment call of a senior attorney into a documented pattern. I’ve seen this firsthand: the failure of legal software is that its memory rarely appears when a lawyer actually needs it. A senior attorney may know that the team never accepts a certain indemnity clause, or that shorter renewal windows usually survive negotiation, but that knowledge is fragile because it lives in people, not systems. Ivo Benchmarks tries to make that memory operational by comparing the clause in front of you with the positions your company has actually taken before.

译Ivo Benchmarks 正式发布，利用公司全部合同谈判历史来审查和修订协议。它将资深律师的私人判断（如不接受某赔偿条款、更短的续约窗口通常可行）转化为文档化的机构记忆，通过对比当前条款与公司过往实际立场，在律师审阅时提供实时指导。该工具由 Ivo 团队与全球领先企业合作开发，解决企业拥有数百万份合同却缺乏反馈循环的痛点。

AK@_akhaliq · 1天前49

LiteResearcher A Scalable Agentic RL Training Framework for Deep Research Agent

译LiteResearcher 用于深度研究智能体的可扩展智能体RL训练框架

Deedy@deedydas · 1天前69

"Thinking Machines' Tinker does a few hundred million of ARR" - Dylan Patel, on his latest podcast TML was valued at $12B and trying to raise at $50B. Tinker is an API that helps you post-train LLMs. This is the highest known revenue for any of the now ~75 neolabs.

译“Thinking Machines 的 Tinker 做到了数亿美元的 ARR”——Dylan Patel 在他的最新播客中说道 TML 估值 120 亿美元，正尝试以 500 亿美元估值融资。Tinker 是一个帮助你对大语言模型进行后训练的 API。这是目前约 75 家新实验室中已知的最高营收。

Epoch AI@EpochAIResearch · 1天前28

We recently began tracking 13 new evals on our benchmarking hub. 7 of these have been incorporated into the Epoch Capabilities Index (ECI).

译我们最近开始在评测中枢跟踪13项新基准。其中7项已被纳入Epoch能力指数（ECI）。

向阳乔木@vista8 · 1天前61

http://x.com/i/article/2072169967664140288 # LongCat-2.0 深度技术解读 X 上老外都特别震惊，说中国的“Doordash”用国产芯片训练了一个万亿参数的大模型，哈哈哈。这次美团确实有点厉害，让 AI 辅助阅读解读下所有技术细节。 > https://longcat.chat/blog/longcat-2.0/ 35 万亿 token，大概是全球所有书籍文字总量的几十倍。 5 万片芯片同时工作，意味着你需要让几万台机器像一台机器一样协调运转。而"全程无回滚"，意味着这场马拉松从头跑到尾，没有一次因为出错而被迫退回重来。这就是 LongCat-2.0，2026 年 6 月 30 日正式发布并开源。 ## 先搞懂两个基础概念，后面才能读懂在进入正题之前，有两个概念必须先建立直觉。什么是 MoE（混合专家模型）？普通的神经网络，每次处理一个问题，会动用全部的"神经元"。你问它"今天天气怎么样"，和问它"帮我写一段 Python 代码"，用的是同一套参数，全部激活，全部计算。 MoE 的思路不一样。它内部有很多"专家"，每次来一个问题，只激活其中几个最合适的专家来处理，其余的专家保持沉默。打个比方：一家大医院有内科、外科、神经科、皮肤科……你来看病，不是所有科室的医生都来给你会诊，而是根据你的症状，叫来最相关的两三个科室。这样既节省了资源，又能让每个专家更专注。 LongCat-2.0 的总参数是 1.6 万亿，但每次处理一个 token（可以理解为一个词或一个字），只激活其中约 480 亿参数。也就是说，每次只动用了约 3% 的参数。这个"只用 3%"的特性，在后面会反复出现，它是整个模型设计的核心约束。什么是 token？语言模型不是一个字一个字读文字的，它把文字切成一小块一小块的"token"。中文里大概 1 个 token 对应 1.5 到 2 个汉字，英文里大概 1 个 token 对应 0.75 个单词。 35 万亿 token，换算成中文，大概是 50 到 70 万亿个汉字。好，基础打完了，我们开始拆解 LongCat-2.0 的每一个技术决策。 ## 架构改进一：LSA，让模型读长文不再"喘不过气" 先理解"注意力机制"是什么语言模型在理解一句话的时候，需要判断每个词和其他词之间的关联程度。比如"猫追老鼠，它跑得很快"，模型需要判断"它"指的是"猫"还是"老鼠"。这个判断过程叫"注意力机制"，模型在处理每个词的时候，会"注意"到其他所有词，计算它们之间的相关性。问题来了：如果文章很长，比如有 100 万个 token，那每个 token 都要和其他 99 万 9999 个 token 计算一次相关性。计算量是 token 数量的平方级增长。文章长度翻倍，计算量变成原来的 4 倍。这就是为什么普通模型处理长文本会非常慢，甚至根本处理不了。稀疏注意力：不是每个词都需要关注所有词解决思路是"稀疏注意力"：不需要每个词都关注所有词，只关注真正重要的那些。还是那个比喻：你在读一本 500 页的小说，理解某一段情节，不需要把前面 499 页全部重新过一遍，只需要回忆几个关键情节点就够了。 LongCat-2.0 之前用的是 DeepSeek 稀疏注意力（DSA），它已经做到了这一点。但团队发现，DSA 里有一个"索引器"（可以理解为"负责决定哪些词值得关注"的小模块），成了整个系统的速度瓶颈。原因有两个：第一，它选出来的"重要词"在内存里的位置是散的，读取时需要到处跳，效率低；第二，它的评分计算本身就很贵，是二次方级别的开销。 LongCat 稀疏注意力（LSA）就是专门来解决这个索引器瓶颈的。 LSA 的三个优化，逐个拆解第一个：流感知索引（SI）问题的根源是内存访问碎片化。想象你去图书馆找书，如果要找的书分散在各个书架的随机位置，你就得满图书馆跑。但如果这些书都集中在同一排书架上，你一趟就能全拿完。 SI 做的事情就是：把一部分原本散乱的内存访问，重新组织成连续的顺序读取。硬件在做顺序读取时效率远高于随机跳跃，这叫"合并的 HBM 访问"（HBM 是显卡里的高速内存）。第二个：跨层索引（CLI）这个优化基于一个观察：在神经网络的相邻两层里，"重要的 token"的分布高度相似。打个比方：你在第 10 层楼看到某个人很重要，到第 11 层楼，这个人大概率还是重要的。既然如此，第 11 层就不需要重新做一次"谁重要"的判断，直接复用第 10 层的结果就行。 CLI 让单次索引计算可以被多个连续的注意力层复用，相当于把这笔开销"摊薄"了。为了让模型在训练时就学会"相邻层的重要 token 分布是一致的"，团队在训练阶段引入了"跨层蒸馏"。让相邻层互相学习，保证这个特性在推理时真实成立。第三个：层级化索引（HI）这是一个"先粗筛再精选"的两阶段策略。还是图书馆的比方：你要找关于"量子计算"的书，不会一本一本翻遍所有书，而是先找到"计算机科学"这个大区域（粗筛），再在这个区域里找具体的书（精选）。 HI 先用"block 级近似打分"做粗召回，缩小候选范围，再在候选里做精细的 token 级选择。这样每次检索需要处理的候选空间大幅缩小。 HI 是可插拔的，只在超长上下文任务上按需启用，不影响普通任务。这三个优化设计上互不干扰，可以独立开关，也可以组合使用。投机解码：一个额外的加速技巧文章里还提到 LSA 被扩展到了"投机解码"（Speculative Decoding）。这个概念值得解释一下。语言模型生成文字是一个字一个字输出的，每次输出都要等上一次完成。投机解码的思路是：用一个小模型（Draft 模型）先快速猜测接下来几个词，再用大模型（Target 模型）一次性验证。如果猜对了，就省下了大模型多次生成的时间。 LongCat-2.0 用的是 3-step MTP，即小模型一次猜 3 步。 CLI 在这里的应用更激进：3 个 Draft 步骤共用一次索引结果，Step 2 和 Step 3 完全复用 Step 1 的索引，进一步压缩开销。 ## 架构改进二：N-gram Embedding，用更聪明的方式扩大参数先理解"Embedding"是什么模型在处理文字之前，需要把每个 token 转换成一串数字（向量），这个转换过程叫 Embedding。你可以把它理解为"把词语翻译成模型能理解的坐标"。 "猫"和"狗"的坐标很近，"猫"和"飞机"的坐标很远。模型通过这些坐标来理解词语之间的关系。 N-gram 的思路：不只看单个词，看词的组合 N-gram 的意思是"N 个连续 token 的组合"。 LongCat-2.0 用的是 5-gram，即每次看 5 个连续 token 的组合。为什么要这样做？因为很多语义是由词的组合决定的，而不是单个词。 "人工"和"智能"单独看都是普通词，但"人工智能"作为一个组合，有完全不同的含义。如果模型只看单个词，就需要通过多层计算才能"悟"出这个组合的含义。 N-gram Embedding 直接把常见组合的含义编码进去，相当于给模型提前建好了"词组词典"。这样做的效果是：embedding 空间扩展超过 100 倍，模型对局部上下文的理解能力显著增强。为什么要加 135B 参数的 N-gram Embedding，而不是直接加更多专家？这是整个设计里最有意思的一个决策，值得细说。 LongCat-2.0 的 MoE 稀疏度接近 97%，意思是每次只用 3% 的参数。在这个稀疏度下，如果再加更多专家（比如再加 135B 的专家参数），收益会很小。为什么？因为专家越多，每个专家被调用的频率越低，训练时每个专家获得的"练习机会"越少，学得越不充分。这就像一家有 1000 个医生的医院，每个医生每天只看一两个病人，技术很难精进。但 N-gram Embedding 不一样。它在 MoE 的"稀疏维度"之外，开辟了一个新的维度来扩展参数。这 135B 参数不参与 MoE 的路由竞争，而是直接作用于 token 的表示层，每次处理都会用到。团队同时发现，N-gram Embedding 的占比有一个甜点区间：占总参数的 10% 以内效果最好，超过 50% 优势就消失了。LongCat-2.0 把这个比例控制在 10% 以内。还有一个推理阶段的额外好处：把参数从专家转移到 N-gram Embedding，可以降低大 batch 解码时的显存 I/O 压力，加速解码。原因是 N-gram Embedding 的访问模式更规律，对显存带宽更友好。 ## 国产算力上跑通万亿参数训练，工程上有多难这一部分是整篇发布文章里信息密度最高的，也是最容易被忽视的。显存不够，怎么办国产芯片的单卡显存显著小于 H800 的 80GB。训练 1.6 万亿参数的模型，显存是第一道墙。团队的解法是 6D 并行。"并行"的意思是把模型和数据切开，分散到多张卡上同时计算。常规的并行方式有 5 个维度： - TP（张量并行）：把单个矩阵运算切开，分到多张卡上算 - CP（上下文并行）：把长序列切开，分到多张卡上处理 - EP（专家并行）：把不同的专家放在不同的卡上 - DP（数据并行）：多张卡同时处理不同的数据 - PP（流水线并行）：把模型的不同层放在不同的卡上，像流水线一样运转 LongCat-2.0 在这 5 个维度之外，额外加了第 6 个：EMBP（Embedding 并行），专门处理 135B N-gram Embedding 参数的并行加速。除了并行，还有几个显存优化手段： ZeRO-1：优化器（负责更新参数的模块）的状态数据，往往比模型本身还大。ZeRO-1 把这些状态数据切分到多张卡上，每张卡只存一部分。选择性重计算：正向计算时，有些中间结果可以不存下来，反向传播时重新算一遍。这样牺牲一点计算时间，换来大量显存节省。 OOM 自动卸载：当显存快满了（Out of Memory），自动把部分数据卸载到内存或硬盘，用时再取回来。零计算专家：填充 token（用来凑齐序列长度的无意义 token）被路由到一个"零计算专家"，不做任何实际计算，节省算力。超节点：把几百张卡变成一个高速通信域训练大模型时，卡和卡之间需要频繁通信（传递梯度、同步参数）。通信速度往往是训练速度的瓶颈。 LongCat-2.0 的解法是"超节点"：把最多 48 台机器组成一个超节点，节点内部用高带宽全互联，节点之间走 RoCE 网络（一种高性能网络协议）。这样做的效果是：高带宽通信域从单台机器（通常 8 张卡）扩展到数百张卡。带宽敏感的并行策略（TP/CP/EP）可以在这个大域内运行，不再受限于单机带宽。相比同规模的普通配置，超节点额外带来约 30% 的预训练吞吐提升。超节点同时是"亲和调度"的基本单元。调度时优先把通信密集的任务分配在同一个超节点内，减少跨节点通信，在通信局部性和可调度性之间取得平衡。 Muon 优化器：一个来自学术界的新选择优化器是训练时负责"根据错误信号更新参数"的模块。最常用的是 Adam 系列优化器。 Muon 是一个相对较新的优化器，在某些场景下比 Adam 收敛更快、效果更好。 LongCat-2.0 在国产算力芯片上大规模部署了 Muon，并针对 TP 并行、DP 状态去冗余和高效矩阵乘核函数做了专项优化。这是一个值得关注的信号：Muon 优化器正在从学术实验走向大规模生产部署。确定性：让训练结果可复现这个细节很少被提到，但在工程上极其重要。 "确定性"的意思是：给定相同的输入，每次计算的结果完全一致，不会因为浮点运算的舍入误差或并行计算的顺序差异而产生微小偏差。为什么重要？因为在大规模训练中，微小的数值偏差会随着层数和步数累积，最终导致训练结果不可复现，甚至出现 loss 突刺（损失函数突然异常升高）。团队自研了覆盖 Embedding、FA（Flash Attention）、LSA、MoE 等多个模块的确定性算子。所有规约类算子（比如求和、求均值）都采用二叉树分段累加，减少浮点误差累积。还有一个细节：在部分计算密集型算子上加入了"比特翻转检测"。硬件偶尔会出现单个比特从 0 变成 1 或从 1 变成 0 的错误（宇宙射线、电磁干扰等都可能导致），这种错误会造成数值异常。加入检测后，可以及时发现并处理，不让它悄悄污染训练结果。故障恢复：5 万张卡，总有卡会出问题 5 万张卡同时运行，每天都会有硬件故障。如果每次故障都需要人工介入，训练根本无法持续。团队的解法是端到端监控驱动的自动故障恢复：监控系统持续检测链路状态，发现故障后自动识别、切流、恢复，全程无需人工介入。故障链路的隔离对训练没有可感知的影响。修复后的链路还需通过压测才能重新上线，防止带病工作的硬件再次引发问题。这套机制是"全程无回滚"这个结果的工程保障。 ## 百万上下文推理：在受限硬件上的极限工程训练完成后，还需要把模型部署起来，让用户能实际使用。在显存、带宽都受限的国产芯片上，跑百万上下文的推理是另一道难题。 Prefill 和 Decode：推理的两个阶段理解后面的优化，需要先知道推理分两个阶段： Prefill（预填充）：模型读取你的输入（比如一篇 10 万字的文档），一次性处理所有输入 token，生成初始的 KV-cache（可以理解为"模型对输入的理解摘要"）。这个阶段计算量大，但可以并行处理。 Decode（解码）：模型一个 token 一个字地生成输出，每次生成都要读取之前的 KV-cache。这个阶段是串行的，受限于显存带宽。 LongCat-2.0 采用 Prefill-Decode 分离部署：两个阶段用不同的硬件节点处理，各自针对自己的瓶颈做优化。 KV-cache：长上下文的显存杀手 KV-cache 是长上下文推理的核心挑战。每处理一个 token，模型都需要存储一个 KV（Key-Value）对，供后续 token 参考。 100 万个 token 的上下文，就需要存储 100 万个 KV 对。这个数据量非常大，很容易撑爆显存。 LongCat-2.0 的解法是 KVP（KV-cache 并行）：把 KV-cache 切分到多张卡上，每张卡只存一部分，降低单卡显存压力。 Prefill 节点的优化 Prefill 节点的主要瓶颈是节点间通信带宽。 MoE 模型在处理 token 时，需要把 token 发送给对应的专家（dispatch），再把专家的计算结果收回来（combine）。当专家分布在很多节点上时，这个通信开销很大。解法是 Chunked Pipeline Parallel（CPP）：把长序列切成小块，用流水线方式处理，缩小每次通信涉及的专家并行域（EP 域），减少跨节点通信量。在每个流水线阶段内，再用 Attention Sequence Parallelism（SP）把长序列的注意力计算分散到多张卡上，进一步分担计算压力。 Decode 节点的优化 Decode 节点的主要瓶颈是显存和 KV-cache 的 I/O 带宽。除了 KVP 切分 KV-cache，还用了较大的专家并行度（EP128，即 128 张卡分担专家），压低每张卡上的权重显存和专家 I/O 压力。大 EP 并行度带来一个新问题：专家负载不均。如果某些专家特别受欢迎，对应的卡就会成为瓶颈，其他卡在等待。 EPLB（Expert-Parallel Load Balancing）负责动态均衡专家负载，统计采集和分布计算全部异步化，不阻塞主计算流程。面向国产芯片的两个底层优化 Super Kernel：GPU 上的每个算子（计算操作）在启动时都有固定的开销，就像每次开车都要先发动引擎。如果算子数量很多，启动开销累积起来很可观。 Super Kernel 把多个算子合并成一个大算子，减少总启动次数，降低累积开销。 Weight Prefetch（权重预取）：国产芯片的显存带宽有限，但 L2 缓存（比显存快得多的片上存储）相对较大。 Weight Prefetch 利用这块大 L2 缓存，在前一个算子还在计算时，提前把下一个算子需要的权重数据加载进来。等前一个算子算完，权重已经在缓存里了，不需要再等显存读取。这叫"把 I/O 延迟隐藏在计算之中"。 ## 后训练：三组专家，一套融合架构模型训练完成后，还需要"后训练"来让它真正好用。 LongCat-2.0 的后训练引入了三大专家组，分工明确。 Agent 能力专家组这组专家负责让模型能在真实场景中自主完成任务。重点不只是"能完成任务"，而是优化几个关键的"原子能力"：复杂工具调用的精准度（调用 API 时参数不出错）、多轮交互中的参数解析能力（记住上下文，不重复问同样的问题），以及自我纠错机制（发现自己陷入死循环时能主动跳出来）。这些"原子能力"决定了 Agent 系统的鲁棒性。一个 Agent 能完成 90% 的任务，但剩下 10% 会卡死或出错，在生产环境里是不可接受的。推理能力专家组这组专家负责数学、STEM 复杂问题求解和多跳知识推理。 "多跳知识推理"是指需要串联多个知识点才能得出答案的问题。比如"爱因斯坦出生那年，美国总统是谁？"需要先知道爱因斯坦的出生年份，再查那一年的美国总统，这就是两跳推理。这组专家还实现了"基于问题难度的自适应推理计算"，简单问题快速回答，复杂问题深度思考，不浪费计算资源。交互体验专家组这组专家负责让模型更"好用"：细粒度指令遵循（你说"用列表格式回答"，它就真的用列表）、抑制幻觉（减少一本正经地编造事实）、以及在不牺牲有用性的前提下建立安全边界。最后，用 MOPD 架构在数万卡的国产算力集群上，把三组专家的能力融合进一个模型。这是整个后训练流程的核心工程挑战：怎么让一个模型同时具备 Agent 执行力、深度推理能力和良好的交互体验，而不是顾此失彼。 ## 评测数据怎么看评测数据里有几个基准值得解释一下，不然很难判断数字的含义。 Terminal-Bench 2.1：测试模型在终端环境里完成真实任务的能力，比如写脚本、调试程序、管理文件。这是最接近"程序员日常工作"的评测之一。 LongCat-2.0 得 70.8 分，与 Gemini 3.1 Pro（70.7）基本持平，低于 Claude Opus 4.8（78.9）。 SWE-bench Pro：给模型一个真实的 GitHub 代码仓库和一个 bug 报告，让它自己找到问题并修复。这是目前最接近"真实软件工程"的评测。 LongCat-2.0 得 59.5 分，超过 Gemini 3.1 Pro（54.2）和 GPT-5.5（58.6）。 SWE-bench Multilingual：同上，但涉及多种编程语言。 LongCat-2.0 得 77.3 分，与 Gemini 3.1 Pro（76.9）接近。 FORTE：面向 15 类企业职业的办公 Agent 评测，模拟真实的职场任务，比如整理数据、撰写报告、处理邮件。LongCat-2.0 得 73.2 分，低于 GPT-5.5（77.8）和 Claude Opus 4.7（77.6）。 GPQA-diamond：由博士级专家设计的科学问题，涵盖物理、化学、生物等领域，专门测试模型的深度知识理解能力。 LongCat-2.0 得 88.9 分，低于 Gemini 3.1 Pro（94.3）和 GPT-5.5（93.6）。怎么理解这张表？ LongCat-2.0 的优势集中在代码和搜索：SWE-bench Pro 超过了 Gemini 3.1 Pro 和 GPT-5.5，RWSearch 超过了所有对比模型。这和它在长上下文处理和 Agent 能力上的投入是一致的。在基础科学推理（GPQA-diamond）和指令遵循（IFEval）上，与 Gemini 3.1 Pro 和 GPT-5.5 还有差距。这不是意外，而是取舍的结果：资源有限，优先把长上下文和 Agent 能力做到最好。还需要注意的是，标注 * 的数字来自各家公司自己的公开报告，评测条件未必完全一致，比较时需要保留一定的判断余地。 ## 这件事真正重要的地方读完所有技术细节，有一件事值得单独说清楚。 LongCat-2.0 在技术上的每一个选择，都是在国产芯片的硬件约束下做出的。显存小，所以要做更精细的并行和显存优化。软件生态不成熟，所以要自研大量算子和工具。带宽受限，所以要把计算和通信的重叠做到极致。这不是在已有成熟方案上做微调，而是在一个约束更多的环境里，重新设计了整套训练和推理的工程体系。 5 万片国产芯片、35 万亿 token、全程无回滚，这组数字的含义不只是"模型训练成功了"，而是"这套工程体系在生产环境里被验证可行了"。对于关注国产算力生态的从业者来说，这是一个值得认真对待的数据点。模型已开源，API 接入和在线体验均已开放，有条件的话直接上手测试，比看评测数字更直接。

译美团发布并开源LongCat-2.0，1.6万亿总参数、480亿激活参数（3%）的MoE大模型。使用35万亿token训练，在5万片国产芯片上“全程无回滚”完成。引入LongCat稀疏注意力（LSA），包含流感知索引、跨层索引和层级化索引，解决长文本注意力瓶颈。采用5-gram N-gram Embedding增加135B参数，在不增加MoE专家竞争的情况下增强局部上下文理解。训练使用6D并行技术适配国产算力。计划2026年6月30日发布并开源。

Nathan Lambert@natolambert · 2天前48

Happy to say @zafstojano - an added maintainer who helps me with the RLHF Book code - added a simple on-policy self-distillation example to the codebase, which can work on some toy problems. Excited to dig into this more, happy to see the repo fleshed out!

译很高兴宣布 @zafstojano —— 一位新增的维护者，他帮助我维护 RLHF Book 代码 —— 向代码库添加了一个简单的在线策略自蒸馏示例，可在一些玩具问题上运行。期待进一步探索，很高兴看到仓库不断完善！

OpenAI@OpenAI · 2天前58

We’re introducing GeneBench-Pro, a research-level benchmark for a harder kind of AI progress: how well agents can navigate messy biological data, choose the right analysis path, and make judgment calls that real computational research depends on. https://openai.com/index/introducing-genebench-pro/

译我们正在引入GeneBench-Pro，一个研究级基准测试，用于衡量一种更难的AI进步：智能体在混乱的生物数据中导航、选择正确分析路径、并做出真实计算研究所需的判断决策的能力。

Claude@claudeai · 2天前76

Introducing Claude Science, a new app designed with every stage of research in mind. Artifacts traced to their code, environments managed on demand, and 60+ optional scientific databases that you can connect. Available now in beta.

译推出 Claude Science，一款面向研究每一阶段的全新应用。构件可追溯至其代码，环境按需管理，并可连接 60 多个可选科学数据库。现已开放 beta 版。

Berryxia.AI@berryxia · 2天前58

今晚又把讲解项目视频Skills进行了迭代，动效有优化了一版，比之前好多了。 Bristol（来自LayerProof）想解决一个很实际的问题：传统报告又臭又长，客户根本不想看。它让做报告这件事变得更像“一起设计”而不是“单方面交付”。你扔进数据后，可以通过聊天调整角度、语气和图表内容，还能直接在视觉编辑器里点选修改。最后生成的是一个可交互的HTML报告，每一个数字都可追溯来源，而且支持实时更新。最有意思的是它把“可视化处理”做得很激进，据说比纯文本处理快6万倍。这意味着它更擅长处理带图表、带视觉的数据叙事，而不是单纯的文字总结。对于经常给客户或领导做报告的咨询、分析、运营团队来说，这可能是把“报告”从一次性PDF，变成持续可互动资产的一种尝试。你觉得把报告做成可实时更新 + 每个数据可溯源的交互式网页，会不会比传统的静态报告更有说服力？ PS：仅做项目展示，项目自己可以自行测试哈

译由 LayerProof 推出的 Bristol 项目，旨在用可交互 HTML 报告替代传统静态 PDF。用户可上传数据后通过聊天调整分析角度、语气和图表，支持视觉编辑器点选修改。每个数字可溯源，支持实时更新。其“可视化处理”据称比纯文本处理快 6 万倍，更擅长图表驱动的数据叙事，适合咨询、分析、运营团队制作持续可互动的报告资产。

小互@xiaohu · 2天前46

据说本次 Claude 封杀的全是浙江和杭州的 IP 可能因为上周 Anthropic 指责阿里通过25000多个账号疯狂蒸馏 Claude 的数据，从 4月22日到6月5日，交互次数超过 2880 万次... 去杭州出差千万不要使用 Claude 而且更恶心的是，在给你的封杀邮件里面 Anthropic还安装了邮件追踪器，你一点开邮件，等于是二次确认了你的位置😂 申诉也没用

译Anthropic 封杀所有浙江和杭州 IP 的 Claude 访问，可能与上周指责阿里利用 25000+ 账号大规模蒸馏 Claude 数据有关。从 4 月 22 日到 6 月 5 日，交互次数超过 2880 万次。封杀邮件还内置追踪器，点开即确认用户位置，申诉也无法解封。

Rohan Paul@rohanpaul_ai · 2天前45

🇨🇳 The scale of China’s electricity projects is just on another level. A hillside in rural Guizhou, China covered in solar panels. Thousands of them stretched across mountain ridges to the horizon, transforming bare rock into terawatt-hour electricity.

译推文展示贵州山区绵延至地平线的太阳能板群，将裸露岩体转化为太瓦时量级的电力。引用观点指出，AI规模化发展受制于电力、矿产与磁铁供应链等物理输入，而中国在电力冗余以及数据中心与芯片依赖的关键矿物和磁材供应链上拥有主导优势。这一基础设施差距正成为AI竞争的核心变量。

Emad@EMostaque · 2天前44

China's playboko is really simple. Take intelligence down to the cost of energy Output more power than the USA The giant training cluster focus was a massive distraction

译中国的策略非常简单。将智能成本降至能源成本输出超过美国巨型训练集群的专注是一个巨大的干扰

数字生命卡兹克@Khazix0918 · 2天前73

http://x.com/i/article/2071822941252407296 # 给机器人打工了一天，我们体验上了AI时代最魔幻的工作。我们公司的一个小伙伴，前阵子应聘了一份给机器人打工的工作。也就是给具身智能，做实体的数据采集。非常有意思的是，这个几乎是世界最前沿的科技行业，在这个地方，却有着非常传统的用人方式。故事的起因，是我们小伙伴，之前刷到了推特上的一条很有意思的视频。画面里是印度的一个工厂，流水线上的工人低着头在缝纫，和普通车间没什么区别。但是你仔细看的话，其实每个人头上都戴着一个造型奇怪的设备。就是这种东西。当时我们觉得还挺有意思，于是就去搜了一下。发现这个设备是用于录制工人操作的第一人称视频，而这个视频数据，之后会被拿去训练具身智能，让他们学习人类的操作，从来来训练模型。穿戴这种设备去干活的工人，在这个行业，一般叫做数据采集员。这两年具身智能在全世界范围内爆发式的发展，今年甚至还被叫做具身智能的数据元年，但是大家几乎都知道，具身智能的数据获取，比大模型困难太多了，因为几乎都是现实世界的实体数据。所以，就诞生了这种职位，为具身智能的训练，提供数据。而且这个职位，不止在印度有，国内其实也到处都是。在Boss直聘上一搜，相关岗位一大堆，有兼职也有全职。兼职一般是日结。全职有些会缴纳五险一金甚至六险一金，但是相对的，全职的要求会比兼职高很多，需要采集的任务更难，工作时长可能会更长，稳定性的要求也会更高。而有一些数据采集工作，也可以居家办公。且不只是北京或者一线城市，连我老家安庆那边都有。只不过可能职位写的会更加高大上一点，比如，机器人训练师。而且这些招聘帖，你会看到，是完全没有学历要求，也没有经验要求的。你根本不需要做过这个，甚至不需要知道具身智能是什么，来就能干。非常有意思。这个反差一下子就把我们的好奇心给勾起来了。我们内容组的有个小伙伴，叫达达，今年正好刚毕业，他也来了兴趣，说非常想亲眼去看看这到底是个什么样的工作。我觉得那行啊，那你去体验体验吧，毕竟说完全不需要经验和学历。于是他就真的去投了简历，然后面试，然后真的去做了一天的兼职采集。再见到他的时候，已经是2天以后了。回来以后，跟我们滔滔不绝的讲了好多。他说这个工作比他想象的有意思得多，但也比他想象的离谱得多。最开始呢，他先是在Boss直聘上找了不少相关的职位，投了一圈简历。因为简历确实还可以，几乎所有投过去的都给了面试机会。可能很多人确实没有接触过这个工种，为了保证大多数人的阅读体验，我先简单给大家聊一下数据采集到底是干嘛的。 23年24年大语言模型智能还没有到今天如此离谱的程度的时候，大家应该都对数据标注有印象。那时候训练大模型会相对简单。因为互联网几十年积累下来的文字、图片、代码、网页，本身就是一座现成的数据矿山，所以虽然也招了很多做标注的人，但是坦率的讲，采集和标注的门槛并不是特别高。但是今天，具身智能面对的是完全不同的困境。它需要的是真实物理世界中的交互数据。比如一个人怎么拿起杯子，怎么叠一件衣服，手指施加了多大的力，手臂沿着什么轨迹运动。而这类数据，人类历史上从来没有大规模采集和存储过。一切都要从零开始，靠人一条一条地采集。所以需求量极其恐怖。截至2026年初，全球高质量的真实物理交互数据总量仅约50万小时，不足大语言模型训练数据的两万分之一。而要训练一个能干家务的通用机器人，至少需要千万小时级别的数据。中间差了整整一个数量级。所以就需要大量的人，穿上这套设备，去各种真实的生活场景里重复做那些日常动作。这就是数据采集，其实就是在给机器人当老师。然后这个职位的面试，一般都先是线上的，有的只有一轮，有的会有两轮，然后会是最终的试岗。一轮的话就是跟劳务公司直接面。两轮的话，第一轮是劳务公司，第二轮会由甲方的机器人公司来面。但不管几轮，真正决定你能不能干的，其实都是最后的试岗环节。对达达来说，整个体验下来最让他触动的是这一轮面试。这个面试，很特殊，是在腾讯会议里，大家一起进去。他说他秋招面试过那么多次，也经历过群面，但从没见过20多个人一起来面试的场面。这么多人也不是为了跟互联网群面一样，搞什么无领导小组讨论，就是纯自我介绍。最开始，HR会简单介绍一下这个岗位大概是做什么的，平时的工作时间、薪资等等基本信息。然后开始一个一个按照入场顺序来问个人情况，介绍完的人就可以离开。因为他进会议比较晚，所以听到了几乎每个人的背景。这个环节比较有趣的是，HR会在一开始先问你身高体重。是的，你没看错。面AI公司的岗位，会关注你的身高体重。因为采集设备的手套是固定规格的，类似于这样。手太大会塞不进去，太小又兜不住，太胖不行太瘦也不行。达达当时就被提醒了一句，说这个身高体重可能会有点瘦，设备可能不太适配，但还是先来试试吧。我听到这的时候真的觉得太魔幻了。 2026年最前沿的AI工种，入职第一关，是量手掌。。。然后还会问你之前有没有戴过VR眼镜，有没有在游乐场看过4D/5D影院。因为有些设备需要戴类似VR眼镜的东西，有人天生对晃动比较敏感，戴上去几分钟就开始犯晕，这种情况就基本干不了。自我介绍的环节的时候，每个人说的都非常简洁。甚至有人只说了三句话。我是谁，我之前干过什么，我真的很想来做这个工作。对，就这几句话。。。达达说，他第一次觉得自己之前准备的那套自我介绍会如此的格格不入。为了不那么突兀，他也没详细介绍自己的毕业学校，也没说啥专业，只说自己是应届生，对具身智能感兴趣，想来试试。他对这场面试印象最深，是因为听到了很多人的故事。各行各业的人都有，什么背景的都有。有人之前试过自己做点小生意，没做起来，现在就想找一份能稳定出勤、按时发钱的活。还有人刚满18岁，没读大学了，这是他人生的第一份正经的工作。而且工作是分白班和夜班的，可以自己选择。他以为选择白班的人会更多，没想到兼职的人里面，选夜班的反而更多。因为这是一个兼职岗，纯粹的日结，不少人都在盘算怎么跟自己的主线生活拼在一起，靠着这份兼职，再多挣一些收入。有人问能不能白天干一份交社保的工作，晚上过来兼职。 HR说可以，但是希望大家注意身体，确保自己能扛得住。面试结束之后，除了几个觉得自己身体条件不太合适、主动放弃的，其他人基本都过了。真的是已经很久很久很久没见过通过率这么高的面试了。听到这里，我感觉有点割裂。就是感觉，这个新时代能容纳很多人的一种工作，好像有点熟悉的感觉。我想起高三毕业那年暑假，去面过工厂的兼职，其实就是进厂打螺丝。那种面试跟这个几乎一模一样，看你是个男的，体力还行，没啥毛病，就能来了。也是日结，干一天结一天。那是我人生中第一次知道，原来一个人的一整天，可以被标价成一张红色的毛爷爷。达达也没多犹豫，因为确实想实地去看看，于是他接了这个兼职，说去干一天试试看。 HR就跟他对接了试岗的具体信息，发了一个地址过来。第二天他按照地址过去了，到了一个产业园附近。很抓马的是，地址告诉错了，到了个工地。又绕了半天，才到了正确的位置因为不是从正门进去的，要从停车场绕上去。他跟我说，那一瞬间真的有点慌，心想不会在北京也碰上人贩子了吧，我不会要被卖到缅甸了吧？但他还是鼓起了很大的勇气上去了。不过，进去之前还是给朋友发了条消息，说待会可能联系不上，一直没回消息的话记得担心他一下。不过还好，一切正常，场地还是新装修的，一推门进去还能闻到油漆味。进去的第一件事是收手机，因为工作期间不允许干工作以外的事情。然后他才进入了真正的工作区域，是一个很大的开放空间，摆着大概十几台机器人。因为现场没法拍照，我从网上找了一些类似的画面，大概就是这样的场景。里面有两类工作。一种是有机器人的，也是他当天体验的。需要先穿戴设备，脖子上挂一个东西，两只手各握一个控制手柄，长得跟游戏手柄差不多，上面有摇杆，还有按钮，面前站着的，是一台比他还高的双臂机器人。操控方式其实不复杂，左手手柄控制机器人的左臂，右手控制右臂。摇杆推哪个方向，那条机械臂就往哪个方向动。按钮控制末端夹爪的开合，按一下合上，再按一下松开。刚开始做的时候其实挺好玩的，有点像玩游戏。第一次操控的时候，推了一下摇杆，面前这台非常大的机器人跟着你动。那一瞬间确实有点上头，觉得，卧槽，未来到了。但做到后面，未来感就没了，剩下的只有手腕酸。他的任务也是分拣积木、叠纸杯、把东西从盒子里拿出来再放回去。在这个场景下，你的每一个动作都在被记录，要走什么路径、夹爪合上的时机、这些全部变成数据。在操控的时候，机器人也会有很轻微的抖动，抖起来的样子很像得了帕金森。。。他体验的这种，在行业里叫遥操作采集，就是人穿上设备远程操控机器人，同时记录数据。还有一种是旁边没有机器人的，他们会戴着VR眼镜，手上穿着采集设备，然后就开始叠衣服、叠裤子。达达说他在做遥操作的时候，余光一直能看到旁边那些人。一个动作，重复一遍，再重复一遍，再重复一遍，像被按下了循环播放键。这个叫做无机器人示教采集，不需要操控机器人，人直接在真实环境里做动作，穿戴的设备负责把你的每一个动作轨迹记录下来。这两种方法不一样，但核心逻辑是一样的。都是需要大量的人，去做大量重复的动作，然后把人类的行为和经验翻译成机器能读懂的数据。采集员具体在哪干活，取决于采的是哪种数据，遥操采集一般在固定的场地里，无机器人示教采集因为不需要机器人跟着，有些公司会要求去不同的场景，比如小区、民宿、超市、4S店，哪里需要就去哪里。之前就看到网上有人去麦当劳采集的。客户需要什么场景的数据，团队就去什么地方，一个场景大概待两三个月，采完了就换下一个。在一天的高强度且几乎没有休息和摸鱼时间的工作之后，达达终于可以下班了。他兼职的工作时间是这样的，从早上9点一直做到了晚上的6点半。那赚到的钱呢，日薪大概在200到250之间。我去翻了一下各个平台上兼职数据采集的薪资，大部分岗位给的也都是这个价。如果是全职的话，工作强度会大很多，需要轮班，加班也是常态，不过补贴会多一些。其实我们能看到，整个具身智能、整个AI背后的每一次进步，更多的是来自于这些人。他们用自己的体力、自己的时间、自己的心血，贡献出自己的数据，推动了这个行业往前走了一步。 AI大模型其实也是一样。大模型之所以走到今天这一步，除了算法上的突破，真正最底层的数据清洗和数据标注，全部也是最开始由人一条一条做出来的。最先进的技术，底下永远站着最普通的人。但是AI在吃掉了这些进步之后。绝大多数的能工智人，却已经比不上人工智能了。最后，我们挥着手。送着AI们，一往无前。也不知道等到有一天，机器人真的什么都会了。会不会有人记得。它的第一课，是一个日薪两百块的能工智人，在刚装修完的厂房里，一遍一遍叠着纸杯，教会它的。

译全球高质量真实物理交互数据截至2026年初仅约50万小时，不足大语言模型训练数据的两万分之一，而训练通用机器人需千万小时级别，因此大量人工采集成为必需。该岗位无学历经验要求，面试先问身高体重（因手套固定规格），通过率极高。试岗需穿戴设备进行遥操作或示教采集，重复叠衣服、分拣积木等简单动作。兼职日结，吸引各行各业的人。作者小伙伴达达亲身体验，感叹其魔幻与现实。

Yuchen Jin@Yuchenj_UW · 2天前66

Meituan, basically China’s DoorDash, trained a 1.6T parameter LLM on 50K Chinese chips. It reminds me of Jensen Huang’s point on the Dwarkesh podcast: export controls on Nvidia GPUs won’t stop China. They’ll just accelerate the development of AI that runs on Chinese chips.

译美团，基本上就是中国版DoorDash，在5万块国产芯片上训练了一个1.6T参数的大语言模型。这让我想起了黄仁勋在Dwarkesh播客上的观点：对英伟达GPU的出口管制不会阻止中国。它们只会加速运行在国产芯片上的AI的发展。

PromptArmor@PromptArmor · 2天前51

Labcorp can now sell Personal Data for training of AI?? This is wild:

译Labcorp 现在可以出售个人数据用于 AI 训练？这太疯狂了：

Emad@EMostaque · 3天前79

Most popular model on @OpenRouter (10tr tokens) turns out to be a 1.6tr MoE by @Meituan_LongCat (superapp/DoorDash of China) Basically Gemini / Opus 4.6 level 35tr tokens trained entirely on 50k Chinese ASICs No GPUs needed https://longcat.chat/blog/longcat-2.0/

译美团LongCat的1.6万亿参数MoE模型Owl Alpha成为OpenRouter上最流行模型，累计消耗10万亿tokens，性能达Gemini/Opus 4.6级别。该模型使用35万亿tokens训练，完全在5万块国产ASIC上完成。据官方推文，Owl Alpha上线后每日调用量全球Top3，在Hermes Agent排名#1，Claude Code排名#2，OpenClaw排名#3。该模型即将退役，后续版本待公布。

SemiAnalysis@SemiAnalysis_ · 3天前77

INTERESTING: Only 3 months after Rubin Ultra was announced at GTC 2026, the original 4-die Rubin Ultra has been cancelled due to manufacturing execution concerns. The new “Rubin Ultra” is half the size/~ half the real-world performance of the original Rubin Ultra. 1/4🧵

译有意思：在GTC 2026宣布Rubin Ultra仅3个月后，原4-die Rubin Ultra因制造执行问题被取消。新的“Rubin Ultra”尺寸减半，实际性能约为原版的一半。1/4🧵

Artificial Analysis@ArtificialAnlys · 3天前30

Join us tonight in San Francisco for our Intelligence Index event, featuring speakers from Artificial Analysis, Google, NVIDIA, and MiniMax. We’re covering AI model evaluation, frontier performance, and our latest benchmarks: the Artificial Analysis Intelligence Index v4.1 and AA-Briefcase. Limited spots remaining: https://luma.com/qdl9mr2e

译今晚加入我们在旧金山的Intelligence Index活动，演讲嘉宾来自Artificial Analysis、Google、NVIDIA和MiniMax。我们将探讨AI模型评估、前沿性能，以及我们最新的基准测试：Artificial Analysis Intelligence Index v4.1和AA-Briefcase。剩余名额有限：https://luma.com/qdl9mr2e

Rohan Paul@rohanpaul_ai · 3天前39

"If we could snap our fingers and get a pile of data... we would solve general robotics right now." - Figure CEO Brett Adcock The big bottleneck in Physical AI / robotics is not better models, but better robotics data infrastructure. That is the gap @cyberorigin_ai is building around with CyberCode. Robotic data is insanely expensive and brutal to collect. Real-world manipulation data is messy. A robot policy does not learn from "clips" the way a human watches a demo. It needs training data that can be searched by task, scene, action, device, collector, quality result, and data ID. It needs every useful frame traceable back to where it came from. It also needs different signals aligned on the same timeline, because a model can learn the wrong thing if vision, motion, language, robot state, and other sensor streams are slightly out of sync. CyberCode turns real human manipulation data into an operating layer where the data is searchable, inspectable, traceable, synchronized, quality-checked, and evaluation-ready before it reaches the model. That sounds less flashy than a humanoid demo, but it is closer to where a lot of the real bottleneck sits. For manipulation policies, world models, and vision-language-action models, better data infrastructure can matter as much as better model architecture, because the model can only learn from the structure, coverage, timing, and quality the data system actually exposes. 🧵 1.

译Figure 公司 CEO Brett Adcock 表示，若能获得大量数据，就能解决通用机器人问题。他认为物理 AI / 机器人领域的真正瓶颈不是更好的模型，而是更好的机器人数据基础设施。CyberOrigin 推出的 CyberCode 正是为解决该问题构建：将真实的人类操作数据转化为可搜索、可检查、可追溯、多模态信号精准同步、质量检查、评估就绪的运营层。机器人策略、世界模型和视觉-语言-动作模型只能从数据系统暴露的结构、覆盖范围、时序和质量中学习，因此更好的数据基础设施与更好的模型架构同等重要。

Rohan Paul@rohanpaul_ai · 3天前53

The Information: Meta has reportedly limited engineer use of Claude Code and Codex because rival model outputs could contaminate Meta’s own AI training data and create contractual trouble with Anthropic and OpenAI. Distillation risk starts when a new model of Meta learns from another model’s outputs (from OpenAI or Anthropic), so even accidental reuse of Claude or Codex answers could look like Meta extracted capability from competitors rather than built it alone. OpenAI’s terms bar using output to develop competing models, and Anthropic says its terms do not allow Claude outputs to train models competitive with Anthropic’s own systems. Both OpenAI’s and Anthropic's terms bar using output to develop competing models. IMO, the safest strategy could be ingredient tracking: use rival tools for ordinary productivity only when outputs are barred from model-training pipelines, evaluation sets, benchmark generation, post-training data, reward-model data, and internal datasets that later feed model development. Of course a strong lawsuit usually needs much more ugly facts like: mass scraping, fake accounts, rate-limit evasion, automated extraction, direct use of outputs as training labels, or internal records showing the buyer knew it was cloning a rival system. In this situation, som of the typical safeguards are clean-room rules, approved enterprise accounts, no consumer accounts for sensitive work, training-data provenance logs, dataset quarantine, prompt and output retention, automated scanners for “AI-generated by vendor X” material, and access controls separating coding-agent work from model-training data.

译The Information报道，Meta已限制工程师使用Anthropic的Claude Code和OpenAI的Codex，原因是为防止竞争对手模型输出污染Meta自身AI训练数据，并引发合同纠纷。OpenAI和Anthropic的服务条款均禁止使用其输出来开发竞争模型。知识蒸馏风险在于即使意外复用竞品输出也可能被视为从竞争对手提取能力。建议的策略包括成分追踪：仅在不用于模型训练管线、评测集、基准生成、后训练数据、奖励模型数据及内部数据集时才使用竞品工具。典型防护措施有隔离规则、企业账户审批、训练数据溯源日志、数据集隔离及自动扫描“AI生成”标记等。

jason@jxnlco · 3天前6

throw back to when i was doing workships for how to use rstudio, jupyter notebooks, and training vaes.... long time coming

译回想到当时我在做关于如何使用 RStudio、Jupyter Notebooks 和训练 VAE 的工作坊.... 已经很久了。

Chubby♨️@kimmonismus · 3天前50

Meta is now facing the exact problem every AI company will soon face. It wants to replace expensive external coding tools like Claude Code and Codex with its own internal system, MetaCode. But to build a better coding model, Meta has to make sure it is not accidentally training or evaluating on outputs from rival models. That is the distillation trap: The more companies rely on frontier models to build internal AI infrastructure, the harder it becomes to prove where the intelligence actually came from.

译Meta 正面临每个 AI 公司都会遇到的难题：想用内部系统 MetaCode 取代 Claude Code、Codex 等昂贵的外部编码工具，但在构建更好的编码模型时，必须确保不意外地使用竞争对手模型的输出进行训练或评估。这就是知识蒸馏陷阱——公司越依赖前沿模型建设内部 AI 基础设施，就越难证明智能来源的独立性。

宝玉@dotey · 3天前56

Ford 重新雇了 350 名老工程师回来，因为 AI 质检系统没能达到预期。过去三年，福特悄悄招回了 350 名资深工程师，有的是退休或离职的老员工，有的是从供应商那边挖来的。公司内部管他们叫 gray beard，直译是白胡子，意思就是经验老到的老师傅。他们回来干两件事：带新人，以及重新调教那些没干好活的 AI 工具。负责整车硬件工程的副总裁 Charles Poon 说： > 我们错误地以为，只要把 AI 引进来，把设计要求输入 AI，它就能产出高质量的产品。首席运营官 Kumar Galhotra 对 Bloomberg 的说法类似。福特这些年越来越依赖自动化质检系统，结果一直不理想；把技术专家请回来后，他们在零件还没上产线之前，就先把故障点揪出来。效果立竿见影。福特时隔 16 年重新拿下 JD Power 新车质量榜主流品牌第一，从去年的第 10 名一口气冲到榜首，是所有品牌里年度进步最大的一个，把丰田和本田都甩在了后面。这个榜单(Initial Quality Study)测的是新车买来头 90 天内车主遇到多少问题，问题越少排名越高。 F-150 皮卡、Super Duty 卡车和 Mustang 跑车在各自品类都拿了第一。CEO Jim Farley 说，质保和召回成本跟着下来了，福特预计今年因此能省下大约 10 亿美元。 Ford 没打算丢掉 AI。它还在扩充 AI 测试，新增了大约 10 万项评估来模拟更多路况。 AI 是个好工具,但它有多好,取决于你拿什么数据去训练它。老师傅回来，主要是给 AI 当老师，告诉它什么样的零件算合格、什么样的设计会埋雷。现在主流叙事都是“AI 要取代白领”，福特这个案例倒是反例，类似的案例还有一些：瑞典金融科技公司 Klarna 几年前高调宣布，AI 客服干了相当于 700 名人工客服的活，到 2025 年，CEO 公开承认这套全 AI 客服质量更差，又开始招人。麦当劳在美国上百家门店试过 AI 点餐，出了一堆翻车视频后撤掉，把人工收银员请了回来。咨询公司 Gartner 早就预测，到 2027 年，因为 AI 裁掉客服的公司里，有一半会需要重新招人。

译福特过去三年召回350名退休/离职资深工程师（gray beard），负责带新人并重新调教未达预期的AI质检系统。整车工程副总裁Charles Poon承认曾错误认为引入AI就能产出高质量产品。效果立竿见影：福特时隔16年重返JD Power新车质量榜主流品牌第一（从第10升至第1），F-150、Super Duty、Mustang分别拿下品类冠军，预计今年节省约10亿美元质保和召回成本。福特未抛弃AI，正新增约10万项评估模拟更多路况。

Rohan Paul@rohanpaul_ai · 3天前56

New paper from Cambridge Univ+NVIDIA and other top labs teaches AI agents and AI judges to improve together, so neither side gets stuck. Moves self-improving AI away from fixed benchmarks and toward a loop where the thing doing the judging can also get better. The problem is that most self-improving agents train against a fixed benchmark or fixed evaluator, so the score can become stale, too easy, or easy to game. The paper’s idea is to let the evaluator improve too, but only at safe handoff points, so each training stretch still has a stable judge. During each stretch, agents are tested by the current frozen evaluator, while possible better evaluators are tested separately against held-out human or objective answers. The authors try this on coding, paper writing, paper reviewing, proof writing, and proof grading, where some tasks have clear answers and others need learned judgment. On coding, the system beats the earlier best self-improving coding agent while using 1.35× to 1.72× fewer tokens, because a cheap code reviewer adds useful feedback. On paper writing, the co-evolved writer gets about 1.86X higher average acceptance from a reviewer panel than the fixed-evaluator baseline. The big point is that stronger AI systems may need stronger judges growing with them, because fixed tests can stop giving useful pressure. ---- Link – arxiv. org/abs/2606.26294 Title: "The Red Queen Gödel Machine: Co-Evolving Agents and Their Evaluators"

译剑桥大学、NVIDIA等机构发表新论文《The Red Queen Gödel Machine》，提出让AI智能体与评估者协同进化，避免固定基准导致的分数停滞或易被利用。每轮训练中，评估者冻结，同时用留出的人类/客观答案单独训练更强评估者，在安全交接点更新。在编程任务上，系统以1.35×-1.72×更少token超越此前最佳自改进编程智能体；论文写作中，协同进化的写作者获得审稿小组约1.86倍的平均接收率提升。论文强调更强AI需要更强的评估者与之共同成长。

Rohan Paul@rohanpaul_ai · 3天前57

OpenAI, Anthropic, and xAI together used only about 21% of global operational AI compute at the end of 2025, while the world had roughly 16 million deployed H100-equivalents and 20 million sold H100-equivalents. Data from EpochAI epoch .ai/gradient-updates/frontier-labs-dont-use-most-ai-compute

译OpenAI、Anthropic 和 xAI 三家公司在 2025 年底合计仅使用了全球约 21% 的运营 AI 算力，而当时全球部署的 H100 等效约 1600 万个，已销售的 H100 等效约 2000 万个。数据来自 EpochAI epoch .ai/gradient-updates/frontier-labs-dont-use-most-ai-compute

Yuchen Jin@Yuchenj_UW · 4天前40

GLM-5.2 is the open-source Claude moment. The demand we’re seeing at Databricks is astonishing. The world is going to see massive adoption of oss LLMs. Also, more companies will shift toward post-training their own models on top of oss models and owning the weights.

译GLM-5.2 是开源的 Claude 时刻。我们在 Databricks 看到的（模型）需求令人震惊。全世界将大规模采用开源大语言模型。此外，更多公司会转向在开源模型之上后训练自己的模型并拥有权重。

Rohan Paul@rohanpaul_ai · 4天前53

A crazy blog. Chinese developers are buying Claude access through gray-market API transfer stations that can sell tokens at 5% to 10% of official prices while hiding the real user from Anthropic. A transfer station is a middle server that takes a user’s prompt, sends it to Claude through overseas accounts, returns the answer, and collects payment through WeChat or Alipay. The transfer station collects many Claude accounts through free credits, discounted accounts, shared subscriptions, overseas payment workarounds, fake verification, or sometimes stolen-card accounts. It connects all those accounts behind one proxy, so Chinese users do not talk to Anthropic directly and only pay the proxy in RMB. The cheap price comes from account farming, free-credit abuse, resale of unused quota, subscription splitting, possible stolen cards, and a darker trade where user prompts and outputs become training data. So the price hugely cheap not because Anthropic is giving a discount; it is cheap because the transfer station lowers its own cost and creates extra hidden revenue. The user thinks they are buying cheap inference, but the proxy may swap Opus for weaker models, inflate token use, or store private code, tool calls, reasoning traces, and business data. The proxy may store user prompts, code, outputs, and tool traces, then sell or reuse that data for model training. This breaks a core assumption behind KYC, account bans, and abuse monitoring: the AI company sees the proxy, not the real person, so banning one account leaves the upstream supply chain alive.

译中国开发者通过灰色市场API中转站以官方价格5%-10%购买Claude token。中转站利用免费额度、折扣账户、共享订阅、海外支付绕过、虚假验证及盗刷信用卡汇集多个账户，通过微信/支付宝收款。低价源于账户农场、免费额度滥用、未使用配额转售、订阅拆分及可能盗刷信用卡，并可能将用户提示词和输出用作训练数据创收。风险包括：中转站可能替换为更弱模型、虚报token用量、存储用户私有数据并出售或用于模型训练。这破坏了KYC、账户封禁和滥用监控的有效性——Anthropic只能封禁中转站，无法触及真实用户。

小互@xiaohu · 4天前64

马斯克说他们的Grok 4.5，基于他们的的 1.5T V9 基础模型并在补充训练中加入了 Cursor 数据现已在 SpaceX 和 Tesla 进入早前测试阶段早期评估显示性能接近 Opus，甚至可能已超过Opus

译马斯克宣布Grok 4.5基于1.5T V9基础模型，并在补充训练中加入Cursor数据，现已于SpaceX和Tesla进入私人测试。早期评估显示其性能接近甚至可能超过Opus。RL持续显著优化模型，Grok Build工具每日改进。此外，SpaceX今年将每月发布完全从零训练的新模型。

meng shao@shao__meng · 4天前45

LoanLens 是一套基于 LandingAI 的 AI 审贷初筛系统：从六类借款人文档中抽取结构化字段、做欺诈检测与可解释评分，并附带仅限当前案件的 RAG 问答，把人工核对文档的工作自动化为第一遍机器审查。处理流水线 6 类文档 → ADE 结构化抽取 → KPI → 欺诈检测 → 评分决策 → 案件 RAG 为何不用普通 OCR 审贷要的是可接入业务逻辑的结构化证据，不是文本块： · Schema 驱动：按字段契约抽取，不是猜模板 · 可追溯：字段能回溯源文档 · 视觉层：AOD 补文本抓不到的布局/篡改信号欺诈与评分 · 姓名一致性：六类文档姓名 TF-IDF 比对，相似度 < 0.95 告警 · 护照篡改：核心组件相对位置 vs 参考几何；严重视觉欺诈可直接否决评分刻意简单透明（信用 23%、DTI 23%、收入时效 20% 等；≥60 批准，40–59 复核，<40 拒绝），审核员可 inspect 各信号贡献，无黑盒总分。

译LoanLens从六类借款人文档抽取结构化字段，进行欺诈检测与可解释评分，并附带案件RAG问答。采用Schema驱动抽取，可追溯字段来源；欺诈检测包括姓名TF-IDF比对和护照篡改检测；评分透明（信用23%、DTI 23%等），≥60批准，40–59复核，<40拒绝。

Chubby♨️@kimmonismus · 4天前65

I hope Elon is referring to opus 4.8. would be a welcome release if grok 4.5 outperforms opus 4.8 on key benchmarks

译Grok 4.5 基于 1.5T V9 基础模型，补充训练加入 Cursor 数据，已在 SpaceX 和 Tesla 进行内测。早期评测显示性能接近甚至可能超过 Opus。RL 持续显著改进模型，Grok Build 工具链每日提升。Elon Musk 宣布今年 SpaceX 将每月发布完全从头训练的新模型。

Elon Musk@elonmusk · 4天前70

Grok 4.5, based on our 1.5T V9 foundation model, with Cursor data added in supplemental training, is now in private beta at SpaceX & Tesla. Early evals show performance close to, perhaps exceeding Opus. RL is continuing to significantly improve the model, and the Grok Build harness gets better every day. Nice work by all those involved! Completely trained from scratch new models will be released by @SpaceX every month this year.

译Grok 4.5，基于我们的1.5T V9基础模型，并在补充训练中加入Cursor数据，现已在SpaceX和Tesla进入私测。初步评估显示其性能接近，或许超越Opus。强化学习仍在持续显著改进模型，Grok Build工具链也在日益完善。所有参与者的出色工作！今年，@SpaceX 将每月发布完全从头训练的新模型。

AK@_akhaliq · 4天前37

VISReg Variance-Invariance-Sketching Regularization for JEPA training

译VISReg 用于JEPA训练的方差-不变性-草图正则化

SemiAnalysis@SemiAnalysis_ · 5天前64

One of the more uncomfortable observations in our AI Value Capture piece is internal: our token spend at SemiAnalysis now runs at roughly 30% of employee compensation, with employees pulling just under 5 billion tokens per month on average, over 5x more than Meta, and our top contributors clearing 100 billion. We wrote about it openly because every research firm, hedge fund, and law firm we know is heading toward a similar number, just on a delay. (1/4)🧵

译我们在《AI价值捕获》一文中一个令人不安的内部观察是：SemiAnalysis 现在的 token 支出约占员工薪酬的 30%，员工平均每月使用近 50 亿 token，是 Meta 的 5 倍以上，而我们的顶级贡献者已超过 1000 亿。我们公开写下这一点，是因为我们认识的每一家研究公司、对冲基金和律所，都在朝着类似的数字迈进，只是时间上有所延迟。(1/4)🧵

Rohan Paul@rohanpaul_ai · 5天前50

LLMs can learn better coding behavior from problems with no known answers. Many real problems do not have a gold solution waiting in a database, especially in optimization, where the best answer may be unknown, expensive, or impossible to certify. Normal reinforcement learning works well when it can check a clear right answer, but that breaks down when the best answer is unknown. The paper’s method, called RiVER, lets the model write several programs, runs them on the same hidden tests, and rewards the programs that perform better than the others. The key trick is that RiVER does not trust raw scores directly, because some test cases naturally produce much bigger numbers and can distort training. Instead, it ranks programs within each test case, gives extra weight to the best one, and still gives smaller graded feedback to other valid programs. The authors trained models on 12 AtCoder Heuristic Contest tasks, and RiVER improved both score-based contest performance and normal pass-or-fail coding benchmarks. ---- Link – arxiv. org/abs/2606.27369 Title: "Reinforcement Learning without Ground-Truth Solutions can Improve LLMs"

译论文提出RiVER方法，让LLM从没有已知标准答案的问题中学习编码行为。RiVER使模型编写多个程序，在相同隐藏测试上运行，奖励表现较优者。关键是对每个测试用例内的程序排序，给最优者额外权重，其他有效程序也获得较小分级反馈，避免因原始分数数值差异扭曲训练。在12个AtCoder Heuristic Contest任务上，RiVER同时提升了基于分数的竞赛表现和常规通过/失败编码基准测试。arXiv:2606.27369。