Palantir says some US government customers are moving sensitive AI work to Nvidia Nemotron open models. Nvidia says Nemotron can run in air-gapped environments, away from unsecured external networks. That setup matters for defense work, where data leaks can damage missions immediately. Karp framed Nemotron as equal or better for classified battlefield-style tasks, according to the report. The deeper change is that model quality is no longer the whole purchase decision. Agencies now weigh speed, price, sovereignty, audit trails, and operational control together. American open models give Washington a third path between closed labs and foreign stacks. --- breakingthenews. net/Article/Palantir-CEO:-Some-US-gov't-clients-using-open-source-AI/66625598

译Palantir CEO透露，部分美国政府客户正在将敏感AI工作迁移至Nvidia的Nemotron开源模型。Nemotron可在气隙环境运行，隔离于不安全的外部网络，适合对数据泄露敏感的国防任务。Karp称Nemotron在机密战场级任务上表现相当或更优。更深层变化在于，模型质量不再是唯一购买决策因素，机构现在综合权衡速度、价格、主权、审计追踪和运营控制。美国开源模型为华盛顿提供了介于闭源实验室和海外技术栈之间的第三条路径。

AYi@AYi_AInotes · 6小时前60

卧槽，Firefox 竟然内置免费 VPN 了，每月白给 50G 流量。不是第三方插件也不是付费会员权益，是 Mozilla 官方刚推的原生 IP 保护功能，直接嵌在浏览器底层。开启方法一共四步，照着改就能用 1️⃣地址栏输入 about:config 进入高级设置 2️⃣选择显示全部高级首选项散搜索 browser.ipProtection.enabled 4️⃣将对应的值切换为 true 本质上就是把隐私保护能力做进了浏览器本身，不用额外装扩展，也不用记额外账号，对日常轻量使用场景来说完全够用啦～

译Firefox 推出官方原生 IP 保护功能，内置免费 VPN，每月赠送 50G 流量。开启方法：地址栏输入 about:config → 显示全部首选项 → 搜索 browser.ipProtection.enabled → 切换为 true。Claude Fable 5 回归上线，ZenMux 上限时免费使用。Fable 5 可输出高质量人像提示词，通过拆解塑料感根源、8 维度框架及自我检查环节，系统性避免塑料皮肤、畸形手等问题。ZenMux 提供无 RPM 限制、同屏 PK 功能，支持 Fable5、GPT-5.5、Opus4.8 等多模型对比，自动充值每笔返 20% 余额。

elvis@omarsar0 · 8小时前61

AI sovereignty isn’t optional. Don’t give away your alpha so easily. Protect it as much as you can. Open source models are critical and should be an important part of any individual’s, organisation’s, or country’s AI strategy.

译DAIR.AI创始人Elvis Saravia指出，AI主权并非可选项，开源模型应成为个人、组织与国家AI战略的核心。他引用Palantir CEO Alex Karp观点：技术客户真正需要的是对计算、模型、数据栈及自身“alpha”（核心优势）的完全控制，即拥有生产资料而非转移给他人。Karp质疑：若模型如此有价值，前沿实验室为何只按token收费而不采取利润分成？这引出数据所有权、提示词安全等关键问题。

Rohan Paul@rohanpaul_ai · 19小时前64

Godot is banning vibe coding after AI-made PRs turned review time into the bottleneck. Substantial AI-generated code will also be barred, while small aids like completion remain allowed. It's an open-source game engine, so outside contributors constantly send proposed code changes. Every PR still needs a maintainer who understands the engine deeply enough to spot risk. AI changed the cost balance because generating code got cheaper, but reviewing code stayed expensive. Reviewer capacity was already too thin, and AI-made submissions made it harder. Contributors must disclose any AI help used while writing code for a PR. Godot is also banning AI-generated text in PR discussions, issues, and proposals. imo, enforcement will be impractical, they probably will never know with certainty what was vibe coded and what was not, and that is the whole weakness of the rule. --- godotengine .org/article/contribution-policy-2026/

译Godot 开源游戏引擎发布新贡献政策，禁止“vibe coding”（AI 生成大量代码），因 AI 生成的 PR 使审阅时间成为瓶颈。大量 AI 生成代码将被禁止，仅允许代码补全等小型辅助工具。贡献者需披露是否使用 AI 辅助编写代码，同时禁止在 PR 讨论、议题、提案中使用 AI 生成文本。推文作者认为该规则执行不切实际，难以区分哪些代码是 AI 生成的。

Rohan Paul@rohanpaul_ai · 1天前62

UBS says about 60% of big companies are slowing AI spending. CFOs and CTOs are very focused on rising bills, while ROI still looks uneven. So executives are adding guardrails, cutting tools, and forcing tighter usage rules. i.e. enterprise AI is leaving its trial phase and becoming an engineering budget problem. The new discipline is about routing tasks to cheaper models without hurting output quality. That shift could pressure OpenAI and Anthropic first, because usage-based revenue depends on volume. Open-source and Chinese models could gain share when tasks need cost control over peak reasoning. Last week JP Morgan research published a report saying, Chinese AI models are up to 50 times cheaper than their American counterparts on a per-token basis. The report said Chinese firms accounted for over 45% of all traffic on the AI aggregation platform OpenRouter by April 2026, up from under 2%in late 2024. Google is already pushing Gemini 3.5 Flash as a faster, efficiency-focused model. Anthropic’s Claude Sonnet 5 also arrives as buyers ask for capable, cheaper autonomy. --- businessinsider .com/ubs-enterprises-ai-spending-tokens-2026-7

译UBS报告称约60%大公司正放缓AI支出，CFO和CTO聚焦账单上升与ROI不均，企业AI进入预算管控，任务被路由至更便宜模型。该趋势压力先给OpenAI和Anthropic。JP Morgan研究显示中国AI模型每token成本比美国低最多50倍，中国公司在OpenRouter平台流量从不足2%（2024年底）升至超45%（2026年4月）。arXiv研究证实美国芯片出口管制加速了中国开源AI生态发展。Google和Anthropic分别推出注重效率的Gemini 3.5 Flash和Claude Sonnet 5。

Berryxia.AI@berryxia · 1天前63

Wow ,这个项目还是有点东西啊！真正不离开你电脑的AI 工作台，真的可以试试~ 目前6k GitHub Stars，15.5万次下载，MIT开源！来自Osaurus @OsaurusAI App做了一个挺有意思的设计。它不是浏览器套壳调用云端，直接是真正用Swift在本地跑图像生成。用户要生成图片时，它会自动把当前聊天模型卸载，加载本地图像模型（支持任意MLX模型），在GPU上生成，保存真实文件后再切回聊天模型。整个过程完全本地、无需联网，而且切换很丝滑。作者强调“Most Mac AI apps are a browser calling the cloud”，而Osaurus想做的是真正的本地原生体验。目前免费开源，适合想在Mac上本地跑多模型切换的用户。地址见评论区👇🏻，我做了个视频介绍可以看看！记得一键三连啊！

译Osaurus AI App 推出 Mac 原生 AI 工作台，不是浏览器套壳，而是用 Swift 在本地运行图像生成。用户生成图片时自动卸载当前聊天模型，加载本地图像模型（支持任意 MLX 模型），在 GPU 上生成并保存真实文件后再切回聊天模型，全程无需联网。目前 6k GitHub Stars、15.5 万次下载，MIT 开源，适合在 Mac 上本地跑多模型切换。

Thariq@trq212 · 1天前18

@_catwu @simonw and I will be doing a fireside chat about "This year in Claude" from 12:30pm-1:30pm at AIE in Expo Stage 2. We'll be covering a really wide range of topics and I think it will be really fun, hope to see you there! https://www.ai.engineer/worldsfair/schedule?day=3&session=asn_slot_2026_06_30_main_stage_1230_2026_06_08t09_35_43_039z

译@_catwu @simonw 和我将在 AIE 的 Expo Stage 2 举办一场关于“今年 Claude 回顾”的炉边谈话，时间从下午 12:30 到 1:30。我们将涵盖非常广泛的话题，我认为这会非常有趣，希望在那里见到你！ https://www.ai.engineer/worldsfair/schedule?day=3&session=asn_slot_2026_06_30_main_stage_1230_2026_06_08t09_35_43_039z

Berryxia.AI@berryxia · 1天前57

😄 等等我~~ ModelScope上开源了一个叫Boogu-Image-0.1-Edit-Turbo的模型。它是一个4步蒸馏的image-to-image编辑模型，主打快速视觉编辑。支持物体替换、风格迁移、场景/背景修改，以及带文字感知的图像变换。项目地址见评论区👇🏻

译ModelScope 上开源了 Boogu-Image-0.1-Edit-Turbo，一个 4 步蒸馏的 image-to-image 编辑模型，主打快速视觉编辑。支持物体替换、风格迁移、场景/背景修改，以及带文字感知的图像变换。

Rohan Paul@rohanpaul_ai · 1天前68

U.S. chip restrictions helped push China to build and spread open AI models. The authors tested this by looking at policy documents, open model releases, GitHub activity, research papers, company-linked papers, and U.S. patents. They found that after major U.S. export controls, Chinese developers increased activity around open LLM projects much more than U.S. developers did. ---- Link – arxiv. org/abs/2606.15999 Title: "U.S.Policies Unintentionally Accelerated China's Open AI Ecosystems"

译一项研究通过分析政策文件、开源模型发布、GitHub活跃度、论文及美国专利发现：美国加强出口管制后，中国开发者在开源大语言模型项目上的活跃度远超美国开发者，美国政策非但未遏制中国AI发展，反而加速了其开源生态建设。Perplexity CEO Aravind Srinivas 补充称，中国建设数据中心速度更快，电力、许可、人力、劳动力、专业知识均不构成障碍。

MiniMax (official)@MiniMax_AI · 1天前45

Day two of @aiDotEngineer started with a conversation anyone serious about open weights should be paying attention to. @olive_jy_song, research lead RL, joined @Thom_Wolf to dig into sparse attention, native multimodal training from day zero, and why open-weights matter for where AI is headed. Grateful to @swyx and the AI Engineer team for creating spaces for technical exchanges at this level.

译MiniMax 强化学习研究负责人姜松岩在 AI Engineer 大会第二天参加炉边谈话，与 Thom Wolf 探讨了稀疏注意力、从训练第一天就融入的原生多模态方案，以及开放权重对 AI 发展的意义。她强调分享了团队在这些方向的工作，并重申相信开放权重的重要性。

向阳乔木@vista8 · 1天前61

http://x.com/i/article/2072169967664140288 # LongCat-2.0 深度技术解读 X 上老外都特别震惊，说中国的“Doordash”用国产芯片训练了一个万亿参数的大模型，哈哈哈。这次美团确实有点厉害，让 AI 辅助阅读解读下所有技术细节。 > https://longcat.chat/blog/longcat-2.0/ 35 万亿 token，大概是全球所有书籍文字总量的几十倍。 5 万片芯片同时工作，意味着你需要让几万台机器像一台机器一样协调运转。而"全程无回滚"，意味着这场马拉松从头跑到尾，没有一次因为出错而被迫退回重来。这就是 LongCat-2.0，2026 年 6 月 30 日正式发布并开源。 ## 先搞懂两个基础概念，后面才能读懂在进入正题之前，有两个概念必须先建立直觉。什么是 MoE（混合专家模型）？普通的神经网络，每次处理一个问题，会动用全部的"神经元"。你问它"今天天气怎么样"，和问它"帮我写一段 Python 代码"，用的是同一套参数，全部激活，全部计算。 MoE 的思路不一样。它内部有很多"专家"，每次来一个问题，只激活其中几个最合适的专家来处理，其余的专家保持沉默。打个比方：一家大医院有内科、外科、神经科、皮肤科……你来看病，不是所有科室的医生都来给你会诊，而是根据你的症状，叫来最相关的两三个科室。这样既节省了资源，又能让每个专家更专注。 LongCat-2.0 的总参数是 1.6 万亿，但每次处理一个 token（可以理解为一个词或一个字），只激活其中约 480 亿参数。也就是说，每次只动用了约 3% 的参数。这个"只用 3%"的特性，在后面会反复出现，它是整个模型设计的核心约束。什么是 token？语言模型不是一个字一个字读文字的，它把文字切成一小块一小块的"token"。中文里大概 1 个 token 对应 1.5 到 2 个汉字，英文里大概 1 个 token 对应 0.75 个单词。 35 万亿 token，换算成中文，大概是 50 到 70 万亿个汉字。好，基础打完了，我们开始拆解 LongCat-2.0 的每一个技术决策。 ## 架构改进一：LSA，让模型读长文不再"喘不过气" 先理解"注意力机制"是什么语言模型在理解一句话的时候，需要判断每个词和其他词之间的关联程度。比如"猫追老鼠，它跑得很快"，模型需要判断"它"指的是"猫"还是"老鼠"。这个判断过程叫"注意力机制"，模型在处理每个词的时候，会"注意"到其他所有词，计算它们之间的相关性。问题来了：如果文章很长，比如有 100 万个 token，那每个 token 都要和其他 99 万 9999 个 token 计算一次相关性。计算量是 token 数量的平方级增长。文章长度翻倍，计算量变成原来的 4 倍。这就是为什么普通模型处理长文本会非常慢，甚至根本处理不了。稀疏注意力：不是每个词都需要关注所有词解决思路是"稀疏注意力"：不需要每个词都关注所有词，只关注真正重要的那些。还是那个比喻：你在读一本 500 页的小说，理解某一段情节，不需要把前面 499 页全部重新过一遍，只需要回忆几个关键情节点就够了。 LongCat-2.0 之前用的是 DeepSeek 稀疏注意力（DSA），它已经做到了这一点。但团队发现，DSA 里有一个"索引器"（可以理解为"负责决定哪些词值得关注"的小模块），成了整个系统的速度瓶颈。原因有两个：第一，它选出来的"重要词"在内存里的位置是散的，读取时需要到处跳，效率低；第二，它的评分计算本身就很贵，是二次方级别的开销。 LongCat 稀疏注意力（LSA）就是专门来解决这个索引器瓶颈的。 LSA 的三个优化，逐个拆解第一个：流感知索引（SI）问题的根源是内存访问碎片化。想象你去图书馆找书，如果要找的书分散在各个书架的随机位置，你就得满图书馆跑。但如果这些书都集中在同一排书架上，你一趟就能全拿完。 SI 做的事情就是：把一部分原本散乱的内存访问，重新组织成连续的顺序读取。硬件在做顺序读取时效率远高于随机跳跃，这叫"合并的 HBM 访问"（HBM 是显卡里的高速内存）。第二个：跨层索引（CLI）这个优化基于一个观察：在神经网络的相邻两层里，"重要的 token"的分布高度相似。打个比方：你在第 10 层楼看到某个人很重要，到第 11 层楼，这个人大概率还是重要的。既然如此，第 11 层就不需要重新做一次"谁重要"的判断，直接复用第 10 层的结果就行。 CLI 让单次索引计算可以被多个连续的注意力层复用，相当于把这笔开销"摊薄"了。为了让模型在训练时就学会"相邻层的重要 token 分布是一致的"，团队在训练阶段引入了"跨层蒸馏"。让相邻层互相学习，保证这个特性在推理时真实成立。第三个：层级化索引（HI）这是一个"先粗筛再精选"的两阶段策略。还是图书馆的比方：你要找关于"量子计算"的书，不会一本一本翻遍所有书，而是先找到"计算机科学"这个大区域（粗筛），再在这个区域里找具体的书（精选）。 HI 先用"block 级近似打分"做粗召回，缩小候选范围，再在候选里做精细的 token 级选择。这样每次检索需要处理的候选空间大幅缩小。 HI 是可插拔的，只在超长上下文任务上按需启用，不影响普通任务。这三个优化设计上互不干扰，可以独立开关，也可以组合使用。投机解码：一个额外的加速技巧文章里还提到 LSA 被扩展到了"投机解码"（Speculative Decoding）。这个概念值得解释一下。语言模型生成文字是一个字一个字输出的，每次输出都要等上一次完成。投机解码的思路是：用一个小模型（Draft 模型）先快速猜测接下来几个词，再用大模型（Target 模型）一次性验证。如果猜对了，就省下了大模型多次生成的时间。 LongCat-2.0 用的是 3-step MTP，即小模型一次猜 3 步。 CLI 在这里的应用更激进：3 个 Draft 步骤共用一次索引结果，Step 2 和 Step 3 完全复用 Step 1 的索引，进一步压缩开销。 ## 架构改进二：N-gram Embedding，用更聪明的方式扩大参数先理解"Embedding"是什么模型在处理文字之前，需要把每个 token 转换成一串数字（向量），这个转换过程叫 Embedding。你可以把它理解为"把词语翻译成模型能理解的坐标"。 "猫"和"狗"的坐标很近，"猫"和"飞机"的坐标很远。模型通过这些坐标来理解词语之间的关系。 N-gram 的思路：不只看单个词，看词的组合 N-gram 的意思是"N 个连续 token 的组合"。 LongCat-2.0 用的是 5-gram，即每次看 5 个连续 token 的组合。为什么要这样做？因为很多语义是由词的组合决定的，而不是单个词。 "人工"和"智能"单独看都是普通词，但"人工智能"作为一个组合，有完全不同的含义。如果模型只看单个词，就需要通过多层计算才能"悟"出这个组合的含义。 N-gram Embedding 直接把常见组合的含义编码进去，相当于给模型提前建好了"词组词典"。这样做的效果是：embedding 空间扩展超过 100 倍，模型对局部上下文的理解能力显著增强。为什么要加 135B 参数的 N-gram Embedding，而不是直接加更多专家？这是整个设计里最有意思的一个决策，值得细说。 LongCat-2.0 的 MoE 稀疏度接近 97%，意思是每次只用 3% 的参数。在这个稀疏度下，如果再加更多专家（比如再加 135B 的专家参数），收益会很小。为什么？因为专家越多，每个专家被调用的频率越低，训练时每个专家获得的"练习机会"越少，学得越不充分。这就像一家有 1000 个医生的医院，每个医生每天只看一两个病人，技术很难精进。但 N-gram Embedding 不一样。它在 MoE 的"稀疏维度"之外，开辟了一个新的维度来扩展参数。这 135B 参数不参与 MoE 的路由竞争，而是直接作用于 token 的表示层，每次处理都会用到。团队同时发现，N-gram Embedding 的占比有一个甜点区间：占总参数的 10% 以内效果最好，超过 50% 优势就消失了。LongCat-2.0 把这个比例控制在 10% 以内。还有一个推理阶段的额外好处：把参数从专家转移到 N-gram Embedding，可以降低大 batch 解码时的显存 I/O 压力，加速解码。原因是 N-gram Embedding 的访问模式更规律，对显存带宽更友好。 ## 国产算力上跑通万亿参数训练，工程上有多难这一部分是整篇发布文章里信息密度最高的，也是最容易被忽视的。显存不够，怎么办国产芯片的单卡显存显著小于 H800 的 80GB。训练 1.6 万亿参数的模型，显存是第一道墙。团队的解法是 6D 并行。"并行"的意思是把模型和数据切开，分散到多张卡上同时计算。常规的并行方式有 5 个维度： - TP（张量并行）：把单个矩阵运算切开，分到多张卡上算 - CP（上下文并行）：把长序列切开，分到多张卡上处理 - EP（专家并行）：把不同的专家放在不同的卡上 - DP（数据并行）：多张卡同时处理不同的数据 - PP（流水线并行）：把模型的不同层放在不同的卡上，像流水线一样运转 LongCat-2.0 在这 5 个维度之外，额外加了第 6 个：EMBP（Embedding 并行），专门处理 135B N-gram Embedding 参数的并行加速。除了并行，还有几个显存优化手段： ZeRO-1：优化器（负责更新参数的模块）的状态数据，往往比模型本身还大。ZeRO-1 把这些状态数据切分到多张卡上，每张卡只存一部分。选择性重计算：正向计算时，有些中间结果可以不存下来，反向传播时重新算一遍。这样牺牲一点计算时间，换来大量显存节省。 OOM 自动卸载：当显存快满了（Out of Memory），自动把部分数据卸载到内存或硬盘，用时再取回来。零计算专家：填充 token（用来凑齐序列长度的无意义 token）被路由到一个"零计算专家"，不做任何实际计算，节省算力。超节点：把几百张卡变成一个高速通信域训练大模型时，卡和卡之间需要频繁通信（传递梯度、同步参数）。通信速度往往是训练速度的瓶颈。 LongCat-2.0 的解法是"超节点"：把最多 48 台机器组成一个超节点，节点内部用高带宽全互联，节点之间走 RoCE 网络（一种高性能网络协议）。这样做的效果是：高带宽通信域从单台机器（通常 8 张卡）扩展到数百张卡。带宽敏感的并行策略（TP/CP/EP）可以在这个大域内运行，不再受限于单机带宽。相比同规模的普通配置，超节点额外带来约 30% 的预训练吞吐提升。超节点同时是"亲和调度"的基本单元。调度时优先把通信密集的任务分配在同一个超节点内，减少跨节点通信，在通信局部性和可调度性之间取得平衡。 Muon 优化器：一个来自学术界的新选择优化器是训练时负责"根据错误信号更新参数"的模块。最常用的是 Adam 系列优化器。 Muon 是一个相对较新的优化器，在某些场景下比 Adam 收敛更快、效果更好。 LongCat-2.0 在国产算力芯片上大规模部署了 Muon，并针对 TP 并行、DP 状态去冗余和高效矩阵乘核函数做了专项优化。这是一个值得关注的信号：Muon 优化器正在从学术实验走向大规模生产部署。确定性：让训练结果可复现这个细节很少被提到，但在工程上极其重要。 "确定性"的意思是：给定相同的输入，每次计算的结果完全一致，不会因为浮点运算的舍入误差或并行计算的顺序差异而产生微小偏差。为什么重要？因为在大规模训练中，微小的数值偏差会随着层数和步数累积，最终导致训练结果不可复现，甚至出现 loss 突刺（损失函数突然异常升高）。团队自研了覆盖 Embedding、FA（Flash Attention）、LSA、MoE 等多个模块的确定性算子。所有规约类算子（比如求和、求均值）都采用二叉树分段累加，减少浮点误差累积。还有一个细节：在部分计算密集型算子上加入了"比特翻转检测"。硬件偶尔会出现单个比特从 0 变成 1 或从 1 变成 0 的错误（宇宙射线、电磁干扰等都可能导致），这种错误会造成数值异常。加入检测后，可以及时发现并处理，不让它悄悄污染训练结果。故障恢复：5 万张卡，总有卡会出问题 5 万张卡同时运行，每天都会有硬件故障。如果每次故障都需要人工介入，训练根本无法持续。团队的解法是端到端监控驱动的自动故障恢复：监控系统持续检测链路状态，发现故障后自动识别、切流、恢复，全程无需人工介入。故障链路的隔离对训练没有可感知的影响。修复后的链路还需通过压测才能重新上线，防止带病工作的硬件再次引发问题。这套机制是"全程无回滚"这个结果的工程保障。 ## 百万上下文推理：在受限硬件上的极限工程训练完成后，还需要把模型部署起来，让用户能实际使用。在显存、带宽都受限的国产芯片上，跑百万上下文的推理是另一道难题。 Prefill 和 Decode：推理的两个阶段理解后面的优化，需要先知道推理分两个阶段： Prefill（预填充）：模型读取你的输入（比如一篇 10 万字的文档），一次性处理所有输入 token，生成初始的 KV-cache（可以理解为"模型对输入的理解摘要"）。这个阶段计算量大，但可以并行处理。 Decode（解码）：模型一个 token 一个字地生成输出，每次生成都要读取之前的 KV-cache。这个阶段是串行的，受限于显存带宽。 LongCat-2.0 采用 Prefill-Decode 分离部署：两个阶段用不同的硬件节点处理，各自针对自己的瓶颈做优化。 KV-cache：长上下文的显存杀手 KV-cache 是长上下文推理的核心挑战。每处理一个 token，模型都需要存储一个 KV（Key-Value）对，供后续 token 参考。 100 万个 token 的上下文，就需要存储 100 万个 KV 对。这个数据量非常大，很容易撑爆显存。 LongCat-2.0 的解法是 KVP（KV-cache 并行）：把 KV-cache 切分到多张卡上，每张卡只存一部分，降低单卡显存压力。 Prefill 节点的优化 Prefill 节点的主要瓶颈是节点间通信带宽。 MoE 模型在处理 token 时，需要把 token 发送给对应的专家（dispatch），再把专家的计算结果收回来（combine）。当专家分布在很多节点上时，这个通信开销很大。解法是 Chunked Pipeline Parallel（CPP）：把长序列切成小块，用流水线方式处理，缩小每次通信涉及的专家并行域（EP 域），减少跨节点通信量。在每个流水线阶段内，再用 Attention Sequence Parallelism（SP）把长序列的注意力计算分散到多张卡上，进一步分担计算压力。 Decode 节点的优化 Decode 节点的主要瓶颈是显存和 KV-cache 的 I/O 带宽。除了 KVP 切分 KV-cache，还用了较大的专家并行度（EP128，即 128 张卡分担专家），压低每张卡上的权重显存和专家 I/O 压力。大 EP 并行度带来一个新问题：专家负载不均。如果某些专家特别受欢迎，对应的卡就会成为瓶颈，其他卡在等待。 EPLB（Expert-Parallel Load Balancing）负责动态均衡专家负载，统计采集和分布计算全部异步化，不阻塞主计算流程。面向国产芯片的两个底层优化 Super Kernel：GPU 上的每个算子（计算操作）在启动时都有固定的开销，就像每次开车都要先发动引擎。如果算子数量很多，启动开销累积起来很可观。 Super Kernel 把多个算子合并成一个大算子，减少总启动次数，降低累积开销。 Weight Prefetch（权重预取）：国产芯片的显存带宽有限，但 L2 缓存（比显存快得多的片上存储）相对较大。 Weight Prefetch 利用这块大 L2 缓存，在前一个算子还在计算时，提前把下一个算子需要的权重数据加载进来。等前一个算子算完，权重已经在缓存里了，不需要再等显存读取。这叫"把 I/O 延迟隐藏在计算之中"。 ## 后训练：三组专家，一套融合架构模型训练完成后，还需要"后训练"来让它真正好用。 LongCat-2.0 的后训练引入了三大专家组，分工明确。 Agent 能力专家组这组专家负责让模型能在真实场景中自主完成任务。重点不只是"能完成任务"，而是优化几个关键的"原子能力"：复杂工具调用的精准度（调用 API 时参数不出错）、多轮交互中的参数解析能力（记住上下文，不重复问同样的问题），以及自我纠错机制（发现自己陷入死循环时能主动跳出来）。这些"原子能力"决定了 Agent 系统的鲁棒性。一个 Agent 能完成 90% 的任务，但剩下 10% 会卡死或出错，在生产环境里是不可接受的。推理能力专家组这组专家负责数学、STEM 复杂问题求解和多跳知识推理。 "多跳知识推理"是指需要串联多个知识点才能得出答案的问题。比如"爱因斯坦出生那年，美国总统是谁？"需要先知道爱因斯坦的出生年份，再查那一年的美国总统，这就是两跳推理。这组专家还实现了"基于问题难度的自适应推理计算"，简单问题快速回答，复杂问题深度思考，不浪费计算资源。交互体验专家组这组专家负责让模型更"好用"：细粒度指令遵循（你说"用列表格式回答"，它就真的用列表）、抑制幻觉（减少一本正经地编造事实）、以及在不牺牲有用性的前提下建立安全边界。最后，用 MOPD 架构在数万卡的国产算力集群上，把三组专家的能力融合进一个模型。这是整个后训练流程的核心工程挑战：怎么让一个模型同时具备 Agent 执行力、深度推理能力和良好的交互体验，而不是顾此失彼。 ## 评测数据怎么看评测数据里有几个基准值得解释一下，不然很难判断数字的含义。 Terminal-Bench 2.1：测试模型在终端环境里完成真实任务的能力，比如写脚本、调试程序、管理文件。这是最接近"程序员日常工作"的评测之一。 LongCat-2.0 得 70.8 分，与 Gemini 3.1 Pro（70.7）基本持平，低于 Claude Opus 4.8（78.9）。 SWE-bench Pro：给模型一个真实的 GitHub 代码仓库和一个 bug 报告，让它自己找到问题并修复。这是目前最接近"真实软件工程"的评测。 LongCat-2.0 得 59.5 分，超过 Gemini 3.1 Pro（54.2）和 GPT-5.5（58.6）。 SWE-bench Multilingual：同上，但涉及多种编程语言。 LongCat-2.0 得 77.3 分，与 Gemini 3.1 Pro（76.9）接近。 FORTE：面向 15 类企业职业的办公 Agent 评测，模拟真实的职场任务，比如整理数据、撰写报告、处理邮件。LongCat-2.0 得 73.2 分，低于 GPT-5.5（77.8）和 Claude Opus 4.7（77.6）。 GPQA-diamond：由博士级专家设计的科学问题，涵盖物理、化学、生物等领域，专门测试模型的深度知识理解能力。 LongCat-2.0 得 88.9 分，低于 Gemini 3.1 Pro（94.3）和 GPT-5.5（93.6）。怎么理解这张表？ LongCat-2.0 的优势集中在代码和搜索：SWE-bench Pro 超过了 Gemini 3.1 Pro 和 GPT-5.5，RWSearch 超过了所有对比模型。这和它在长上下文处理和 Agent 能力上的投入是一致的。在基础科学推理（GPQA-diamond）和指令遵循（IFEval）上，与 Gemini 3.1 Pro 和 GPT-5.5 还有差距。这不是意外，而是取舍的结果：资源有限，优先把长上下文和 Agent 能力做到最好。还需要注意的是，标注 * 的数字来自各家公司自己的公开报告，评测条件未必完全一致，比较时需要保留一定的判断余地。 ## 这件事真正重要的地方读完所有技术细节，有一件事值得单独说清楚。 LongCat-2.0 在技术上的每一个选择，都是在国产芯片的硬件约束下做出的。显存小，所以要做更精细的并行和显存优化。软件生态不成熟，所以要自研大量算子和工具。带宽受限，所以要把计算和通信的重叠做到极致。这不是在已有成熟方案上做微调，而是在一个约束更多的环境里，重新设计了整套训练和推理的工程体系。 5 万片国产芯片、35 万亿 token、全程无回滚，这组数字的含义不只是"模型训练成功了"，而是"这套工程体系在生产环境里被验证可行了"。对于关注国产算力生态的从业者来说，这是一个值得认真对待的数据点。模型已开源，API 接入和在线体验均已开放，有条件的话直接上手测试，比看评测数字更直接。

译美团发布并开源LongCat-2.0，1.6万亿总参数、480亿激活参数（3%）的MoE大模型。使用35万亿token训练，在5万片国产芯片上“全程无回滚”完成。引入LongCat稀疏注意力（LSA），包含流感知索引、跨层索引和层级化索引，解决长文本注意力瓶颈。采用5-gram N-gram Embedding增加135B参数，在不增加MoE专家竞争的情况下增强局部上下文理解。训练使用6D并行技术适配国产算力。计划2026年6月30日发布并开源。

François Chollet@fchollet · 1天前60

This will hopefully unlock a new wave of better entries. Check it out!

译tufalabs 刚刚开源了他们获得第一名的 notebook。主推文表示，这有望解锁新一波更好的参赛作品。

Rohan Paul@rohanpaul_ai · 1天前63

🇨🇳 Another good model from China. A 35B agent model claims 1T-model performance by thinking longer, not growing bigger. Apache-2.0 license, model weights are on Hugging Face. The technique is proposing a cheaper way to make strong AI agents: teach them longer verified work habits, not just make them bigger. The paper’s main idea is to make the agent practice long tasks where it searches, uses tools, reads results, fixes mistakes, and checks answers. The authors build training data from long action records, with an average length of 45K tokens, so the model learns the whole work process. They then train specialist teacher models for search, science, instruction following, tool use, and other areas, and transfer those skills into 1 student model. Agents-A1 does very well across long-task benchmarks, including search, science, coding, tool use, and instruction following.

译中国团队发布Agents-A1，一个35B参数的agent模型，通过让模型学习更长的验证工作习惯（平均训练样本45K tokens），声称达到1T参数模型的性能。模型采用Apache-2.0许可，权重已开源至Hugging Face。训练方法：构建长动作记录数据，训练多个专家教师模型（搜索、科学、指令跟随、工具使用等），再将技能蒸馏至一个学生模型。Agents-A1在搜索、科学、编码、工具使用、指令跟随等长任务基准上表现优异。

Rohan Paul@rohanpaul_ai · 2天前33

Today’s edition of my newsletter just went out. https://rohanpaul.substack.com/p/central-bankers-now-fear-the-ai-gold 🗞️ Central bankers now fear the AI gold rush could seed the next major financial shock. 🗞️ A crazy blog, Chinese developers are buying Claude access through gray-market API transfer stations that can sell tokens at 5% to 10% of official prices while hiding the real user from Anthropic. 🗞️ Sakana Fugu Technical Report 🗞️ Chinese AI models are up to 50 times cheaper than their American counterparts on a per-token basis. 🗞️ Deepseek AI published their new inference optimization method. 🗞️ Meta just open-sourced a brain-to-text system that reaches 78% word accuracy without surgery.

译Rohan Paul 新闻通讯要点：央行担忧 AI 淘金热可能引发下一场金融冲击；中国开发者通过灰色市场 API 以官方价格 5%-10% 购买 Claude 服务，且隐藏真实用户身份；Sakana Fugu 技术报告发布；中国 AI 模型每 token 成本比美国同行低至 50 倍；DeepSeek 发布新推理优化方法；Meta 开源无需手术的脑机接口系统，词准确率达 78%。

Artificial Analysis@ArtificialAnlys · 2天前53

GLM-5.2 is the most intelligent open weights model available, but also the most verbose among the leading models GLM-5.2 (max) used ~141M output tokens (95% reasoning) to run the Artificial Analysis Intelligence Index (1.8x the average model). Key takeaways: ➤ GLM-5.2 generates more tokens (141M) to run the Artificial Analysis Intelligence Index than Claude Opus 4.8 (117M) and nearly double GPT-5.5 (72M), while scoring below both (51 vs 56 and 55) ➤ Almost two-thirds of that goes to a single benchmark, Humanity's Last Exam: ~88M tokens, 3.2x GPT-5.5's, and it still scores lowest of the three (40% vs Opus 46% and GPT-5.5 44%) ➤ The verbosity is not focused on recalling facts. On AA-Omniscience, which measures hallucination rates, GLM-5.2 thinks less than GPT-5.5 yet scores just 4, far below Opus 4.8 (27), GPT-5.5 (20), and Gemini 3.5 Flash (23) ➤ Additional thinking pays off most on agentic real-world work: on GDPval-AA v2 GLM-5.2 is the top open weights model and #3 overall, beating GPT-5.5 ➤ Several open models generate even more output, but all score lower on intelligence; the strongest of them, DeepSeek V4 Pro, trails GLM-5.2 by 7 points (44 vs 51)

译GLM-5.2 在 Artificial Analysis Intelligence Index 中以 51 分成为开源权重智能最高的模型，但输出 token 达 1.41 亿（95% 推理），远超平均模型的 1.8 倍。相比之下，Claude Opus 4.8 输出 1.17 亿 token 得分 56，GPT-5.5 输出 7200 万 token 得分 55。近三分之二 token（8800 万）集中在 Humanity's Last Exam，是 GPT-5.5 的 3.2 倍，得分仅 40%（Opus 46%，GPT-5.5 44%）。AA-Omniscience 幻觉率评测中 GLM-5.2 仅得 4 分，远低于 Opus 4.8（27）、GPT-5.5（20）和 Gemini 3.5 Flash（23）。在 agentic 任务 GDPval-AA v2 上 GLM-5.2 为开源第一、整体第三，超过 GPT-5.5。其他开源模型如 DeepSeek V4 Pro 得分 44，落后 7 分。

Rohan Paul@rohanpaul_ai · 2天前75

🇨🇳China claims a new milestone in locally trained AI, as Meituan rolls out LongCat-2.0. Meituan, China's food delivery giant, just released LongCat-2.0, an open-source 1.6T-parameter MoE (33B–56B parameters) coding model. 1M tokens context window. Open-source: Available on longcat[.]ai and OpenRouter, top 3 globally by call volume. LongCat-2.0 was trained from scratch on 50,000 Chinese domestic chips and Meituan said this proves large-scale model training can now be done on domestic compute clusters. Shows again the rising push for self-reliance in China’s AI market, as DeepSeek, Alibaba, ByteDance, and others try to depend less on U.S. chips for model training after Washington’s export controls since 2022. While DeepSeek-V4-pro relied on home-grown chips only for inference, LongCat-2.0 used domestic hardware for both inference and pre-training, according to Meituan. Meituan did not directly identify its hardware supplier, but said in a WeChat post on Tuesday that it used Huawei Collective Communication Library (HCCL) to make training more stable. HCCL is a chip-to-chip communication system like Nvidia Collective Communication Library (NCCL). This removed doubts that Atlas-950 SuperPoDs could not train large LLMs for Zhipu AI and DeepSeek.

译美团发布开源编码模型LongCat-2.0，采用1.6T参数MoE架构（活跃参数33B-56B），支持1M tokens上下文窗口。该模型在5万块国产芯片上从头训练，使用华为HCCL通信库，验证国内算力集群可胜任大模型预训练。已开源至longcat[.]ai和OpenRouter，调用量全球前三。与DeepSeek-V4-pro仅推理使用国产硬件不同，LongCat-2.0预训练和推理均依赖国产芯片。

Peter Steinberger 🦞@steipete · 2天前48

Was thinking if I should highlight this tweet or not, but it’s a masterclass in the amount of vitriol people face when working on open source. Is the app great yet? No. It’s a start. It was built by the community. Getting the iOS and Android apps working with secure pairing and push notifications - and getting both through App Review -took a surprising amount of work. OpenClaw wasn’t acquired by OpenAI and isn’t an OpenAI product. It’s an open, independent project under the OpenClaw Foundation. OpenAI sponsors the project’s token usage; I work there. Cristian, your tweet was just one of ~30 I woke up to today. I’d genuinely love your help making it great. Attention is still the scarcest resource. I’d rather spend mine encouraging people who build.

译针对用户Cristian嘲讽“被OpenAI收购、拿到无限token却做出劣质应用”的推文，Peter Steinberger回应：OpenClaw未被收购，它是OpenClaw Foundation下的独立开源项目，由社区构建；OpenAI仅赞助token用量，他本人恰好在OpenAI工作。当前iOS和Android应用尚不完善，但已实现安全配对和推送通知并通过App Review。他表示当天收到约30条类似批评，希望得到建设性帮助，而非空耗注意力。

elvis@omarsar0 · 2天前24

Recommended reading if you are scaling with open models. BTW, you should be thinking about how to scale with open-weight models.

译推荐阅读，如果你正在使用开放模型进行扩展。顺便说一句，你应该思考如何使用开放权重模型进行扩展。

StepFun@StepFun_ai · 2天前50

Step 3.7 Flash is currently top 10 on @OpenRouter this month, with 4.29T tokens routed. Builders are pushing it through real agent runs, coding tasks, and long-context workflows. Keep sending the hard stuff.

译Step 3.7 Flash 本月在 @OpenRouter 上跻身前十，路由了 4.29T tokens。构建者正在通过真实的智能体运行、编码任务和长上下文工作流来推动它。继续用难题来挑战。

Rohan Paul@rohanpaul_ai · 2天前56

Coinbase CEO Brian Armstrong said Coinbase is experimenting with defaulting to Chinese open-weight models such as GLM 5.2 and Kimi 2.7 through its LLM gateway, while routing prompts by difficulty. He explicitly says frontier models may be needed for planning but can be “overkill” for execution. --- businessinsider. com/coinbase-ceo-brian-armstrong-low-ai-spend-maintain-token-usage-2026-6

译Coinbase CEO Brian Armstrong透露，Coinbase正通过其LLM网关实验默认使用中国开源模型GLM 5.2和Kimi 2.7，并根据提示词难度路由执行。他表示前沿模型适合规划，但用于执行可能“过度杀伤”。该决策背后引用前Meta PM及Perplexity CEO Aravind Srinivas观点：中国在数据中心建设速度、电力、许可、人力和专业知识方面均具显著优势。

Chubby♨️@kimmonismus · 2天前50

Every day, I think I could not appreciate open source any more than I already do. And then something new happens, like ID verification, and I am simply glad that I can run increasingly better models locally as well.

译网友发现 Claude 应用新字符串显示，Anthropic 准备将 Fable 5 置于现有计划之外的独立信用系统，且只有完成身份验证后才能添加信用。Anthropic 之前称身份验证仅针对特定账户且与 Fable 无关，但新验证描述与 Fable 5 信用变动同时出现。主推文作者借此表达：越来越庆幸自己能本地运行越来越好的开源模型。

Rohan Paul@rohanpaul_ai · 2天前59

Reuters: Chinese models charge as little as 18 cents per million tokens versus $4 average for top models, says CitiBank Research. Open-source processing on OpenRouter rose to 65% in June from 34% in January, while Chinese models such as DeepSeek gained attention by offering much lower token prices. - CitiBank Research. Cheaper AI has become the new enterprise priority as usage-based bills turn model choice from a capability contest into a cost-control problem. Gartner estimates AI coding costs will pass the average developer salary by 2028. OpenAI and Anthropic now face price pressure because enterprise buyers can compare models task by task rather than treat the biggest model as the default choice. --- reuters. com/business/retail-consumer/cheaper-ai-is-better-soaring-bills-are-reshaping-how-businesses-choose-models-2026-06-29/

译花旗研究数据显示，中国模型每百万token收费低至18美分，而顶级模型均价4美元。OpenRouter上开源模型处理占比从1月34%升至6月65%，DeepSeek等中国模型因低价受关注。Gartner预测AI编码成本2028年将超普通开发者薪资。按用量付费使企业从“选最强模型”转向成本控制，OpenAI和Anthropic面临逐任务比价压力。前Meta PM及Perplexity CEO指出，中国能更快建设数据中心，电力、许可、人力、专业能力均不成问题，进一步压低成本。

Rohan Paul@rohanpaul_ai · 2天前47

Opinion from a former Meta PM. And this is from Aravind Srinivas of Perplexity "China can build data centers a lot faster. Power is not a problem. Permits are not a problem. People are not a problem. Labor is not a problem. Expertise is not a problem." https://x.com/rohanpaul_ai/status/2071780740220752220/video/1

译前 Meta PM 转引 Perplexity CEO Aravind Srinivas 称，中国建数据中心速度远快于美国，电力、许可、人力、专业能力均无问题。分析师 @quxiaoyin 进一步指出美国 AI 最坏情境：1）中国开源模型持续抢占市场份额，中国主导模型层；2）模型在华为芯片上训练和推理优化，而非 NVIDIA，中国同时主导芯片层；3）美国数据中心建设跟不上算力、存储与能源需求，中国持续出口推理与训练层。出口管制非正确策略，美国应投资开源模型、争取中国模型使用 NVIDIA，并尽快投资核电。

Xiaomi MiMo@XiaomiMiMo · 2天前54

Open-weights are taking over — proud to see more developers building on MiMo. 👏 @cline

译我们对 GLM-5.2 印象深刻，因此推出每月 $9.99 的订阅，让你能以 2-5 倍折扣访问它以及其他开源权重模型，如 DeepSeek、Kimi、MiniMax、Mimo、Qwen。可通过 Cline CLI 和 IDE 使用，通过 `npm i -g cline` 注册可享受 $1.99 特价促销。

OpenCode@opencode · 2天前32

GLM 5.2 is ranking the highest on cost per session and everyone is raving about this model which means if cost/session is high it might actually be a sign that the model is useful

译GLM 5.2 在每次会话成本上排名最高而且大家都在盛赞这个模型这意味着，如果每次会话成本高，那可能反而是模型有用的标志

Rohan Paul@rohanpaul_ai · 2天前57

AI at scale is constrained by physical inputs, and China has more slack in electricity plus dominant control over several minerals and magnet supply chains that data centres and chips depend on. --- ft .com/content/d9af562c-1d37-41b7-9aa7-a838dce3f571

译Perplexity CEO Aravind Srinivas 指出，出口管制是前沿模型与开源模型仅存在12个月差距的唯一原因，但这可能反而迫使中国在物理层变得更强。中国在建设数据中心方面拥有显著优势——电力、许可、劳动力和专业知识均不成问题。通过出口管制迫使中国发展这些基础设施，反而可能将其转化为更强大的竞争对手。这解释了为何Anthropic极力游说加强出口管制。

OpenBMB@OpenBMB · 2天前54

Thanks for the shoutout! 🤗 @HuggingModels Exceptional fine-grained OCR, complex image reasoning, and multi-turn interaction in a highly compact footprint. Fully open-sourced with out-of-the-box support for SGLang/vLLM/llama.cpp/Ollama, multi-platform mobile deployment, and low-barrier fine-tuning on consumer GPUs. https://huggingface.co/openbmb/MiniCPM-V-4.6

译面壁智能回应HuggingModels的推荐，介绍了MiniCPM-V-4.6多模态模型。该模型具备精细OCR、复杂图像推理和多轮交互能力，尺寸紧凑，完全开源。它开箱支持SGLang、vLLM、llama.cpp、Ollama等推理框架，可部署于多平台移动端，并支持在消费级GPU上进行低门槛微调。引用推文强调这是一款能同时理解文本和视觉的轻量级AI模型，适合设备端使用，无需依赖云端。

歸藏(guizang.ai)@op7418 · 2天前65

Cline 推出了一个每月 9.9 美元的 token plan, 支持调用 DeepSeek、Kimi、MiniMax、MIMO 和千问，还有 GLM5.2 现在好像还有 1.99 美元的优惠。海外这种聚合的 token plan 也越来越多了，而且他们如果有渠道的话，更方便去推理服务的供应商也不缺卡

宝玉@dotey · 2天前63

开源项目推荐：Claude Code From Scratch 这是一本学习 Claude Code 的开源电子书，严格来说不仅仅是电子书，还有代码，不需要你去看 Claude Code 的 50 万行代码。用 ~4300 行代码（TypeScript 和 Python 两个版本分别实现）复现了 Claude Code 的核心架构——Agent Loop、13 个工具（含并行执行 + 流式早期启动）、4 层上下文压缩、语义记忆召回、技能系统、多 Agent、MCP 集成……每一步都对照真实源码讲解它怎么做的 → 我们怎么简化的。有 13 章内容，每一章都是一份分步教程，跟着动手写几千行代码，快速理解 Claude Code 这样最好用的 coding agent 的精髓。读完你就能大致理解了 coding agent 的工作原理，我跟着快速浏览了下都有了些新的收获，推荐有兴趣的可以看看。有中英文版： https://diwang.info/claude-code-from-scratch/#/

译开源电子书用约4300行代码（TypeScript和Python）复现Claude Code核心架构，涵盖Agent Loop、13个工具、4层上下文压缩、语义记忆召回、技能系统、多Agent、MCP集成。全书13章分步教程，讲解如何简化实现。提供中英文版。

Rohan Paul@rohanpaul_ai · 2天前52

Aravind Srinivas just explained why China’s open-source AI may become more powerful than ever. And why Anthropic has lobbied very hard for export control. "the only reason why there is even a 12-month gap between open source and frontier models is export controls. But there is a chance that, because of that, they now get really good at the physical layer. One advantage they (China) have is that they can actually build data centers a lot faster. Power is not a problem. Permits are not a problem. People are not a problem. Labor is not a problem. Expertise is not a problem. And so, by forcing them to go out there and build all this, you are converting them into a far more potent competitor." --- From "20VC with Harry Stebbings" YouTube channel (@HarryStebbings ), link in comment

译Perplexity CEO Aravind Srinivas 解释，中国开源AI可能变得更强——出口管制导致开源模型与前沿模型之间存在12个月的差距，但中国在物理层（数据中心建设）拥有显著优势：更快建设速度、电力与许可无障碍、充足劳动力与专长。Anthropic 为此大力游说出口管制，然而这反而可能迫使中国成为更具竞争力的对手。

Berryxia.AI@berryxia · 2天前63

这个预测感觉反直觉和共识了啊～爆火𝕏 的 Qu Xiaoyin（前Meta产品经理）的核心结论是：欧美企业会抛弃OpenAI和Anthropic，转向中国模型。她给了两个理由：第一，合规+控制权。中国企业可以把模型部署在企业自己的GPU上。这样既满足数据合规要求（数据不出境），企业又拥有完全的控制权，模型跑在自己的服务器上，不依赖任何外部API。第二，可定制化。中国开源模型（DeepSeek、Qwen、GLM等）允许企业在自己的数据上做后训练。企业拿到基座模型，用内部数据微调，变成自己专属的模型。 OpenAI和Anthropic的闭源API做不到这一点。这条推文的背景：2026年上半年，中国开源模型的能力已经追平甚至超越了部分闭源模型。 DeepSeek V4、Qwen3.5、GLM-5.2在多个基准测试上表现优异。同时，美国对华芯片出口限制反而加速了中国模型的轻量化和推理优化，用更少的算力达到更好的效果。对企业的实际意义： 1. 成本。闭源API按token收费，规模越大成本越高。开源模型一次性部署，边际成本趋近于零。 2. 数据安全。金融、医疗、政府等敏感行业，数据不能传出自己的服务器。开源模型本地部署完美解决这个问题。 3. 定制能力。通用模型再强也不如针对特定领域微调过的模型。开源模型允许企业用自己的数据做后训练。 4. 供应商锁定。用OpenAI的API就被绑死了。用开源模型，随时可以换。潜在风险：开源模型的部署和运维需要专业团队。不是所有企业都有能力自己跑模型。但云服务商（AWS、Azure、阿里云）已经开始提供开源模型的托管服务，降低了门槛。一句话总结：开源模型的能力在追平闭源，而灵活性和成本优势在拉大。企业选择中国开源模型不是因为爱国，是因为更划算。

译前Meta产品经理Qu Xiaoyin预测，欧美企业将抛弃OpenAI和Anthropic，转向中国开源模型。核心原因：中国模型可部署在企业自有GPU上，满足数据合规且完全控制；开源模型（如DeepSeek、Qwen、GLM）允许用内部数据后训练，构建专属模型。背景是2026年上半年中国开源模型能力追平闭源，美国芯片限制反而加速轻量化和推理优化。对企业而言，开源模型实现一次性部署、边际成本趋零，数据不出服务器确保安全，可针对领域微调，并避免被闭源API锁定。潜在风险是运维需专业团队，但AWS、Azure、阿里云等已提供托管服务降低门槛。

Chubby♨️@kimmonismus · 3天前56

Meta says Brain2Qwerty v2 can decode natural sentences from non-invasive brain recordings in real time, reaching 61% word accuracy. The system was trained on about 22,000 sentences from 9 volunteers, each recorded for 10 hours with MEG while typing. Meta compares that with 8% word accuracy from prior non-invasive methods. Its best participant reached 78%, with more than half of sentences decoded with one word error or less. This is still controlled lab research: small participant pool, MEG hardware, active typing data, and company-reported results. Not a clinical communication device yet. Meta is releasing the training code, while BCBL is releasing the v1 dataset, pushing brain-to-text research further into open neuroscience infrastructure. I am so hyped for the future.

译Meta发布Brain2Qwerty v2，一种非侵入式脑机接口系统，能从实时脑信号解码完整自然句子，单词准确率达61%。系统基于约22000个句子训练，9名志愿者每人使用MEG记录10小时。相比此前非侵入方法8%的准确率大幅提升，最佳参与者达78%，超半数解码句子仅错一个词或更少。该端到端管线能实时将原始脑信号解码为单词和语义。但研究仍在受控实验室阶段：参与者样本小、依赖MEG硬件、数据来自主动打字、结果由公司报告，尚未成为临床通信设备。Meta已开源训练代码，BCBL发布v1数据集。

Emad@EMostaque · 3天前79

Most popular model on @OpenRouter (10tr tokens) turns out to be a 1.6tr MoE by @Meituan_LongCat (superapp/DoorDash of China) Basically Gemini / Opus 4.6 level 35tr tokens trained entirely on 50k Chinese ASICs No GPUs needed https://longcat.chat/blog/longcat-2.0/

译美团LongCat的1.6万亿参数MoE模型Owl Alpha成为OpenRouter上最流行模型，累计消耗10万亿tokens，性能达Gemini/Opus 4.6级别。该模型使用35万亿tokens训练，完全在5万块国产ASIC上完成。据官方推文，Owl Alpha上线后每日调用量全球Top3，在Hermes Agent排名#1，Claude Code排名#2，OpenClaw排名#3。该模型即将退役，后续版本待公布。

Emad@EMostaque · 3天前70

We have seen multi model harnesses for cheaper & faster tasks What about for the hardest challenges? What about open source? Proud to share the latest update our Zenith harness, taking models you can use today above Fable on tasks that take hours or days

译ii 团队推出开源 Zenith harness，通过自适应自我改进（adaptive self improvement）将基础模型推向 FrontierSWE 基准榜首，在需数小时或数天的复杂任务（如蛋白质预测模型训练、编译器优化）上超越 Fable。同时预告 GLM 5.2 即将到来。

SemiAnalysis@SemiAnalysis_ · 3天前59

JUNE 1, 2001 🚨MICROSOFT CEO: OPEN-SOURCE OPERATING SYSTEMS ARE DANGEROUS $MSFT CEO Bill Gates told lawmakers that open-source operating systems such as Linux are "going down a very dangerous path." Transcript below ⬇️ """ The scaling of open source operating systems, I think it's going down a very dangerous path. And again, if the path continues, I think we could get to a very dangerous place. I think it's worth saying some things on Linux that are clear to all the experts, but I want to make sure is understood by this committee, which is when you control the operating system and you're shipping it, you have the ability to monitor its usage. It might be misused at one point, but then you can push an update. You can revoke a user's license. You can change what the system is willing to run. When an operating system is released in an uncontrolled manner, by some guy compiling his own kernel in his basement, there's no ability to do that. It's entirely out of your hands. And so I think that should be attended to carefully. There may be ways to release software open source so that it's harder to circumvent the licensing, but that's a much harder problem, and we should confront the advocates of this with that problem and challenge them to solve it. Finally, I'd say open source is a little bit of a misnomer here, right? Open source normally refers to smaller developers who are iterating quickly, and I think that's a good thing. But here we're talking about something a little bit different, which is a more uncontrolled release of larger systems by, again, to your point, Senator Hawley, like much larger entities that pay tens or even hundreds of millions of dollars to develop them. I think we should think of that in a little bit of a different category, and their obligations in a little bit of a different category. """

译2001年，微软CEO比尔·盖茨告诉立法者，开源操作系统（如Linux）正“走向非常危险的道路”，因为无法监控使用、撤销用户许可或推送安全更新。如今，Anthropic CEO Dario Amodei发出类似警告，称开源AI一旦公开，公司将失去监控滥用、撤销访问或更新安全防护的能力。两个时代的警告如出一辙，指向开源模式在大型系统中的失控风险。

Google AI Developers@googleaidevs · 3天前36

Host a sponsored Gemma hackathon for your local community. 🌐

译谷歌在 Kaggle 上赞助为期 1 天的黑客松，帮助开发者深入探索开放模型，从构建轻量工具到解决社区独特挑战，用 Gemma 4 引领潮流。主推文号召：为你的本地社区举办一场赞助的 Gemma 黑客松。

elvis@omarsar0 · 3天前59

This is smart from Cline. They just launched ClinePass, which makes it easy to access the latest open-weight models like GLM 5.2, Kimi k2.7-code, Mimo 2.5, Deepseek v4 pro, Minimax M3, and more. Always a win when you don't have to juggle API keys.

译Cline 推出 ClinePass 订阅服务，月费 $9.99，提供 2-5 倍折扣价访问 GLM 5.2、Kimi k2.7-code、Mimo 2.5、Deepseek v4 pro、Minimax M3 等开源权重模型，省去管理多 API 密钥的麻烦。首月优惠价 $1.99，可通过 npm i -g cline 注册后在 Cline CLI 及 IDE 中使用。

小互@xiaohu · 3天前46

瞎捣鼓了一个东西 http://Best.xiaohu.ai 给点意见🤓

Rohan Paul@rohanpaul_ai · 3天前49

"The scaling of open source models, I think it's going down a very dangerous path. And if the path continues, I think we could get to a very dangerous place. I" ~ Dario Amodei's 2023 U.S. Senate testimony

译Anthropic CEO Dario Amodei 在 2023 年美国参议院证词中警告，开源模型扩展正走向危险路径。他指出 AI 中的开源与传统开源不同，模型是开放权重（open weights）而非开源，无法看到内部，协作优势有限。他认为开源是“红鲱鱼”，只关心模型性能而非是否开源，以 Deep Seek 为例，不在乎它是否开源。他还强调开源并非免费，模型需托管在云端进行推理，成本高且推理难度大。

Baidu Inc.@Baidu_Inc · 3天前21

Going live tomorrow with the top 2 Build with MeDo Hackathon winners. See you there 👀 @Bioba_daniel @_garvgupta

译百度宣布将于明天（6月29日）直播 Build with MeDo 黑客松前两名获奖者的深度分享。冠军 Daniel Agbeleshe 打造了 Craf-te，一个 AI 设计平台，可制作专业海报、传单等营销物料；亚军 Garv Gupta 创建了 Terra，一款基于实时世界事件的地缘政治策略模拟游戏。两人将在直播中展示项目、演示挑战并分享如何使用 MeDo 构建。直播时间为美东时间晚 9 点至 10 点，在 X 和 YouTube 同步播出。