07:29

ginobefun@hongming731

今日早报：本地AI补齐工程栈、LongCat万亿模型落地国产算力、美图应用方法论

本地AI倡导者Ahmad Osman指出开源与闭源差距缩至4-8个月，但缺搜索、工具、Agent等基础设施。美团发布LongCat-2.0（1.6T参数/48B激活MoE，30T tokens预训练，原生1M上下文），五万卡国产算力集群训练，SWE-bench Pro 59.5领先Gemini 3.1 Pro等，预览版OpenRouter调用量前三。美图CEO吴欣鸿：2025年营收38.58亿元，净利润9.65亿元同比增64.7%，AI影像收入占比76.6%，海外MAU重回1亿。

智能体 Google 现象/趋势部署/工程

07:29

ginobefun@hongming731

BestBlogs 早报 · 07-02：LongCat-2.0 / 本地 AI / 美图 AI 方法论 / Google ADK 2.0 / Claude Fable 5

美团发布LongCat-2.0万亿MoE模型（总参1.6T、激活48B），在5万卡国产算力集群完成全流程训练，SWE-bench Pro得分59.5超GPT-5.5与Claude Opus 4.6，原生支持1M上下文，已跻身OpenRouter全球调用量前三。本地AI倡导者Ahmad Osman称开源与闭源前沿差距缩小至4-8个月，但缺少搜索、工具等完整栈。美图2025年营收38.58亿元、净利润9.65亿元（同比+64.7%），AI收入占比升至76.6%，新产品上线不超1个月、半年ARR达10万美元。Google ADK 2.0引入结构化工作流运行时，结合代码执行与LLM智能体解决可靠性问题。

ginobefun: http://x.com/i/article/2072460643744223232

编码行业动态

07:22

Chubby♨️@kimmonismus

Fable-5在Remote Labor Index（RLI）取得16.10%分数，领跑公开排行榜。RLI使用240个真实远程工作项目（覆盖23个领域、总价值超14万美元），评审将AI输出与人类交付物对比，判断合理客户是否接受。该成绩被称为"疯狂的跃升"，表明AI仍处于指数发展期。与此同时，传闻GPT-5.6将于下周发布，作者向OpenAI喊话并追问Gemini 3.5 Pro去向。

Chubby♨️: This is crazier than you might think: Fable-5 now scores 16.10% on the Remote Labor Index What is RLI? The Remote Labor ...

推理评测/基准

07:00

Ethan Mollick@emollick

自从它回归以来，这里是我几周前作为早期访问用户使用Fable后的印象（是的，它确实非常令人印象深刻，但在更长、更困难的任务中表现最佳）https://open.substack.com/pub/oneusefulthing/p/what-it-feels-like-to-work-with-mythos?r=i5f7&utm_medium=ios

大佬观点评测/基准

06:56

Peter Steinberger 🦞@steipete

没有AI我到底是怎么活过来的？ cc chefcook @theo

其他编码

06:42

Dwarkesh Patel：Podcast & Blog（RSS）

关于AI重大问题的获奖征文

Dwarkesh Patel举办的AI征文比赛评选出三位获奖者。第一名Jassi Pannu主张OpenAI基金会应投入数十亿美元终结空气传播疾病，利用AI加速自主生物学发现，可带来超1万亿美元年GDP增长并消除灾难性流行病风险。第二名Ege Erdil建议AI供应链外的国家通过强产权、低资本税和开放监管政策抓住增长机会。第三名Michael Li类比香港地铁商业模式，提出AI实验室可通过收购互补性资产盈利。

大佬观点现象/趋势

06:34

Rohan Paul@rohanpaul_ai

AI基础模型竞赛转向架构创新：Transformer vs 后Transformer

AI基础模型竞赛焦点从“谁有最大模型”转向“哪种架构能超越Transformer”。核心分界线是继续扩展Transformer还是转入后Transformer阵营。两大维度：范围（通用vs领域模型）和架构（Transformer vs后Transformer）。Transformer仍主导，但注意力机制随上下文增长成本激增，而实际产品需要长记忆、低延迟、持续交互。前沿实验室不再只问谁能训练最大模型，而是追问智能是否需要不同的运行节奏。这场架构之争将在未来2年定义行业格局。

数据/训练现象/趋势

06:26

Peter Steinberger 🦞@steipete

将 Codex 指向 OpenClaw iOS 应用的一些 Twitter 反馈后，它进行了一次初步改进。虽然还不够好，但就两个提示词而言还算不错。特别酷的是它如何使用 computer use 来添加前后对比截图，因为没有 GitHub API。 https://github.com/openclaw/openclaw/pull/98452

智能体教程/实践编码

06:07

elvis@omarsar0

我真的希望 GPT-5.5 在设计和规划方面多一些"品味"。在代码相关的其他方面，它是最好的模型。我希望 GPT-5.6 能缩小差距。那样的话感觉会更完整。目前，我切换到 Opus 4.8/GLM-5.2 来修复设计问题或进行规划。

Anthropic OpenAI 大佬观点编码

05:56

Peter Steinberger 🦞@steipete

要求 Codex 下载并转录 @aiDotEngineer 的所有会话，并根据我的兴趣进行定制。

教程/实践编码

05:34

MarkTechPost（RSS）

使用 Lift 将研究 PDF 转换为结构化 JSON：受控的、模式引导的字段级评估

Lift 是一个 PDF 到结构化数据的提取工具，本教程构建了完整的受控评估工作流。通过 4-bit NF4 量化，约 10B 参数模型可在 16 GB GPU（如 T4/L4）上运行。教程生成含干扰项的合成多页研究论文，测试模型在真实文档布局中恢复标题、作者、数据集、指标、超参数、局限性和仓库链接的能力，并输出结构化 JSON，实现模式引导的字段级评估。

开源生态教程/实践数据/训练

05:33

Artificial Analysis@ArtificialAnlys

Claude Sonnet 5在AA-Briefcase基准上仅次于Fable 5

Anthropic发布Claude Sonnet 5。在AA-Briefcase（智能体知识工作基准，测试模型处理数千文件并产出表格、演示和UI原型）上，Sonnet 5 (max)得1391 Elo，较Sonnet 4.6 (max)提升312分，排第二，仅次于Fable 5。提升来自rubric评分与分析质量，呈现仍落后Opus 4.8。max设置得分最高，但较低设置不处成本-性能帕累托前沿；Opus 4.8 (max)、GLM-5.2 (max)和MiniMax-M3在低努力下性价比更优。Sonnet 5成本较高，因turn数大增：max平均每任务183 turns（Sonnet 4.6 max的4倍多），medium平均55 turns，各设置成本跨度约17倍。

智能体 Anthropic 评测/基准

05:29

Ethan Mollick@emollick

Ethan Mollick指出，预分类路由（先判断任务难易再分配模型）看似节省成本/延迟，但实际路由很难，且易低估智能在诸多问题上的价值。OpenAI在GPT-5上已吸取此教训，如今这类思路再次流行。@MParakhin补充：要可靠运行预分类器必须先解决任务本身，唯一正确方式是采用顾问模型（advisory model）方法。

Mikhail Parakhin: I have this struggle with my own teams, too: many think it is a great idea to save money/latency/sanity by running a pre...

OpenAI 大佬观点推理

05:09

Hacker News 热门（buzzing.cc 中文翻译）

反帕兰提尔宣言

哲学家CEO Harry Halpin发表15条宣言，批判Palantir等公司将互联网监视技术用于国家暴力，形成科技法西斯主义。指出外部安全威胁驱动的监控最终会转向内部移民、异见者乃至全体民众；呼吁程序员承担全球道德责任，用去中心化代码保护隐私、对抗监控；反对全面自动战争与核战争，认为程序员应建设赋能个人自由的工具，而非为腐败统治者服务。

政策/监管现象/趋势

05:07

elvis@omarsar0

Tyler: If GPT-5.6 matches Fable 5 performance, but without the 50% limit + 7 days restriction, it's over for Anthropic

Anthropic OpenAI 大佬观点

04:59

Ethan Mollick@emollick

Ethan Mollick 指出预分类路由器（pre-classifying routers）会导致糟糕结果，因为路由本身很难，且常低估智能的价值。OpenAI 在 GPT-5 上已吃过亏，如今这类思路又热起来。引用的 @MParakhin 也认为，用预分类器先判断任务是否简单再调用小模型看似省钱省延迟，但可靠执行必须先解决任务本身，唯一可行的是 advisory model approach。

Mikhail Parakhin: I have this struggle with my own teams, too: many think it is a great idea to save money/latency/sanity by running a pre...

OpenAI 大佬观点推理

04:52

Chubby♨️@kimmonismus

Fable 5 回归。用户表示：原谅 Anthropic 糟糕的 Sonnet 5 发布，Fable 5 太有趣了。

Chubby♨️: FABLE 5 IS BACK

Anthropic 大佬观点

04:39

Hacker News 热门（buzzing.cc 中文翻译）

ZCode：来自GLM开发团队的Claude Code

一个浏览器五子棋游戏在 index.html、styles.css 和 app.js 中实现，渲染 15x15 棋盘，支持四个方向胜负判断并高亮连成五子的路径。AI 采用启发式评分，搜索附近候选点，综合进攻棋型、防守阻挡和中心区域偏好选择最优落子，同时提供可选的“AI 关注区域”覆盖层。

其他

04:37

elvis@omarsar0

作者预测Fable 5的兴奋感将迅速消退，并提醒用户注意token限制和功能局限。建议通过组合多个AI模型（如Opus 4.8用于规划、GPT-5.5用于执行）获得相同或更好效果，也可混合前沿开放权重模型。此外，将任务分解为更小子步骤以提升质量的方法常被低估，这正是动态工作流的重要性所在。

elvis: Same here. Happy with Opus 4.8 (planning) and GPT-5.5 (execution). Also, breaking steps into smaller ones for increasing...

Anthropic OpenAI 大佬观点推理

04:36

SemiAnalysis@SemiAnalysis_

SemiAnalysis：推理不断被切分，每次切分都让智能更便宜

SemiAnalysis 指出推理正被多轮“切分”以降低成本。第一步按阶段拆分：prefill 与 decode 用不同芯片；第二步按层拆分：attention 用 HBM 富裕的 GPU，前馈网络用 SRAM 基芯片；第三步按时间拆分：工作负载切片为执行窗口，在集群中交错调度。每次切分回收闲置利用率，从而降低每 token 成本。更便宜的 token 不会压缩需求，反而刺激增长——这是 MLSys 2026 的核心叙事。

推理现象/趋势部署/工程

04:35

Tomer Tunguz 博客（VC 分析）

精选60

构建AI智能体应优先设计路由

构建AI智能体时，应优先设计路由（router）而非选择模型。路由决定每个请求由哪层模型处理。正确路由可使70-80%流量运行在免费本地模型或异步推理上，将AI开销降低90%+。Brian Armstrong指出Coinbase通过更好的默认设置、路由和缓存，在token使用量增长的同时将AI支出减半。路由分三层：技能分类器、路由器、模型选择器。本地计算近乎零成本，异步批量推理比实时推理便宜两个数量级。大多数工作无需秒级返回。同步预测器标记复杂任务，夜间批量评估器更新路由权重。技能蒸馏后，非编码类任务中70-80%智能体流量可由本地模型处理。

大佬观点部署/工程

推荐理由：Tunguz 把代理架构的设计重心从模型选择拉回到路由上，三层分类器-路由器-选择器的划分很清晰，做 AI 应用的团队可以参考，但其中的新东西不多。

04:35

Nathan Lambert@natolambert

我在课程中陆续制作 Q&A 视频。这是下一期，涵盖 on-policy 蒸馏和奖励模型推导中的细微修正、做这类数学时常见的符号陷阱，以及更多深入资料（例如 @johnschulman2 的 KL 估计博客）。 Q&A 2 来了！ 00：00 推导修正 06：10 代码示例与额外资源 08：08 更多 RL 符号与注释继续在 YouTube、GitHub 和 Discord 上发送问题吧。我和 Phoebe 都很喜欢这些问题。

安全/对齐教程/实践数据/训练

04:34

宝玉@dotey

Seedance 2.0 4K做的短片，用的 CapCut Video Studio

教程/实践

04:29

Ethan Mollick@emollick

正式组织结构是思考智能体挑战的有用方式。它们为思考工作如何在聪明的昂贵的智能体与更便宜的弱智能体之间，以及在狭窄的专家与通才之间上下委派提供了模板。

智能体大佬观点

04:07

elvis@omarsar0

对这个被削弱且受限的Fable 5实在提不起兴趣。史上最令人困惑的AI发布之一。但我们继续前行。

Claude: Fable 5 is back.

Anthropic 大佬观点

04:03

Rohan Paul@rohanpaul_ai

Meta员工30天内消耗超60万亿模型token，单用户最高达2800亿，人均年token成本约5万美元。多数公司设月额度上限250-4000美元，重度用户数天用尽。编程工具贡献OpenAI和Anthropic超70%的ARR。Perplexity CEO指出，AI使用正转向重度用户：单个工程师年花费可达1000万美元于编码工具，Perplexity Computer用户月支出超1万美元，内部员工已建立多智能体循环架构。Agentic AI正从追逐海量普通用户转向服务少数高效能操作者。

Rohan Paul: Perplexity's CEO Aravind Srinivas is pointing to a quiet shift in AI use: the valuable user is no longer the average use...

智能体现象/趋势编码

03:59

Ethan Mollick@emollick

这里关于AI未来的讨论有时过于轻信公司愿景。人们往往推销自己所拥有的。三大AI实验室会说更大的模型是未来。其他所有公司只有小模型可卖，所以他们会告诉你小模型是未来。

大佬观点数据/训练

03:52

Chubby♨️@kimmonismus

Palantir CEO Alex Karp 表示，企业已受够那些"过度推销"模型并推动 tokenmaxxing 的 AI 实验室。客户希望拥有以 Palantir + NVIDIA 为核心的全栈 AI。绝对的经典。值得一看，直到 Fable 回来为止。

大佬观点现象/趋势

03:52

Chubby♨️@kimmonismus

Palantir CEO Alex Karp表示，企业已厌倦那些"过度推销"模型并推行tokenmaxxing的AI实验室。客户希望拥有以Palantir和NVIDIA为核心的完整AI堆栈。FABLE 5已回归。

Chubby♨️: Palantir CEO Alex Karp says enterprises are fed up with AI labs that "oversold" models and pushed tokenmaxxing. Customer...

大佬观点部署/工程

03:37

elvis@omarsar0

Anthropic宣布Claude Fable 5全球重新上线，但新增分类器拦截更多网络安全任务，短期内编码、调试等常规任务将回退到Opus 4.8。同时，Anthropic与Amazon、Microsoft、Google等Glasswing合作伙伴起草AI越狱严重性评估框架，并扩大与美国政府的模型测试与保障合作。DAIR.AI的Elvis Saravia对此评论称模型已被削弱，认为很多人会失望，建议社区重新思考如何组合使用前沿模型和开放模型。

Anthropic: Claude Fable 5 will be available again globally tomorrow. After a series of productive conversations with the US governm...

Anthropic 大佬观点安全/对齐

03:33

Rohan Paul@rohanpaul_ai

UBS：约60%大公司放缓AI支出，中国模型成本优势显著

UBS报告称约60%大公司正放缓AI支出，CFO和CTO聚焦账单上升与ROI不均，企业AI进入预算管控，任务被路由至更便宜模型。该趋势压力先给OpenAI和Anthropic。JP Morgan研究显示中国AI模型每token成本比美国低最多50倍，中国公司在OpenRouter平台流量从不足2%（2024年底）升至超45%（2026年4月）。arXiv研究证实美国芯片出口管制加速了中国开源AI生态发展。Google和Anthropic分别推出注重效率的Gemini 3.5 Flash和Claude Sonnet 5。

Rohan Paul: U.S. chip restrictions helped push China to build and spread open AI models. The authors tested this by looking at polic...

Anthropic OpenAI 开源生态现象/趋势

03:23

Lee Robinson@leerob

现在你可以在各种地方用 Cursor 进行 vibecode：采访 Dario、巴西世界杯比赛期间、在 Waymo 里、在 G7 特朗普和 Sam 旁边、在 YC Demo Day。真是哪儿都能用 Cursor 😂。

Ted | melea.ai: Places you can vibecode with @cursor_ai now: • interviewing Dario • during Brazil's World Cup game • in a Waymo • next t...

其他

02:59

Ethan Mollick@emollick

如果能有一份官方政府声明，说明他们在Fable中看到的风险、他们如何看待针对即将到来的开源Mythos级模型的防御准备，以及担忧的是国家行为体还是独立黑客等，那会很好。了解这一点很重要

安全/对齐政策/监管

01:59

Ethan Mollick@emollick

主推文强调必须针对实际用例做基准测试，因为决策层层叠加时模型差异会被放大，标准基准无法反映 Gemini 3.1 比 GPT-5.5 更不关心咖啡馆财务损失。引用案例：Andon Labs 的 AI 智能体用 Gemini 3.1 Pro 在斯德哥尔摩开咖啡馆，过度采购且易被欺骗，支出 $15k、收入仅 $9k，亏损 $6k，现已切换到 GPT-5.5。

Andon Labs: Gemini 3.1 Pro lost $6k running Andon Café. 2 months ago, our AI agent opened a café in Stockholm. It over-ordered and w...

智能体 Google OpenAI 现象/趋势

01:52

Chubby♨️@kimmonismus

Fable-5 在 Remote Labor Index 上达 16.10% 自动化率

Fable-5 在 Remote Labor Index（RLI）上取得 16.10% 的自动化率，较前代 Opus 4.6 的 4.2% 提升近 4 倍，且是第二名模型的两倍。RLI 使用 240 个来自专业自由职业者的真实远程工作项目，覆盖 23 个领域、超 14 万美元的人类工作，评审者将 AI 输出与人类参考对照，判断合理客户是否会接受。Fable-5 目前领先公共排行榜，作者称这一飞跃表明 AI 仍在指数级发展，甚至最难的基准也开始被攻克。

Center for AI Safety: New Remote Labor Index results: AI automation of real remote work is increasing fast. Claude Fable 5 now completes 16.1%...

Anthropic 评测/基准

01:39

Meta Engineering Blog（RSS）

精选71

Meta 大规模 AI 存储蓝图

Meta 运营数百 EB 级存储集群，基于 Tectonic 分层存储层构建 BLOB 存储架构，以应对两大挑战：最大化 GPU 利用率与研究迭代速度。传统 BLOB 架构的多层元数据查询可导致数百毫秒延迟，使 GPU 因 I/O 等待停顿。新架构将训练栈逐步迁移到 BLOB 存储接口上，利用闪存提供可预测的低 pMax 延迟，避免单 GPU 慢速拖慢整批任务。同时，统一的数据湖访问支持地理分布 GPU 间的数据高速注入与跨区移动，提升研究效率。

Meta 数据/训练现象/趋势部署/工程

推荐理由：Meta的存储架构复盘给出了一条明确路径，从重写元数据到分层缓存，他们把GPU利用率和研究者迭代速度同时提升了一个档次，做AI训练平台的值得细读。

01:22

Chubby♨️@kimmonismus

看到 Sonnet 5 昨天才发布，今天却完全没人讨论了，真让人难过。大家的观感普遍负面，性价比也糟糕透顶。 Fable 5 或许能帮 Anthropic 挽回形象。如果那个重新发布真的能来的话……

Anthropic 现象/趋势

01:21

AYi@AYi_AInotes

AI零成本副业：儿童动画月入$5000+，营销Agent Lev8找客户三项Benchmark领先

主推文介绍零成本AI副业：用AI做YouTube儿童早教动画。五步：搜童谣对标、AI改写脚本、Wan2.7或Pika生成动画、AI配儿童音色+背景音乐、标题标签SEO。日更1-2条，首月见收益，月入$5000-$10000。注意纯原创、专业儿童音色、遵守COPPA关闭个性化广告。另引用营销Agent Lev8，找海外客户场景：有效结果90个（Exa 58.2，Codex 20），匹配精度83.3%（Exa 76.5，Codex 71.8），单条成本$0.052（Exa $0.061）。Lev8聚合50+数据源和10亿+职场人脉，支持5个渠道发送定制破冰消息。

AYi: 真的有点兴奋,终于等来营销圈的 Codex 了,不管你是独立开发还是OPC一人公司,找客户扒联系方式写破冰信这些破事,直接给你干得明明白白! 甚至你用来做副业搞钱都是一个超级神器! 我们都知道,AI现在已经把写代码的门槛拉平了,Codex能...