And we are still waiting for Gemini 3.5 pro, which I actually expected at the end of June.

译我们还在等待Gemini 3.5 Pro，我原本预期六月底发布。

http://x.com/i/article/2072460643744223232 # BestBlogs 早报 · 07-02｜本地 AI 补齐工程栈，LongCat 万亿模型落地国产算力，美图讲 AI 应用方法论在线阅读本期早报 BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容，如果你希望它基于你的兴趣和阅读习惯整理，可以体验「我的早报」。 ## 导语今天的几篇精讲，恰好指向同一件事：AI 的竞争力正从模型本身，慢慢转移到「把它跑起来」的那一整套工程栈上。 Latent.Space 专访了长期倡导本地 AI 的 Ahmad Osman，他用一个朋友买 RTX 5090 跑 Qwen 3.5、却连显卡 RGB 灯光都改不了的例子说明——本地 AI 缺的从来不是模型，而是搜索、工具、Agent 这一层完整的基础设施。美团技术团队把 LongCat-2.0 这个万亿参数 MoE 模型在五万卡国产算力集群上的训练与推理全流程拆开来讲，从稳定性、正确性到效率，是一份少见的工程实录。美图 CEO 吴欣鸿则从应用层切入，讲一家 2000 人的公司如何用「自然生长」而非「提前策划」的方式，在影像赛道持续跑出 ARR 接近 50 万美元的 AI 产品。三篇文章放在一起，恰好覆盖了「基础设施—模型—应用」这条链路，读的时候建议连着看，对照着会更有感觉。其余几篇多是 Agent 工程与组织转型的实操：Google ADK 2.0、RAG 上下文工程、高德 GrowLoop、AWS 迁移 PaaS、人机交互设计原则，以及出门问问从「超级个体」到「超级组织」的转型。可挑感兴趣的看。 ## ★ 精讲一：Ahmad Osman 谈本地 AI 为何正在追赶对不太关注本地 AI 的读者，先补一句背景：Ahmad Osman 是 Osmantic 的创始人，过去几年一直在推动「把模型跑在自己的电脑、工作站或专用硬件上」这件事。在今年的 AI Engineer World's Fair（AIEWF）上，他办了两场关于本地 LLM 与工作站 Agent 的 workshop，场面爆满到不得不把人挡在门外——来的人既有还在挑第一台 AI 电脑的学生，也有认真考虑模型路由、私有基础设施和数据控制权的企业高管。他给 Latent.Space 的核心判断很直接：开源模型和闭源前沿模型之间的差距正在持续缩小，目前大约只落后 4 到 8 个月。这句话的分量在于，它来自一个长期被「本地跑不动、跑不好」印象压制的人——他自己也说，外界对本地 AI 的印象还停留在 2022 年，但「之后一切都大幅改善了」。访谈里最有意思的一段，是他讲一个朋友买了 RTX 5090 想在本地跑 Qwen 3.5，把 Claude Code 接到本地模型上，让它改显卡的 RGB 灯光，结果失败了；而用托管的 Claude Code 服务却成功了。原因不是模型笨，而是本地那一套没有接搜索——模型训练数据有截止日期，而需要的软件和文档早就变了。给本地系统接上搜索 endpoint 之后，任务就跑通了。他由此点出一个被广泛忽略的事实：ChatGPT、Claude Code 这类产品之所以好用，是因为模型外面还套着一整套搜索、工具、Agent 的基础设施。「It is not just one thing.」本地 AI 真正缺的，是这一层完整栈，而不是更大的参数量。这也解释了为什么他从企业主权算力和混合架构的角度，认为本地 AI 正在被认真当作基础设施——数据控制、模型路由、私有部署，这些诉求不是极客玩具，而是企业 IT 的刚需。他在另一个叫「Open Source AI Must Win」的网站上把这个立场说得更直白：「研究、构建、修复、部署、审计、适配、教学、保存和运行智能系统的能力，无需请求许可，这件事具有存在级别的重要性。」Workshop 的参与者构成也佐证了这一点——来的不只是硬件爱好者，还有考虑第一台 AI 电脑的学生，以及认真权衡私有基础设施和数据主权的企业高管。这种人群结构本身，就是本地 AI 正在从「极客玩具」滑向「企业基础设施」的一个信号。把这篇放在今天第一篇，是因为它给后面的 LongCat 和美图定了同一条坐标轴：模型本身正在商品化，真正拉开差距的是把它包起来的那一整套工程。Osman 谈的是「本地」这一侧的栈，美团谈的是「大规模训练」这一侧的栈，美图谈的则是「应用落地」这一侧的栈。读完这篇，再看后面两篇会有更强的对照感。如果你只对本地部署或开源生态感兴趣，这篇是今天的入口。详见 ## ★ 精讲二：美团 LongCat-2.0 正式发布：在国产算力集群上完成全流程训练与推理的万亿参数模型先说清楚 LongCat-2.0 是什么。它是美团 6 月 30 日正式发布、并对外开源的新一代大模型，定位是 Agentic Coding——也就是让模型在真实的代码理解、生成、执行任务里更高效、更稳定。几个关键数字：总参数 1.6T（万亿级），平均激活约 48B，动态范围 33B 到 56B 的 MoE 架构；预训练数据超过 30T tokens；原生支持 1M 超长上下文。官方口径里最重的一句，是它是「业界首个在五万卡国产算力集群上完成全流程训练与推理的万亿参数模型」。但这份发布稿真正值得读的，不是这些数字本身，而是美团技术团队把国产算力上跑万亿 MoE 的全链路工程难题，拆成了稳定性、正确性、效率三块讲。稳定性上，通过卡间通信异常处理、弹性扩缩卡和自动故障恢复，把月均日故障率降低了 70% 以上；正确性上，自研确定性算子、Bitwise 一致性验证和参数检测来保证训练可靠；效率上，通过流水线调度、显存优化和算子级控核，把训练 MFU 提升了 1.5 倍，最终稳态日吞吐超过 1T tokens/day。推理阶段则是模型、算子、框架协同优化，用大规模专家并行聚合访存带宽来支撑万亿参数的低延迟解码。架构设计上也有几个值得记一笔的细节。一是 LongCat Sparse Attention（LSA）稀疏注意力，把长文本处理的计算量从平方级压到线性级，让模型在 100 万 token 的上下文里仍能精准定位信息——官方说传统模型超过 100K 就开始「遗忘」。二是零计算专家加 ScMoE，让 token 级动态激活成为可能：简单的 token 不消耗算力，复杂的 token 自动拿到更多计算资源。三是 MOPD 多专家融合，把 Agent、Reasoning、Interaction 三组专家能力融进一个模型，推理时由门控网络按任务类型动态调度。评测成绩方面，在考察深层工程能力的 SWE-bench Pro 中拿到 59.5，领先 Gemini 3.1 Pro（54.2）、GPT-5.5（58.6）和 Claude Opus 4.6（57.3）；SWE-bench Multilingual 77.3，与 Claude Opus 4.6（77.8）同水位；Terminal-Bench 2.1 拿到 70.8。真实办公场景的复杂任务上也表现均衡：搜索智能体评测 RWSearch 78.8、生产力场景 FORTE 73.2、BrowseComp 79.9，都达到或接近前沿闭源模型水平，能较好契合企业级 Agent 的落地需求。发布前的预览版已经通过 OpenRouter 和 longcat.ai 面向全球开发者开放，目前跻身 OpenRouter 全球大模型调用量前三，在 Hermes、Claude Code 和 OpenClaw 的调用量分列全球第一、第二和第三。官方还放了几个内测期间的真实工作单：业务人员用自然语言查询数据，LongCat-2.0 搭的 AI SQL Agent 自动完成从理解意图、规划查询到把结果转成业务洞察的全链路闭环；给它一个旧版插件代码库和一份新版 SDK 文档，它能自行分析整体架构、梳理核心逻辑，把整个插件重构为符合新 API 的实现，编译一次通过；描述一个「儿童 AI 游戏训练场」的创意，它能从技术选型、页面架构、游戏逻辑到视觉细节一步步生成，首页加三个完整可玩的游戏页面全部一次产出。这些例子更像 demo，但它们说明了一件事：万亿参数模型在真实 Agentic Coding 任务里，已经能稳定交付端到端的结果。把这篇和精讲一对照看会更有意思：Ahmad Osman 讲的是开源模型正在追赶闭源前沿，LongCat-2.0 则是一份「追赶到什么程度」的实证——尤其在 Agentic Coding 这条赛道上，国产万亿模型已经能和闭源前沿在同一张榜上掰手腕。更特别的是，它是少数把国产算力、万亿 MoE、Agentic Coding 全链路讲透的工程实录，对关注训练基础设施的读者来说信息密度很高。如果你做模型选型或基础设施，这篇值得精读；如果只关心应用，看评测和 OpenRouter 调用量那段就够了。详见 ## ★ 精讲三：专访美图 CEO 吴欣鸿：做 AI 产品，是一场难以提前策划的游戏美图这家公司，很多读者的印象可能还停在「美图秀秀」那个修图工具上。但它在 AI 这一波里其实翻身翻得相当彻底：2025 年营收 38.58 亿元，净利润 9.65 亿元，同比增长 64.7%；经过 AI 重构的影像与设计产品，收入占比从一年前的 35% 提升到 76.6%，已经成了造血主力。海外 MAU 时隔多年重回 1 亿，AI 视频编辑工具 Wink 和影像创作 Agent RoboNeo 在东南亚、墨西哥、巴西等地频繁登顶 iOS 下载榜。《智能涌现》这篇专访，价值在于吴欣鸿把这家 2000 人公司怎么在应用层持续跑赢，讲得相当坦诚。他立了几条在外人看来近乎严苛的规矩。第一，新产品从立项、研发到市场验证和上线，时间控制在 1 个月内——理由是「这个时代，验证 PMF 的时间理论上越短越好，谁也不知道一个月后技术和市场怎么变」。第二，PMF 验证的标准是上线半年内 ARR 必须达到 10 万美元，这是基准线。第三，也是最反直觉的一条：拥有庞大用户基数的「美图秀秀」等老产品，禁止给新产品大力导流——目的是逼新产品靠自然生长证明自己。这套机制背后，是美图花了很长时间搭建的影像产品中台和增长中台，把技术工程、冷启动、投流等管线复用到不同产品上，RoboNeo 新上线的 Agent Teams 一个月就做完了。但访谈最耐读的部分，是吴欣鸿谈「热爱驱动」而非纯 PMF 驱动的那一面。2026 年美图影像节发布的 4 款 AI 新产品里，AI 人像修图工具 Picchi、影像工作流平台 MeituHub 是自下而上、从用户洞察「长」出来的；而 MV 生成工具 MVLAND 和概念视频创作工具 Artflo，则源自他个人的热爱和对「非共识」领域的押注。他自己说：「我希望美图的产品矩阵中，有我的自留地，让我去做喜欢的事。」结果反倒意外好——MVLAND 是最近一年所有新产品里跑得最好的，内测两三个月 ARR 就到 10 万美元，现在接近 50 万美元。他用这句话总结：「自下而上的产品生命力更强，因为它是自然生长出来的，不是强推的。」关于市场，他有一套「先发产品，再找市场」的方法论：做好各地的语言包就上线，等用户自己下载、给反馈，再慢慢画出热点图，找到产品和市场的契合点后去「浇水养护」。所以重点市场永远是中国，但巴西（2.1 亿人口、旺盛的社交分享需求）和非洲这种 Day 1 没规划的地方，反而是 RoboNeo、Airbrush 用户最多的市场之一。很多市场判断是后验的——感性判断可以先验，但产品与市场的契合点往往是「长出来之后去浇水」才看清的。很多东西不是策划出来的，而是自然长出来的——这是他对 AI 应用层最核心的判断。他也很坦率地谈了影像赛道为什么现在能变现。过去工具产品只能靠广告，广告模式变现效率不高，品牌广告还要组建专业团队服务客户，而且广告投放和用户体验本质上是相悖的。订阅模式普及之后，影像产品才开始出现真正的商业化效应——影像覆盖图像、视频、3D，生产力场景极丰富，但又非常分散，很难一家独大。所以他反复强调「我们现在就是在抢时间」。对一个 2000 人的公司来说，能在分散赛道里靠中台复用快速试错，本身就是一种护城河。把这篇放在精讲收尾，是因为它和前两篇形成了一个完整的链路：Osman 谈基础设施层的本地 AI 栈，LongCat 谈模型层的训练工程栈，美图谈应用层的方法论栈。三者放在一起，恰好回答了同一个问题——当模型本身逐渐拉平时，竞争力到底从哪里来。美图的答案是：从中台复用、快速验证、允许热爱试错的组织能力里来。如果你做产品或带团队，这篇比另外两篇更贴近你的日常。详见 ## 速览 Google ADK 2.0：把确定性代码执行和 LLM Agent 缝在一起的工作流运行时。 Google Developers Blog 这篇解释了为什么他们要重做 Agent Development Kit。核心痛点是：生产环境里的 Agent 会陷入死循环、因为幻觉绕过关键业务逻辑、或者失败时连干净的异常都不抛。根因是结构性的——让 LLM 去做路由、调度、错误处理这些传统代码本来就更擅长的事，既慢又贵还不稳定；反过来，要让传统工作流覆盖每一个边界情况又复杂到不切实际。ADK 2.0 引入了一个结构化工作流运行时和任务协作模型，把 Agent 的探索能力和确定性执行逻辑的可靠性缝在一起，开发者不必在灵活性和可预测性之间二选一。Python 版 3 月就上了，Go 版刚刚发布。如果你正在把 Agent 从原型推向生产，这篇是必读的工程参考。详见 RAG 的上下文工程：让每个组件输出类型化输入，汇聚成一次可审计的 LLM 调用。这篇来自 Towards Data Science，用一个「单文档 RAG」的窄场景，把「上下文工程」这件事讲得很清楚。它的立场是企业 RAG 是放大专家而不是替代专家，所以架构上分四块——文档解析、问题解析、检索、生成——每块都输出有类型的片段，最终汇聚到一次 LLM 调用上，带固定的 system prompt 和从上游拼装出来的 user content。文档解析产出关系表，问题解析产出有类型的 ParsedQuestion，检索产出一个过滤后的行子集外加「它为什么选这些行」的审计记录，生成产出一个带引用证据的 Pydantic 答案。作者还配了 GitHub 上可运行的 notebook。适合正在搭 RAG 管道、想让每一步可审计、成本可控的工程师读。详见高德 GrowLoop：把说不清的「感性对话标准」，变成能生长的理性 Benchmark。开放域对话的「真人感」评测是个公认的难题——标准难制定、难量化、难统一。高德团队指出三个根本难处：多个标注员独立打分的一致率只有 51.1%；很多判断是写不下来的隐性知识；而且标准会随 AI 能力和用户期待一起漂移。GrowLoop 的思路是用少量种子，加上一套 Rubrics 和题目相互生长的双循环协进化机制，把感性标准转化成可被自动化学习的理性 Benchmark。这套方法不仅适用于陪伴对话，也适用于艺术评价、教育评估、科研评审这种「没有标准答案」的场景。论文已发在 arXiv，代码逐步开源。做对话或评测的读者值得跟进。详见从 AWS 迁移到 PaaS：一个 7 人团队量化了基础设施的隐性成本。 freeCodeCamp 这篇是一个 7 人内部工具团队的复盘。他们在一次季度规划里第一次认真问了「我们到底有多少时间花在基础设施上，又有多少花在用户能用上的东西上」，翻完 sprint 历史、事故日志和日历后被自己吓到。他们的 AWS 环境其实不差——ECS 容器化、GitHub Actions 自动部署、CloudWatch 可观测、IAM 权限分环境——架构评审都挑不出毛病，但代价不在账单上，而在日历、在上下文切换、在「基础设施工作」悄悄挤掉真正 backlog 的那些时刻。最终他们用 3 周迁到 Sevalla 这个 PaaS，一个月内效果可量化：每周省下 10 小时工程师时间。这篇对小团队的技术负责人很有参考价值。详见人机交互设计的 39 条原则：把研究变成产品层面可用的东西。 UX Collective 这篇是一个综合框架，把人机交互、混合主动系统、自动化信任、负责任 AI 的研究，转化成了 39 条产品级可用的设计原则，按九个主题组织：概率基础、预期设定、校准信任、透明度、控制、优雅失败、共同创造、负责任自主、持续依赖。作者反复强调，AI 系统的核心交互问题不是「能不能做」，而是「同一输入会产生不同输出」这件事，传统 UI 规范根本没设计过。核心的设计提问是：怎么帮用户恰当地依赖 AI。做 AI 产品设计或前端交互的读者，这是一篇可以当 checklist 用的长文。详见出门问问李志飞：把超级个体的产能，转化成组织能力。腾讯研究院「AI 跃迁者调研」第五期，深度访谈出门问问创始人李志飞。2025 年端午节他一个人三天写出近 20 万行代码，做出「AI 版飞书」原型，然后发现公司完全跟不上，于是花近一年推组织转型：自研 CodeBanana 作为组织操作系统，用 Agent 替代中间管理层，让「任务在哪里，沟通就在哪里」。访谈里几个金句值得记：超级个体的价值被高估、超级组织的价值被低估；AI 产能无限但瓶颈全在人；打造超级组织要有「延迟满足感」。这篇和美图那篇放一起读，是两种风格迥异但都成立的组织方法论。详见得物 AI UITester：AI Native 的 UI 自动化测试新范式。得物技术团队这篇介绍了自研的 ai_uitester，一个 AI 原生的 UI 测试工具。它针对传统方案的三个痛点——用例迁移成本高（一个中等模块的描述性用例转化可能要数人天）、调试效率低（失败要人工看截图、对比页面、改脚本、重跑）、三端各写一套（iOS、Android、HarmonyOS 元素定位方式完全不同，UI 改版时三套脚本同步失效）——给出了三块能力：用例平台 JSON 通过一条自动化 Pipeline 加 LLM 增强，自动转化成带 App、Tap、Wait、Assertion、Swipe 步骤的可执行脚本；失败时由 AI 智能调试做根因诊断和用例自愈（带置信度机制，宁可漏点不可误点）；用 VLM 视觉驱动统一三端，底层驱动自动选择。文章还把它和 Appium/Selenium、Test.ai/Applitools 做了路线对比，说明为什么这是「范式转变」而非「工具升级」。做测试工程化的读者可以关注它的 Wiki 知识库闭环设计——它被 5 大场景复用，让工具越用越智能。详见 ## 补充阅读 - 掌握智能体技术：AI 智能体强化学习（NVIDIA Technical Blog）。一篇把强化学习应用到 AI Agent 的实践指南，重点讲 RLVR（可验证奖励）和 GRPO，给出从环境选择、奖励构建到训练验证的逐步工作流。适合想把领域成功标准转化成训练信号的读者。详见 - AI Agent 的 Skill 系统设计（大淘宝技术）。核心观点是把 Skill 当成「行为编程」而不是文档，通过 YAML+Markdown、DOT 流程图、检查表做结构化设计，再用门控、合理化防御、说服原则这些约束机制规范 Agent 行为。还讨论了有限上下文窗口下的 Token 经济策略和基于 TDD 理念的 Skill 测试方法。写 Agent skill 或 prompt 工程的读者会很有共鸣。详见 - Anthropic 重新部署 Claude Fable 5（Anthropic 官方）。在与美国政府一系列对话后，Claude Fable 5 全球重新部署，新增针对网络安全任务的分类器（分类器优化期间常规编码调试暂时回退到 Opus 4.8），并由亚马逊、微软、谷歌等 Glasswing 合作伙伴起草评估 AI 越狱严重性的框架。关注模型安全与治理的读者可以追一下原文。详见 ## 今日阅读路径如果你的时间有限，今天这三篇值得优先读： 1. 精讲一 Ahmad Osman 谈本地 AI——它用最少篇幅帮你重置对「本地 AI 缺什么」的认知，是理解今天其他几篇的坐标系。 1. 精讲三专访美图 CEO 吴欣鸿——如果你做产品或带团队，这篇的方法论（1 个月上线、半年 10 万美元 ARR、禁止老产品导流）最贴近日常决策。 1. 速览里的 Google ADK 2.0——如果你正在把 Agent 推向生产，这篇的「确定性执行 + LLM Agent」工作流运行时是最直接的工程参考。 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。

译本地AI倡导者Ahmad Osman指出开源与闭源差距缩至4-8个月，但缺搜索、工具、Agent等基础设施。美团发布LongCat-2.0（1.6T参数/48B激活MoE，30T tokens预训练，原生1M上下文），五万卡国产算力集群训练，SWE-bench Pro 59.5领先Gemini 3.1 Pro等，预览版OpenRouter调用量前三。美图CEO吴欣鸿：2025年营收38.58亿元，净利润9.65亿元同比增64.7%，AI影像收入占比76.6%，海外MAU重回1亿。

Google Gemini@GeminiApp · 1天前35

New ways you can use Gemini Spark to make your life easier. From integration in the Gemini app for macOS to smart triggers, here are five ways we’re making Gemini Spark an even more powerful personal AI agent to help you get things done around the clock.

译使用 Gemini Spark 的新方式，让您的生活更轻松。从 macOS 版 Gemini 应用中的集成到智能触发器，我们正在通过五种方式让 Gemini Spark 成为更强大的个人 AI 智能体，帮助您全天候完成任务。

Google Gemini@GeminiApp · 1天前63

New ways you can use Gemini Spark to make your life easier. From integration in the Gemini app for macOS to smart triggers, here are five ways we’re making Gemini Spark an even more powerful personal AI agent to help you get things done around the clock.

译你可以使用 Gemini Spark 的新方式来让生活更轻松。从 macOS 版 Gemini 应用中的集成到智能触发器，以下是我们让 Gemini Spark 成为更强大的个人 AI 智能体、帮助你全天候完成任务的五种方式。

Ethan Mollick@emollick · 1天前61

You really need to benchmark models for your use case. As soon as judgements & decisions stack on top of each other, the differences between models amplifies, and no standard benchmark will tell you that Gemini 3.1 is less worried about financial losses at a cafe than GPT-5.5

译主推文强调必须针对实际用例做基准测试，因为决策层层叠加时模型差异会被放大，标准基准无法反映 Gemini 3.1 比 GPT-5.5 更不关心咖啡馆财务损失。引用案例：Andon Labs 的 AI 智能体用 Gemini 3.1 Pro 在斯德哥尔摩开咖啡馆，过度采购且易被欺骗，支出 $15k、收入仅 $9k，亏损 $6k，现已切换到 GPT-5.5。

🚨 AI News | TestingCatalog@testingcatalog · 1天前37

GOOGLE 🔥: A new Gemini Flash checkpoint is being tested on LM Arena and may be released under a different version number. Gemini 3.6 Flash and even Gemini 4 Flash are among the possible options. Soon? 👀

译GOOGLE 🔥: 新的 Gemini Flash 检查点正在 LM Arena 上测试，可能会以不同的版本号发布。 Gemini 3.6 Flash 甚至 Gemini 4 Flash 都是可能的选项。很快？👀

Google AI@GoogleAI · 1天前55

As generative AI tools continue to evolve, we believe it's more important than ever to know what's AI-generated and what isn't. That’s why @GoogleDeepMind launched SynthID in 2023—a technology that adds a hidden digital watermark to AI content. Here’s a summary of SynthID’s journey and where the provenance technology (the documented history and origin of digital content) is today: — SynthID watermarking was originally built for images, but now supports video, audio, and text. — The technology has watermarked over 100 billion images and videos, alongside 60,000 years of audio. — You can now verify content with SynthID directly in Google Search, Gemini in Chrome, and the @GeminiApp, where it has been utilized over 50 million times. — We’ve also adopted C2PA Content Credentials across a growing number of our generative AI tools. This includes the images and videos created within the Gemini app. So now, in addition to the SynthID watermark, you can also see where an image or video originated and how it’s been altered. — We have open-sourced our text watermarking technology, and we are working with companies like @OpenAI, @NVIDIA, and @Apple to apply SynthID to generative media. Let us know what you think of the tool so far!

译Google DeepMind 2023 年推出 SynthID 数字水印，已覆盖图像、视频、音频和文本，累计标记超 1000 亿图像视频及 6 万年音频。用户可在 Google 搜索、Chrome 内 Gemini 及 Gemini App 验证内容，使用超 5000 万次。同时采用 C2PA Content Credentials 标准，可查内容来源与修改历史。已开源文本水印技术，并与 OpenAI、NVIDIA、Apple 等合作推广。

SemiAnalysis@SemiAnalysis_ · 1天前57

Google's next TPU, codenamed Humufish, is set to use Intel's EMIB-T instead of TSMC CoWoS. Nearly every leading AI training accelerator today is packaged on a TSMC 2.5D flow, and almost all of it is CoWoS. CoWoS is the industry default, which is exactly why a flagship part moving off it is worth attention. The core difference. CoWoS places all dies on a single large silicon/RDL interposer. EMIB embeds small silicon bridges directly in the organic substrate, only where die-to-die links are needed. (1/4)🧵

译Google 下一代 TPU（代号 Humufish）确认采用 Intel 的 EMIB-T 封装方案，而非行业默认的 TSMC CoWoS。目前几乎所有主流 AI 训练加速器都使用 TSMC 2.5D 流程，其中绝大部分是 CoWoS。CoWoS 技术将所有芯片放置在一块大型硅/重分布层（RDL）中介层上；而 Intel 的 EMIB 则仅在需要芯片间连接的位置嵌入小型硅桥，直接集成到有机基板中。这是旗舰级 AI 芯片首次脱离 CoWoS 生态，值得关注。

小互@xiaohu · 1天前23

再次双双命中🎯 🫡

译小互推文“再次双双命中”，引用其此前预测：Google今晚将发布新的🍌模型和低配版Omini模型，同时Anthropic的Claude Sonnet 5也将在今晚登场，而OpenAI暂无动静。

Berryxia.AI@berryxia · 1天前55

Google这次更新把图像生成和视频生成串成了一个极致高效的流程。他们推出了Nano Banana 2 Lite（超快超便宜的图像模型，4秒内出图）和Gemini Omni Flash（支持视频生成和对话式编辑的多模态模型）。单独看已经很快，但真正有意思的是把两者结合：先用Nano Banana快速生成图像，再直接扔给Omni Flash生成动画，整个链路成本大幅降低。演示里展示了一个室内设计场景：上传照片后快速生成多个方案，再直接动画化呈现。这种“图像→动态视频”的闭环速度和成本，在目前主流模型里算比较激进的。本质上Google在把创意工作流从“生成一次等半天”变成“快速迭代+即时可视化”。

译Google推出超快图像模型Nano Banana 2 Lite（4秒出图）与多模态模型Gemini Omni Flash（支持视频生成与对话式编辑）。两者结合可先快速生成图像再转为动画，大幅降低成本。演示中室内设计照片可快速生成多个方案并动画化，将创意工作流从等待变为快速迭代。

ginobefun@hongming731 · 1天前50

http://x.com/i/article/2072100123912687616 # BestBlogs 早报 · 07-01｜Sonnet 5 发布，谷歌补齐媒体模型，吴恩达画出智能体开发三循环在线阅读本期早报 BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容，如果你希望它基于你的兴趣和阅读习惯整理，可以体验「我的早报」。 ## 导语今天的三条精讲都围绕「让 agent 真正跑起来」这件事。 Anthropic 发布 Claude Sonnet 5，把此前只在 Opus 4.8 上才看得到的多步任务执行能力，下沉到更便宜的 Sonnet 档位，并给出 8 月底前的入门价。 Google DeepMind 同一天放出两款生成式媒体模型：Nano Banana 2 Lite 把文生图延迟压到约 4 秒、每千张图 0.034 美元，Gemini Omni Flash 则第一次面向开发者开放文本、图像、视频混合输入的视频生成与会话式编辑。吴恩达则在另一条线上给出方法论，他把智能体软件开发拆成三层循环，强调人类在上下文判断上仍有显著优势，人机协同不是可选项而是必选项。把这三条放在一起看，方向是一致的：底层模型在变便宜、媒体生成流水线更顺，与此同时「怎么用 agent 做事」的工程框架也更清晰。对做产品的人而言，这意味着可以挑自己最在意的那一段——成本、能力，还是组织方式——去细读，而不必每条都追。 ## ★ 精讲一：Claude Sonnet 5 发布对不太熟悉这条线的读者：Anthropic 的 Sonnet 系列一直是 agent 时代的「主力档」，从 Sonnet 3.5 开始，它在编程和工具调用上的表现就让很多开发者把它当作默认选择；但近几个月，最明显的 agent 能力跃升更多出现在更贵、更大的 Opus 系列上。Sonnet 5 要回答的问题是：这些能力能不能下放到一个更便宜的模型里。 Anthropic 的官方定位是「最具 agent 能力的 Sonnet」。它能规划任务、调用浏览器和终端工具，并自主执行多步流程；官方给出的对标是，整体性能已经接近 Opus 4.8，但价格更低，相比上一代 Sonnet 4.6 在推理、工具使用、编程和知识工作上都有显著提升。在 agent 搜索基准 BrowseComp 和计算机操作基准 OSWorld-Verified 上，Sonnet 5 相对 Sonnet 4.6 是「严格改进」，而 Opus 4.8 仍然是追求更高精度时的选择——也就是说，两者现在共同覆盖同一段性能区间，开发者可以通过调整 effort 等级在成本和精度之间找平衡。定价上，Sonnet 5 今天起对所有套餐开放：它是 Free 和 Pro 的默认模型，Max、Team、Enterprise 也可用，并已上线 Claude Code 和 Claude Platform。8 月 31 日前为入门价，每百万输入 token 2 美元、输出 10 美元，之后回到 3/15 美元；开发者可以通过 Claude API 用 claude-sonnet-5 调用。作为参照，Opus 4.8 的定价是输入 5 美元、输出 25 美元每百万 token——也就是说，在入门价窗口期，Sonnet 5 的输入单价大约只有 Opus 4.8 的 40%，这为那些原本因为成本不敢把 agent 放进主链路的团队，留出了一段可以认真试错的窗口。安全评估方面，Anthropic 称 Sonnet 5 在 agent 场景下的不当行为发生率整体低于 Sonnet 4.6，更难被恶意请求和 prompt injection 劫持，幻觉率和越狱抵抗也有改善；同时也指出它在网络安全任务上的能力明显低于当前的 Opus 模型，这是一种有意的克制。这件事的意义在于「价位的下沉」。过去一年，真正能端到端跑完一个多步任务的模型，往往落在 Opus 这一档，成本让很多团队只能小范围试用，或者在 demo 里惊艳一下，回到生产环境还是退回到更便宜但能力有限的方案。Sonnet 5 把这条线往下拉了一截，意味着更多产品可以把 agent 能力放进默认路径，而不是只在演示里跑。早期用户的反馈也指向同一个方向：它能完成一些过去会中途停下的任务。当然，「接近 Opus 4.8」并不等于「等于 Opus 4.8」——在追求最高精度的任务上 Opus 仍然是首选，而实际账单还要算上新令牌器带来的 token 量变化，这一点 Simon Willison 在补充阅读里有专门提醒。放在今天的三条里看，Sonnet 5 解决的是「大脑更便宜」，吴恩达讲的是「怎么组织这些大脑」，谷歌的两个媒体模型补的是「输出形态更丰富」——三条合起来，正好是一个 agent 产品从决策到执行到产出的完整链条。建议做 agent 实战、关注成本与能力平衡的开发者优先读官方发布，重点看 effort 等级和 BrowseComp / OSWorld 曲线，那决定了你的具体场景该选 Sonnet 5 还是继续用 Opus 4.8。详见 ## ★ 精讲二：开始使用 Nano Banana 2 Lite 和 Gemini Omni Flash 进行构建先交代背景：Nano Banana 是 Google DeepMind 的 Gemini 图像模型系列，已经迭代到第二代；这次发布同时带来了「Lite」版本和一个全新的视频模型 Omni Flash。两者面向的都是「要把生成式媒体塞进产品流水线」的团队，但侧重点不同——一个压成本，一个补能力。 Nano Banana 2 Lite（gemini-3.1-flash-lite-image）的定位是高吞吐、低延迟场景。官方给出的两个关键数字是：文生图延迟约 4 秒，每千张图 0.034 美元。它被推荐为旧版 Nano Banana（gemini-2.5-flash-image）的替代品，官方建议正在用旧版的开发者直接替换以获得速度和成本收益；在保持速度的同时，它仍然维持了提示词遵循、角色一致性和图内文字渲染的可靠性。今天起它在 Google AI Studio、Gemini API、Gemini Enterprise Agent Platform 可用，并陆续上线搜索的 AI Mode、Gemini app 等消费者产品。 Gemini Omni Flash 是另一个分量更重的更新：它第一次面向开发者开放。这是一个支持文本、图像、视频混合输入的视频生成与会话式编辑模型，定价为每秒视频输出 0.10 美元，与 Veo 3.1 Fast 持平，目前单次生成上限 10 秒。它强调的不是单次生成质量，而是「多轮迭代」——可以把多张参考图、一段已有视频和文字指令混在一起，做连续的会话式编辑。两个模型可以串联：用 Nano Banana 2 Lite 快速生成大量图，挑出满意的再交给 Omni Flash 做视频化，整个流程通过 Interactions API 可以保留最多三次连续编辑的会话上下文。为什么值得放在一起看：过去做多媒体生成的产品团队，往往卡在「要么快但贵，要么便宜但慢」的两难里，视频侧更是缺乏稳定的会话式编辑能力，常常只能靠多次重生成来逼近想要的效果，每一次迭代都重新计费。Nano Banana 2 Lite 把图像生成的单位成本压到一个可以放进批处理预算的区间，意味着生成「数量」本身不再是瓶颈；而 Omni Flash 把视频从「一次性产出」变成「可以来回改」的对象，意味着迭代成本被前置到了会话上下文里。合在一起，它们让「图—视频」的端到端流水线第一次具备了工程化的可能，而不只是停留在 demo 阶段。和今天另两条放在一起：如果说 Sonnet 5 让 agent 的「决策和执行」更便宜，吴恩达的三循环讲的是「怎么把这种执行组织成产品」，那么这两个媒体模型补的正是「agent 最后要产出的内容形态」——决策、组织、产出，三条合成一个完整的 agent 产品链路。对于做内容生成、营销自动化、产品 demo 流水线的工程和产品团队，建议重点看官方文档里 Nano Banana 家族的分工（Lite 求速度、Nano Banana 2 求均衡、Pro 求质量），以及 Omni Flash 的会话上下文上限（Interactions API 目前最多保留三次连续编辑）——这两点直接决定能不能接到你现有的工作流里，以及接入后能撑多大的并发量。需要说明的是，单次 10 秒的生成上限意味着它目前更适合短视频和素材片段场景，长视频仍需分段拼接。详见 ## ★ 精讲三：吴恩达：AI 智能体软件开发的三大核心循环这条不是新产品发布，而是一份方法论。吴恩达梳理了用 AI 智能体构建软件的框架，核心是三个层层嵌套的循环，对想理清「agent 时代工程师到底该做什么」的读者很有参考价值。第一个是智能体编程循环（agentic coding loop）：智能体自主编写、测试并迭代代码，它是三个循环里最内层、也最接近「自动写代码」这一层。第二个是开发者反馈循环（developer feedback loop）：人类不再逐行写代码，而是通过更高层的决策——定方向、定优先级、判断什么该保留——来引导智能体。第三个是外部反馈循环（external feedback loop）：通过用户测试和生产数据，反过来校正产品愿景本身是不是对。这套框架的关键判断在于：人类相对 AI 仍然保有显著的上下文优势。智能体可以在编程循环里跑得很快，但它对「为什么做这件事」「这个取舍对用户意味着什么」「这一版到底要不要上线」的理解，仍然要靠人来补。因此吴恩达强调人机协同必不可少——不是出于谨慎，而是因为上下文判断本身就是一种难以被模型直接习得的能力。他还指出一个值得工程师认真对待的趋势：编程智能体正在把工程师的角色向产品管理方向拓展——你写得少了，但你要判断得更多，要回答「什么值得做」「什么不值得保留」这类更高层的问题。为什么这条值得放进今天的精讲：当 Sonnet 5 让「能跑多步任务的模型」变便宜、谷歌让「产出形态」变丰富之后，下一个真正的问题不是「模型够不够强」，而是「团队怎么把这些能力组织成可持续的工程实践」。吴恩达的三循环给的就是这个层面的回答——它不解决具体的技术选型，不告诉你该用哪个模型或哪个框架，但它能帮你判断自己团队现在卡在哪一层循环里：是编程循环跑不顺，是开发者反馈没有结构化，还是外部反馈根本没回到产品上。三个循环里，往往只有最内层的编程循环被认真对待，而真正决定产品成败的，恰恰是外面两层被忽略的循环。建议正在引入编程智能体的团队负责人、以及开始感到「自己越来越像产品经理」的工程师认真读一读；它不能直接套用，但能作为一个对照框架，帮你检查自己日常工作里哪一层循环被忽略了。需要说明的是，这是一套经验性框架而非可复现的实验结论，具体到不同团队规模和业务类型时，三层循环的比重会有差异，还需结合自身情况调整。详见 ## 速览 AI+ Kuikly：7.5 小时落地三端「多模态聊天 App」实战 — 腾讯技术工程记录了一次真实实验：用开源跨端框架 Kuikly（基于 Kotlin Multiplatform，覆盖 Android、iOS、HarmonyOS、H5、小程序、Mac 六端）配合 AI 编程助手，仅凭 28 轮对话、740 字自然语言，生成约 3500 行代码，在 7.5 小时内零手写交付一套支持 Android、iOS、鸿蒙三端的多模态 AI 聊天 App，支持流式 Markdown、拍照识图、相册选取、SSE 长连接和本地会话管理。文章把这次实验和传统开发（约 30 人天）、纯 Kuikly 手写（约 7.5 人天）做了对照，强调 Skills 和 Rules 让 AI 始终处在正确的技术上下文里——Kuikly DSL 相对专有，通用大模型语料覆盖不足，靠 Skills 把框架知识喂给模型，是这种协同效率能够成立的基础，而不是「Vibe Coding」式的玄学叙事。对关注客户端 AI 协同效率的团队，是一份少见的「实弹日记」，附完整的一天时间线。详见谁在 ChatGPT 里买广告？｜对谈 Nexad COO Harry Zhou — 十字路口Crossing 访谈了率先吃 ChatGPT 广告螃蟹的 Nexad 联合创始人 Harry Zhou，覆盖中美几十家广告主半年的测试经验。一手数据值得看：广告卡片出现在免费用户和 Go 用户的回答下方，单独标注 sponsored；目前可投美、加、澳、新，日韩、巴西、墨西哥即将开放。CTR 大约在 1.5%–4%，CPC 多数 2–4 美元，CPM 从早期约 60 美元回落到 20 美元上下。浅层数据并不比 Google/Meta 漂亮，但 ChatGPT 来源用户的深层质量明显更高——一个 AI 视频产品的案例显示，ChatGPT 来源用户在连续生成、多次回访、点击 pricing、尝试导出无水印版本和购买额度等行为上的比例，大约能达到 Google/Meta 的两三倍。对话后半段还谈到 Context Hints 定向机制、Agentic Commerce，以及长程 Agent 退化等更前沿的问题，并整理成一份 31 页《ChatGPT 广告白皮书》。对做 AI 产品增长和市场投放的人，这份一手实践比任何二手分析都更实在。详见 Claude Science：面向科学家的 AI 工作台 — Anthropic 推出 Claude Science，定位为科学家的 AI 工作台。它把研究者常用的工具（PubMed、Jupyter、R、集群终端等）整合进单一环境，能原生展示蛋白质、分子结构，并在生成每一张图、每一段分析时附带可审计的代码与消息历史，便于验证和复现；agent 在一次会话里常驻上下文，大规模数据集只需加载一次。它可以跑在本地 macOS/Linux，也可以通过 SSH 或 HPC 登录节点跑在远端，使大型或敏感数据集不必离开实验室基础设施；早期用户案例显示研究流程有显著加速。这是 Anthropic 去年秋天启动生命科学方向以来最大的一次扩张，对做生命科学、计算研究的团队，这是一条值得关注的「研究流程加速」路径，而不是又一个通用聊天界面。详见 SkillOpt 将 AI 智能体技能转化为可训练资产 — 微软研究院提出 SkillOpt：把 agent 的「技能文件」（skill 文件）当作冻结模型之外的可训练参数，从而把「改 prompt」从一次性试错变成一个受控的优化过程。优化器模型提出小幅增删改编辑，候选项经过合并、去重、排序，再由一个文本学习率（每步编辑预算）裁剪，最后必须通过严格的验证门控才会被采纳。它在 6 个基准、7 个目标模型、3 种执行模式下，在全部 52 个评测单元里都是最佳或并列最佳，且无需更新模型权重；通过受限文本编辑、验证门控和被拒编辑反馈，避免不受控的 prompt 漂移，优化后的技能还能跨模型规模、agent harness 和相关任务迁移，说明它捕获的是可复用的工作流知识而非针对基准的指令。对关注 agent 可靠性和可复用性的工程师，这是一个把「调 prompt」工程化的具体方案。详见给野马套上缰绳：Agent Harness 工程实践 — 阿里云开发者系统阐述 Agent Harness Engineering（驾驭工程）范式，并辅以钉钉悟空 AI 招聘的真实落地案例。文章提出「Agent = Model + Harness」，强调瓶颈往往不在模型够不够聪明，而在有没有把它「装」好——每当你发现 Agent 犯了一个错，就花时间工程化一个解，让它将来不再犯同样的错。核心是四条反直觉铁律（上下文要少、Agent 要专、状态要落盘、约束要可执行）和六大工程模式，它们大多和工程师的本能相反，而这正是它们值钱的原因。案例侧实证了专才 Agent 架构在准确率、可调性与可复用性上显著优于一个试图包揽一切的全能 Agent。对正在被 Agent 折磨又离不开它的开发者，这篇文章给的是「把环境设计好」的具体抓手，而不是又一篇概念科普。详见 LongCat 开源 VitaBench 2.0：长期动态智能体基准新标杆 — 美团 LongCat 团队开源 VitaBench 2.0，定位为首个面向「长期动态用户建模」的智能体评测基准，关注的不只是「单次任务能不能完成」，而是「智能体是否在持续理解一个动态变化的人」。它包含 56 名拟真用户、819 个复杂任务、超 2000 个动态偏好和 66 个可执行工具，平均每位用户的交互时间跨度长达 1580 天（约 4.3 年），最长接近 2974 天，严格按时间线向 agent 暴露，用以评测模型在长期、真实、动态互动中的个性化与主动性；偏好会随时间和事件动态演变，平均每个用户发生超过 48 次变化。几个有意思的洞察：时间维度的遗忘、高智商不等于高情商、AI 普遍缺乏主动沟通。对做个性化 agent 和记忆策略的研究与工程团队，这是一个值得纳入评测循环的新基准。详见生成式 AI 机器人：何处上岗，如何站岗 — 哈佛商业评论基于过去 18 个月对欧洲、亚洲、北美 14 家机构的实地走访，系统分析生成式 AI 机器人在服务行业的应用价值、风险与部署步骤。文章以 Waymo（一支 2500 辆无人驾驶车队、累计完成超 2000 万次行程、能在 105 公里时速下并线避让违停货车）为切入，指出新一轮机器人的关键变化在于由大语言模型和大行为模型驱动，能在多轮对话中保持逻辑连贯、澄清模糊、解释复杂概念，不再局限于高度脚本化的狭窄任务——例如在全美 30 个儿科病房和养老院提供情感支持的机器人 Robin，能接受护士口头指令自主移动。文章同时也坦率讨论了持续存在的障碍：前期成本高（71% 公司列为挑战）、缺乏自动化经验（61%）、维护可靠性和客户接受度，许多试点仍停滞在「精密移动售货机」阶段。对考虑在餐饮、酒店、医疗、零售部署实体服务机器人的管理者，这是一份可操作的策略框架，而不是又一篇「机器人将改变一切」的宣言。详见 ## 补充阅读 - 万字长文推演 Claude 的代码统治力从何而来（腾讯云开发者）— 结合 Anthropic 公开论文与技术逻辑，推演 Claude 代码能力的来源：代码是构造自动化奖励信号最容易的场景，而 Claude 的产品形态恰好能收集到最精准的用户偏好反馈，两者结合形成 Constitutional AI 约束下的可验证奖励 RL，叠加产品端数据飞轮，共同构成一套自我加速的进化引擎。适合想理解「为什么是 Claude 在代码上领先」背后系统工程逻辑的读者，文中标注了「待验证」的推断部分。详见 - Claude Sonnet 5 发布：迄今最具智能体能力的 Sonnet 模型（Claude 官方）— Anthropic 官方账号的发布通告，可作为精讲一的官方视角补充，附有宣传视频。详见 - Claude Sonnet 5 的新功能（Simon Willison's Weblog）— Simon Willison 习惯直奔开发者文档，他注意到一个容易被营销文案盖过的细节：新令牌器让英文文本的实际 token 量上涨约 30%，这意味着名义价格之外还有一个隐性的成本变化。适合关心实际账单的开发者细读。详见 - 核心转储流行病学：修复一个存在 18 年的 Bug（OpenAI News）— OpenAI 工程师把 Rockset 数据基础设施（支撑 ChatGPT 数据插件和会话搜索）里的一组神秘崩溃当作流行病学问题来调试：一种崩溃在多个集群和地理区域零散出现，另一种却集中在一个区域，作者据此区分了两类完全不同的故障模式，最终定位到 GNU libunwind 中一个存在 18 年的竞态条件。适合喜欢底层调试、C++ 内存安全和基础设施故事的工程师，是一篇少见的「严肃排障」叙事，而不是又一篇产品发布。详见 - 从编码智能体驱动智能体质量飞轮（Google Developers Blog）— 介绍一项可在编码智能体里运行的技能，通过 AutoRaters、自定义评分标准和结构化五阶段循环，把「改 prompt」和「跑评估」连成一个可复现的质量飞轮，回答「我这次改动到底让产品变好还是变坏了」的问题。和吴恩达的三循环、SkillOpt 放在一起读，会形成一组关于「agent 质量工程」的互补视角。详见 ## 今日阅读路径如果你今天时间有限，建议按这个顺序读：先看 Claude Sonnet 5 发布，它直接决定了你接下来的 agent 成本结构，重点看 effort 等级和 BrowseComp / OSWorld 曲线；再看吴恩达：AI 智能体软件开发的三大核心循环，它帮你判断团队卡在哪一层循环，是从「能用」走向「可持续」的框架；最后看开始使用 Nano Banana 2 Lite 和 Gemini Omni Flash 进行构建，如果你手里有内容生成或多媒体流水线，它会改变你对单位成本和会话式编辑可行性的判断。三条读完，你对今天「agent 能力—组织方式—产出形态」这条主线就有了一个完整的认识。 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。

译Anthropic发布Claude Sonnet 5，定位最具agent能力的Sonnet，性能接近Opus 4.8，8月31日前入门价每百万输入token $2、输出$10。Google DeepMind推出Nano Banana 2 Lite（文生图延迟约4秒，每千张$0.034）和Gemini Omni Flash（多模态视频生成与会话式编辑，每秒$0.10，单次上限10秒）。吴恩达提出智能体开发三大核心循环：智能体编程循环、开发者反馈循环、外部反馈循环，强调人类在上下文判断上的优势。三条更新均围绕降低agent落地成本、完善媒体生成流水线及工程框架。

🚨 AI News | TestingCatalog@testingcatalog · 2天前48

GOOGLE 🔥: NotebookLM now has an option to generate 60-second vertical Shorts via Video Overviews! The feature is now rolling out to Pro and Ultra subscribers on web and mobile. Free users will get it later as well. ShortsLM? 👀

译Google NotebookLM 新增 Short Video Overviews 功能，可将复杂资料自动转化为 60 秒竖版短视频（类似 Shorts），用于教育等场景的深度讲解。该功能正在向 Google AI Ultra 和 Pro 订阅用户推送（网页端和移动端），免费用户后续也会获得。

NotebookLM@NotebookLM · 2天前68

There seems to be a *lot* of discourse about our new Short Video Overviews. Want to join in on the fun? Short VOs have officially rolled out to ALL users on Web in English. Share your examples below! Here's one of our faves about this year's World Cup ⚽️:

译NotebookLM 正式向 Web 英文用户全量推出 Short Video Overviews（短视频概览）功能。该功能可将复杂资料自动转化为 60 秒竖屏视频，深入讲解任意概念。此前，这一功能已面向 Google AI Ultra 和 Pro 订阅者（移动端及 Web）推出，免费用户即将可用。

Runway@runwayml · 2天前49

Generate and edit video with Gemini Omni Flash, now in Runway. Start with a prompt, image or video and create anything you can imagine. Get started at the link below or ask Agent to use Omni.

译使用 Gemini Omni Flash 生成和编辑视频，现在已在 Runway 中上线。从提示词、图片或视频开始，创建你能想象到的任何内容。点击下方链接开始使用，或让 Agent 调用 Omni。

Logan Kilpatrick@OfficialLoganK · 2天前32

A conversation with @ssamat (President of Android) on how AI frees us from micromanaging our devices, why leading with what the technology does for real people is so key for Android, how the operating system evolves into an intelligence system, and much more!

译与 @ssamat（Android 总裁）的对话：AI 如何让我们摆脱对设备的微观管理，为什么以技术对真实用户的帮助来引领对 Android 至关重要，操作系统如何演变为智能系统，以及更多！

AYi@AYi_AInotes · 2天前62

卧槽，Google这回不拉胯了，这才是短视频真正该有的打开方式啊， NotebookLM可以把复杂资料直接做成六十秒竖屏概览，刷信息流的功夫就能啃完一个硬核概念了🤯

Rohan Paul@rohanpaul_ai · 2天前72

Google released Nano Banana 2 Lite, a 4-second image model, alongside Gemini Omni Flash. Image generation usually breaks creative work because every trial costs time, money, and attention. The lighter image model lowers that friction with 4-second outputs at $0.034 per 1K-resolution image. Chaining both models is the real product shape, not either model alone. Nano Banana 2 Lite makes reference images, then Gemini Omni Flash animates them. Google positions it as the replacement for gemini-2.5-flash-image across high-volume developer pipelines. Users still need prompt adherence, stable characters, and readable text during fast visual testing. Gemini Omni Flash extends the workflow from image drafts to editable 10-second video outputs. It accepts text, image, and video inputs, then edits clips through conversation. Pricing: $0.10 per second of video output, matching Veo 3.1 Fast. Gemini Omni Flash currently generates 10-second clips and lacks API audio reference support. Google says the API accepts video references up to 3 seconds, but Gemini Omni Flash does not process them correctly yet.” Interactions API keeps session context, so users can stack 3 sequential edits.

译Google推出快速图像模型Nano Banana 2 Lite（4秒生成，$0.034/1K分辨率图像）以及视频编辑模型Gemini Omni Flash（输出10秒片段，$0.10/秒，支持文本/图像/视频输入和对话式剪辑）。两者可链式使用：Nano生成参考图，Omni将其动画化，逐步替代gemini-2.5-flash-image。当前Omni Flash API不支持音频参考，视频参考最多3秒但未正确生效；Interactions API保留会话上下文，支持连续3次编辑。

fofr@fofrAI · 2天前73

You can bootstrap your agent quickly with the Omni API using the skill we published: https://github.com/google-gemini/gemini-skills It includes: - video editing - text to video - video generation with image references - first frame to video But it also has some helper tools for: - prepping input videos for editing (10s, 720p) - audio stripping if you want to generate new audio - video inspection

译Google 通过 Gemini Omni API 发布 gemini-skills 技能包，支持视频编辑、文生视频、图片参考视频生成、首帧生成视频，并提供预处理输入视频为 10 秒 720p、音频剥离、视频检查等辅助工具。同作者展示 Omni Flash 模型编辑能力：输入“将桌子改成浅水池”，模型输出湿手、水波、折射、阴影及音效。该 API 已开放，可用于构建视频编辑流水线。

fofr@fofrAI · 2天前32

> Change the table to be underwater sand

译Omni Flash 模型具有出色的图像编辑能力，能够将桌子变为浅水池，并逼真呈现手部湿润、水波、折射、阴影和音效。该模型现已通过 API 提供，其编辑能力非常适合实现炫酷的流水线。

elvis@omarsar0 · 2天前45

Love how Google continues to drive down the cost of building with their models. <4s image and $0.034 / 1K image. Wow! We have a bunch of stuff (education & research) we're building @dair_ai using Nano Banana and Gemini. Testing out Nano Banana 2 Lite and sharing more soon.

译Elvis Saravia 称赞谷歌持续降低模型使用成本。谷歌在 Gemini API 和 AI Studio 中推出两款新模型：Nano Banana 2 Lite 图像生成速度低于 4 秒，价格仅 $0.034/千张；Gemini Omni Flash 在视频编辑上达到 SOTA，价格为 $0.10/秒，与 Veo 3.1 Fast 一致。Saravia 透露 DAIR.AI 正使用 Nano Banana 和 Gemini 构建教育研究项目，并已开始测试 Nano Banana 2 Lite。

Logan Kilpatrick@OfficialLoganK · 2天前78

Introducing Nano Banana 2 Lite 🍌 and Gemini Omni Flash 🔮, our new generative media models in the Gemini API and AI Studio! Nano Banana 2 Lite is extremely fast (<4s image) & cheap ($0.034 / 1K image). Omni Flash is SOTA at video editing at $0.10 / sec, same as Veo 3.1 Fast!

译推出 Nano Banana 2 Lite 🍌 和 Gemini Omni Flash 🔮，我们在 Gemini API 和 AI Studio 中新的生成媒体模型！ Nano Banana 2 Lite 极快（图像 <4 秒）且便宜（$0.034 / 1K 图像）。 Omni Flash 在视频编辑上达到 SOTA，$0.10 / 秒，与 Veo 3.1 Fast 相同！

🚨 AI News | TestingCatalog@testingcatalog · 2天前62

GOOGLE 🔥: Besides Nano Banana 2 Lite, Google also announced Gemini Omni Flash Preview on APIs and Google AI Studio! > Omni Flash is SOTA at video editing at $0.10 / sec, same as Veo 3.1 Fast! Flashes everywhere ⚡

译Google 在 Gemini API 和 AI Studio 推出两款新生成式媒体模型：Nano Banana 2 Lite 图像生成极快（<4秒/张），价格仅 $0.034/千张；Gemini Omni Flash Preview 在视频编辑上达到 SOTA，定价 $0.10/秒，与 Veo 3.1 Fast 相同。Omni Flash 现已提供 API 预览。

Google AI Developers@googleaidevs · 2天前61

We’re launching Nano Banana 2 Lite, our fastest most cost-efficient Gemini Image model yet, optimized for high-throughput developer pipelines. Alongside it, Gemini Omni Flash, our video generation and editing model is now available to developers. Both models are accessible today via @GoogleAIStudio and the Gemini API to help you scale your workflows 👇

译我们发布了 Nano Banana 2 Lite，这是我们最快、最具成本效益的 Gemini 图像模型，专为高吞吐量开发者流水线优化。同时，我们的视频生成与编辑模型 Gemini Omni Flash 现已向开发者提供。这两个模型即日起可通过 @GoogleAIStudio 和 Gemini API 访问，助你扩展工作流程👇

Google DeepMind@GoogleDeepMind · 2天前66

We’re shipping 2 major releases:  🔘 Nano Banana 2 Lite: our fastest and cheapest Gemini Image model 🔘 Gemini Omni Flash: now available via the Gemini API and in @GoogleAIStudio to help developers generate and edit high-quality videos.

译我们正在推出两个主要版本： 🔘 Nano Banana 2 Lite：我们最快、最便宜的 Gemini 图像模型 🔘 Gemini Omni Flash：现可通过 Gemini API 和 @GoogleAIStudio 使用，帮助开发者生成和编辑高质量视频。

Google AI@GoogleAI · 2天前74

We’re shipping two major updates to streamline your creative workflow, allowing you to generate high-speed images with one model and then instantly animate them with the other—all at a fraction of the cost 🍌⚡️ 1️⃣ Introducing Nano Banana 2 Lite: Our fastest and most cost-efficient Gemini Image model yet delivers text-to-image outputs in under 4 seconds. Now available via the Gemini API and Google AI Studio, and rolling out soon across @NotebookLM, @FlowbyGoogle, @geminiapp, @stitchbygoogle, Google Search and @GooglePhotos. 2️⃣ Gemini Omni Flash in Public Preview: Our natively multimodal model for cost-efficient video generation and conversational editing. Now available via the Gemini API, @googleaistudio, and Gemini Enterprise Agent Platform so you can integrate the model into your workflow. While exciting on their own, the real magic happens when you build using these models together. Watch how our interior design demo integrates Nano Banana 2 Lite and Omni to instantly reimagine any space. Upload a photo, swipe through tailored design concepts, and see Omni bring the details to life in cinematic motion. Try out the demo app in AI Studio: http://goo.gle/443xPqw

译Google AI 推出两大模型更新：1）Nano Banana 2 Lite——最快、最经济的 Gemini 图像模型，文本生成图像不到 4 秒，已上线 Gemini API 和 AI Studio，即将登陆 NotebookLM、Google 搜索、Google Photos 等；2）Gemini Omni Flash 进入公开预览——原生多模态模型，支持低成本视频生成与对话式编辑，可通过 Gemini API、AI Studio 及 Gemini Enterprise Agent Platform 集成。两模型结合可快速实现空间设计重绘：上传照片、滑动选择设计方案，Omni 将细节以电影级动画呈现。演示应用已在 AI Studio 上架。

NotebookLM@NotebookLM · 2天前60

Doom scrolling but make it educational 🤓 Introducing Short Video Overviews in NotebookLM! Turn your most complex sources into 60-second, vertical videos that deep dive into any concept. Rolling out now to Google AI Ultra and Pro subscribers on mobile & web (free users soon!)

译Doom scrolling but make it educational 🤓 介绍 NotebookLM 中的短视频概览功能！将你最复杂的信息源转化为60秒的竖屏视频，深入探讨任何概念。现已面向移动端和网页端的 Google AI Ultra 和 Pro 订阅用户推出（免费用户即将支持！）

fofr@fofrAI · 2天前70

Gemini Omni Flash and Nano Banana 2 Lite now available in the API 🔥 Nano Banana 2 Lite is the fastest banana, images in ~4s, $0.034 per image (`gemini-3.1-flash-lite-image`) Omni api docs: https://ai.google.dev/gemini-api/docs/omni

译Gemini Omni Flash 和 Nano Banana 2 Lite 现已在 API 中可用 🔥 Nano Banana 2 Lite 是最快的 banana，图像约 4 秒生成，每张 $0.034（`gemini-3.1-flash-lite-image`） Omni API 文档： https://ai.google.dev/gemini-api/docs/omni

🚨 AI News | TestingCatalog@testingcatalog · 2天前61

GOOGLE 🔥: gemini-3.1-flash-lite-image (Nano Banana 2 Lite) is now available on Google AI Studio! > Our smallest and most cost-effective image generation and editing model, built for at-scale usage. > Image Input: $0.25 / Output: $0.0336. Tiny banana 🍌

译Google 在 AI Studio 发布 Gemini 3.1 Flash Lite Image（内部代号 Nano Banana 2 Lite），定位最小、最经济的图像生成与编辑模型，适合大规模使用。输入价格 $0.25，输出价格 $0.0336。该模型此前曾以“超快、高性价比图像生成”之名预告，同期预告的还有支持对话式逐步视频编辑的 Gemini Omni Flash。

🚨 AI News | TestingCatalog@testingcatalog · 2天前73

GOOGLE 🔥: Nano Banana 2 Lite is already used on Gemini if you select the Flash Lite option from the dropdown. h/t @BartokGabi17

译GOOGLE 🔥: 如果你从下拉菜单中选择 Flash Lite 选项，Nano Banana 2 Lite 已在 Gemini 中使用。 h/t @BartokGabi17

小互@xiaohu · 2天前42

Google 今晚将会发布新的🍌模型和低配版的 Omini 模型另外根据情报显示：Claude Sonnet 5 也将会在今晚登场 OpenAI 还没动静...

🚨 AI News | TestingCatalog@testingcatalog · 2天前33

GOOGLE 🔥: A new Nano Banana 2 Lite image generation model is on the horizon! > "Introducing Nano Banana 2 Lite for ultra-fast, cost-efficient image generation, and Gemini Omni Flash for powerful video creation with conversational, step-by-step editing"

译GOOGLE 🔥：一款新的 Nano Banana 2 Lite 图像生成模型即将到来！ > “推出 Nano Banana 2 Lite，用于超快、高性价比的图像生成，以及 Gemini Omni Flash，用于通过对话式、逐步编辑进行强大的视频创作”

fofr@fofrAI · 2天前22

First day in the new Google DeepMind London office 🎉

译第一天在崭新的Google DeepMind伦敦办公室 🎉

Rohan Paul@rohanpaul_ai · 3天前65

Big new paper release of Google for external agentic verification for science. Science now needs AI review agents because AI is making papers faster than humans can check them. The problem is that AI can help produce more research, but the slow part is still checking whether the work is actually correct. The paper frames this as verification debt, where every faster research workflow creates more claims, proofs, experiments, and comparisons that someone still has to inspect. Its main proposal is agentic verification, where AI agents help review papers by splitting them into parts, checking difficult sections deeply, and combining the findings into a review. Google’s Paper Assistant Tool is the example system, and it focuses on objective checks like proof errors, experimental gaps, missing comparisons, and unclear claims rather than final accept or reject decisions. The authors tested it on known math and computer science paper errors and in author-facing pilots at STOC and ICML, where authors used it before submission. The striking result is that Paper Assistant Tool found far more known proof errors than a single model call, and many authors said it led them to fix serious theory gaps or run new experiments. The big deal is that scientific review may need its own AI stack, with review agents, clear roles, and human oversight, because paper generation is becoming partly automated too. ---- Link – arxiv. org/abs/2606.28277 Title: "Towards Automating Scientific Review with Google's Paper Assistant Tool"

译Google 新论文提出“验证债务”概念：AI 加快论文产出，但人工核查成为瓶颈。为此推出智能体验证（agentic verification）方案，并开发 Paper Assistant Tool 原型系统。该系统将论文拆解为多个部分，深入检查难点并汇总审稿意见，聚焦证明错误、实验漏洞、缺失对比等客观错误，而非直接给出接收/拒稿决策。在数学与计算机科学已知错误测试中，该工具比单次模型调用发现更多证明错误；在 STOC 和 ICML 的面向作者试点中，许多作者据此修复了严重理论缺陷或补充了实验。论文指出科学审稿可能需要独立 AI 栈以应对日益自动化的论文生成。

Artificial Analysis@ArtificialAnlys · 3天前30

Join us tonight in San Francisco for our Intelligence Index event, featuring speakers from Artificial Analysis, Google, NVIDIA, and MiniMax. We’re covering AI model evaluation, frontier performance, and our latest benchmarks: the Artificial Analysis Intelligence Index v4.1 and AA-Briefcase. Limited spots remaining: https://luma.com/qdl9mr2e

译今晚加入我们在旧金山的Intelligence Index活动，演讲嘉宾来自Artificial Analysis、Google、NVIDIA和MiniMax。我们将探讨AI模型评估、前沿性能，以及我们最新的基准测试：Artificial Analysis Intelligence Index v4.1和AA-Briefcase。剩余名额有限：https://luma.com/qdl9mr2e

Google Gemini@GeminiApp · 3天前54

More users in the U.S. can now create personalized images for free. By choosing to connect your Google apps to Gemini in settings, Gemini is able to better understand your preferences, so it can automatically fill in the blanks and ground image creation in the things you care about most. You can choose to connect or disconnect your Google apps at any time, so you’re in control. Try it out today and share what you create in the replies 👇

译Gemini 宣布更多美国用户可免费创建个性化图像。用户通过设置连接 Google 应用后，Gemini 的“Personal Intelligence”功能可理解用户偏好，自动填充空白，基于用户关心的内容生成图像。用户可随时连接或断开 Google 应用，完全掌控隐私。

🚨 AI News | TestingCatalog@testingcatalog · 3天前43

Google is working on Inbox for Gemini Enterprise. The new section on the sidebar will contain three categories: Needs review, In progress, and Done. This feature will likely help users reach Inbox 0 based on Gemini recommendations generated from their work context.

译Google 正在为 Gemini Enterprise 开发收件箱功能。侧边栏的新部分将包含三个类别：需审查、进行中和已完成。该功能可能帮助用户根据 Gemini 基于其工作上下文生成的建议，实现收件箱归零。

Google AI Developers@googleaidevs · 3天前36

Host a sponsored Gemma hackathon for your local community. 🌐

译谷歌在 Kaggle 上赞助为期 1 天的黑客松，帮助开发者深入探索开放模型，从构建轻量工具到解决社区独特挑战，用 Gemma 4 引领潮流。主推文号召：为你的本地社区举办一场赞助的 Gemma 黑客松。

karminski-牙医@karminski3 · 3天前61

给大家带来 Flash 系列模型横评! 各个厂商除了旗舰级别模型, 也都有Flash级别的模型, 而这些模型的定位主要都是多智能体系统的驱动模型和RAG系统的驱动模型. 那么现有这些Flash模型应该怎么选? 给大家带来本篇评测! 本次主要从 Agent Loop 迭代能力, Agent 能力, 前端, 后端, 空间理解, 美学, 性价比等多个角度评测了 Gemini-3.5-Flash, Step-3.7-Flash, DeepSeek-V4-Flash 这三个模型. 从测试来看, Gemini-3.5-Flash 更适合干"漂亮活", 比如前端页面, 建模等. 而 Step-3.7-Flash 则极具性价比, 在Agent测试中取得了比旗舰模型还要高的Token效率(用最少的token干最多的事情). 所以特别适合用在Agent框架中(比如OpenClaw或者Hermes), 或者复杂的Agent系统中用来做驱动模型. DeepSeek-V4-Flash 则后端能力很不错, 很适合用来写脚本, 甚至给服务器安装一个 DeepSeek-V4-Flash 驱动的 ClaudeCode, 用来 AI-Ops. #flash模型 #step37flash #deepseekv4flash #gemini35flash #AgentLoop

译推文对三款Flash级模型（Gemini-3.5-Flash、Step-3.7-Flash、DeepSeek-V4-Flash）进行横评。这些模型定位为多智能体系统和RAG系统的驱动模型。评测维度包括Agent Loop迭代能力、Agent能力、前端/后端、空间理解、美学、性价比等。Gemini-3.5-Flash更适合前端页面、建模等“漂亮活”。Step-3.7-Flash极具性价比，在Agent测试中Token效率极高（用最少Token完成最多任务），适合作为OpenClaw、Hermes等Agent框架的驱动模型。DeepSeek-V4-Flash后端能力出色，适合写脚本或驱动ClaudeCode用于AI-Ops。

Rohan Paul@rohanpaul_ai · 4天前52

FT: Google capped Meta’s use of Gemini after Meta asked for more model compute capacity than Google could supply. Meta’s problem is that it uses Gemini inside safety automation, customer support, ad tools, coding, and internal workflows. Google’s problem is different because it has paying cloud customers, its own Gemini products, and limited data center capacity all competing for the same chips, power, and networking. Google Cloud’s March-quarter revenue rose to $20 billion, but Sundar Pichai said a shortage of compute capacity kept growth lower and helped backlog nearly double versus the previous quarter. --- ft .com/content/c5d52f72-71ef-40bc-bad3-61afdba8b378?syn-25a6b1a6=1

译Google限制了Meta对Gemini模型的使用，原因是Meta要求的计算容量超出Google供应能力。Meta在安全自动化、客服、广告工具、编程及内部工作流中均依赖Gemini。Google面临自身云客户、Gemini产品与有限数据中心容量之间的资源竞争。Google Cloud 3月季度收入增至200亿美元，CEO Sundar Pichai表示计算容量短缺制约了增长，并导致未交付订单较前一季度近乎翻倍。

🚨 AI News | TestingCatalog@testingcatalog · 4天前52

Google vs Meta 🤖 > Google introduces restrictions on Meta's use on Gemini amid capacity shortage, according to the Financial Times. > Reportedly, this negatively affected internal projects at Meta related to customer support and content moderation, causing delays. I bet token efficiency will be a huge market in the long run, with a very transparent and predictable business model.

译Google vs Meta 🤖 > 据《金融时报》报道，Google因容量短缺对Meta使用Gemini施加限制。 > 据报道，这负面影响了Meta内部与客户支持和内容审核相关的项目，导致项目延期。我敢打赌，从长远来看，token效率将成为一个巨大的市场，其商业模式非常透明且可预测。