定价上,Sonnet 5 今天起对所有套餐开放:它是 Free 和 Pro 的默认模型,Max、Team、Enterprise 也可用,并已上线 Claude Code 和 Claude Platform。8 月 31 日前为入门价,每百万输入 token 2 美元、输出 10 美元,之后回到 3/15 美元;开发者可以通过 Claude API 用 claude-sonnet-5 调用。作为参照,Opus 4.8 的定价是输入 5 美元、输出 25 美元每百万 token--也就是说,在入门价窗口期,Sonnet 5 的输入单价大约只有 Opus 4.8 的 40%,这为那些原本因为成本不敢把 agent 放进主链路的团队,留出了一段可以认真试错的窗口。安全评估方面,Anthropic 称 Sonnet 5 在 agent 场景下的不当行为发生率整体低于 Sonnet 4.6,更难被恶意请求和 prompt injection 劫持,幻觉率和越狱抵抗也有改善;同时也指出它在网络安全任务上的能力明显低于当前的 Opus 模型,这是一种有意的克制。
这件事的意义在于「价位的下沉」。过去一年,真正能端到端跑完一个多步任务的模型,往往落在 Opus 这一档,成本让很多团队只能小范围试用,或者在 demo 里惊艳一下,回到生产环境还是退回到更便宜但能力有限的方案。Sonnet 5 把这条线往下拉了一截,意味着更多产品可以把 agent 能力放进默认路径,而不是只在演示里跑。早期用户的反馈也指向同一个方向:它能完成一些过去会中途停下的任务。当然,「接近 Opus 4.8」并不等于「等于 Opus 4.8」--在追求最高精度的任务上 Opus 仍然是首选,而实际账单还要算上新令牌器带来的 token 量变化,这一点 Simon Willison 在补充阅读里有专门提醒。
★ 精讲二:开始使用 Nano Banana 2 Lite 和 Gemini Omni Flash 进行构建
先交代背景:Nano Banana 是 Google DeepMind 的 Gemini 图像模型系列,已经迭代到第二代;这次发布同时带来了「Lite」版本和一个全新的视频模型 Omni Flash。两者面向的都是「要把生成式媒体塞进产品流水线」的团队,但侧重点不同--一个压成本,一个补能力。
Nano Banana 2 Lite(gemini-3.1-flash-lite-image)的定位是高吞吐、低延迟场景。官方给出的两个关键数字是:文生图延迟约 4 秒,每千张图 0.034 美元。它被推荐为旧版 Nano Banana(gemini-2.5-flash-image)的替代品,官方建议正在用旧版的开发者直接替换以获得速度和成本收益;在保持速度的同时,它仍然维持了提示词遵循、角色一致性和图内文字渲染的可靠性。今天起它在 Google AI Studio、Gemini API、Gemini Enterprise Agent Platform 可用,并陆续上线搜索的 AI Mode、Gemini app 等消费者产品。
Gemini Omni Flash 是另一个分量更重的更新:它第一次面向开发者开放。这是一个支持文本、图像、视频混合输入的视频生成与会话式编辑模型,定价为每秒视频输出 0.10 美元,与 Veo 3.1 Fast 持平,目前单次生成上限 10 秒。它强调的不是单次生成质量,而是「多轮迭代」--可以把多张参考图、一段已有视频和文字指令混在一起,做连续的会话式编辑。两个模型可以串联:用 Nano Banana 2 Lite 快速生成大量图,挑出满意的再交给 Omni Flash 做视频化,整个流程通过 Interactions API 可以保留最多三次连续编辑的会话上下文。
为什么值得放在一起看:过去做多媒体生成的产品团队,往往卡在「要么快但贵,要么便宜但慢」的两难里,视频侧更是缺乏稳定的会话式编辑能力,常常只能靠多次重生成来逼近想要的效果,每一次迭代都重新计费。Nano Banana 2 Lite 把图像生成的单位成本压到一个可以放进批处理预算的区间,意味着生成「数量」本身不再是瓶颈;而 Omni Flash 把视频从「一次性产出」变成「可以来回改」的对象,意味着迭代成本被前置到了会话上下文里。合在一起,它们让「图-视频」的端到端流水线第一次具备了工程化的可能,而不只是停留在 demo 阶段。
这套框架的关键判断在于:人类相对 AI 仍然保有显著的上下文优势。智能体可以在编程循环里跑得很快,但它对「为什么做这件事」「这个取舍对用户意味着什么」「这一版到底要不要上线」的理解,仍然要靠人来补。因此吴恩达强调人机协同必不可少--不是出于谨慎,而是因为上下文判断本身就是一种难以被模型直接习得的能力。他还指出一个值得工程师认真对待的趋势:编程智能体正在把工程师的角色向产品管理方向拓展--你写得少了,但你要判断得更多,要回答「什么值得做」「什么不值得保留」这类更高层的问题。
谁在 ChatGPT 里买广告?|对谈 Nexad COO Harry Zhou - 十字路口Crossing 访谈了率先吃 ChatGPT 广告螃蟹的 Nexad 联合创始人 Harry Zhou,覆盖中美几十家广告主半年的测试经验。一手数据值得看:广告卡片出现在免费用户和 Go 用户的回答下方,单独标注 sponsored;目前可投美、加、澳、新,日韩、巴西、墨西哥即将开放。CTR 大约在 1.5%-4%,CPC 多数 2-4 美元,CPM 从早期约 60 美元回落到 20 美元上下。浅层数据并不比 Google/Meta 漂亮,但 ChatGPT 来源用户的深层质量明显更高--一个 AI 视频产品的案例显示,ChatGPT 来源用户在连续生成、多次回访、点击 pricing、尝试导出无水印版本和购买额度等行为上的比例,大约能达到 Google/Meta 的两三倍。对话后半段还谈到 Context Hints 定向机制、Agentic Commerce,以及长程 Agent 退化等更前沿的问题,并整理成一份 31 页《ChatGPT 广告白皮书》。对做 AI 产品增长和市场投放的人,这份一手实践比任何二手分析都更实在。详见
Claude Science:面向科学家的 AI 工作台 - Anthropic 推出 Claude Science,定位为科学家的 AI 工作台。它把研究者常用的工具(PubMed、Jupyter、R、集群终端等)整合进单一环境,能原生展示蛋白质、分子结构,并在生成每一张图、每一段分析时附带可审计的代码与消息历史,便于验证和复现;agent 在一次会话里常驻上下文,大规模数据集只需加载一次。它可以跑在本地 macOS/Linux,也可以通过 SSH 或 HPC 登录节点跑在远端,使大型或敏感数据集不必离开实验室基础设施;早期用户案例显示研究流程有显著加速。这是 Anthropic 去年秋天启动生命科学方向以来最大的一次扩张,对做生命科学、计算研究的团队,这是一条值得关注的「研究流程加速」路径,而不是又一个通用聊天界面。详见
万字长文推演 Claude 的代码统治力从何而来(腾讯云开发者)- 结合 Anthropic 公开论文与技术逻辑,推演 Claude 代码能力的来源:代码是构造自动化奖励信号最容易的场景,而 Claude 的产品形态恰好能收集到最精准的用户偏好反馈,两者结合形成 Constitutional AI 约束下的可验证奖励 RL,叠加产品端数据飞轮,共同构成一套自我加速的进化引擎。适合想理解「为什么是 Claude 在代码上领先」背后系统工程逻辑的读者,文中标注了「待验证」的推断部分。详见
Claude Sonnet 5 发布:迄今最具智能体能力的 Sonnet 模型(Claude 官方)- Anthropic 官方账号的发布通告,可作为精讲一的官方视角补充,附有宣传视频。详见
Claude Sonnet 5 的新功能(Simon Willison's Weblog)- Simon Willison 习惯直奔开发者文档,他注意到一个容易被营销文案盖过的细节:新令牌器让英文文本的实际 token 量上涨约 30%,这意味着名义价格之外还有一个隐性的成本变化。适合关心实际账单的开发者细读。详见
定价上,Sonnet 5 今天起对所有套餐开放:它是 Free 和 Pro 的默认模型,Max、Team、Enterprise 也可用,并已上线 Claude Code 和 Claude Platform。8 月 31 日前为入门价,每百万输入 token 2 美元、输出 10 美元,之后回到 3/15 美元;开发者可以通过 Claude API 用 claude-sonnet-5 调用。作为参照,Opus 4.8 的定价是输入 5 美元、输出 25 美元每百万 token--也就是说,在入门价窗口期,Sonnet 5 的输入单价大约只有 Opus 4.8 的 40%,这为那些原本因为成本不敢把 agent 放进主链路的团队,留出了一段可以认真试错的窗口。安全评估方面,Anthropic 称 Sonnet 5 在 agent 场景下的不当行为发生率整体低于 Sonnet 4.6,更难被恶意请求和 prompt injection 劫持,幻觉率和越狱抵抗也有改善;同时也指出它在网络安全任务上的能力明显低于当前的 Opus 模型,这是一种有意的克制。
这件事的意义在于「价位的下沉」。过去一年,真正能端到端跑完一个多步任务的模型,往往落在 Opus 这一档,成本让很多团队只能小范围试用,或者在 demo 里惊艳一下,回到生产环境还是退回到更便宜但能力有限的方案。Sonnet 5 把这条线往下拉了一截,意味着更多产品可以把 agent 能力放进默认路径,而不是只在演示里跑。早期用户的反馈也指向同一个方向:它能完成一些过去会中途停下的任务。当然,「接近 Opus 4.8」并不等于「等于 Opus 4.8」--在追求最高精度的任务上 Opus 仍然是首选,而实际账单还要算上新令牌器带来的 token 量变化,这一点 Simon Willison 在补充阅读里有专门提醒。
★ 精讲二:开始使用 Nano Banana 2 Lite 和 Gemini Omni Flash 进行构建
先交代背景:Nano Banana 是 Google DeepMind 的 Gemini 图像模型系列,已经迭代到第二代;这次发布同时带来了「Lite」版本和一个全新的视频模型 Omni Flash。两者面向的都是「要把生成式媒体塞进产品流水线」的团队,但侧重点不同--一个压成本,一个补能力。
Nano Banana 2 Lite(gemini-3.1-flash-lite-image)的定位是高吞吐、低延迟场景。官方给出的两个关键数字是:文生图延迟约 4 秒,每千张图 0.034 美元。它被推荐为旧版 Nano Banana(gemini-2.5-flash-image)的替代品,官方建议正在用旧版的开发者直接替换以获得速度和成本收益;在保持速度的同时,它仍然维持了提示词遵循、角色一致性和图内文字渲染的可靠性。今天起它在 Google AI Studio、Gemini API、Gemini Enterprise Agent Platform 可用,并陆续上线搜索的 AI Mode、Gemini app 等消费者产品。
Gemini Omni Flash 是另一个分量更重的更新:它第一次面向开发者开放。这是一个支持文本、图像、视频混合输入的视频生成与会话式编辑模型,定价为每秒视频输出 0.10 美元,与 Veo 3.1 Fast 持平,目前单次生成上限 10 秒。它强调的不是单次生成质量,而是「多轮迭代」--可以把多张参考图、一段已有视频和文字指令混在一起,做连续的会话式编辑。两个模型可以串联:用 Nano Banana 2 Lite 快速生成大量图,挑出满意的再交给 Omni Flash 做视频化,整个流程通过 Interactions API 可以保留最多三次连续编辑的会话上下文。
为什么值得放在一起看:过去做多媒体生成的产品团队,往往卡在「要么快但贵,要么便宜但慢」的两难里,视频侧更是缺乏稳定的会话式编辑能力,常常只能靠多次重生成来逼近想要的效果,每一次迭代都重新计费。Nano Banana 2 Lite 把图像生成的单位成本压到一个可以放进批处理预算的区间,意味着生成「数量」本身不再是瓶颈;而 Omni Flash 把视频从「一次性产出」变成「可以来回改」的对象,意味着迭代成本被前置到了会话上下文里。合在一起,它们让「图-视频」的端到端流水线第一次具备了工程化的可能,而不只是停留在 demo 阶段。
这套框架的关键判断在于:人类相对 AI 仍然保有显著的上下文优势。智能体可以在编程循环里跑得很快,但它对「为什么做这件事」「这个取舍对用户意味着什么」「这一版到底要不要上线」的理解,仍然要靠人来补。因此吴恩达强调人机协同必不可少--不是出于谨慎,而是因为上下文判断本身就是一种难以被模型直接习得的能力。他还指出一个值得工程师认真对待的趋势:编程智能体正在把工程师的角色向产品管理方向拓展--你写得少了,但你要判断得更多,要回答「什么值得做」「什么不值得保留」这类更高层的问题。
谁在 ChatGPT 里买广告?|对谈 Nexad COO Harry Zhou - 十字路口Crossing 访谈了率先吃 ChatGPT 广告螃蟹的 Nexad 联合创始人 Harry Zhou,覆盖中美几十家广告主半年的测试经验。一手数据值得看:广告卡片出现在免费用户和 Go 用户的回答下方,单独标注 sponsored;目前可投美、加、澳、新,日韩、巴西、墨西哥即将开放。CTR 大约在 1.5%-4%,CPC 多数 2-4 美元,CPM 从早期约 60 美元回落到 20 美元上下。浅层数据并不比 Google/Meta 漂亮,但 ChatGPT 来源用户的深层质量明显更高--一个 AI 视频产品的案例显示,ChatGPT 来源用户在连续生成、多次回访、点击 pricing、尝试导出无水印版本和购买额度等行为上的比例,大约能达到 Google/Meta 的两三倍。对话后半段还谈到 Context Hints 定向机制、Agentic Commerce,以及长程 Agent 退化等更前沿的问题,并整理成一份 31 页《ChatGPT 广告白皮书》。对做 AI 产品增长和市场投放的人,这份一手实践比任何二手分析都更实在。详见
Claude Science:面向科学家的 AI 工作台 - Anthropic 推出 Claude Science,定位为科学家的 AI 工作台。它把研究者常用的工具(PubMed、Jupyter、R、集群终端等)整合进单一环境,能原生展示蛋白质、分子结构,并在生成每一张图、每一段分析时附带可审计的代码与消息历史,便于验证和复现;agent 在一次会话里常驻上下文,大规模数据集只需加载一次。它可以跑在本地 macOS/Linux,也可以通过 SSH 或 HPC 登录节点跑在远端,使大型或敏感数据集不必离开实验室基础设施;早期用户案例显示研究流程有显著加速。这是 Anthropic 去年秋天启动生命科学方向以来最大的一次扩张,对做生命科学、计算研究的团队,这是一条值得关注的「研究流程加速」路径,而不是又一个通用聊天界面。详见
万字长文推演 Claude 的代码统治力从何而来(腾讯云开发者)- 结合 Anthropic 公开论文与技术逻辑,推演 Claude 代码能力的来源:代码是构造自动化奖励信号最容易的场景,而 Claude 的产品形态恰好能收集到最精准的用户偏好反馈,两者结合形成 Constitutional AI 约束下的可验证奖励 RL,叠加产品端数据飞轮,共同构成一套自我加速的进化引擎。适合想理解「为什么是 Claude 在代码上领先」背后系统工程逻辑的读者,文中标注了「待验证」的推断部分。详见
Claude Sonnet 5 发布:迄今最具智能体能力的 Sonnet 模型(Claude 官方)- Anthropic 官方账号的发布通告,可作为精讲一的官方视角补充,附有宣传视频。详见
Claude Sonnet 5 的新功能(Simon Willison's Weblog)- Simon Willison 习惯直奔开发者文档,他注意到一个容易被营销文案盖过的细节:新令牌器让英文文本的实际 token 量上涨约 30%,这意味着名义价格之外还有一个隐性的成本变化。适合关心实际账单的开发者细读。详见