thanks to the Thinking Machines team, we used Tinker to prototype our reward models and train the prompt expander via RL. for more information, read the full technical report on the data, architecture, and training behind Krea 2 👇

译感谢Thinking Machines团队，我们使用Tinker原型化了我们的奖励模型，并通过RL训练了提示词扩展器。更多信息，请阅读关于Krea 2背后数据、架构和训练的完整技术报告 👇

Midjourney@midjourney · 7小时前35

Marcin is a hardware engineer at Midjourney (and a YouTube star). So we asked him to make a video!

译Marcin是Midjourney的硬件工程师（也是YouTube明星）。所以我们请他制作一个视频！

AYi@AYi_AInotes · 11小时前53

今天也是豪横了一把，实现了Fable 5自由，这可是全球最顶最硬最牛逼的AI大模型啊，比Opus 4.8贵6倍，多用一分钟都能立省100块哈哈哈，我跑测下来觉得确实实至名归，真的非常屌炸天，他给我的提示词喂给GPT-iamge-2，0抽卡，一次出片现在可以免费用，另外Claude Sonnet 5免费用， Gemini Nano banana 2 lite也免费用，速冲！！

译传闻中的顶级模型Claude Fable 5在ZenMux平台回归上线并限时免费，官方价格高达50美元/百万token，ZenMux上则零成本使用且无RPM限制。用户分享了一套利用Fable 5生成高质量人像提示词的方法论：先分析AI人像塑料感根源，再搭建涵盖主体人设、服装材质、表情瞬间等8个维度的框架，最后输出示例并自我修正。此外，ZenMux还免费提供Claude Sonnet 5和Gemini Nano banana 2 lite，支持同屏对比Fable 5、GPT-5.5、Opus 4.8等200+模型，自动充值每笔返20%余额（最高300美元赠金）。

fofr@fofrAI · 11小时前66

“Nano Banana 2 Lite is 37 seconds faster on average than the higher ranking models above it” The best fast image model.

译Google DeepMind 的 Gemini 3.1 Flash Lite Image（代号 Nano Banana 2 Lite）在 Image Arena 排名第 7，Elo 1271。平均生成时间约 5 秒，比排名更高的模型平均快 37 秒，在图像偏好与速度之间建立了新的帕累托前沿。

Kling AI@Kling_ai · 12小时前31

🏆 Cannes Lions Bronze Winner — Lorem Ipsum Samurai, cowboys, mafia, why are they all speaking “Lorem Ipsum”? Bronze Lion winner in Cannes Lions Film: B2B, Lorem Ipsum was created by Argentine studio Purga Films to promote its AI advertising business. Though every character speaks in meaningless placeholder words “Lorem Ipsum”, the emotions still hit hard. As the film says: “We have the craft. We need the scripts.” The entire film was created with Kling AI. Across wildly different styles and worlds, Kling delivered consistent performances, emotional depth, and cinematic control throughout the piece. Some stories still hit you deeply — even when you don’t understand a single word. Huge congrats to Purga Films on the win!

译可灵Kling AI官方宣布，由其生成的广告片《Lorem Ipsum》荣获戛纳狮子奖（Cannes Lions）电影类B2B铜奖。该片由阿根廷工作室Purga Films制作，片中所有角色均使用无意义的占位词“Lorem Ipsum”对话，但情感表达依然强烈。全片通过Kling AI生成，涵盖多种风格和世界，展现了可灵在表演一致性、情感深度和电影级控制上的能力。

AYi@AYi_AInotes · 16小时前62

Claude Fable 5今天回归上线啦，ZenMux上限时免费使用真的太香了！怎么用Fable 5输出高质量的「不会塑料 + 顶级人像提示词方法论以及户外美女人像prompt方法论大家收好！说真的，我以为上次的Fable 5总结的AI生图焚决要绝版了，趁着现在能免费用，赶紧让Fable 5给我写了又写了一套：怎么输出输出高质量的「不会塑料 + 顶级人像提示词方法论，真的很炸，它对光影、材质、瞬间感的拆解细度，写出来的提示词出图质感，比网上卖几十上百块的所谓的人像焚决提示词强出一大截，连所有人头疼的塑料皮肤、娃娃脸、畸形手问题，它自己就能系统性避开。单轮直接出结果的版本我磨到终版了，复制完直接扔进去就能跑，Prompt： “你是有10年经验的顶级商业人像摄影师+提示词工程师。 1️⃣先做第一步拆解：AI人像出塑料感、AI味、廉价感的核心根源是什么？真正高级的商业人像有哪些共性？ 2️⃣第二步输出可直接复用的提示词框架，覆盖主体人设、服装材质、表情瞬间、镜头构图、光线皮肤、背景氛围、画质处理、强力负面词8个维度每个维度给具体写法，别讲空话。 3️⃣第三步严格按框架出2个可直接复制的完整示例：1个克制老钱风，1个体育赛事广播截图风，全程禁止夸张性感、塑料皮肤、畸形结构。 4️⃣最后自我检查：两个示例哪里还有AI味风险？直接修正到最终版。输出用清晰中文编号就行，要是觉得不够细，补一句「再优化一次，每个维度写得更落地」就好。另外大家想做商用级内容就用三轮对话法：先拆塑料感根源，再搭完整框架，最后出示例+自我修正，质量比单轮再提20%。三个踩坑踩出来的Fable专属技巧，记了不吃亏： 1️⃣ 必须先给它顶级专业人士的身份，不设角色它就会套网上的烂大街模板 2️⃣必须逼它先分析"为什么会塑料"，不挖根源写出来的全是正确的废话 3️⃣一定要加自我检查环节，这是Fable独有的强项，它自己挑错比你手动改十轮都管用我自己跑这些测试全程用的ZenMux，真不是打广告，天天折腾模型的人一用就懂有多爽——现在claude-fable-5-free端点直接免费用，账户留任意余额就能跑，不用烧官方50美元一百万token的高价额度，测十轮也花不了几块钱，关键是真无RPM限制不限流，跑多轮长提示词从来不会半路掐断降速，迭代效率比官方高太多。自带的同屏PK功能我用的最多，同一个需求拉上Fable5、GPT-5.5、Opus4.8并排输出，哪个写的框架质感好一眼就见分晓，做横评连切标签页都省，全平台200多个模型一个账户全覆盖，不用到处开会员；现在开自动充值每笔还返20%余额，最多领3次共300刀赠金，余额永久不过期，跑大任务永远不用担心突然断供。以下3张图的提示词放评论区了，大家自取，ZenMux也有gpt-image-2可以用，直接丢提示词就行。

译Claude Fable 5 在 ZenMux 平台回归上线，提供免费端点 claude-fable-5-free，账户有余额即可使用，无 RPM 限制，免去官方高价。博主分享用 Fable 5 生成高质量人像提示词的方法论：先拆解 AI 人像塑料感根源，再搭建覆盖主体人设、服装材质、表情瞬间等 8 维度的框架，最后输出示例并自我修正。三个关键技巧：赋予顶级专业人士身份、必须分析塑料感根源、利用 Fable 自检能力。ZenMux 另支持同屏 PK 模型、自动充值返 20% 余额等福利。

歸藏(guizang.ai)@op7418 · 20小时前71

http://x.com/i/article/2072507922257723392 # 能帮你做 Live Photo 了！藏师傅社交卡片 Skill 重磅更新前段时间我做了一个 guizang-social-card-skill（https://github.com/op7418/guizang-social-card-skill）。它原来主要解决静态图文的问题: 把文章、产品说明、截图、照片这些素材，做成小红书 3:4 图文卡片，或者公众号封面。这次给它补了一个新能力: Live Photo 生成和编辑。你可以把产品录屏、网页 Demo、游戏片段、生活素材交给 Agent，让它做成小红书或公众号文章里能用的动态卡片。看一下 Codex 基于藏师傅的这个 Skills 给这次更新做的宣传视频：我一开始以为这只是“把视频放进卡片”。实际在实践和做的过程中，发现要处理的事主要有三个: - 第一帧要能当普通图发出去。 - 3 秒或 5 秒里只能讲一个很小的动作。 - 用户最后要能真的传到手机上发布，不能只停留在本地 Demo。所以这次更新不只是在导出 MOV 视频和 Live Photo。它还补了素材判断、首帧检查、平台时长和发布路径这些环节。 ## 这次能做什么单视频动态卡片：适合产品录屏、网页生成结果、代码运行、游戏操作。 Skill 会先按 3:4 卡片做版式，确认第一帧能看，再生成动态版本。拼图式 Live Photo：适合素材本身好看的内容: 旅行、产品细节、美食手作、生活方式。可以做成单视频、二宫格、三宫格、四宫格。很多时候不用加字，画面自己就够了。三连 Live Photo：适合三个并列结果: 三个生成案例、三个产品状态、三个游戏片段。这里的重点是“并列”，不适合把一个长教程硬拆成三段。长视频筛选：用户手里的素材通常不是刚好 3 秒或 5 秒。 Skill 会先粗看视频信息量，再建议裁一段、加速、拆成三连，或者放弃 Live Photo。很多工具喜欢说自己能“自动找高光”。我现在更愿意保守一点。自动选错以后，常见问题很难救: 第一帧黑屏、滚动跨了两个页面、UI 字太小、结果画面还没出现。 ## 怎么用比较合适先准备视频素材。不需要精剪到很漂亮，但最好别太长。每段 10 秒左右比较舒服。太长的视频会消耗更多 token，也更容易让 AI 误判重点。比较推荐的方式: 1. 先把原视频粗剪成几段。 1. 每段只保留一个重点。 1. 让 AI 判断哪一段适合做 Live Photo。 1. 再决定做单视频、拼图，还是三连。可以直接这样说: 帮我把这段产品录屏做成小红书 Live Photo 第一张卡，重点突出生成结果。或者: 这段视频有点长，先帮我判断哪一段适合做 Live Photo。完整教程不建议塞进 Live Photo。教程还是适合拆成 5-9 张图文卡片。 Live Photo 只放最需要动一下才说得清的那一页: 按钮点击后的结果、生成完成瞬间、游戏动作成功、食物切开的变化。比如我前段时间给这些模型做的测试，在演示生成的网页效果时，就是一张图对应一个案例。另外，陈抱一还有一个 Live Photo 开箱的栏目也可以看看，他一次只做一个动作，只展示这个产品的一个细节。 ## 适合哪些场景产品更新和 AI 工具演示：静态截图只能说明界面长什么样。Live Photo 可以展示点下去以后发生了什么。生成网页、生成代码、生成图片，只放静态图总有点像摆拍。这类素材里还有一种很常见: 原始录屏信息太小，手机上看不清。比如这类原始视频的 token 显示区域比较小。这里可以让 Skill 自动把关键区域放大，只保留用户真正需要看的部分。游戏攻略路线、timing、动作节奏、击中瞬间，很多时候截图讲不清。Live Photo 适合放一个关键动作，不适合讲完整攻略。游戏素材也适合做全屏动态卡。它不一定需要额外排版，只要把画面裁到合适比例，保留动作完成的那几秒。教程技巧不需要每一步都动。把最容易出错、最需要看到过程的一步做成 Live Photo 就够了。如果原来就是一套多图教程，Live Photo 可以只放在第一张或关键页。其他静态页继续负责解释、拆步骤、放细节。这样不会把一整套图文都改成视频，也不会打乱原来的阅读节奏。旅行和生活方式有些照片很好看，但少一点现场感。到达、走动、开门、转身，这些小动作会让图文更像真人内容。这类案例不需要太重的文案。一个开门、走动、拿起物品的片段，就能让图文从“设计图”变得更像真实记录。美食、手作、产品种草倒入、切开、搅拌、组装、旋转、开合，这些天然适合 Live Photo。它们不需要复杂文案，看见变化就够了。如果同一主题下有几个短片段，也可以做成拼图。二宫格、三宫格、四宫格都适合这类素材。重点是让多个片段同时提供质感，而不是给每个格子都加说明。判断标准很简单: 运动有没有提供证据。如果运动只是装饰，静态卡片更干净。 ## 做这个功能时我加入的细节第一帧要先过关：Live Photo 在信息流里先显示的是静态图。第一帧如果不好看，后面会动也没用。所以现在流程里会先抽首帧，当普通 3:4 卡片检查一遍: 裁切对不对，主体有没有被切掉，标题会不会挡住关键区域。视频当成图片位处理：视频不能随便全屏塞进去。视频区域沿用图片裁切逻辑：UI 密集就保留完整画面，主体明确就放大重点，人脸、产品、按钮、结果区不能被压住。先看 contact sheet：长视频不适合一帧一帧看。更省事的方法是抽 8-15 帧拼成一张 contact sheet。看一张图，基本就能知道有没有黑屏、转场、UI 太小、结果没出现这些问题。平台时长要分开：小红书按 5 秒做。公众号文章内按 3 秒做。时长不同，能承载的信息量也不同。3 秒只适合一个动作点，5 秒可以放一个很小的过程。发布路径要提醒清楚：Live Photo 最后不能只给一个视频文件。实际测试和发布时，需要把 JPG + MOV 打包成 .pvt，再 AirDrop 到 iPhone，从手机端发布。桌面端上传不一定能保留 Live Photo。这些细节不显眼，但少了任何一项，成品都可能停在本地测试里。 ## 为什么 Live photo 值得做图文平台里的“图”现在有点尴尬。静态图表达力有限。短视频制作成本又高。很多内容卡在中间: 不值得剪成视频，只用静态图又少一点说服力。 Live Photo 刚好补这个空位。用户还是在做图文，只是其中一张图多了一点运动。我觉得它有用，是因为很多内容需要一点动态证据：产品运行、网页生成、动作完成、食物切开。从 Skills 的角度看，这次更新中的实践需要注意：一个 Skill 不能只写触发词，还得写清审美、边界和工作流。当用户给一段视频素材时，AI 不只负责导出文件。它还要判断这段素材该不该动、动哪一段、放在哪张卡里，以及怎么让它仍然像一张能发出去的社交卡片。这类判断越多，Skill 就越不像一段 Prompt，越像一个可以复用的生产流程。 ## 怎么开始用如果你还没用过这个 Skill，可以直接把下面这段话发给有 shell 权限的 AI Agent: 帮我安装 guizang-social-card-skill。阅读 https://github.com/op7418/guizang-social-card-skill 项目的 Readme 后安装，安装完成后检查 SKILL.md、assets/、references/ 是否存在。如果你之前已经装过，可以直接让 AI 更新: 帮我更新 guizang-social-card-skill。请进入 ~/.claude/skills/guizang-social-card-skill 执行 git pull，然后告诉我当前最新 commit。更新完以后，你就可以把文章、截图、照片或视频素材丢给 Agent，让它生成小红书图文、公众号封面，或者这次新增的 Live Photo 卡片。我觉得这次更新对你有帮助的话，可以帮我点个赞或者转发给你需要的朋友。

译歸藏的guizang-social-card-skill新增Live Photo能力，支持单视频动态卡片、拼图式（二/三/四宫格）、三连Live Photo及长视频筛选。核心细节：第一帧可作为静态图发布；小红书5秒/公众号3秒时长区分；发布需将JPG+MOV打包为.pvt并通过AirDrop传到iPhone。建议先粗剪视频每段10秒左右，让AI判断适合做Live Photo的片段。安装或更新后即可使用。

AYi@AYi_AInotes · 23小时前73

这个真的不像AI生成的，太逼真了！！ Seedance 2.0 Prompt：主要角色：年轻韩国女性，20岁出头，自然的日常妆容，褪色的炭灰色无袖露脐上衣，宽松的高腰浅色水洗牛仔裤，黑色帆布运动鞋，黑色绳编项链，黑色波浪长发扎成凌乱的侧马尾，带有些许碎刘海。逼真的皮肤纹理，淡妆，温暖而亲切的个性。在整个视频中保持一致的身份、服装、发型和外貌。地点：宁静的午后时分，真实的韩国住宅社区。狭窄的混凝土小巷，低矮的住宅楼，小型露台，盆栽植物，晾衣绳，自行车，电线杆，架空电线，成熟树木投下移动的树影，安静的住宅氛围。没有商店、广告、咖啡馆、人群或商业活动。视觉风格：超现实主义纪录片真实感。真实的即兴行为。自然的肢体语言。无剧本的日常生活片段感。强烈的环境真实性。丰富的现实世界细节和可信的人类动作。摄像风格：2000年代初消费级DV摄像机的美学。朋友随意记录日常生活瞬间。强烈的手持抖动，不完美的构图，频繁的自动对焦搜索，镜头呼吸，在阳光和阴影间移动时的曝光波动，偶尔的运动模糊，轻微的滚动快门，中等数字压缩伪影，褪色的色彩，柔和的对比度，轻微的传感器噪点。没有稳定。没有电影化的摄像机移动。没有现代色彩分级。 00:00–00:02 一个小房子入口外。她坐在低矮的混凝土墙上，用双手向上举起调整马尾。一阵微风吹动散落的发丝。她自然地微笑，而摄像机努力保持焦点。 00:02–00:04 摄像机跟随她走进一条两旁种满盆栽植物和混凝土墙的狭窄小巷。她注意到一只流浪猫靠近，便蹲下身。构图偏离中心，因为操作者试图跟上。 00:04–00:06 她轻轻抚摸并喂食猫咪。自动对焦反复在她脸部和动物之间切换。晨光透过头顶的树叶闪烁。 00:06–00:08 她房子旁的小前院。她在晾衣绳上挂晒衣物，织物在微风中摇曳。云朵短暂掠过头顶时曝光发生变化。 00:08–00:10 在一个安静的露台上，手持一个陶瓷咖啡杯。她舒适地坐着观察社区，偶尔将头发拨到耳后。松散的手持侧角视角，带有自然的摄像机漂移。 00:10–00:12 近距离侧脸轮廓。场外有人向她打招呼。她转过身，举起手，温暖地微笑，随口说：“Annyeong。”摄像机稍晚捕捉到这一刻。 00:12–00:15 她手持咖啡杯，缓慢走在树荫覆盖的住宅小道上。她注意到摄像机，露出一个小而真诚的微笑，然后移开视线，继续前行。录制在中途突然切到黑屏，仿佛摄像机关闭了。音频：仅自然环境音——晨间鸟鸣、远处摩托车声、轻风、树叶沙沙声、微弱的社区闲聊声、猫叫声、脚步踩在混凝土上的声音、晾衣绳上织物移动的声音、细微的住宅氛围。没有音乐。没有音效设计。没有旁白。目标：捕捉真实的韩国社区生活，仿佛一段被遗忘的2000年代初家庭录像——即兴、不完美、真实、温暖且极具说服力。 https://x.com/john_my07/status/2071977017474789557/video/1

译Seedance 2.0 通过详细 prompt 生成一段超真实视频，以 2000 年代初 DV 摄像机美学展示韩国女性日常：手持抖动、自动对焦搜索、曝光波动、运动模糊等不完美感，配合环境自然音（鸟鸣、风声、社区闲聊），实现家庭录像般的独特说服力。

elvis@omarsar0 · 1天前43

Who did it best? GLM-5.2 (left) | Fugu Ultra (middle) | Fable 5 (right) Same one-shot prompt. The last one is my favorite!

译谁做得最好？ GLM-5.2（左）| Fugu Ultra（中）| Fable 5（右）同样的一次性提示。最后那个是我的最爱！

Artificial Analysis@ArtificialAnlys · 1天前63

Reve 2.0 debuts at #2 on the Artificial Analysis Text to Image Leaderboard, behind only OpenAI's GPT Image 2! Reve 2.0 is the latest image generation model from Reve. It translates every raw text prompt into a structured layout prompt before generating a native 4K image, making outputs easily editable. Individual elements in the layout can be moved, edited, and swapped, and re-rendered while preserving the rest of the elements. Reve 2.0 is available now in the Reve app, with access via the Reve API platform coming soon. Congratulations to @reve on the release! See below for comparisons between Reve 2.0 and other leading models in the Artificial Analysis Image Arena 🧵

译Reve 2.0 文生图模型发布，在 Artificial Analysis 文生图排行榜上位列第二，仅次于 OpenAI 的 GPT Image 2。该模型将原始文本提示转换为结构化布局提示，生成原生 4K 图像，支持对布局中单个元素进行移动、编辑、替换和重新渲染，同时保留其他元素不变。目前可通过 Reve 应用使用，API 平台即将上线。

Berryxia.AI@berryxia · 1天前29

Omini的场景很适合做换装视频，包括家居装修类的这类前后对比的场景。

Berryxia.AI@berryxia · 1天前57

😄 等等我~~ ModelScope上开源了一个叫Boogu-Image-0.1-Edit-Turbo的模型。它是一个4步蒸馏的image-to-image编辑模型，主打快速视觉编辑。支持物体替换、风格迁移、场景/背景修改，以及带文字感知的图像变换。项目地址见评论区👇🏻

译ModelScope 上开源了 Boogu-Image-0.1-Edit-Turbo，一个 4 步蒸馏的 image-to-image 编辑模型，主打快速视觉编辑。支持物体替换、风格迁移、场景/背景修改，以及带文字感知的图像变换。

fofr@fofrAI · 1天前69

You can replace the animal and the object with anything in the quoted prompt, and NB2L let's you cycle through ideas quickly. Lots of fun.

译Nano Banana 2 Lite 是一款图像生成工具，支持将动物头部替换为任意物体，并自动匹配颜色与纹理，实现无缝、自然的融合（如阿拉伯眼镜蛇头部替换为订书机，物体特征巧妙构成面部，原始动物面部完全不可见）。用户可快速迭代不同动物与物体组合，快速探索创意。

fofr@fofrAI · 1天前46

Nano Banana 2 Lite: > a photo of an arabian cobra, but the head is replaced with a stapler, seamless, perfect animal-object combination, the object matches the animal coloring, and they feel naturally together, aspects of the object cleverly form the face like a pareidolia (none of the original animal face is visible), seamless and perfectly integrated

译Nano Banana 2 Lite: > 一张阿拉伯眼镜蛇的照片，但头部被替换成一个订书机，无缝衔接，完美的动物与物体组合，物体颜色与动物匹配，感觉自然融为一体，物体的局部巧妙构成面部，如同空想性视错觉（原始动物面部完全不可见），无缝且完美融合。

fofr@fofrAI · 1天前51

fyi, JSON prompts work with Nano Banana 2 Lite (NB2L for short?)

译仅供参考，JSON 提示词与 Nano Banana 2 Lite（简称 NB2L?）兼容。

Berryxia.AI@berryxia · 1天前55

Google这次更新把图像生成和视频生成串成了一个极致高效的流程。他们推出了Nano Banana 2 Lite（超快超便宜的图像模型，4秒内出图）和Gemini Omni Flash（支持视频生成和对话式编辑的多模态模型）。单独看已经很快，但真正有意思的是把两者结合：先用Nano Banana快速生成图像，再直接扔给Omni Flash生成动画，整个链路成本大幅降低。演示里展示了一个室内设计场景：上传照片后快速生成多个方案，再直接动画化呈现。这种“图像→动态视频”的闭环速度和成本，在目前主流模型里算比较激进的。本质上Google在把创意工作流从“生成一次等半天”变成“快速迭代+即时可视化”。

译Google推出超快图像模型Nano Banana 2 Lite（4秒出图）与多模态模型Gemini Omni Flash（支持视频生成与对话式编辑）。两者结合可先快速生成图像再转为动画，大幅降低成本。演示中室内设计照片可快速生成多个方案并动画化，将创意工作流从等待变为快速迭代。

Runway@runwayml · 1天前52

Nano Banana 2 Lite is now available in Runway. Create images at warp speed, without compromising on quality. Get started at the link below or ask Agent to use Nano Banana 2 Lite.

译Nano Banana 2 Lite 现已在 Runway 中可用。以极速创建图像，同时不牺牲质量。通过下方链接开始使用，或让 AI 智能体使用 Nano Banana 2 Lite。

Rohan Paul@rohanpaul_ai · 2天前72

Google released Nano Banana 2 Lite, a 4-second image model, alongside Gemini Omni Flash. Image generation usually breaks creative work because every trial costs time, money, and attention. The lighter image model lowers that friction with 4-second outputs at $0.034 per 1K-resolution image. Chaining both models is the real product shape, not either model alone. Nano Banana 2 Lite makes reference images, then Gemini Omni Flash animates them. Google positions it as the replacement for gemini-2.5-flash-image across high-volume developer pipelines. Users still need prompt adherence, stable characters, and readable text during fast visual testing. Gemini Omni Flash extends the workflow from image drafts to editable 10-second video outputs. It accepts text, image, and video inputs, then edits clips through conversation. Pricing: $0.10 per second of video output, matching Veo 3.1 Fast. Gemini Omni Flash currently generates 10-second clips and lacks API audio reference support. Google says the API accepts video references up to 3 seconds, but Gemini Omni Flash does not process them correctly yet.” Interactions API keeps session context, so users can stack 3 sequential edits.

译Google推出快速图像模型Nano Banana 2 Lite（4秒生成，$0.034/1K分辨率图像）以及视频编辑模型Gemini Omni Flash（输出10秒片段，$0.10/秒，支持文本/图像/视频输入和对话式剪辑）。两者可链式使用：Nano生成参考图，Omni将其动画化，逐步替代gemini-2.5-flash-image。当前Omni Flash API不支持音频参考，视频参考最多3秒但未正确生效；Interactions API保留会话上下文，支持连续3次编辑。

fofr@fofrAI · 2天前22

I've been enjoying using Nano Banana 2 Lite. It lets me navigate lots of prompts and ideas very quickly. Faster results, faster iteration, faster exploration. > a minimal flat animated scene of something neutral but interesting, a single character, pick an unusual animation style and palette

译我很喜欢使用 Nano Banana 2 Lite。它能让我非常快速地浏览大量提示和想法。更快的成果，更快的迭代，更快的探索。

fofr@fofrAI · 2天前52

Omni Flash is a smart model. The way the hand is wet, the water ripples, the refraction, the shadows, the sound effects 🤯 > Change the table to be a shallow pool of water I'm excited to see what y'all build now it's available in the API. The edit capabilities of this model were made for cool pipelines.

译Omni Flash 是个聪明的模型。看那湿润的手、水波、折射、阴影、音效 🤯 我很期待看到大家用它做什么，现在它已在 API 中可用。这个模型的编辑能力是为酷炫的流程而生的。

fofr@fofrAI · 2天前32

> Change the table to be underwater sand

译Omni Flash 模型具有出色的图像编辑能力，能够将桌子变为浅水池，并逼真呈现手部湿润、水波、折射、阴影和音效。该模型现已通过 API 提供，其编辑能力非常适合实现炫酷的流水线。

elvis@omarsar0 · 2天前45

Love how Google continues to drive down the cost of building with their models. <4s image and $0.034 / 1K image. Wow! We have a bunch of stuff (education & research) we're building @dair_ai using Nano Banana and Gemini. Testing out Nano Banana 2 Lite and sharing more soon.

译Elvis Saravia 称赞谷歌持续降低模型使用成本。谷歌在 Gemini API 和 AI Studio 中推出两款新模型：Nano Banana 2 Lite 图像生成速度低于 4 秒，价格仅 $0.034/千张；Gemini Omni Flash 在视频编辑上达到 SOTA，价格为 $0.10/秒，与 Veo 3.1 Fast 一致。Saravia 透露 DAIR.AI 正使用 Nano Banana 和 Gemini 构建教育研究项目，并已开始测试 Nano Banana 2 Lite。

🚨 AI News | TestingCatalog@testingcatalog · 2天前62

GOOGLE 🔥: Besides Nano Banana 2 Lite, Google also announced Gemini Omni Flash Preview on APIs and Google AI Studio! > Omni Flash is SOTA at video editing at $0.10 / sec, same as Veo 3.1 Fast! Flashes everywhere ⚡

译Google 在 Gemini API 和 AI Studio 推出两款新生成式媒体模型：Nano Banana 2 Lite 图像生成极快（<4秒/张），价格仅 $0.034/千张；Gemini Omni Flash Preview 在视频编辑上达到 SOTA，定价 $0.10/秒，与 Veo 3.1 Fast 相同。Omni Flash 现已提供 API 预览。

Google AI Developers@googleaidevs · 2天前61

We’re launching Nano Banana 2 Lite, our fastest most cost-efficient Gemini Image model yet, optimized for high-throughput developer pipelines. Alongside it, Gemini Omni Flash, our video generation and editing model is now available to developers. Both models are accessible today via @GoogleAIStudio and the Gemini API to help you scale your workflows 👇

译我们发布了 Nano Banana 2 Lite，这是我们最快、最具成本效益的 Gemini 图像模型，专为高吞吐量开发者流水线优化。同时，我们的视频生成与编辑模型 Gemini Omni Flash 现已向开发者提供。这两个模型即日起可通过 @GoogleAIStudio 和 Gemini API 访问，助你扩展工作流程👇

Google DeepMind@GoogleDeepMind · 2天前66

We’re shipping 2 major releases:  🔘 Nano Banana 2 Lite: our fastest and cheapest Gemini Image model 🔘 Gemini Omni Flash: now available via the Gemini API and in @GoogleAIStudio to help developers generate and edit high-quality videos.

译我们正在推出两个主要版本： 🔘 Nano Banana 2 Lite：我们最快、最便宜的 Gemini 图像模型 🔘 Gemini Omni Flash：现可通过 Gemini API 和 @GoogleAIStudio 使用，帮助开发者生成和编辑高质量视频。

Google AI@GoogleAI · 2天前74

We’re shipping two major updates to streamline your creative workflow, allowing you to generate high-speed images with one model and then instantly animate them with the other—all at a fraction of the cost 🍌⚡️ 1️⃣ Introducing Nano Banana 2 Lite: Our fastest and most cost-efficient Gemini Image model yet delivers text-to-image outputs in under 4 seconds. Now available via the Gemini API and Google AI Studio, and rolling out soon across @NotebookLM, @FlowbyGoogle, @geminiapp, @stitchbygoogle, Google Search and @GooglePhotos. 2️⃣ Gemini Omni Flash in Public Preview: Our natively multimodal model for cost-efficient video generation and conversational editing. Now available via the Gemini API, @googleaistudio, and Gemini Enterprise Agent Platform so you can integrate the model into your workflow. While exciting on their own, the real magic happens when you build using these models together. Watch how our interior design demo integrates Nano Banana 2 Lite and Omni to instantly reimagine any space. Upload a photo, swipe through tailored design concepts, and see Omni bring the details to life in cinematic motion. Try out the demo app in AI Studio: http://goo.gle/443xPqw

译Google AI 推出两大模型更新：1）Nano Banana 2 Lite——最快、最经济的 Gemini 图像模型，文本生成图像不到 4 秒，已上线 Gemini API 和 AI Studio，即将登陆 NotebookLM、Google 搜索、Google Photos 等；2）Gemini Omni Flash 进入公开预览——原生多模态模型，支持低成本视频生成与对话式编辑，可通过 Gemini API、AI Studio 及 Gemini Enterprise Agent Platform 集成。两模型结合可快速实现空间设计重绘：上传照片、滑动选择设计方案，Omni 将细节以电影级动画呈现。演示应用已在 AI Studio 上架。

fofr@fofrAI · 2天前70

Gemini Omni Flash and Nano Banana 2 Lite now available in the API 🔥 Nano Banana 2 Lite is the fastest banana, images in ~4s, $0.034 per image (`gemini-3.1-flash-lite-image`) Omni api docs: https://ai.google.dev/gemini-api/docs/omni

译Gemini Omni Flash 和 Nano Banana 2 Lite 现已在 API 中可用 🔥 Nano Banana 2 Lite 是最快的 banana，图像约 4 秒生成，每张 $0.034（`gemini-3.1-flash-lite-image`） Omni API 文档： https://ai.google.dev/gemini-api/docs/omni

🚨 AI News | TestingCatalog@testingcatalog · 2天前61

GOOGLE 🔥: gemini-3.1-flash-lite-image (Nano Banana 2 Lite) is now available on Google AI Studio! > Our smallest and most cost-effective image generation and editing model, built for at-scale usage. > Image Input: $0.25 / Output: $0.0336. Tiny banana 🍌

译Google 在 AI Studio 发布 Gemini 3.1 Flash Lite Image（内部代号 Nano Banana 2 Lite），定位最小、最经济的图像生成与编辑模型，适合大规模使用。输入价格 $0.25，输出价格 $0.0336。该模型此前曾以“超快、高性价比图像生成”之名预告，同期预告的还有支持对话式逐步视频编辑的 Gemini Omni Flash。

🚨 AI News | TestingCatalog@testingcatalog · 2天前73

GOOGLE 🔥: Nano Banana 2 Lite is already used on Gemini if you select the Flash Lite option from the dropdown. h/t @BartokGabi17

译GOOGLE 🔥: 如果你从下拉菜单中选择 Flash Lite 选项，Nano Banana 2 Lite 已在 Gemini 中使用。 h/t @BartokGabi17

🚨 AI News | TestingCatalog@testingcatalog · 2天前33

GOOGLE 🔥: A new Nano Banana 2 Lite image generation model is on the horizon! > "Introducing Nano Banana 2 Lite for ultra-fast, cost-efficient image generation, and Gemini Omni Flash for powerful video creation with conversational, step-by-step editing"

译GOOGLE 🔥：一款新的 Nano Banana 2 Lite 图像生成模型即将到来！ > “推出 Nano Banana 2 Lite，用于超快、高性价比的图像生成，以及 Gemini Omni Flash，用于通过对话式、逐步编辑进行强大的视频创作”

向阳乔木@vista8 · 2天前21

女儿说昨天做了一个噩梦，她让豆包生成hello Kitty，发现居然有嘴巴。😂😂😂 刚查了下，发现是正版是没嘴。。。

PixVerse@PixVerse_ · 2天前24

When you think you have outrun your problems… turns out it is a T-Rex. 💀🦖 Seedance 2.0 4K — your prompts turned into cinematic terror.

译当你以为已经摆脱了烦恼……结果发现是一只暴龙。💀🦖 Seedance 2.0 4K — 你的提示词变成了电影级恐怖。

Google Gemini@GeminiApp · 3天前54

More users in the U.S. can now create personalized images for free. By choosing to connect your Google apps to Gemini in settings, Gemini is able to better understand your preferences, so it can automatically fill in the blanks and ground image creation in the things you care about most. You can choose to connect or disconnect your Google apps at any time, so you’re in control. Try it out today and share what you create in the replies 👇

译Gemini 宣布更多美国用户可免费创建个性化图像。用户通过设置连接 Google 应用后，Gemini 的“Personal Intelligence”功能可理解用户偏好，自动填充空白，基于用户关心的内容生成图像。用户可随时连接或断开 Google 应用，完全掌控隐私。

SenseTime@SenseTime_AI · 3天前35

As highlighted by YouTuber CAPITAL R, 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭-𝟴𝗕-𝗠𝗼𝗧-𝗜𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 can generate 𝘀𝘁𝘂𝗱𝗶𝗼-𝗾𝘂𝗮𝗹𝗶𝘁𝘆, high-density infographics. This 𝘂𝗻𝗹𝗼𝗰𝗸𝘀 𝘄𝗼𝗿𝗸𝗳𝗹𝗼𝘄𝘀 𝘁𝗵𝗮𝘁 𝘄𝗲𝗿𝗲 𝗽𝗿𝗲𝘃𝗶𝗼𝘂𝘀𝗹𝘆 𝘀𝗹𝗼𝘄 𝗮𝗻𝗱 𝗲𝘅𝗽𝗲𝗻𝘀𝗶𝘃𝗲. 📹 𝗪𝗮𝘁𝗰𝗵 𝘁𝗵𝗲 𝘃𝗶𝗱𝗲𝗼: https://www.youtube.com/watch?v=6MgQlox8jNA 🤗 https://huggingface.co/sensenova/SenseNova-U1-8B-MoT-Infographic 🖼️ Showcases: https://github.com/OpenSenseNova/SenseNova-U1/blob/main/docs/u1_infographic_showcases.md 👾 Discord: https://discord.com/

译商汤推出 SenseNova-U1-8B-MoT-Infographic 模型，能够生成工作室级别的高密度信息图，此前这类工作流程缓慢且昂贵。YouTuber CAPITAL R 制作了演示视频，模型已在 HuggingFace 上线，GitHub 页面展示示例图片，并开放 Discord 社区。

AK@_akhaliq · 3天前28

DiffusionBench On Holistic Evaluation of Diffusion Transformers

译DiffusionBench 关于扩散Transformer的全面评估

AYi@AYi_AInotes · 4天前72

岚叔牛逼，必须star！

译开发者@LufzzLiz 开源了一个AI skill，可将文章或架构内容先压缩为结构化JSON spec，再由本地Python + Pillow渲染出黑底手绘风格的PNG、GIF及可编辑的Excalidraw JSON。目前仅内置一种风格，用户可自行通过Agent DIY添加更多风格。开源地址在评论中。

fofr@fofrAI · 5天前25

Back to exploring K2 again, I’m enjoying the aesthetics.

译再次回到探索K2，我很享受这种美学。

小互@xiaohu · 5天前38

魔法随便拖入任意人物照片即可更换直播摄像头里面的人物😅

译开发者 @miyumiyuna5 制作了一款实时换脸AI工具，支持直接拖拽任意人物照片到界面，瞬间将直播摄像头中的人物替换为目标形象。该工具无需重新加载模型即可流畅运行，实现低延迟的实时换脸效果，甚至能让大叔秒变美少女。

MiniMax (official)@MiniMax_AI · 5天前24

👀 Looking forward to seeing builders give it a try tomorrow. Curious what model is powering it, @browser_use

译browser_use 明日上线新云智能体，可制作样式化海报页面，比纯文本更直观，还能做更多。MiniMax 表示期待开发者尝试，好奇其背后模型。

PixVerse@PixVerse_ · 6天前69

From a green screen and a single box to a full-scale blockbuster zone. Seedance 2.0 preserves the original motion and framing while seamlessly generating the rest of the scene. Cinematic VFX, now dramatically simpler.

译从绿幕和单个盒子到完整的电影级场景。 Seedance 2.0 保留原始运动和构图，同时无缝生成场景其余部分。电影级视觉特效，如今大大简化。