Training image models requires a surprising amount of Tinkering: prototyping reward models, training a prompt expander, ...
Training image models requires a surprising amount of Tinkering: prototyping reward models, training a prompt expander, ...
I watched the Midjourney scanner get built from my desk; here's a look behind the scenes
传闻中的顶级模型Claude Fable 5在ZenMux平台回归上线并限时免费,官方价格高达50美元/百万token,ZenMux上则零成本使用且无RPM限制。用户分享了一套利用Fable 5生成高质量人像提示词的方法论:先分析AI人像塑料感根源,再搭建涵盖主体人设、服装材质、表情瞬间等8个维度的框架,最后输出示例并自我修正。此外,ZenMux还免费提供Claude Sonnet 5和Gemini Nano banana 2 lite,支持同屏对比Fable 5、GPT-5.5、Opus 4.8等200+模型,自动充值每笔返20%余额(最高300美元赠金)。
Claude Fable 5今天回归上线啦,ZenMux上限时免费使用真的太香了! 怎么用Fable 5输出高质量的「不会塑料 + 顶级人像提示词方法论以及户外美女人像prompt方法论大家收好! 说真的,我以为上次的Fable 5总结的A...
BREAKING: Gemini 3.1 Flash Lite Image (Nano Banana 2 Lite) by @GoogleDeepMind is 7th on Image Arena with an Elo of 1271....
可灵Kling AI官方宣布,由其生成的广告片《Lorem Ipsum》荣获戛纳狮子奖(Cannes Lions)电影类B2B铜奖。该片由阿根廷工作室Purga Films制作,片中所有角色均使用无意义的占位词“Lorem Ipsum”对话,但情感表达依然强烈。全片通过Kling AI生成,涵盖多种风格和世界,展现了可灵在表演一致性、情感深度和电影级控制上的能力。
Claude Fable 5 在 ZenMux 平台回归上线,提供免费端点 claude-fable-5-free,账户有余额即可使用,无 RPM 限制,免去官方高价。博主分享用 Fable 5 生成高质量人像提示词的方法论:先拆解 AI 人像塑料感根源,再搭建覆盖主体人设、服装材质、表情瞬间等 8 维度的框架,最后输出示例并自我修正。三个关键技巧:赋予顶级专业人士身份、必须分析塑料感根源、利用 Fable 自检能力。ZenMux 另支持同屏 PK 模型、自动充值返 20% 余额等福利。
跟大家分享下绝版的Claude Fable 5总结的AI生图焚决,+2个顶级美女人像提示词,这篇至少值3000块! 昨晚睡前让Fable 5总结了AI生图之性感人像提示词最有效的写法: 1️⃣用"成人 + 气质 + 材质"来定人设,比如 2...
歸藏的guizang-social-card-skill新增Live Photo能力,支持单视频动态卡片、拼图式(二/三/四宫格)、三连Live Photo及长视频筛选。核心细节:第一帧可作为静态图发布;小红书5秒/公众号3秒时长区分;发布需将JPG+MOV打包为.pvt并通过AirDrop传到iPhone。建议先粗剪视频每段10秒左右,让AI判断适合做Live Photo的片段。安装或更新后即可使用。
Seedance 2.0 通过详细 prompt 生成一段超真实视频,以 2000 年代初 DV 摄像机美学展示韩国女性日常:手持抖动、自动对焦搜索、曝光波动、运动模糊等不完美感,配合环境自然音(鸟鸣、风声、社区闲聊),实现家庭录像般的独特说服力。
Reve 2.0 文生图模型发布,在 Artificial Analysis 文生图排行榜上位列第二,仅次于 OpenAI 的 GPT Image 2。该模型将原始文本提示转换为结构化布局提示,生成原生 4K 图像,支持对布局中单个元素进行移动、编辑、替换和重新渲染,同时保留其他元素不变。目前可通过 Reve 应用使用,API 平台即将上线。
提出SpheRoPE框架,无需微调或优化,直接通过球形旋转位置编码(Spherical RoPE)将球面先验注入预训练扩散Transformer,实现零样本、无训练的360度全景图像与视频生成。低频率通道重参数化为3D笛卡尔坐标以编码球面流形,高频率通道进行谐波量化确保严格周期性,配合语义畸变无分类器引导(CFG)显式控制几何结构。在Flux.1、Flux.2和LTX-Video骨干上完成文生全景任务,性能达基线水平,无需任何训练。
ModelScope 上开源了 Boogu-Image-0.1-Edit-Turbo,一个 4 步蒸馏的 image-to-image 编辑模型,主打快速视觉编辑。支持物体替换、风格迁移、场景/背景修改,以及带文字感知的图像变换。
Nano Banana 2 Lite: > a photo of an arabian cobra, but the head is replaced with a stapler, seamless, perfect animal-obj...
DataEvolver提出自进化多智能体框架,将数据构建视为反馈驱动的策略进化。它包含检索器、验证器、评论家和生成器,利用被拒样本的失败信号指导下一轮构建。在PixArt-alpha上以0.75M规模测试,DataEvolver在TextScenesHQ上OCR-F1比最强基线提升85.3%,在LongTextBench上提升35.3%,且收益可迁移至Show-o2。
GEAR联合训练向量量化(VQ)分词器与自回归(AR)生成器,通过表示对齐实现端到端学习。为解决VQ索引不可微导致梯度无法回传问题,采用双读出机制:硬one-hot分支用于next-token预测训练AR模型,可微分软分支传递对齐损失指导分词器更新,使AR引导分词器生成更易预测的索引分布。相比LlamaGen-REPA,在ImageNet gFID收敛速度最高提升10倍,并泛化至VQVAE、LFQ、IBQ等量化器及文生图任务。
TerraDiT-Ω是一个统一空间控制框架,可直接利用任意地理空间基元(多边形、折线、边界框、点)进行卫星图像生成。它联合使用精确和粗略标注,适应不同标注预算,适用于城市规划等设计任务。提出Geometry-Aware Local Attention机制,将几何线索注入注意力空间。在所有格式上优于密集和稀疏控制基线。该框架支持可控数据增强,提升土地覆盖分割、目标检测、道路图提取、场景分类等下游性能。代码、数据、权重已开源。
苹果6月30日将iWork三件套(Pages、Keynote、Numbers)升级至15.3版。针对Apple创作坊订阅者,新增在iPad版Pixelmator Pro中直接打开并查看已编辑图像,以及通过文本描述生成可编辑自定义形状。面向所有用户:Pages新增自动插入连字符、显示/隐藏格式符号;Keynote新增平移、辐射状擦除、字符模糊等过渡与构件;Numbers新增隐藏/显示单个工作表、给工作表标签加色。三应用均优化从内容中心替换图像。
Google推出超快图像模型Nano Banana 2 Lite(4秒出图)与多模态模型Gemini Omni Flash(支持视频生成与对话式编辑)。两者结合可先快速生成图像再转为动画,大幅降低成本。演示中室内设计照片可快速生成多个方案并动画化,将创意工作流从等待变为快速迭代。
谷歌发布新款 AI 图像与视频生成模型 Nano Banana 2 Lite,可在 4 秒内生成一张图像,延迟较此前明显下降。每生成 1000 张图像收费 0.034 美元(约合 0.23 元人民币),主打速度和批量处理能力,面向高频、大规模的内容生产流程。该模型现已登陆谷歌 AI Studio、Gemini API 和 Gemini Enterprise Agent Platform,并将取代初代 Nano Banana。
Gemini 3.1 Flash Lite Image(API 名 gemini-3.1-flash-lite-image,代号 Nano Banana 2 Lite)发布,被描述为“最快最便宜的 Gemini 图像模型”,专为速度和规模优化。作者在 AI Studio 中测试生成“寻找浣熊”风格的图像,效果优于此前 Nano Banana 模型,但存在拼写错误。
周二,Google 推出其自研 AI 图像和视频生成器最新版本 Nano Banana 2 Lite。该模型延迟大幅降低,可在4秒内生成图像,成本为每1000张图像0.034美元,针对高吞吐量工作流优化,现已通过 Google AI Studio、Gemini API 及 Gemini Enterprise Agent Platform 上线,并取代原 Nano Banana 成为“遗留模型”。同日,Google 还宣布扩大 Gemini Omni Flash 的发布范围,视频输出价格为每秒0.10美元,并展示了可将静态图像转为电商视频的演示应用 Omni Product Studio。
Google 推出 Nano Banana 2 Lite,号称最快、最高效的 Gemini 图像模型,以最低成本实现高速生成和编辑。模型延迟显著降低,适合大规模图像生成,同时不牺牲质量,支持角色一致性、精确视觉编辑和真实世界知识。目前可通过 Google AI Studio 试用,并在 Space Lift、Gridscape、Peek-A-Word 和 Anywhere 等应用中展示了能力。
Google DeepMind 发布 Nano Banana 2 Lite(正式名 Gemini 3.1 Flash Lite Image),默认低思考模式下约4秒生成一张图像,标准 Nano Banana 需约20秒。API 价格为每1000张图像 $0.034,输入 token $0.25/1M,输出 token $1.50/1M,是 Nano Banana 2 的一半,输出成本为 Nano Banana Pro 的八分之一。用户 Arena.ai Elo 评分接近非 Lite 版本,但在文本处理、小字和角色一致性上较弱。所有输出图像均带有 SynthID 水印。即日起可通过 Google AI Studio、API 及 Gemini(选择 Flash-Lite 选项)使用。
Google 推出两款新生成式 AI 模型。Nano Banana 2 Lite 可在 4 秒内生成图像,每张成本 0.034 美元(1K 分辨率),API 名称为 gemini-3.1-flash-lite-image。Gemini Omni Flash 允许开发者通过文本提示在 API 中生成和编辑最长 10 秒的视频,每秒输出价格 0.10 美元。Google 推荐将两个模型链式使用:先用 Nano Banana 2 Lite 生成图像,再传递给 Gemini Omni Flash 转化为视频。两者均使用 SynthID 水印,已通过 Google AI Studio、Gemini API 和 Gemini Enterprise Agent Platform 提供。
Google推出快速图像模型Nano Banana 2 Lite(4秒生成,$0.034/1K分辨率图像)以及视频编辑模型Gemini Omni Flash(输出10秒片段,$0.10/秒,支持文本/图像/视频输入和对话式剪辑)。两者可链式使用:Nano生成参考图,Omni将其动画化,逐步替代gemini-2.5-flash-image。当前Omni Flash API不支持音频参考,视频参考最多3秒但未正确生效;Interactions API保留会话上下文,支持连续3次编辑。
Introducing Nano Banana 2 Lite 🍌 and Gemini Omni Flash 🔮, our new generative media models in the Gemini API and AI Stu...
Apple Creator Studio 推出多项 AI 增强更新。Final Cut Pro 新增 on-device AI 驱动的 Generate Captions(自动转录音频生成字幕)和 Edit Detection(自动检测剪辑点)。Mac 版加入 Auto Mask(自动识别皮肤、天空等主体)、增强的 Match Color 和 Advanced Trimming。支持将帧发送至 Pixelmator Pro 编辑,并在 Keynote、Pages、Numbers 中直接调用 Pixelmator Pro 修改图片。Logic Pro 新增 Grammy 制作人制作的 Producer Project 及 Chord ID 改进。订阅价 $12.99/月或 $129/年,新用户免费试用一个月,教育用户 $2.99/月。
Omni Flash is a smart model. The way the hand is wet, the water ripples, the refraction, the shadows, the sound effects ...
Introducing Nano Banana 2 Lite 🍌 and Gemini Omni Flash 🔮, our new generative media models in the Gemini API and AI Stu...
Introducing Nano Banana 2 Lite 🍌 and Gemini Omni Flash 🔮, our new generative media models in the Gemini API and AI Stu...
Google AI 推出两大模型更新:1)Nano Banana 2 Lite——最快、最经济的 Gemini 图像模型,文本生成图像不到 4 秒,已上线 Gemini API 和 AI Studio,即将登陆 NotebookLM、Google 搜索、Google Photos 等;2)Gemini Omni Flash 进入公开预览——原生多模态模型,支持低成本视频生成与对话式编辑,可通过 Gemini API、AI Studio 及 Gemini Enterprise Agent Platform 集成。两模型结合可快速实现空间设计重绘:上传照片、滑动选择设计方案,Omni 将细节以电影级动画呈现。演示应用已在 AI Studio 上架。
关联讨论 1 条X:Logan Kilpatrick (@OfficialLoganK)We're shipping 2 major releases: 🔘 Nano Banana 2 Lite: our fastest and cheapest Gemini Image model 🔘 Gemini Omni Flash...
Google DeepMind 推出 Nano Banana 2 Lite(gemini-3.1-flash-lite-image),为 Nano Banana 系列速度最快、成本最低的图像模型,文本到图像输出仅需 4 秒,每 1K 分辨率图像成本 $0.034,已上线 Google AI Studio、Gemini API 及消费者产品(AI Mode in Search、Gemini app 等)。同时推出 Gemini Omni Flash(gemini-omni-flash-preview),支持高画质视频生成与对话式编辑,视频输出定价 $0.10/秒,面向开发者开放 API。
关联讨论 1 条X:Logan Kilpatrick (@OfficialLoganK)