全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「图像生成」清除

5月29日周五

05:49🚨 AI News | TestingCatalog63Google 宣布 Nano Banana 2 与 Nano Banana Pro 模型现已达到通用可用状态

03:18Artificial Analysis64xAI发布新图像模型grok-imagine-image-quality，榜单排名第五且价格更具竞争力

03:12Krea35我们在Discord上启动了！

02:42Google AI Developers71Nano Banana Pro与Nano Banana 2正式发布

01:42Google AI Developers71精选Nano Banana Pro与Nano Banana 2正式发布

00:13The Verge：AI（RSS）68一部2，000美元的AI生成电影将在Tribeca电影节首映

00:06SenseTime65同事件精选SenseNova信息图表生成模型升级：文本、布局与图表质量全面增强同一事件，精选展示《商汤发布信息图生成模型升级，增强多项核心能力》

5月28日周四

23:36SenseTime68精选商汤发布信息图生成模型升级，增强多项核心能力

23:31Berryxia.AI73通义千问（Qwen）发布新T2I评测基准Qwen-Image-Bench，推动评价标准升级

23:12AK54MRT：用于大规模分层图像生成与编辑的掩码区域Transformer

23:12Krea58Krea 2 新增情绪板画廊与自动选择模式

19:11Rohan Paul71Diffusion Transformers训练提速8.75倍：革新残差连接机制

17:47公众号：通义实验室（千问）54通义实验室发布Qwen-Image-Bench：56项细粒度创作评测基准

16:44公众号：可灵AI（快手·视频）54可灵AI携20部4K作品亮相AI on the Lot

15:41🚨 AI News | TestingCatalog45Google Genie实验支持用地图地点生成虚拟世界

14:06Krea64Krea 2现已登陆Replicate平台

11:37歸藏(guizang.ai)74小红书图片生成器新Skill，图文混排痛点全解决

10:28HuggingFace Daily Papers（社区热门论文）65CubePart：一种支持开放词汇和零件可控的3D生成框架

08:05Krea31Krea 2 API 与新功能更新预告

08:00HuggingFace Daily Papers（社区热门论文）46Stable-Layers：基于VLM评分强化学习的图像层分解模型微调框架

08:00HuggingFace Daily Papers（社区热门论文）51通过测试时训练线性化Vision Transformer

08:00HuggingFace Daily Papers（社区热门论文）54SANA-Streaming：基于混合扩散Transformer的实时流式视频编辑

04:35Krea41Krea 2发布派对将于明日旧金山举行

04:35Krea62Krea 2图像生成集成至Hermes智能体

04:05Krea73精选Krea 2图像模型现已登陆ComfyUI

01:34Krea58Krea 2 模型现已上线 Runware 平台

00:27Berryxia.AI65复刻难度低，提示词已公开

5月27日周三

23:27Berryxia.AI45GPT Image 2 优秀排版源于预训练，非审美飞跃

23:27Berryxia.AI33GPT与Seedance 2.0打斗视频持续走红

23:20HuggingFace Daily Papers（社区热门论文）65JLT：潜在扩散Transformer中的清洁潜在预测

23:04Krea62Krea 2 API发布，支持多平台与智能体

22:30Runway73Runway MCP发布，支持多平台AI生成内容

19:34歸藏(guizang.ai)80精选藏师傅发布小红书图文排版AI Skill，集成地图与自动配图

19:30meng shao32Stable Diffusion缩写含义已变

15:14IT之家（RSS）46英伟达 610.47 驱动现 DLSS 5 踪迹，新增 3 项神经渲染配置

14:14IT之家（RSS）62英伟达发布 PiD 图像生成技术：13GB 显存跑通，最快 210ms 生成 2048×2048 图像

14:14IT之家（RSS）629.4 秒生成 512×512 图像，Bonsai Image 4B 生图 AI 登陆苹果 iPhone 17 Pro Max

14:14IT之家（RSS）63微软最强生图 AI 模型 MAI-Image-2.5 冲上 Arena 第三：更强文字生成

11:19HuggingFace Daily Papers（社区热门论文）70精选MRT：用于大规模分层图像生成与编辑的掩码区域Transformer

10:27Berryxia.AI62PrismML iOS应用'Bonsai Studio'上线：本地跑FLUX.2 Klein图像模型

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月29日

05:49

🚨 AI News | TestingCatalog@testingcatalog

63

Google 宣布 Nano Banana 2 和 Nano Banana Pro 模型现已通过 API 达到通用可用状态。其中，Nano Banana 2 新增了支持将视频文件作为输入提示的功能。在输出方面，两款模型的 1K 和 2K 输出能力已正式发布，而 4K 输出功能仍处于预览阶段。达到通用可用意味着这些模型由企业级的基础设施和安全体系提供支持。它们可通过 Gemini Enterprise Agent Platform 集成，使开发者能够将高质量的图像生成与编辑功能整合到其应用与工作流中。

Thomas Kurian: Nano Banana 2 and Nano Banana Pro are now generally available via Gemini Enterprise Agent Platform. Backed by enterprise...

Google 图像生成多模态模型发布

03:18

Artificial Analysis@ArtificialAnlys

64

xAI发布新图像模型grok-imagine-image-quality，榜单排名第五且价格更具竞争力

xAI发布了新图像模型grok-imagine-image-quality。该模型在Artificial Analysis的文本生成图像与图像编辑两个榜单中均位列第五，是除OpenAI与Google外排名最高的模型。它支持2K（$70/1k images）和1K（$50/1k images）两种输出分辨率，编辑功能最多支持3张参考图。其定价显著低于主要竞品：GPT Image 2为$211/1k images，Nano Banana Pro为$134/1k images，但高于xAI自身的标准版模型grok-imagine-image（$20/1k images）。该模型已通过xAI原生API、Grok应用及第三方API提供服务。

xAI 图像生成模型发布

03:12

Krea@krea_ai

35

我们在Discord上启动了！ https://discord.gg/UjVVY78b?event=1509337696818958357

图像生成行业动态

02:42

Google AI Developers@googleaidevs

71

🍌 Nano Banana Pro 【gemini-3-pro-image】和 Nano Banana 2 【gemini-3.1-flash-image】现已正式发布，可通过 Gemini API 投入生产使用。查看这些优秀的社区示例，了解两个模型的实际能力 🧵↓

Google 图像生成模型发布

01:42

Google AI Developers@googleaidevs

精选71

🍌 Nano Banana Pro 【gemini-3-pro-image】和 Nano Banana 2 【gemini-3.1-flash-image】现已正式发布，可通过 Gemini API 投入生产使用。查看这些优秀的社区示例，了解两个模型的实际能力 🧵↓

Google 图像生成模型发布

推荐理由：Google 把 Gemini 图像生成能力打包进 Nano Banana 系列并正式 GA，开发者现在可以稳定调用 Pro 和 Flash 级别的生图 API，对做图像应用的团队是个实在利好。

00:13

The Verge：AI（RSS）

68

一部2，000美元的AI生成电影将在Tribeca电影节首映

一部名为《Dreams of Violets》的75分钟AI生成电影将于下月在Tribeca电影节首映，这标志着此类AI生成的剧情长片首次被主流电影节接受。该片虚构演绎了伊朗政府2026年1月对抗议者的大规模镇压事件，影片中的人物与画面完全由AI生成。制作成本仅为2,000美元，其创作基于新闻报道、照片和目击者叙述。电影由离开伊朗的兄弟二人创作，Pooya Koosha联合创立了制作公司Fountain 0，Ash Koosha担任CEO。

图像生成行业动态视频

00:06

SenseTime@SenseTime_AI

同事件精选65

SenseNova信息图表生成模型升级：文本、布局与图表质量全面增强

SenseNova-U1-8B-MoT-Infographic 是一个升级后的8B参数信息图表生成模型。其核心提升在于：增强了文本的准确性与可读性，减少了重复和不自然的放大；改进了布局的一致性与合理性，背景更稳定；提升了图表与示意图的渲染质量；并新增了学术内容的渲染支持。

Hugging Face 图像生成多模态模型发布

同一事件，精选展示《商汤发布信息图生成模型升级，增强多项核心能力》

推荐理由：商汤这个8B信息图生成模型升级了，文本和布局都更稳，对常做数据图表和学术配图的人算个实用的小迭代，没有到改变游戏规则的程度。

5月28日

23:36

SenseTime@SenseTime_AI

精选68

商汤发布信息图生成模型升级，增强多项核心能力

商汤科技介绍了其升级后的信息图生成模型 SenseNova-U1-8B-MoT-Infographic。该模型参数为8B，在四个关键维度进行了优化：文本准确性与可读性增强，减少了重复和不当放大；布局的一致性与合理性提升，背景更稳定；图表与示意图的质量提高；并新增了学术内容的渲染支持。推文提供了在 Hugging Face 上的模型页面链接及能力展示页面。

图像生成模型发布

关联讨论 1 条X：商汤 SenseTime (@SenseTime_AI)

推荐理由：信息图生成赛道又出新货，商汤这次把文本渲染和布局稳定性真正做好了，做学术图表或运营配图的人可以直接去HuggingFace试用，效果肉眼可见的提升。

23:31

Berryxia.AI@berryxia

73

通义千问（Qwen）发布新T2I评测基准Qwen-Image-Bench，推动评价标准升级

阿里通义千问（Qwen）推出了新的文本到图像（T2I）评测基准Qwen-Image-Bench。该基准包含56个细粒度评估维度，并配备与人类对齐度达ρ=0.92的评判模型Q-Judger。其核心理念是将T2I模型评价从基础的“提示词对齐”，提升至关注“真实世界保真度”和“创意生成能力”两大支柱，通过1000条测试提示词能更清晰地区分现有SOTA模型表现。该基准为开发者、提示词工程师及企业提供了一个更贴近实际创作需求的新评估框架。

Adina Yakup: Qwen @Alibaba_Qwen just dropped a new Text to Image benchmark + a judge model https://huggingface.co/collections/Qwen/qw...

图像生成开源生态评测/基准

23:12

AK@_akhaliq

54

MRT 用于大规模分层图像生成与编辑的掩码区域Transformer

图像生成论文/研究

23:12

Krea@krea_ai

58

推出情绪板画廊。我们在画廊中新增了数千个情绪板，供您探索并使用 Krea 2 生成。我们还预览了"随机"和"自动"两种新模式，可自动为您的生成选择情绪板。

产品更新图像生成

19:11

Rohan Paul@rohanpaul_ai

71

Diffusion Transformers训练提速8.75倍：革新残差连接机制

传统Diffusion Transformers因层间信息传递方式固化导致训练效率低下。研究团队提出Diffusion-Adaptive Routing方法，允许每层动态选择使用哪些早期层的输出，且该选择随去噪时间步调整。该方法未引入新的数据集、损失函数或注意力机制，仅通过优化残差连接，使得相同图像质量所需的训练迭代次数减少8.75倍。

arXiv 图像生成数据/训练论文/研究

17:47

公众号：通义实验室（千问）

54

通义实验室发布Qwen-Image-Bench：56项细粒度创作评测基准

通义实验室推出文生图评测基准Qwen-Image-Bench，由专业艺术家团队开发，将创作能力解构为5大核心支柱、17大场景及56项可量化维度。配套开源自动化评估模型Q-Judger，与资深人类艺术家评估相关性达Spearsman 0.92。评测使用1000条中英文分层Prompt，每条覆盖至少4项考点。结果显示，当前T2I模型在文字准确性、信息可视化、跨语言生成等子领域差距明显，世界知识与逻辑推理能力是跻身第一梯队的分水岭。完整数据集与Q-Judger已开源。

arXiv Hugging Face 图像生成多模态

16:44

公众号：可灵AI（快手·视频）

54

可灵AI携20部4K作品亮相AI on the Lot

第四届AI on the Lot峰会于5月27日至29日在亚马逊影业基地举办。可灵AI在29日社区日展映20部4K作品，全部由欧洲创作者组织Prompt Club的20位成员创作，探索AI电影边界。同台亮相的还有赛博朋克AI电影《The Patchwright》北美首映、艾美奖编剧Bernie Su的实时互动影片、90分钟AI长片《Hell Grind》及可灵AI参与制作的《The Fracture》。展映于5月29日下午1点在The Culver Theater举行。

图像生成行业动态视频

15:41

🚨 AI News | TestingCatalog@testingcatalog

45

如果你错过了 👀：现在，拥有 Google Genie 实验访问权限的用户可以使用 Google 地图中的地点来生成虚拟世界。 "金门大桥" 🤖

Google 产品更新图像生成多模态

14:06

Krea@krea_ai

64

Krea 2现已登陆Replicate！生成高保真、富有创意的图像，美学优先。

Replicate: Krea 2 from @krea_ai is available on Replicate. Generate high-fidelity, creative images with aesthetics first in mind.

产品更新图像生成部署/工程

关联讨论 1 条X：Krea AI (@krea_ai)

11:37

歸藏(guizang.ai)@op7418

74

小红书图片生成器新Skill，图文混排痛点全解决

一款针对小红书内容的图片生成器 Skill 发布，宣称效果出色，解决了图文混排的核心痛点。该 Skill 包含 2 套主题、28 个版式、9 套配色，并适配 8 大小红书主流内容类别。其核心优势在于智能处理图片：能凸显用户提供的高质量图片、自动寻找优质图片替代，并能美化普通图片，同时主动避免使用 AI 生成图片以防止内容被标记。该工具旨在高效生成具有专业效果的小红书图文内容。

歸藏(guizang.ai): http://x.com/i/article/2059811469081141248

图像生成多模态教程/实践

10:28

HuggingFace Daily Papers（社区热门论文）

65

CubePart：一种支持开放词汇和零件可控的3D生成框架

CubePart是一个生成式框架，可根据全局文本提示和用户自定义的零件模式，生成一组可组装为连贯物体的3D网格，实现对零件结构的显式控制。该框架构建了一个大规模的开放词汇、零件标注3D数据集，并采用两阶段生成架构，将全局形状合成与零件级解码分离。生成的资源可直接集成到游戏引擎中，无需手动后处理。

图像生成论文/研究

08:05

Krea@krea_ai

31

社区更新活动将于明天在 Discord 举行。可以提问、了解 Krea 2 API，并获取即将推出功能的最新信息。链接在下方 👇

产品更新图像生成

08:00

HuggingFace Daily Papers（社区热门论文）

46

Stable-Layers：基于VLM评分强化学习的图像层分解模型微调框架

Stable-Layers 是一个强化学习框架，无需配对监督即可微调预训练层分解模型，仅使用视觉语言模型（VLM）的反馈。基于 Qwen-Image-Layered 初始模型，采用 Flow-GRPO 和 LoRA 适配，每张图像采样多个候选分解，由 VLM 评分并通过组相对优势优化策略。为解决 VLM 单独评分时判断集中导致 GRPO 难以学习的问题，设计两阶段评估流程：先按五项编辑标准逐样本评分，再进行网格校准让 VLM 并列重评所有候选。相比基模型，Stable-Layers 在 Crello 数据集上实现更强的层分离、更少的空白或伪影层，并降低每层重建误差。

arXiv 图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

通过测试时训练线性化Vision Transformer

本研究提出一种将预训练Transformer（如Stable Diffusion 3.5）线性化的方法。通过架构与表示的双重对齐，具体识别了TTT架构与Softmax注意力的结构相似性，并引入关键实例归一化等模块来对齐表示特性。仅在4xH20 GPU上进行1小时微调，所得SD3.5-T^5模型就能达到与微调Softmax模型相当的文本到图像生成质量，同时在1K和2K分辨率下分别实现1.32倍和1.47倍的推理加速。代码已开源。

图像生成开源/仓库推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

SANA-Streaming：基于混合扩散Transformer的实时流式视频编辑

SANA-Streaming是一个为消费级GPU设计的高分辨率实时流式视频到视频编辑框架。其核心包含三点：采用混合Diffusion Transformer架构，结合softmax注意力与线性层效率；引入Cycle-Reverse Regularization训练策略，通过从生成内容预测源帧提升时序一致性；以及结合针对NVIDIA Blackwell（RTX 5090）优化的融合GDN内核与混合精度量化（MPQ）实现的高效系统协同设计。该系统在单张RTX 5090上可实现1280x704分辨率、端到端24FPS的实时编辑，其DiT核心可达58FPS。实验表明，其在时序连贯性和系统吞吐量上显著优于现有SOTA方法。

图像生成视频论文/研究

04:35

Krea@krea_ai

41

Krea 2 发布派对 - 明天在旧金山举行。 rsvp 👇

产品更新图像生成

04:35

Krea@krea_ai

62

Krea 2现已内置到Hermes中。

Nous Research: Krea is now built in to Hermes Agent as an image generation API provider, allowing your agent to use Krea 2: a new found...

智能体图像生成模型发布

关联讨论 1 条X：Krea AI (@krea_ai)

04:05

Krea@krea_ai

精选73

Krea 2现已登陆Comfy！ KREA的首个基础图像模型--从零训练--具备可调节的创造力、风格参考和情绪板条件控制。

ComfyUI: KREA 2 Image is now a Partner Node in ComfyUI KREA's first foundation image model - trained from scratch - with tunable ...

图像生成模型发布

关联讨论 1 条X：Krea AI (@krea_ai)

推荐理由：Krea 终于掏出自己的基础图像模型，不再只是包装别人模型。ComfyUI 原生节点让工作流玩家可以立刻上手折腾，自研模型的风格控制是个新鲜变量。

01:34

Krea@krea_ai

58

Krea 2 现已在 Runware 上线！ - 两个版本：Large（照片级写实，创意控制）和 Medium（插画、动漫、设计） - 每次生成最多支持 10 张加权参考图 - 内置创意控制功能 - 支持情绪板和风格迁移 - 支持文生图和图生图模式

Runware: Krea 2 is now on Runware 🖌️ - two variants: Large (photorealism, creative control) & Medium (illustration, anime, desig...

图像生成模型发布

00:27

Berryxia.AI@berryxia

65

这种复刻起来没有太多难度。提示词见评论区：

@jason: Who made this?!?!

图像生成教程/实践

5月27日

23:27

Berryxia.AI@berryxia

45

GPT Image 2 优秀排版源于预训练，非审美飞跃

用户实测发现，GPT Image 2 在仅给出简单指令的情况下，能自主生成结构清晰、可直接使用的排版图，体验震撼。有分析指出，GPT 这种出色的结构化排版能力，本质上源于其预训练过程中接触了大量此类素材，而非模型审美本身有巨大提升，但其默认效果已足够好用。

赖叔 | LaiShu.ai: 卧槽,GPT Image 2 的默认审美已经到这个程度了? 今天拍了份数学卷子,让它分析错题分析完我随手加了一句: "将上面的孩子的最主要问题以及解决方案,平时训练建议都用一张图画出来" 没配色、没构图、没风格限定结果它自己排版、标记 ...

OpenAI 图像生成现象/趋势

23:27

Berryxia.AI@berryxia

33

这种GPT&Seedance 2.0打斗的视频一直可以火。这恰巧是SD2.0最擅长的，视觉效果也拉满。做游戏Demo展示太好了！

图像生成大佬观点视频

23:20

HuggingFace Daily Papers（社区热门论文）

65

JLT：潜在扩散Transformer中的清洁潜在预测

本文提出JLT，一个基于冻结FLUX.2 VAE编码的130M参数潜在扩散Transformer。研究对比了清洁潜在预测与速度预测DiT在相同表示与训练设置下的表现。分析表明，速度回归继承了各向同性目标协方差下限并放大低方差方向，而清洁预测则能抑制这些方向。在ImageNet 256x256上，JLT-B/1通过classifier-free guidance获得2.50的FID-50K分数，相比速度预测展现出显著优势。研究指出，潜在扩散中的预测目标是与表示相关的几何选择，而非可互换的代数参数化。

图像生成论文/研究

23:04

Krea@krea_ai

62

今天，我们发布了 Krea 2 的 API。现已在 @fal 或 @ComfyUI 等平台可用，通过 @NousResearch 的 Hermes 等智能体使用，并全面支持 Claude、Codex 或 OpenClaw。了解如何设置 👇

智能体产品更新图像生成

22:30

Runway@runwayml

73

推出 Runway MCP。现在你可以将 Runway 直接连接到 Claude、ChatGPT、Cursor、Replit 等平台。使用最先进的模型（如 Gen-4.5、Seedance 2.0、GPT Images 2.0、Kling 等）生成精美的图像和视频，直接在你当前的工作环境中完成。通过下方链接，几秒钟内即可将 MCP 连接到你的智能体。

MCP/工具产品更新图像生成视频

关联讨论 1 条Runway：News（网页）

19:34

歸藏(guizang.ai)@op7418

精选80

藏师傅发布小红书图文排版AI Skill，集成地图与自动配图

该推文介绍了guizang-social-card-skill，一款针对小红书图文常见类别进行优化的AI Skill。其亮点在于为旅行博主集成了地图组件，用户输入目的地和线路后，AI能自动在底图上标记并嵌入图片。根据引用，该Skill完全基于HTML和实拍图片生成内容，不会被平台标注为AI生成，并会主动从高质量图片网站寻找对应主题图片，以优化图文排版。

歸藏(guizang.ai): 藏师傅的小红书图文排版 Skill 预览完全靠 HTML 和实拍图片,不会被标注 AI AI 会去高质量图片网站帮你寻找对应的主题图片,让你的图文告别只有生硬文字的尴尬情况

图像生成教程/实践

关联讨论 1 条X：歸藏 (@op7418)

推荐理由：藏师傅这个 skill 把小红书图文排版门槛直接砍没，尤其是旅行地图组件 AI 自动标记路线，做内容的直接抄走就行，告别只有生硬文字的尴尬。

19:30

meng shao@shao__meng

32

Stable Diffusion 现在的影响力如何？举个例子，团队以前默认 sd 是 Stable Diffusion 的缩写，现在是 Seedance 2.0 😂

图像生成现象/趋势

15:14

IT之家（RSS）

46

英伟达 610.47 驱动现 DLSS 5 踪迹，新增 3 项神经渲染配置

英伟达 GeForce 610.47 驱动的配置文件中出现 DLSS 5 踪迹，新增了 DLSS-NR、DLSS-NR Streamline 和 DLSS-NR Presets 三项神经渲染配置。其中“NR”指向 Neural Rendering，是 DLSS 5 的核心概念。该技术将引入实时神经渲染模型，基于已渲染的 2D 画面与运动向量，为游戏画面补充光照和材质响应。

产品更新图像生成

14:14

IT之家（RSS）

62

英伟达发布 PiD 图像生成技术：13GB 显存跑通，最快 210ms 生成 2048×2048 图像

英伟达发布图像生成技术 PiD（Pixel Diffusion Decoder），能在消费级 RTX 5090 显卡上，以 13GB 峰值显存，将 512×512 图像潜变量解码放大至 2048×2048。该技术基于 PixelDiT，通过轻量级适配器与 DMD2 蒸馏（4 步推理）实现高速端到端生成，在 GB200 GPU 上最快 210ms，延迟相比级联方案最多快 5.9 倍。

图像生成论文/研究

14:14

IT之家（RSS）

62

9.4 秒生成 512×512 图像，Bonsai Image 4B 生图 AI 登陆苹果 iPhone 17 Pro Max

图像生成模型发布端侧

14:14

IT之家（RSS）

63

微软最强生图 AI 模型 MAI-Image-2.5 冲上 Arena 第三：更强文字生成

Microsoft 图像生成多模态模型发布

11:19

HuggingFace Daily Papers（社区热门论文）

精选70

MRT：用于大规模分层图像生成与编辑的掩码区域Transformer

MRT是一个20B参数的掩码区域扩散模型，专为多层透明图像生成与编辑设计。它在超过1000万个多语言设计样本上训练，统一了文本到图层、图像到图层和图层到图层三项任务。模型通过选择性token掩码实现灵活的图层生成与编辑，并引入溢出感知画布图层以处理边界不一致问题，支持半透明背景合成。此外，应用扩散蒸馏实现了8步实时生成。实验表明，MRT在所有任务上显著优于先前先进方法与商业系统。用户研究显示，其图像到图层质量优于同期Qwen-Image-Layered模型，推理速度快10-100倍，GPU内存消耗降低50-90%。

图像生成多模态论文/研究

推荐理由：首次把分层图像生成统一到 20B 遮罩扩散框架，溢出画布层的设计挺巧，让图层可以超出边界编辑，蒸馏后能实时跑，做设计工具的团队该仔细读读。

10:27

Berryxia.AI@berryxia

62

PrismML推出官方iOS应用"Bonsai Studio"，允许用户在iPhone或iPad上完全本地运行Bonsai Image 4B图像生成模型。该模型基于FLUX.2 Klein，通过1-bit/3-bit量化将权重从7.75GB压缩至0.93GB。在iPhone 15 Pro及以上设备，生成一张512×512图片约占1.5GB内存，1024×1024约占2GB，全程离线推理，无需联网或支付token费用。应用免费，支持多种风格，可用于教学素材等轻量场景，但生成中文文字存在乱码。此外，M芯片的Mac电脑也可下载该iOS客户端使用，不过需要重启并降低设备安全策略。Android端暂无官方App，可通过网页版体验。

Berryxia.AI: iPhone 上直接用 App Store 下载就行: 👉 Bonsai Studio - PrismML 官方 iOS 应用,免费安装,模型在手机本地跑我觉得给学校老师做一些素材展示,或者幼儿园小朋友教学还是可以的。不需要额外的TO...

图像生成教程/实践端侧

1…11 121314 15…30