AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 699 条
全部一手资讯X论文
标签「图像生成」清除
ginobefun@hongming731 · 5月30日78

这个 skill 看着不错,可将文字、URL 或文章直接生成公众号首图、小红书图文卡、教程步骤卡等视觉物料,支持 28 种布局和 10 种主题。

译claude-design-card 是一款专为中文内容创作者设计的 Skill。它能将文字、URL 或文章直接转化为可发布的视觉卡片,如公众号首图、小红书图文卡、教程步骤卡等,支持 28 种布局与 10 种主题。其核心价值在于自动化了“写完文章”后最繁琐的流程:自动提炼重点、选择版式、生成 HTML 并截图成 PNG,替代了以往手动使用 Figma 或 Canva 等工具的步骤。该工具开源,适合经常撰写相关内容的创作者尝试。

Luma@LumaLabsAI · 5月30日61

The blog post did the thinking. Now let the promo do the work. Drop in the content. Define the hook. Luma Agents build every promo graphic from there. Put it to work → http://lumalabs.ai/app

译博客文章完成了思考。现在让宣传来发挥作用。 输入内容。定义钩子。Luma Agents 从那里构建每一张宣传图。 投入使用 → http://lumalabs.ai/app

Runway@runwayml · 5月30日72

We are continually adding new models and endpoints to the Runway API so you can build the best generative capabilities directly into your apps, products and platforms. With the Runway API, you get all of the models you need, all in one place. Including Seedance 2.0, GPT Image 2, HappyHorse 1.0, Nano Banana Pro, Magnific Precision Upscaler V2 and more. Get started at the link below.

译我们持续为 Runway API 添加新模型和端点,以便您能将最佳生成能力直接集成到应用、产品和平台中。通过 Runway API,您可以在一个地方获得所需的所有模型,包括 Seedance 2.0、GPT Image 2、HappyHorse 1.0、Nano Banana Pro、Magnific Precision Upscaler V2 等更多内容。请通过下方链接开始使用。

Fei-Fei Li@drfeifei · 5月30日83

I’m very excited by this new benchmark dataset for visual generation that is suitable for the modern era of large scale generative models!🤩

译我对这个适用于大规模生成模型新时代的视觉生成基准数据集感到非常兴奋!🤩

PixVerse@PixVerse_ · 5月30日19

PixVerse can turn any moment into a cool transformation #pixverse #viral #fyp

译PixVerse可以将任何瞬间变成酷炫的变换 #pixverse #viral #fyp

Runway@runwayml · 5月29日52

Go behind the scenes to learn more about how The Rogue was made in under a month, by a single person with Runway. The Rogue is part of Project Luxo: a new initiative exploring how AI-generated video has crossed the uncanny valley.

译深入幕后,了解《The Rogue》如何由一个人在一个月内使用 Runway 制作完成。 《The Rogue》是 Project Luxo 的一部分:这是一个探索 AI 生成视频如何跨越恐怖谷的新项目。

SenseTime@SenseTime_AI · 5月29日28

𝗔𝗜 𝘃𝗶𝗱𝗲𝗼 𝘁𝗼𝗼𝗹𝘀 𝗮𝗿𝗲 𝗿𝗲𝘀𝗵𝗮𝗽𝗶𝗻𝗴 𝘁𝗵𝗲 𝗰𝗼𝗻𝘁𝗲𝗻𝘁 𝗶𝗻𝗱𝘂𝘀𝘁𝗿𝘆. Zibin Wang, VP of AIGC and General Manager of #Seko at SenseTime, says amateur creators are making AI short films in just one to two weeks — sparking a new wave of creativity. Hear what he said, and try it yourself with Seko, our AI video creation agent. 🎬

译AI视频工具正在重塑内容行业。 商汤AIGC副总裁、#Seko总经理王梓彬表示,业余创作者仅需一到两周就能制作AI短片——这正引发一波新的创作浪潮。 听听他的分享,并亲自体验我们的AI视频创作智能体Seko。🎬

Berryxia.AI@berryxia · 5月29日54

中午给kfc的轻食来个海报~ 使用我的这个海报Agent 非常丝滑… 就是随便的提示词,完全不吃你的提示词。

译一位用户分享了使用Bloome平台上的海报设计智能体生成KFC轻食海报的体验,称其过程“非常丝滑”,且对提示词要求不高。该智能体由@berryxia开发,源于其此前分享的高效提示词,旨在简化海报生成流程。该智能体目前需支付1美元解锁,据称在限时期间(约一周)可生成约100张图片。

🚨 AI News | TestingCatalog@testingcatalog · 5月29日63

GOOGLE 🔥: Both Nano Banana 2 and Nano Banana Pro are now in General Availability on the APIs! > NEW: Nano Banana 2 now supports video files as an input prompt. > The 1K and 2K output capabilities are generally available for both models, while the 4K capability remains in preview. > General Availability means that these models are backed by enterprise-grade infrastructure and security.

译Google 宣布 Nano Banana 2 和 Nano Banana Pro 模型现已通过 API 达到通用可用状态。其中,Nano Banana 2 新增了支持将视频文件作为输入提示的功能。在输出方面,两款模型的 1K 和 2K 输出能力已正式发布,而 4K 输出功能仍处于预览阶段。达到通用可用意味着这些模型由企业级的基础设施和安全体系提供支持。它们可通过 Gemini Enterprise Agent Platform 集成,使开发者能够将高质量的图像生成与编辑功能整合到其应用与工作流中。

Artificial Analysis@ArtificialAnlys · 5月29日64

grok-imagine-image-quality lands at #5 on both the Artificial Analysis Text to Image and Image Editing leaderboards, the leading model outside of OpenAI and Google and at a much lower price! grok-imagine-image-quality is @xAI's latest image model and a higher quality variant of grok-imagine-image. It sits behind only OpenAI's GPT Image and Google's Nano Banana across both Text to Image and Image Editing. The model supports 2K outputs at $70/1k images and 1K outputs at $50/1k images, with editing supporting up to 3 reference images. At $50/1k images for the 1K resolution tested, grok-imagine-image-quality is cheaper than GPT Image 2 at $211/1k images and Nano Banana Pro at $134/1k images, though priced at a premium compared to the standard grok-imagine-image model at $20/1k images. grok-imagine-image-quality is available via xAI's native API, the Grok chat app, and third party APIs. Congratulations to @xAI and @elonmusk on the launch! See below for comparisons between grok-imagine-image-quality and other leading models in the Artificial Analysis Image Arena 🧵

译xAI发布了新图像模型grok-imagine-image-quality。该模型在Artificial Analysis的文本生成图像与图像编辑两个榜单中均位列第五,是除OpenAI与Google外排名最高的模型。它支持2K($70/1k images)和1K($50/1k images)两种输出分辨率,编辑功能最多支持3张参考图。其定价显著低于主要竞品:GPT Image 2为$211/1k images,Nano Banana Pro为$134/1k images,但高于xAI自身的标准版模型grok-imagine-image($20/1k images)。该模型已通过xAI原生API、Grok应用及第三方API提供服务。

Krea@krea_ai · 5月29日35

we're getting started in Discord! https://discord.gg/UjVVY78b?event=1509337696818958357

译我们在Discord上启动了! https://discord.gg/UjVVY78b?event=1509337696818958357

Google AI Developers@googleaidevs · 5月29日71

🍌 Nano Banana Pro [gemini-3-pro-image] and Nano Banana 2 [gemini-3.1-flash-image] are now GA and ready for production via the Gemini API. Check out these great community examples to see the capabilities of both models in action 🧵↓

译🍌 Nano Banana Pro [gemini-3-pro-image] 和 Nano Banana 2 [gemini-3.1-flash-image] 现已正式发布,可通过 Gemini API 投入生产使用。查看这些优秀的社区示例,了解两个模型的实际能力 🧵↓

Google AI Developers@googleaidevs · 5月29日71

🍌 Nano Banana Pro [gemini-3-pro-image] and Nano Banana 2 [gemini-3.1-flash-image] are now GA and ready for production via the Gemini API. Check out these great community examples to see the capabilities of both models in action 🧵↓

译🍌 Nano Banana Pro [gemini-3-pro-image] 和 Nano Banana 2 [gemini-3.1-flash-image] 现已正式发布,可通过 Gemini API 投入生产使用。查看这些优秀的社区示例,了解两个模型的实际能力 🧵↓

SenseTime@SenseTime_AI · 5月29日65

𝗛𝗼𝘄 𝗼𝘂𝗿 𝘂𝗽𝗴𝗿𝗮𝗱𝗲𝗱 𝗶𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻 𝗺𝗼𝗱𝗲𝗹 — 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭-𝟴𝗕-𝗠𝗼𝗧-𝗜𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 — 𝗱𝗲𝗹𝗶𝘃𝗲𝗿𝘀 𝗲𝘃𝗲𝗻 𝘀𝘁𝗿𝗼𝗻𝗴𝗲𝗿 𝗰𝗮𝗽𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 💪 • 𝗧𝗲𝘅𝘁 𝗮𝗰𝗰𝘂𝗿𝗮𝗰𝘆 & 𝗿𝗲𝗮𝗱𝗮𝗯𝗶𝗹𝗶𝘁𝘆 enhanced — reduced repetition, avoided unnatural enlargement, and stronger support for small fonts • 𝗟𝗮𝘆𝗼𝘂𝘁 𝗰𝗼𝗻𝘀𝗶𝘀𝘁𝗲𝗻𝗰𝘆 & 𝗿𝗮𝘁𝗶𝗼𝗻𝗮𝗹𝗶𝘁𝘆 improved, with more stable backgrounds • 𝗖𝗵𝗮𝗿𝘁 & 𝗱𝗶𝗮𝗴𝗿𝗮𝗺 𝗾𝘂𝗮𝗹𝗶𝘁𝘆 elevated • 𝗔𝗰𝗮𝗱𝗲𝗺𝗶𝗰 𝗿𝗲𝗻𝗱𝗲𝗿𝗶𝗻𝗴 supported Try it out: 🥰 https://huggingface.co/sensenova/SenseNova-U1-8B-MoT-Infographic 🖼 Showcases: https://github.com/OpenSenseNova/SenseNova-U1/blob/main/docs/u1_infographic_showcases.md 👾 Discord: https://discord.gg/BuTXPHmQub @huggingface @github

译SenseNova-U1-8B-MoT-Infographic 是一个升级后的8B参数信息图表生成模型。其核心提升在于:增强了文本的准确性与可读性,减少了重复和不自然的放大;改进了布局的一致性与合理性,背景更稳定;提升了图表与示意图的渲染质量;并新增了学术内容的渲染支持。

SenseTime@SenseTime_AI · 5月28日68

𝗛𝗼𝘄 𝗼𝘂𝗿 𝘂𝗽𝗴𝗿𝗮𝗱𝗲𝗱 𝗶𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻 𝗺𝗼𝗱𝗲𝗹 — 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭-𝟴𝗕-𝗠𝗼𝗧-𝗜𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 — 𝗱𝗲𝗹𝗶𝘃𝗲𝗿𝘀 𝗲𝘃𝗲𝗻 𝘀𝘁𝗿𝗼𝗻𝗴𝗲𝗿 𝗰𝗮𝗽𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 💪 • 𝗧𝗲𝘅𝘁 𝗮𝗰𝗰𝘂𝗿𝗮𝗰𝘆 & 𝗿𝗲𝗮𝗱𝗮𝗯𝗶𝗹𝗶𝘁𝘆 enhanced — reduced repetition, avoided unnatural enlargement, and stronger support for small fonts • 𝗟𝗮𝘆𝗼𝘂𝘁 𝗰𝗼𝗻𝘀𝗶𝘀𝘁𝗲𝗻𝗰𝘆 & 𝗿𝗮𝘁𝗶𝗼𝗻𝗮𝗹𝗶𝘁𝘆 improved, with more stable backgrounds • 𝗖𝗵𝗮𝗿𝘁 & 𝗱𝗶𝗮𝗴𝗿𝗮𝗺 𝗾𝘂𝗮𝗹𝗶𝘁𝘆 elevated • 𝗔𝗰𝗮𝗱𝗲𝗺𝗶𝗰 𝗿𝗲𝗻𝗱𝗲𝗿𝗶𝗻𝗴 supported Try it out: 🥰 https://huggingface.co/sensenova/SenseNova-U1-8B-MoT-Infographic 🖼 Showcases: https://github.com/OpenSenseNova/SenseNova-U1/blob/main/docs/u1_infographic_showcases.md 👾 Discord: https://discord.gg/BuTXPHmQub @huggingface @github

译商汤科技介绍了其升级后的信息图生成模型 SenseNova-U1-8B-MoT-Infographic。该模型参数为8B,在四个关键维度进行了优化:文本准确性与可读性增强,减少了重复和不当放大;布局的一致性与合理性提升,背景更稳定;图表与示意图的质量提高;并新增了学术内容的渲染支持。推文提供了在 Hugging Face 上的模型页面链接及能力展示页面。

Berryxia.AI@berryxia · 5月28日73

Qwen新发布的Qwen-Image-Bench,把T2I评测从“生成”直接拉到“创作”: 56个细粒度facet + ρ=0.92人类对齐Q-Judger,OpenAI、Gemini、Grok、Flux全得重排座次! 大家还在死磕提示词对齐,Qwen却证明:真实世界保真度和创意生成能力才是真正差距。 新基准1000条prompt+56个rubric,可解释诊断,现有SOTA模型差距肉眼可见。 那么,对于我们有什么实际使用价值呢? 实际怎么用?(收藏) 1. 开发者/研究者:把自己的T2I pipeline(不管是Qwen自家模型、GPT-4o图像、Gemini的Imagen系列、Grok的Flux集成还是开源SD3)扔到这个benchmark上跑一遍。 重点看Real-world Fidelity和Creative Generation两个支柱的得分,就能知道真实差距在哪。 2. Prompt工程师:以后写复杂创意prompt时,可以用Q-Judger先自测一下生成结果在56个facet上的表现,快速迭代,而不是靠人工肉眼判断。 3. 企业/产品方:要选T2I供应商或者自研图像生成时,把Qwen-Image-Bench当作新标杆。 别再只看“prompt alignment”这种基础分了,直接看创意和保真度得分,更接近真实商业场景。 4. 对比实验:论文已经证明,它在区分领先模型上的分离度远超老基准。 想验证自己模型有没有进步?用这个跑前后对比,数据会说话。 Qwen这次的打法很清晰:不光自己卷模型,还把评测标准往前推了一大步。 就像当年Scaling Law出来后大家才知道该怎么卷参数一样,这次Qwen-Image-Bench把“从生成到创作”的评价框架给立住了。

译阿里通义千问(Qwen)推出了新的文本到图像(T2I)评测基准Qwen-Image-Bench。该基准包含56个细粒度评估维度,并配备与人类对齐度达ρ=0.92的评判模型Q-Judger。其核心理念是将T2I模型评价从基础的“提示词对齐”,提升至关注“真实世界保真度”和“创意生成能力”两大支柱,通过1000条测试提示词能更清晰地区分现有SOTA模型表现。该基准为开发者、提示词工程师及企业提供了一个更贴近实际创作需求的新评估框架。

AK@_akhaliq · 5月28日54

MRT Masked Region Transformer for Layered Image Generation and Editing at Scale

译MRT 用于大规模分层图像生成与编辑的掩码区域Transformer

Krea@krea_ai · 5月28日58

introducing Moodboard Gallery. we added thousands of new moodboards in our gallery for you to explore and generate using Krea 2. we're also previewing "random" and "auto" – two new modes to select moodboards automatically for your generations.

译推出情绪板画廊。 我们在画廊中新增了数千个情绪板,供您探索并使用 Krea 2 生成。 我们还预览了“随机”和“自动”两种新模式,可自动为您的生成选择情绪板。

Rohan Paul@rohanpaul_ai · 5月28日71

Image diffusion Transformers train poorly because their layers pass information in a fixed, outdated way. Now they can train much faster by changing how layers share information. With this paper, the same image quality arrived with 8.75x fewer training iterations. The surprise is not that Diffusion Transformers had an inefficiency, but where it was hiding. Researchers have spent years refining attention, conditioning, tokenization, objectives, and autoencoders, while leaving the residual stream mostly untouched because it looked like plumbing rather than intelligence. In a standard residual stack, every layer keeps adding its output to the running stream, which sounds harmless until the stream’s magnitude swells, gradients fade backward, and neighboring blocks begin saying nearly the same thing. That is bad for any Transformer, but it is especially awkward for diffusion, because denoising is not one fixed task repeated at every step. The authors found 3 signs that this old setup hurts the model: signals get too large going forward, learning signals fade going backward, and nearby blocks often produce almost the same features. Their fix is Diffusion-Adaptive Routing, a replacement that lets each layer choose which earlier layer outputs to use, and the choice changes with the denoising timestep. The big deal is that the paper does not add a new image dataset, loss, tokenizer, or attention trick, but instead questions the old residual connection that most models kept copying from language Transformers. ---- Link – arxiv. org/abs/2605.20708 Title: "Rethinking Cross-Layer Information Routing in Diffusion Transformers"

译传统Diffusion Transformers因层间信息传递方式固化导致训练效率低下。研究团队提出Diffusion-Adaptive Routing方法,允许每层动态选择使用哪些早期层的输出,且该选择随去噪时间步调整。该方法未引入新的数据集、损失函数或注意力机制,仅通过优化残差连接,使得相同图像质量所需的训练迭代次数减少8.75倍。

🚨 AI News | TestingCatalog@testingcatalog · 5月28日45

ICYMI 👀: Users with access to Google Genie experiment now can use locations from Google Maps to generate virtual worlds. “Golden Gate Bridge” 🤖

译如果你错过了 👀:现在,拥有 Google Genie 实验访问权限的用户可以使用 Google 地图中的地点来生成虚拟世界。 “金门大桥” 🤖

Krea@krea_ai · 5月28日64

Krea 2 live on Replicate!

译Krea 2现已登陆Replicate! 生成高保真、富有创意的图像,美学优先。

歸藏(guizang.ai)@op7418 · 5月28日74

来了!这次的小红书图片生成器 Skill 效果太好了 我都没想到他能够这么顶, 这次在图文混排上下了非常大功夫 2 套主题、28 个版式、9 套配色、8 大小红书主流内容类别适配 如果你自己有非常漂亮的图片,那么它就会凸显你的图片。 如果你没有图片,它会帮你找很牛逼的图片。 即使你的图片不太行,它也会帮你美化,而且会主动避免使用 AI 图片生成,防止你的内容被打上 AI 标记。 我过去一段时间做这类图文内容的痛点都被解决了,放在这里边

译一款针对小红书内容的图片生成器 Skill 发布,宣称效果出色,解决了图文混排的核心痛点。该 Skill 包含 2 套主题、28 个版式、9 套配色,并适配 8 大小红书主流内容类别。其核心优势在于智能处理图片:能凸显用户提供的高质量图片、自动寻找优质图片替代,并能美化普通图片,同时主动避免使用 AI 生成图片以防止内容被标记。该工具旨在高效生成具有专业效果的小红书图文内容。

Krea@krea_ai · 5月28日31

Community Updates is happening tomorrow in Discord. ask questions, learn about Krea 2 API, and get updated on upcoming features. link below 👇

译社区更新活动将于明天在 Discord 举行。 可以提问、了解 Krea 2 API,并获取即将推出功能的最新信息。 链接在下方 👇

Krea@krea_ai · 5月28日41

Krea 2 Launch Party – happening tomorrow in SF. rsvp 👇

译Krea 2 发布派对 – 明天在旧金山举行。 rsvp 👇

Krea@krea_ai · 5月28日62

Krea 2 now built in to Hermes

译Krea 2现已内置到Hermes中。

Krea@krea_ai · 5月28日73

Krea 2 available in Comfy!

译Krea 2现已登陆Comfy! KREA的首个基础图像模型——从零训练——具备可调节的创造力、风格参考和情绪板条件控制。

Krea@krea_ai · 5月28日58

Krea 2 is now live on Runware!

译Krea 2 现已在 Runware 上线! - 两个版本:Large(照片级写实,创意控制)和 Medium(插画、动漫、设计) - 每次生成最多支持 10 张加权参考图 - 内置创意控制功能 - 支持情绪板和风格迁移 - 支持文生图和图生图模式

Berryxia.AI@berryxia · 5月28日65

这种复刻起来没有太多难度。 提示词见评论区:

Berryxia.AI@berryxia · 5月27日45

GPT其实并不是审美的多大的提升,本质的模型预训练太多这种素材了。 它非常擅长结构化的排版设计,非常工整,不能说审美90分。 至少是7-80分是一点问题,我之前研究过GPT排版的结构化的设计。 回头可以看看能不能整理出来分享给大家。

译用户实测发现,GPT Image 2 在仅给出简单指令的情况下,能自主生成结构清晰、可直接使用的排版图,体验震撼。有分析指出,GPT 这种出色的结构化排版能力,本质上源于其预训练过程中接触了大量此类素材,而非模型审美本身有巨大提升,但其默认效果已足够好用。

Berryxia.AI@berryxia · 5月27日33

这种GPT&Seedance 2.0 打斗的视频一直可以火。 这恰巧是SD2.0 最擅长的,视觉效果也拉满。 做游戏Demo展示太好了!

译这种GPT&Seedance 2.0打斗的视频一直可以火。 这恰巧是SD2.0最擅长的,视觉效果也拉满。 做游戏Demo展示太好了!

Krea@krea_ai · 5月27日62

today, we're releasing the API for Krea 2. now available in platforms like @fal or @ComfyUI, through agents like Hermes from @NousResearch, and with full support for Claude, Codex, or OpenClaw. learn how you can set it up 👇

译今天,我们发布了 Krea 2 的 API。 现已在 @fal 或 @ComfyUI 等平台可用,通过 @NousResearch 的 Hermes 等智能体使用,并全面支持 Claude、Codex 或 OpenClaw。 了解如何设置 👇

Runway@runwayml · 5月27日73

Introducing Runway MCP. Now you can connect Runway directly into Claude, ChatGPT, Cursor, Replit and more. Generate polished images and videos with state-of-the-art models, like Gen-4.5, Seedance 2.0, GPT Images 2.0, Kling and more. Right from where you're already working. Connect the MCP to your agent in seconds at the link below.

译推出 Runway MCP。现在你可以将 Runway 直接连接到 Claude、ChatGPT、Cursor、Replit 等平台。 使用最先进的模型(如 Gen-4.5、Seedance 2.0、GPT Images 2.0、Kling 等)生成精美的图像和视频,直接在你当前的工作环境中完成。 通过下方链接,几秒钟内即可将 MCP 连接到你的智能体。

歸藏(guizang.ai)@op7418 · 5月27日80

guizang-social-card-skill 按照小红书的图文常见类别,每个类别都做了优化。 比如说旅行博主需要的地图组件,已经放进去了 你给了目的地和线路以后,AI 会自动在底图上标记,嵌入到图片里面。

译该推文介绍了guizang-social-card-skill,一款针对小红书图文常见类别进行优化的AI Skill。其亮点在于为旅行博主集成了地图组件,用户输入目的地和线路后,AI能自动在底图上标记并嵌入图片。根据引用,该Skill完全基于HTML和实拍图片生成内容,不会被平台标注为AI生成,并会主动从高质量图片网站寻找对应主题图片,以优化图文排版。

meng shao@shao__meng · 5月27日32

Stable Diffusion 现在的影响力如何? 举个例子,团队以前默认 sd 是 Stable Diffusion 的缩写,现在是 Seedance 2.0 😂

Berryxia.AI@berryxia · 5月27日62

还有个骚操作就是M芯片的mac电脑下载iOS客户端,直接在mac上使用。 不过使用的化要将电脑重启然后安全性降低,完整安全性的降低其安全策略,这个大家可以试试。

译PrismML推出官方iOS应用“Bonsai Studio”,允许用户在iPhone或iPad上完全本地运行Bonsai Image 4B图像生成模型。该模型基于FLUX.2 Klein,通过1-bit/3-bit量化将权重从7.75GB压缩至0.93GB。在iPhone 15 Pro及以上设备,生成一张512×512图片约占1.5GB内存,1024×1024约占2GB,全程离线推理,无需联网或支付token费用。应用免费,支持多种风格,可用于教学素材等轻量场景,但生成中文文字存在乱码。此外,M芯片的Mac电脑也可下载该iOS客户端使用,不过需要重启并降低设备安全策略。Android端暂无官方App,可通过网页版体验。

Berryxia.AI@berryxia · 5月27日72

iPhone 上直接用 App Store 下载就行: 👉 Bonsai Studio — PrismML 官方 iOS 应用,免费安装,模型在手机本地跑 我觉得给学校老师做一些素材展示,或者幼儿园小朋友教学还是可以的。 不需要额外的TOKEN费用,风格支持的挺多的。 中文文字还是乱码但是可以快速理解你的意境(图2) 技术背景: Bonsai Image 4B 基于 FLUX.2 Klein,把模型权重压缩成 1-bit/3-bit,体积从 7.75GB 压到 0.93GB iPhone 上生成一张 512×512 图约占 1.5GB 内存, 1024×1024 大概 2GB,iPhone 15 Pro 以上没问题 完全本地推理,不联网 就可以跑起来! Android 暂时没官方 App,只能走 WebGPU 网页版。 我实际在iPhone 17 Pro Max 测试了一下,出一张5125*512的画的速度不到几十秒就可以出来一张。 浏览器中需要下载1.8G 左右模型就可以玩~ 地址在评论区👇🏻

译PrismML发布官方iOS应用Bonsai Studio,用户可免费下载,在iPhone上本地离线运行其Bonsai Image 4B扩散模型。该模型基于FLUX.2 Klein,其1-bit压缩版仅0.93GB,比全精度版小8.3倍。在iPhone 15 Pro及以上机型生成512×512图像耗时约几十秒,内存占用约1.5GB。应用支持多种风格,但中文文字生成目前为乱码。Android用户可通过WebGPU网页版体验。

Berryxia.AI@berryxia · 5月27日71

兄弟们,端侧生图模型又有新东西了! 之前有客户端Drawthing 客户端也是支持iPad 手机进行文生图~ 今天PrismML也来了一个好玩的… 他们发布了1-bit和Ternary版本的Bonsai Image 4B扩散模型。 1-bit那版只有0.93GB,比全精度模型小8.3倍。 Ternary版1.21GB,用-1、0、+1的三元权重,在保持极致小巧的同时,把图像质量和提示词遵循度拉得更高。 两者在Mac M4 Pro上生成速度最高能快5.6倍。 更重要的是,质量上它跟那些大得多的模型打得有来有回。 对象构图、人像偏好、美学评分、复杂提示跟随,全都不落下风。 他们还同步上线了Bonsai Studio这个iOS App。 直接在iPhone上本地生成图像,不用订阅,不用调用API,彻底离线可用。 这套极致压缩技术,把以前只有云端才能玩的高质量图像生成,真正塞进了个人设备。 完了测试效果看看如何… 等我

译PrismML发布了Bonsai Image 4B扩散模型的1-bit和Ternary两个极致压缩版本。1-bit版本仅0.93GB,比全精度模型缩小8.3倍;Ternary版本为1.21GB,采用-1、0、+1三元权重。两者在Mac M4 Pro上的生成速度最高可提升5.6倍,且生成质量可与更大模型相媲美。同时,PrismML推出了配套的iOS应用Bonsai Studio,支持在iPhone上完全离线、本地生成图像。

Luma@LumaLabsAI · 5月27日64

The words are already there. Now make them impossible to scroll past. Drop in the content. Set the direction. Luma Agents turn every newsletter into shareable graphics from there. Make it shareable → http://lumalabs.ai/app

译文字已就位。现在让它们无法被滑过。 只需放入内容,设定方向。Luma Agents 从此将每份新闻稿转化为可分享的图形。 让它可分享 → http://lumalabs.ai/app

向阳乔木@vista8 · 5月27日35

Chrome新开Tab,是每天最高频用的页面之一。 除了时间、Todo、常用网址,想到个特别的交互设计。 点击focus图标,把时间显示变成番茄钟。 想专注,物理世界时间也要忘记,感觉很合理,哈哈哈。 最近访问、收藏夹、小工具、设置等都通过侧边框查看,不高频就收起来。 想法告诉Codex,AI画的原型

译一条关于Chrome新标签页的UI设计推文。其核心创意是增加一个“专注模式”:点击特定图标后,界面切换为番茄钟显示,旨在帮助用户在专注工作时忘记时间流逝。此外,推文提出将“最近访问”、“收藏夹”等非高频功能模块折叠至侧边栏,以减少主界面干扰。该设计想法及原型均由AI模型Codex生成。

SenseTime@SenseTime_AI · 5月26日70

🚀 𝗪𝗲'𝘃𝗲 𝗼𝗽𝗲𝗻-𝘀𝗼𝘂𝗿𝗰𝗲𝗱 𝘁𝗵𝗲 𝗳𝘂𝗹𝗹 𝘁𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗰𝗼𝗱𝗲𝗯𝗮𝘀𝗲 𝗳𝗼𝗿 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭 (8B dense + A3B MoE). ​ ​ One stack for 𝘁𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗺𝘂𝗹𝘁𝗶𝗺𝗼𝗱𝗮𝗹 𝘁𝗮𝘀𝗸𝘀 across: text-to-image · editing · interleaved generation · text & vision understanding.​ ​ Built for practical large-scale training: ​ ⚙ Hybrid WP/TP/PP + ISP parallelism​ 🌊 Streaming, resumable, packed data pipeline ​ 🎛 Env-var driven configs for easy experimentation ​ 🧱 Decoupled backbone, data, and objective modules ​ 📈 Scales from 1×8 GPUs to multi-node clusters ​ ​ Apache-2.0 👇 ​ https://github.com/OpenSenseNova/SenseNova-U1​ Discord: https://discord.gg/BuTXPHmQub​ ​ @github

译OpenSenseNova开源了SenseNova-U1的完整训练代码库,支持其8B密集模型与A3B MoE架构。该代码库使用一个统一的框架,可同时训练多种多模态任务,包括文本到图像生成、图像编辑、交错生成及文本与视觉理解。工程上为大规模训练设计,支持混合并行、流式可恢复数据管线、环境变量驱动配置以及从1×8 GPUs到多节点集群的扩展能力。代码已在GitHub开源,采用Apache-2.0协议。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月30日
06:42
ginobefun@hongming731
精选78
claude-design-card 是一款专为中文内容创作者设计的 Skill。它能将文字、URL 或文章直接转化为可发布的视觉卡片,如公众号首图、小红书图文卡、教程步骤卡等,支持 28 种布局与 10 种主题。其核心价值在于自动化了"写完文章"后最繁琐的流程:自动提炼重点、选择版式、生成 HTML 并截图成 PNG,替代了以往手动使用 Figma 或 Canva 等工具的步骤。该工具开源,适合经常撰写相关内容的创作者尝试。

撸毛吃猪脚饭: 昨天那个 md2wechat-skill 很多人收藏 今天再分享一个很适合中文创作者的 Skill:claude-design-card。 它可以把一段文字、一个 URL、一篇文章,直接生成能发出去的视觉卡片,比如公众号首图、小红书图文卡、...

GitHub图像生成开源/仓库

推荐理由:这个 Skill 把内容创作者最烦的「写文→排卡片→出图」流程直接打通了,28 种布局一键生成,做公众号和小红书的可以立刻收藏,关键不是好看是真省时间。
04:55
Luma@LumaLabsAI
61
博客文章完成了思考。现在让宣传来发挥作用。 输入内容。定义钩子。Luma Agents 从那里构建每一张宣传图。 投入使用 → http://lumalabs.ai/app
产品更新图像生成视频
04:10
Runway@runwayml
精选72
我们持续为 Runway API 添加新模型和端点,以便您能将最佳生成能力直接集成到应用、产品和平台中。通过 Runway API,您可以在一个地方获得所需的所有模型,包括 Seedance 2.0、GPT Image 2、HappyHorse 1.0、Nano Banana Pro、Magnific Precision Upscaler V2 等更多内容。请通过下方链接开始使用。
产品更新图像生成

推荐理由:Runway API 这次集中上新,Seedance 2.0 加入虽然方便了开发者,但没有模型能力的质变,更像是生态补全。
01:14
Fei-Fei Li@drfeifei
精选83
我对这个适用于大规模生成模型新时代的视觉生成基准数据集感到非常兴奋!🤩

Keshigeyan Chandrasegaran: 1/ Introducing GPIC: a Giant Permissive Image Corpus and benchmark for visual generation! 🚀100M VLM-captioned image-tex...

Hugging Face图像生成数据/训练论文/研究

推荐理由:李飞飞都来站台,这个数据集不简单。完全允许商业用途是关键,对做视觉生成的团队来说,终于有了一个不用再为版权头疼的超级训练库。
00:45
PixVerse@PixVerse_
19
PixVerse可以将任何瞬间变成酷炫的变换 #pixverse #viral #fyp
产品更新图像生成视频
5月29日
22:40
Runway@runwayml
52
深入幕后,了解《The Rogue》如何由一个人在一个月内使用 Runway 制作完成。 《The Rogue》是 Project Luxo 的一部分:这是一个探索 AI 生成视频如何跨越恐怖谷的新项目。
图像生成教程/实践视频
15:39
SenseTime@SenseTime_AI
28
AI视频工具正在重塑内容行业。 商汤AIGC副总裁、#Seko总经理王梓彬表示,业余创作者仅需一到两周就能制作AI短片--这正引发一波新的创作浪潮。 听听他的分享,并亲自体验我们的AI视频创作智能体Seko。🎬
图像生成行业动态视频
14:34
Berryxia.AI@berryxia
54
一位用户分享了使用Bloome平台上的海报设计智能体生成KFC轻食海报的体验,称其过程"非常丝滑",且对提示词要求不高。该智能体由@berryxia开发,源于其此前分享的高效提示词,旨在简化海报生成流程。该智能体目前需支付1美元解锁,据称在限时期间(约一周)可生成约100张图片。

Berryxia.AI: 兄弟们,今天我不装了。 摊牌了~ 之前一直有朋友说你这套提示词生成的海报这么好看,而且非常丝滑。 捣鼓了一套万能产品、人文、科技、展会等等 都可以快速出图的提示词。 但是,很多人还是用不来觉得麻烦。 于是我,我把它在Bloome 做了个海报...

产品更新图像生成
05:49
🚨 AI News | TestingCatalog@testingcatalog
63
Google 宣布 Nano Banana 2 和 Nano Banana Pro 模型现已通过 API 达到通用可用状态。其中,Nano Banana 2 新增了支持将视频文件作为输入提示的功能。在输出方面,两款模型的 1K 和 2K 输出能力已正式发布,而 4K 输出功能仍处于预览阶段。达到通用可用意味着这些模型由企业级的基础设施和安全体系提供支持。它们可通过 Gemini Enterprise Agent Platform 集成,使开发者能够将高质量的图像生成与编辑功能整合到其应用与工作流中。

Thomas Kurian: Nano Banana 2 and Nano Banana Pro are now generally available via Gemini Enterprise Agent Platform. Backed by enterprise...

Google图像生成多模态模型发布
03:18
Artificial Analysis@ArtificialAnlys
64
xAI发布新图像模型grok-imagine-image-quality,榜单排名第五且价格更具竞争力

xAI发布了新图像模型grok-imagine-image-quality。该模型在Artificial Analysis的文本生成图像与图像编辑两个榜单中均位列第五,是除OpenAI与Google外排名最高的模型。它支持2K($70/1k images)和1K($50/1k images)两种输出分辨率,编辑功能最多支持3张参考图。其定价显著低于主要竞品:GPT Image 2为$211/1k images,Nano Banana Pro为$134/1k images,但高于xAI自身的标准版模型grok-imagine-image($20/1k images)。该模型已通过xAI原生API、Grok应用及第三方API提供服务。

xAI图像生成模型发布
03:12
Krea@krea_ai
35
我们在Discord上启动了! https://discord.gg/UjVVY78b?event=1509337696818958357
图像生成行业动态
02:42
Google AI Developers@googleaidevs
71
🍌 Nano Banana Pro 【gemini-3-pro-image】 和 Nano Banana 2 【gemini-3.1-flash-image】 现已正式发布,可通过 Gemini API 投入生产使用。查看这些优秀的社区示例,了解两个模型的实际能力 🧵↓
Google图像生成模型发布
01:42
Google AI Developers@googleaidevs
精选71
🍌 Nano Banana Pro 【gemini-3-pro-image】 和 Nano Banana 2 【gemini-3.1-flash-image】 现已正式发布,可通过 Gemini API 投入生产使用。查看这些优秀的社区示例,了解两个模型的实际能力 🧵↓
Google图像生成模型发布

推荐理由:Google 把 Gemini 图像生成能力打包进 Nano Banana 系列并正式 GA,开发者现在可以稳定调用 Pro 和 Flash 级别的生图 API,对做图像应用的团队是个实在利好。
00:06
SenseTime@SenseTime_AI
同事件精选65
SenseNova信息图表生成模型升级:文本、布局与图表质量全面增强

SenseNova-U1-8B-MoT-Infographic 是一个升级后的8B参数信息图表生成模型。其核心提升在于:增强了文本的准确性与可读性,减少了重复和不自然的放大;改进了布局的一致性与合理性,背景更稳定;提升了图表与示意图的渲染质量;并新增了学术内容的渲染支持。

Hugging Face图像生成多模态模型发布
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
推荐理由:商汤这个8B信息图生成模型升级了,文本和布局都更稳,对常做数据图表和学术配图的人算个实用的小迭代,没有到改变游戏规则的程度。
5月28日
23:36
SenseTime@SenseTime_AI
精选68
商汤发布信息图生成模型升级,增强多项核心能力

商汤科技介绍了其升级后的信息图生成模型 SenseNova-U1-8B-MoT-Infographic。该模型参数为8B,在四个关键维度进行了优化:文本准确性与可读性增强,减少了重复和不当放大;布局的一致性与合理性提升,背景更稳定;图表与示意图的质量提高;并新增了学术内容的渲染支持。推文提供了在 Hugging Face 上的模型页面链接及能力展示页面。

图像生成模型发布
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)
推荐理由:信息图生成赛道又出新货,商汤这次把文本渲染和布局稳定性真正做好了,做学术图表或运营配图的人可以直接去HuggingFace试用,效果肉眼可见的提升。
23:31
Berryxia.AI@berryxia
73
通义千问(Qwen)发布新T2I评测基准Qwen-Image-Bench,推动评价标准升级

阿里通义千问(Qwen)推出了新的文本到图像(T2I)评测基准Qwen-Image-Bench。该基准包含56个细粒度评估维度,并配备与人类对齐度达ρ=0.92的评判模型Q-Judger。其核心理念是将T2I模型评价从基础的“提示词对齐”,提升至关注“真实世界保真度”和“创意生成能力”两大支柱,通过1000条测试提示词能更清晰地区分现有SOTA模型表现。该基准为开发者、提示词工程师及企业提供了一个更贴近实际创作需求的新评估框架。

Adina Yakup: Qwen @Alibaba_Qwen just dropped a new Text to Image benchmark + a judge model https://huggingface.co/collections/Qwen/qw...

图像生成开源生态评测/基准
23:12
AK@_akhaliq
54
MRT 用于大规模分层图像生成与编辑的掩码区域Transformer
图像生成论文/研究
23:12
Krea@krea_ai
58
推出情绪板画廊。 我们在画廊中新增了数千个情绪板,供您探索并使用 Krea 2 生成。 我们还预览了"随机"和"自动"两种新模式,可自动为您的生成选择情绪板。
产品更新图像生成
19:11
Rohan Paul@rohanpaul_ai
71
Diffusion Transformers训练提速8.75倍:革新残差连接机制

传统Diffusion Transformers因层间信息传递方式固化导致训练效率低下。研究团队提出Diffusion-Adaptive Routing方法,允许每层动态选择使用哪些早期层的输出,且该选择随去噪时间步调整。该方法未引入新的数据集、损失函数或注意力机制,仅通过优化残差连接,使得相同图像质量所需的训练迭代次数减少8.75倍。

arXiv图像生成数据/训练论文/研究
15:41
🚨 AI News | TestingCatalog@testingcatalog
45
如果你错过了 👀:现在,拥有 Google Genie 实验访问权限的用户可以使用 Google 地图中的地点来生成虚拟世界。 "金门大桥" 🤖
Google产品更新图像生成多模态
14:06
Krea@krea_ai
64
Krea 2现已登陆Replicate! 生成高保真、富有创意的图像,美学优先。

Replicate: Krea 2 from @krea_ai is available on Replicate. Generate high-fidelity, creative images with aesthetics first in mind.

产品更新图像生成部署/工程
关联讨论 1 条X:Krea AI (@krea_ai)
11:37
歸藏(guizang.ai)@op7418
74
小红书图片生成器新Skill,图文混排痛点全解决

一款针对小红书内容的图片生成器 Skill 发布,宣称效果出色,解决了图文混排的核心痛点。该 Skill 包含 2 套主题、28 个版式、9 套配色,并适配 8 大小红书主流内容类别。其核心优势在于智能处理图片:能凸显用户提供的高质量图片、自动寻找优质图片替代,并能美化普通图片,同时主动避免使用 AI 生成图片以防止内容被标记。该工具旨在高效生成具有专业效果的小红书图文内容。

歸藏(guizang.ai): http://x.com/i/article/2059811469081141248

图像生成多模态教程/实践
08:05
Krea@krea_ai
31
社区更新活动将于明天在 Discord 举行。 可以提问、了解 Krea 2 API,并获取即将推出功能的最新信息。 链接在下方 👇
产品更新图像生成
04:35
Krea@krea_ai
41
Krea 2 发布派对 - 明天在旧金山举行。 rsvp 👇
产品更新图像生成
04:35
Krea@krea_ai
62
Krea 2现已内置到Hermes中。

Nous Research: Krea is now built in to Hermes Agent as an image generation API provider, allowing your agent to use Krea 2: a new found...

智能体图像生成模型发布
关联讨论 1 条X:Krea AI (@krea_ai)
04:05
Krea@krea_ai
精选73
Krea 2现已登陆Comfy! KREA的首个基础图像模型--从零训练--具备可调节的创造力、风格参考和情绪板条件控制。

ComfyUI: KREA 2 Image is now a Partner Node in ComfyUI KREA's first foundation image model - trained from scratch - with tunable ...

图像生成模型发布
关联讨论 1 条X:Krea AI (@krea_ai)
推荐理由:Krea 终于掏出自己的基础图像模型,不再只是包装别人模型。ComfyUI 原生节点让工作流玩家可以立刻上手折腾,自研模型的风格控制是个新鲜变量。
01:34
Krea@krea_ai
58
Krea 2 现已在 Runware 上线! - 两个版本:Large(照片级写实,创意控制)和 Medium(插画、动漫、设计) - 每次生成最多支持 10 张加权参考图 - 内置创意控制功能 - 支持情绪板和风格迁移 - 支持文生图和图生图模式

Runware: Krea 2 is now on Runware 🖌️ - two variants: Large (photorealism, creative control) & Medium (illustration, anime, desig...

图像生成模型发布
00:27
Berryxia.AI@berryxia
65
这种复刻起来没有太多难度。 提示词见评论区:

@jason: Who made this?!?!

图像生成教程/实践
5月27日
23:27
Berryxia.AI@berryxia
45
GPT Image 2 优秀排版源于预训练,非审美飞跃

用户实测发现,GPT Image 2 在仅给出简单指令的情况下,能自主生成结构清晰、可直接使用的排版图,体验震撼。有分析指出,GPT 这种出色的结构化排版能力,本质上源于其预训练过程中接触了大量此类素材,而非模型审美本身有巨大提升,但其默认效果已足够好用。

赖叔 | LaiShu.ai: 卧槽,GPT Image 2 的默认审美已经到这个程度了? 今天拍了份数学卷子,让它分析错题 分析完我随手加了一句: "将上面的孩子的最主要问题以及解决方案,平时训练建议都用一张图画出来" 没配色、没构图、没风格限定 结果它自己排版、标记 ...

OpenAI图像生成现象/趋势
23:27
Berryxia.AI@berryxia
33
这种GPT&Seedance 2.0打斗的视频一直可以火。 这恰巧是SD2.0最擅长的,视觉效果也拉满。 做游戏Demo展示太好了!
图像生成大佬观点视频
23:04
Krea@krea_ai
62
今天,我们发布了 Krea 2 的 API。 现已在 @fal 或 @ComfyUI 等平台可用,通过 @NousResearch 的 Hermes 等智能体使用,并全面支持 Claude、Codex 或 OpenClaw。 了解如何设置 👇
智能体产品更新图像生成
22:30
Runway@runwayml
73
推出 Runway MCP。现在你可以将 Runway 直接连接到 Claude、ChatGPT、Cursor、Replit 等平台。 使用最先进的模型(如 Gen-4.5、Seedance 2.0、GPT Images 2.0、Kling 等)生成精美的图像和视频,直接在你当前的工作环境中完成。 通过下方链接,几秒钟内即可将 MCP 连接到你的智能体。
MCP/工具产品更新图像生成视频
关联讨论 1 条Runway:News(网页)
19:34
歸藏(guizang.ai)@op7418
精选80
藏师傅发布小红书图文排版AI Skill,集成地图与自动配图

该推文介绍了guizang-social-card-skill,一款针对小红书图文常见类别进行优化的AI Skill。其亮点在于为旅行博主集成了地图组件,用户输入目的地和线路后,AI能自动在底图上标记并嵌入图片。根据引用,该Skill完全基于HTML和实拍图片生成内容,不会被平台标注为AI生成,并会主动从高质量图片网站寻找对应主题图片,以优化图文排版。

歸藏(guizang.ai): 藏师傅的小红书图文排版 Skill 预览 完全靠 HTML 和实拍图片,不会被标注 AI AI 会去高质量图片网站帮你寻找对应的主题图片,让你的图文告别只有生硬文字的尴尬情况

图像生成教程/实践
关联讨论 1 条X:歸藏 (@op7418)
推荐理由:藏师傅这个 skill 把小红书图文排版门槛直接砍没,尤其是旅行地图组件 AI 自动标记路线,做内容的直接抄走就行,告别只有生硬文字的尴尬。
19:30
meng shao@shao__meng
32
Stable Diffusion 现在的影响力如何? 举个例子,团队以前默认 sd 是 Stable Diffusion 的缩写,现在是 Seedance 2.0 😂
图像生成现象/趋势
10:27
Berryxia.AI@berryxia
62
PrismML推出官方iOS应用"Bonsai Studio",允许用户在iPhone或iPad上完全本地运行Bonsai Image 4B图像生成模型。该模型基于FLUX.2 Klein,通过1-bit/3-bit量化将权重从7.75GB压缩至0.93GB。在iPhone 15 Pro及以上设备,生成一张512×512图片约占1.5GB内存,1024×1024约占2GB,全程离线推理,无需联网或支付token费用。应用免费,支持多种风格,可用于教学素材等轻量场景,但生成中文文字存在乱码。此外,M芯片的Mac电脑也可下载该iOS客户端使用,不过需要重启并降低设备安全策略。Android端暂无官方App,可通过网页版体验。

Berryxia.AI: iPhone 上直接用 App Store 下载就行: 👉 Bonsai Studio - PrismML 官方 iOS 应用,免费安装,模型在手机本地跑 我觉得给学校老师做一些素材展示,或者幼儿园小朋友教学还是可以的。 不需要额外的TO...

图像生成教程/实践端侧
09:27
Berryxia.AI@berryxia
72
Bonsai Studio:iPhone端侧离线图像生成应用上线

PrismML发布官方iOS应用Bonsai Studio,用户可免费下载,在iPhone上本地离线运行其Bonsai Image 4B扩散模型。该模型基于FLUX.2 Klein,其1-bit压缩版仅0.93GB,比全精度版小8.3倍。在iPhone 15 Pro及以上机型生成512×512图像耗时约几十秒,内存占用约1.5GB。应用支持多种风格,但中文文字生成目前为乱码。Android用户可通过WebGPU网页版体验。

Berryxia.AI: 兄弟们,端侧生图模型又有新东西了! 之前有客户端Drawthing 客户端也是支持iPad 手机进行文生图~ 今天PrismML也来了一个好玩的... 他们发布了1-bit和Ternary版本的Bonsai Image 4B扩散模型。 1-...

图像生成端侧评测/基准
07:27
Berryxia.AI@berryxia
71
PrismML发布Bonsai Image 4B极致压缩版本

PrismML发布了Bonsai Image 4B扩散模型的1-bit和Ternary两个极致压缩版本。1-bit版本仅0.93GB,比全精度模型缩小8.3倍;Ternary版本为1.21GB,采用-1、0、+1三元权重。两者在Mac M4 Pro上的生成速度最高可提升5.6倍,且生成质量可与更大模型相媲美。同时,PrismML推出了配套的iOS应用Bonsai Studio,支持在iPhone上完全离线、本地生成图像。

PrismML: Today we're releasing 1-bit and Ternary Bonsai Image 4B. A new family of image-generation models designed to run high-qu...

图像生成模型发布端侧
04:10
Luma@LumaLabsAI
64
文字已就位。现在让它们无法被滑过。 只需放入内容,设定方向。Luma Agents 从此将每份新闻稿转化为可分享的图形。 让它可分享 → http://lumalabs.ai/app
智能体产品更新图像生成
00:30
向阳乔木@vista8
35
Chrome新标签页交互设计:专注模式与侧边栏方案

一条关于Chrome新标签页的UI设计推文。其核心创意是增加一个“专注模式”:点击特定图标后,界面切换为番茄钟显示,旨在帮助用户在专注工作时忘记时间流逝。此外,推文提出将“最近访问”、“收藏夹”等非高频功能模块折叠至侧边栏,以减少主界面干扰。该设计想法及原型均由AI模型Codex生成。

OpenAI其他图像生成
5月26日
22:58
SenseTime@SenseTime_AI
70
SenseNova-U1全训练代码开源,支持多模态多任务训练

OpenSenseNova开源了SenseNova-U1的完整训练代码库,支持其8B密集模型与A3B MoE架构。该代码库使用一个统一的框架,可同时训练多种多模态任务,包括文本到图像生成、图像编辑、交错生成及文本与视觉理解。工程上为大规模训练设计,支持混合并行、流式可恢复数据管线、环境变量驱动配置以及从1×8 GPUs到多节点集群的扩展能力。代码已在GitHub开源,采用Apache-2.0协议。

图像生成多模态开源/仓库开源生态
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)
‹ 上一页
1…678910…18
下一页 ›