Nano Banana 2 and Nano Banana Pro are now generally available via Gemini Enterprise Agent Platform. Backed by enterprise...
Nano Banana 2 and Nano Banana Pro are now generally available via Gemini Enterprise Agent Platform. Backed by enterprise...
xAI发布了新图像模型grok-imagine-image-quality。该模型在Artificial Analysis的文本生成图像与图像编辑两个榜单中均位列第五,是除OpenAI与Google外排名最高的模型。它支持2K($70/1k images)和1K($50/1k images)两种输出分辨率,编辑功能最多支持3张参考图。其定价显著低于主要竞品:GPT Image 2为$211/1k images,Nano Banana Pro为$134/1k images,但高于xAI自身的标准版模型grok-imagine-image($20/1k images)。该模型已通过xAI原生API、Grok应用及第三方API提供服务。
一部名为《Dreams of Violets》的75分钟AI生成电影将于下月在Tribeca电影节首映,这标志着此类AI生成的剧情长片首次被主流电影节接受。该片虚构演绎了伊朗政府2026年1月对抗议者的大规模镇压事件,影片中的人物与画面完全由AI生成。制作成本仅为2,000美元,其创作基于新闻报道、照片和目击者叙述。电影由离开伊朗的兄弟二人创作,Pooya Koosha联合创立了制作公司Fountain 0,Ash Koosha担任CEO。
SenseNova-U1-8B-MoT-Infographic 是一个升级后的8B参数信息图表生成模型。其核心提升在于:增强了文本的准确性与可读性,减少了重复和不自然的放大;改进了布局的一致性与合理性,背景更稳定;提升了图表与示意图的渲染质量;并新增了学术内容的渲染支持。
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》商汤科技介绍了其升级后的信息图生成模型 SenseNova-U1-8B-MoT-Infographic。该模型参数为8B,在四个关键维度进行了优化:文本准确性与可读性增强,减少了重复和不当放大;布局的一致性与合理性提升,背景更稳定;图表与示意图的质量提高;并新增了学术内容的渲染支持。推文提供了在 Hugging Face 上的模型页面链接及能力展示页面。
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)阿里通义千问(Qwen)推出了新的文本到图像(T2I)评测基准Qwen-Image-Bench。该基准包含56个细粒度评估维度,并配备与人类对齐度达ρ=0.92的评判模型Q-Judger。其核心理念是将T2I模型评价从基础的“提示词对齐”,提升至关注“真实世界保真度”和“创意生成能力”两大支柱,通过1000条测试提示词能更清晰地区分现有SOTA模型表现。该基准为开发者、提示词工程师及企业提供了一个更贴近实际创作需求的新评估框架。
Qwen @Alibaba_Qwen just dropped a new Text to Image benchmark + a judge model https://huggingface.co/collections/Qwen/qw...
传统Diffusion Transformers因层间信息传递方式固化导致训练效率低下。研究团队提出Diffusion-Adaptive Routing方法,允许每层动态选择使用哪些早期层的输出,且该选择随去噪时间步调整。该方法未引入新的数据集、损失函数或注意力机制,仅通过优化残差连接,使得相同图像质量所需的训练迭代次数减少8.75倍。
通义实验室推出文生图评测基准Qwen-Image-Bench,由专业艺术家团队开发,将创作能力解构为5大核心支柱、17大场景及56项可量化维度。配套开源自动化评估模型Q-Judger,与资深人类艺术家评估相关性达Spearsman 0.92。评测使用1000条中英文分层Prompt,每条覆盖至少4项考点。结果显示,当前T2I模型在文字准确性、信息可视化、跨语言生成等子领域差距明显,世界知识与逻辑推理能力是跻身第一梯队的分水岭。完整数据集与Q-Judger已开源。
第四届AI on the Lot峰会于5月27日至29日在亚马逊影业基地举办。可灵AI在29日社区日展映20部4K作品,全部由欧洲创作者组织Prompt Club的20位成员创作,探索AI电影边界。同台亮相的还有赛博朋克AI电影《The Patchwright》北美首映、艾美奖编剧Bernie Su的实时互动影片、90分钟AI长片《Hell Grind》及可灵AI参与制作的《The Fracture》。展映于5月29日下午1点在The Culver Theater举行。
Krea 2 from @krea_ai is available on Replicate. Generate high-fidelity, creative images with aesthetics first in mind.
关联讨论 1 条X:Krea AI (@krea_ai)一款针对小红书内容的图片生成器 Skill 发布,宣称效果出色,解决了图文混排的核心痛点。该 Skill 包含 2 套主题、28 个版式、9 套配色,并适配 8 大小红书主流内容类别。其核心优势在于智能处理图片:能凸显用户提供的高质量图片、自动寻找优质图片替代,并能美化普通图片,同时主动避免使用 AI 生成图片以防止内容被标记。该工具旨在高效生成具有专业效果的小红书图文内容。
http://x.com/i/article/2059811469081141248
CubePart是一个生成式框架,可根据全局文本提示和用户自定义的零件模式,生成一组可组装为连贯物体的3D网格,实现对零件结构的显式控制。该框架构建了一个大规模的开放词汇、零件标注3D数据集,并采用两阶段生成架构,将全局形状合成与零件级解码分离。生成的资源可直接集成到游戏引擎中,无需手动后处理。
Stable-Layers 是一个强化学习框架,无需配对监督即可微调预训练层分解模型,仅使用视觉语言模型(VLM)的反馈。基于 Qwen-Image-Layered 初始模型,采用 Flow-GRPO 和 LoRA 适配,每张图像采样多个候选分解,由 VLM 评分并通过组相对优势优化策略。为解决 VLM 单独评分时判断集中导致 GRPO 难以学习的问题,设计两阶段评估流程:先按五项编辑标准逐样本评分,再进行网格校准让 VLM 并列重评所有候选。相比基模型,Stable-Layers 在 Crello 数据集上实现更强的层分离、更少的空白或伪影层,并降低每层重建误差。
本研究提出一种将预训练Transformer(如Stable Diffusion 3.5)线性化的方法。通过架构与表示的双重对齐,具体识别了TTT架构与Softmax注意力的结构相似性,并引入关键实例归一化等模块来对齐表示特性。仅在4xH20 GPU上进行1小时微调,所得SD3.5-T^5模型就能达到与微调Softmax模型相当的文本到图像生成质量,同时在1K和2K分辨率下分别实现1.32倍和1.47倍的推理加速。代码已开源。
SANA-Streaming是一个为消费级GPU设计的高分辨率实时流式视频到视频编辑框架。其核心包含三点:采用混合Diffusion Transformer架构,结合softmax注意力与线性层效率;引入Cycle-Reverse Regularization训练策略,通过从生成内容预测源帧提升时序一致性;以及结合针对NVIDIA Blackwell(RTX 5090)优化的融合GDN内核与混合精度量化(MPQ)实现的高效系统协同设计。该系统在单张RTX 5090上可实现1280x704分辨率、端到端24FPS的实时编辑,其DiT核心可达58FPS。实验表明,其在时序连贯性和系统吞吐量上显著优于现有SOTA方法。
Krea is now built in to Hermes Agent as an image generation API provider, allowing your agent to use Krea 2: a new found...
关联讨论 1 条X:Krea AI (@krea_ai)KREA 2 Image is now a Partner Node in ComfyUI KREA's first foundation image model - trained from scratch - with tunable ...
关联讨论 1 条X:Krea AI (@krea_ai)Krea 2 is now on Runware 🖌️ - two variants: Large (photorealism, creative control) & Medium (illustration, anime, desig...
用户实测发现,GPT Image 2 在仅给出简单指令的情况下,能自主生成结构清晰、可直接使用的排版图,体验震撼。有分析指出,GPT 这种出色的结构化排版能力,本质上源于其预训练过程中接触了大量此类素材,而非模型审美本身有巨大提升,但其默认效果已足够好用。
卧槽,GPT Image 2 的默认审美已经到这个程度了? 今天拍了份数学卷子,让它分析错题 分析完我随手加了一句: "将上面的孩子的最主要问题以及解决方案,平时训练建议都用一张图画出来" 没配色、没构图、没风格限定 结果它自己排版、标记 ...
本文提出JLT,一个基于冻结FLUX.2 VAE编码的130M参数潜在扩散Transformer。研究对比了清洁潜在预测与速度预测DiT在相同表示与训练设置下的表现。分析表明,速度回归继承了各向同性目标协方差下限并放大低方差方向,而清洁预测则能抑制这些方向。在ImageNet 256x256上,JLT-B/1通过classifier-free guidance获得2.50的FID-50K分数,相比速度预测展现出显著优势。研究指出,潜在扩散中的预测目标是与表示相关的几何选择,而非可互换的代数参数化。
该推文介绍了guizang-social-card-skill,一款针对小红书图文常见类别进行优化的AI Skill。其亮点在于为旅行博主集成了地图组件,用户输入目的地和线路后,AI能自动在底图上标记并嵌入图片。根据引用,该Skill完全基于HTML和实拍图片生成内容,不会被平台标注为AI生成,并会主动从高质量图片网站寻找对应主题图片,以优化图文排版。
藏师傅的小红书图文排版 Skill 预览 完全靠 HTML 和实拍图片,不会被标注 AI AI 会去高质量图片网站帮你寻找对应的主题图片,让你的图文告别只有生硬文字的尴尬情况
关联讨论 1 条X:歸藏 (@op7418)英伟达 GeForce 610.47 驱动的配置文件中出现 DLSS 5 踪迹,新增了 DLSS-NR、DLSS-NR Streamline 和 DLSS-NR Presets 三项神经渲染配置。其中“NR”指向 Neural Rendering,是 DLSS 5 的核心概念。该技术将引入实时神经渲染模型,基于已渲染的 2D 画面与运动向量,为游戏画面补充光照和材质响应。
英伟达发布图像生成技术 PiD(Pixel Diffusion Decoder),能在消费级 RTX 5090 显卡上,以 13GB 峰值显存,将 512×512 图像潜变量解码放大至 2048×2048。该技术基于 PixelDiT,通过轻量级适配器与 DMD2 蒸馏(4 步推理)实现高速端到端生成,在 GB200 GPU 上最快 210ms,延迟相比级联方案最多快 5.9 倍。
MRT是一个20B参数的掩码区域扩散模型,专为多层透明图像生成与编辑设计。它在超过1000万个多语言设计样本上训练,统一了文本到图层、图像到图层和图层到图层三项任务。模型通过选择性token掩码实现灵活的图层生成与编辑,并引入溢出感知画布图层以处理边界不一致问题,支持半透明背景合成。此外,应用扩散蒸馏实现了8步实时生成。实验表明,MRT在所有任务上显著优于先前先进方法与商业系统。用户研究显示,其图像到图层质量优于同期Qwen-Image-Layered模型,推理速度快10-100倍,GPU内存消耗降低50-90%。
iPhone 上直接用 App Store 下载就行: 👉 Bonsai Studio - PrismML 官方 iOS 应用,免费安装,模型在手机本地跑 我觉得给学校老师做一些素材展示,或者幼儿园小朋友教学还是可以的。 不需要额外的TO...