iPhone 上直接用 App Store 下载就行: 👉 Bonsai Studio - PrismML 官方 iOS 应用,免费安装,模型在手机本地跑 我觉得给学校老师做一些素材展示,或者幼儿园小朋友教学还是可以的。 不需要额外的TO...
iPhone 上直接用 App Store 下载就行: 👉 Bonsai Studio - PrismML 官方 iOS 应用,免费安装,模型在手机本地跑 我觉得给学校老师做一些素材展示,或者幼儿园小朋友教学还是可以的。 不需要额外的TO...
RT-Lynx 提出了一种新范式,将扩散模型(Diffusion Transformers)的加速方法从权重稀疏化转向激活稀疏化。研究发现,DiT 模型的激活值具有内在稀疏性,且比权重更耐受 N:M 半结构化稀疏剪枝。通过在激活上应用 N:M 稀疏化并引入误差补偿技术,RT-Lynx 在保持生成质量的同时,实现了线性层平均最高 1.55 倍的推理速度提升。该方法在多个扩散模型上通过了实验验证。
PrismML发布官方iOS应用Bonsai Studio,用户可免费下载,在iPhone上本地离线运行其Bonsai Image 4B扩散模型。该模型基于FLUX.2 Klein,其1-bit压缩版仅0.93GB,比全精度版小8.3倍。在iPhone 15 Pro及以上机型生成512×512图像耗时约几十秒,内存占用约1.5GB。应用支持多种风格,但中文文字生成目前为乱码。Android用户可通过WebGPU网页版体验。
兄弟们,端侧生图模型又有新东西了! 之前有客户端Drawthing 客户端也是支持iPad 手机进行文生图~ 今天PrismML也来了一个好玩的... 他们发布了1-bit和Ternary版本的Bonsai Image 4B扩散模型。 1-...
现代GAN常被解读为多阶段粗到细生成,但论文指出,标准的分尺度对抗监督并未构建此层级结构:各阶段输出被独立推向真实分布,导致跨阶段输出可能并非同一生成样本,即存在“跨尺度轨迹错位”问题。为此,论文提出跨尺度对齐Transformer (CAT),在保持鉴别器分尺度评估的同时,于生成器侧引入一致性正则化,将中间输出与最终输出对齐。在条件ImageNet-256上,CAT-H/2仅训练60周期,一步推理FID-50K达到1.56,优于多个单步GAN及扩散/流模型基线。
BiDPO是一种旨在增强文本到图像模型组合式生成能力的框架,用于更准确地反映包含属性绑定、对象关系和计数的复杂提示。该框架通过精心设计的流程构建了大规模偏好数据集BiComp,并扩展Diffusion DPO技术,联合优化图像与文本偏好。此外,采用区域级指导方法以聚焦于与组合概念相关的区域。实验结果表明,BiDPO在多个基准测试上显著提升了组合保真度,并持续优于现有方法。
PrismML发布了Bonsai Image 4B扩散模型的1-bit和Ternary两个极致压缩版本。1-bit版本仅0.93GB,比全精度模型缩小8.3倍;Ternary版本为1.21GB,采用-1、0、+1三元权重。两者在Mac M4 Pro上的生成速度最高可提升5.6倍,且生成质量可与更大模型相媲美。同时,PrismML推出了配套的iOS应用Bonsai Studio,支持在iPhone上完全离线、本地生成图像。
Today we're releasing 1-bit and Ternary Bonsai Image 4B. A new family of image-generation models designed to run high-qu...
FBI 指出,通过 Instagram 上一个可疑的保存帖子,可以将一名男子与一个 AI 色情账号联系起来。
一条关于Chrome新标签页的UI设计推文。其核心创意是增加一个“专注模式”:点击特定图标后,界面切换为番茄钟显示,旨在帮助用户在专注工作时忘记时间流逝。此外,推文提出将“最近访问”、“收藏夹”等非高频功能模块折叠至侧边栏,以减少主界面干扰。该设计想法及原型均由AI模型Codex生成。
OpenSenseNova开源了SenseNova-U1的完整训练代码库,支持其8B密集模型与A3B MoE架构。该代码库使用一个统一的框架,可同时训练多种多模态任务,包括文本到图像生成、图像编辑、交错生成及文本与视觉理解。工程上为大规模训练设计,支持混合并行、流式可恢复数据管线、环境变量驱动配置以及从1×8 GPUs到多节点集群的扩展能力。代码已在GitHub开源,采用Apache-2.0协议。
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)藏师傅的小红书图文排版 Skill 预览 完全靠 HTML 和实拍图片,不会被标注 AI AI 会去高质量图片网站帮你寻找对应的主题图片,让你的图文告别只有生硬文字的尴尬情况
藏师傅的小红书图文排版 Skill 预览 完全靠 HTML 和实拍图片,不会被标注 AI AI 会去高质量图片网站帮你寻找对应的主题图片,让你的图文告别只有生硬文字的尴尬情况
不吵架了,预告一下下一个 Skill 项目 基于 PPT Skill 可以帮你一键生成微信公众号和小红书封面 也可以基于文档生成小绿书和小红书图文所需的 3:4 组图 会自动处理你的截图素材,自动进行匹配
本文提出奖励倾斜分布匹配蒸馏(RTDMD),这是一个将分布匹配蒸馏与奖励引导强化学习统一应用于少步流生成器的两阶段框架。该方法通过最小化到奖励倾斜教师分布的KL散度,自然分解为分布匹配项与奖励最大化项。第一阶段引入环境一致分布匹配蒸馏(AC-DMD),在子区间进行分布匹配,并通过一致性正则化辅助分数模型追踪生成器分布。第二阶段联合优化两项,并推导混合策略梯度及步子集GRPO(SubGRPO)以降低方差。在SD3、SD3.5和FLUX.2上的实验表明,RTDMD仅用4步推理即可在偏好、美学和组合指标上达到新的 state-of-the-art。
Picsart与通义千问(Qwen)的AI工具HappyHorse联合推出“Picsart HappyHorse Awards”AI视频创作挑战赛。参赛者需使用Picsart和HappyHorse工具创作时长15秒至5分钟的竖屏(9:16)短视频,并在社交媒体发布后提交。大奖为5,000美元现金或前往HumanX Amsterdam的机会,另有荣誉奖。比赛旨在推动AI电影创作,探索AI创意的边界。赛事时间为5月26日至6月14日,获奖名单将于7月3日公布。
Your AI cinema era starts now with the Picsart Happy Horse Awards 🎬🐎 Create a short film using Happy Horse + Picsart a...
本文提出通道级向量量化,这是一种新的图像token化范式,用通道级token取代了传统的基于块的token。该方法量化特征图的每个通道,将图像表示为离散的视觉细节层次。基于此,作者提出了采用“下一个通道预测”机制的通道级自回归模型。该模型顺序预测通道,先勾勒全局结构再细化细节。实验表明,CVQ在16K+大小的码本上实现了100%利用率,显著提升了重建质量;CAR模型在文本到图像生成任务中取得了86.7的DPG分数和0.79的GenEval分数。
藏师傅的小红、小绿书组图生成器 Skill 与 Codex 搭配,用户只需提供拼接图片,它便能自动识别内容并匹配对应页数,无需手动指定。生成结果还会分格标注以确保对齐。该技能可一键生成封面及 3:4 组图,并自动处理截图素材进行匹配。
不吵架了,预告一下下一个 Skill 项目 基于 PPT Skill 可以帮你一键生成微信公众号和小红书封面 也可以基于文档生成小绿书和小红书图文所需的 3:4 组图 会自动处理你的截图素材,自动进行匹配
Some new improvements to performance just went in. Python gets a bad wrap for performance but we aint looking to shabby ...
研究将 Transformer 中的注意力矩阵表征为编码特征间关联的联想记忆矩阵。通过将其分解为对称与反对称部分,前者被解释为控制能量景观的结构,后者驱动该景观上的循环运动。基于对称部分推导出 Hopfield 风格的稳定度量,用于量化检索特征的稳定性。观察发现,这些稳定度量与生成中的保真度-多样性权衡存在有意义的相关性。最终,提出通过修改底层动态的循环来调节该权衡的可控方法。代码已开源。
推文预告了一个基于PPT技能的新项目,该技能能够一键生成适用于微信公众号和小红书平台的封面图。同时,它也能根据文档内容,自动生成符合小红书图文所需的3:4比例的多张图片。该技能的一个核心特点是自动化处理能力,可以自动处理用户提供的截图素材并进行内容匹配。
自如设计师借助百度智能云文心的AI能力,将室内设计效果图的生成时间从原本的半天大幅缩短至几秒。这一实验展示了生成式AI在居住空间设计中的实际落地效果,显著提升设计师的工作效率和客户沟通体验。
为准备面向传统媒体的Prompt、技能及AI编程分享,作者通过Youmind反复调试,为GPT-image-2生成了一个简洁风格的提示词。该提示词有效降低了生成内容的“AI味”,并更适配AI智能体产品,为AI提供了更多自主推理与发挥的空间。
I heard the AI creator role at @EnergyWabbits is filled But I tried making a match cut ad for wabbits because their ener...
英国整形医生发现,越来越多求美者带着AI生成的“完美版自己”自拍咨询,追求零毛孔、极度对称的五官等几乎无法通过现实手术实现的“AI脸”特征。这种高度模板化的图像(如女性V字脸、男性宽下颌)被患者视为整形目标,医生们担忧其强烈的心理影响及手术无法兑现预期的现实局限。此外,社交媒体上部分“整形奇迹”案例的真实性也受到AI生成的质疑。
推荐关注 @xiaoxiaodong01 ,AI生图方面做了很多探索。 最近非常活跃,发布了很多极具美感的生图提示词。 以前印象中最喜欢研究AI生图的是 zho 和 神佬,小小东后来居上。 最近开源的X文章发布Chrome插件也相当优秀。 ...
推荐关注AI生图创作者@xiaoxiaodong01,其近期发布了大量高美感生图提示词,并开源了X文章发布Chrome插件xposter。原版插件地址为 https://github.com/nevertoday/xposter,安装链接为 https://chromewebstore.google.com/detail/xposter/iimkimodgdjnnmdopeolboakhjmhfbbj?authuser=0&hl=zh-CN。该插件已有人基于原版进行Fork改造,以适配个人工作流,实现内容一键同步。
苹果 iOS 27 将为 Genmoji 和 Image Playground 功能带来显著的画质提升。此前在 iOS 18.2 首次上线时,Image Playground 画质欠佳。苹果为其自有图像生成模型进行了优化,并计划在该系统中接入除 OpenAI ChatGPT 之外的更多第三方 AI 图像生成模型。
CollectionLoRA是一个多教师在策略蒸馏框架,旨在解决为扩散模型定制大量视觉效果时,因存储、加载多个LoRA导致的部署开销及参数干扰问题。该框架可将多达50种独立的效果LoRA概念与少步生成能力统一蒸馏到一个单一的LoRA模型中。其核心技术包括概率双流路由机制、非对称正交提示策略以及粗到精蒸馏目标,用以增强泛化、隔离概念并弥合教师与学生模型间的分布差异。评估显示,CollectionLoRA在显著降低部署成本的同时,实现了与独立教师模型相当或更优的概念保真度。
SKILD是一个尺度不变的扩散模型,它利用自然图像和物理系统的尺度不变性,在一个统一的无条件框架内同时实现图像生成和连续超分辨率任务。其前向过程从细到粗尺度逐步衰减图像内容并注入噪声。训练后的反向过程仅通过改变起始时间步,即可执行生成或超分辨率,无需任务特定架构。在无条件CIFAR-10上,SKILD达到FID 2.65和Inception Score 9.63;在ImageNet上,它从单一无条件检查点实现了2倍至8倍超分辨率,并在感知指标上优于条件模型。
现有主体驱动生成方法因分别编码文本与参考图像,存在跨模态推理不足与复制粘贴伪影等问题。本研究将扩散模型建立在联合编码文本与参考图像的多模态大语言模型(MLLMs)之上,并引入基于VAE的身份条件。通过设计双层聚合(DLA)模块汇聚多层次的MLLM特征,以及采用多阶段去噪策略,在推理时逐步平衡来自MLLM的语义信息与来自VAE的身份细节。实验表明,该方法能协调多模态理解与身份保留,缓解复制粘贴问题,并在人类偏好评估中取得优越性能。
苹果将在 iOS 27 系统中大幅升级相机与照片应用。相机应用将引入自定义界面布局功能,允许用户将闪光灯、曝光控制、定时器等选项直接放置在主界面,并强化专业控制。同时,视觉智能功能将以全新 Siri 形态集成至相机,新增扫描食品营养标签、名片等能力。照片应用则新增“扩展”“增强”“重构”三项 AI 编辑工具,分别对应生成式填充、自动优化画质以及调整空间照片构图。
兄弟们,今天我不装了。 摊牌了~ 之前一直有朋友说你这套提示词生成的海报这么好看,而且非常丝滑。 捣鼓了一套万能产品、人文、科技、展会等等 都可以快速出图的提示词。 但是,很多人还是用不来觉得麻烦。 于是我,我把它在Bloome 做了个海报...