提出SpheRoPE框架,无需微调或优化,直接通过球形旋转位置编码(Spherical RoPE)将球面先验注入预训练扩散Transformer,实现零样本、无训练的360度全景图像与视频生成。低频率通道重参数化为3D笛卡尔坐标以编码球面流形,高频率通道进行谐波量化确保严格周期性,配合语义畸变无分类器引导(CFG)显式控制几何结构。在Flux.1、Flux.2和LTX-Video骨干上完成文生全景任务,性能达基线水平,无需任何训练。
提出SpheRoPE框架,无需微调或优化,直接通过球形旋转位置编码(Spherical RoPE)将球面先验注入预训练扩散Transformer,实现零样本、无训练的360度全景图像与视频生成。低频率通道重参数化为3D笛卡尔坐标以编码球面流形,高频率通道进行谐波量化确保严格周期性,配合语义畸变无分类器引导(CFG)显式控制几何结构。在Flux.1、Flux.2和LTX-Video骨干上完成文生全景任务,性能达基线水平,无需任何训练。
DataEvolver提出自进化多智能体框架,将数据构建视为反馈驱动的策略进化。它包含检索器、验证器、评论家和生成器,利用被拒样本的失败信号指导下一轮构建。在PixArt-alpha上以0.75M规模测试,DataEvolver在TextScenesHQ上OCR-F1比最强基线提升85.3%,在LongTextBench上提升35.3%,且收益可迁移至Show-o2。
GEAR联合训练向量量化(VQ)分词器与自回归(AR)生成器,通过表示对齐实现端到端学习。为解决VQ索引不可微导致梯度无法回传问题,采用双读出机制:硬one-hot分支用于next-token预测训练AR模型,可微分软分支传递对齐损失指导分词器更新,使AR引导分词器生成更易预测的索引分布。相比LlamaGen-REPA,在ImageNet gFID收敛速度最高提升10倍,并泛化至VQVAE、LFQ、IBQ等量化器及文生图任务。
TerraDiT-Ω是一个统一空间控制框架,可直接利用任意地理空间基元(多边形、折线、边界框、点)进行卫星图像生成。它联合使用精确和粗略标注,适应不同标注预算,适用于城市规划等设计任务。提出Geometry-Aware Local Attention机制,将几何线索注入注意力空间。在所有格式上优于密集和稀疏控制基线。该框架支持可控数据增强,提升土地覆盖分割、目标检测、道路图提取、场景分类等下游性能。代码、数据、权重已开源。
苹果6月30日将iWork三件套(Pages、Keynote、Numbers)升级至15.3版。针对Apple创作坊订阅者,新增在iPad版Pixelmator Pro中直接打开并查看已编辑图像,以及通过文本描述生成可编辑自定义形状。面向所有用户:Pages新增自动插入连字符、显示/隐藏格式符号;Keynote新增平移、辐射状擦除、字符模糊等过渡与构件;Numbers新增隐藏/显示单个工作表、给工作表标签加色。三应用均优化从内容中心替换图像。
谷歌发布新款 AI 图像与视频生成模型 Nano Banana 2 Lite,可在 4 秒内生成一张图像,延迟较此前明显下降。每生成 1000 张图像收费 0.034 美元(约合 0.23 元人民币),主打速度和批量处理能力,面向高频、大规模的内容生产流程。该模型现已登陆谷歌 AI Studio、Gemini API 和 Gemini Enterprise Agent Platform,并将取代初代 Nano Banana。
Gemini 3.1 Flash Lite Image(API 名 gemini-3.1-flash-lite-image,代号 Nano Banana 2 Lite)发布,被描述为“最快最便宜的 Gemini 图像模型”,专为速度和规模优化。作者在 AI Studio 中测试生成“寻找浣熊”风格的图像,效果优于此前 Nano Banana 模型,但存在拼写错误。
周二,Google 推出其自研 AI 图像和视频生成器最新版本 Nano Banana 2 Lite。该模型延迟大幅降低,可在4秒内生成图像,成本为每1000张图像0.034美元,针对高吞吐量工作流优化,现已通过 Google AI Studio、Gemini API 及 Gemini Enterprise Agent Platform 上线,并取代原 Nano Banana 成为“遗留模型”。同日,Google 还宣布扩大 Gemini Omni Flash 的发布范围,视频输出价格为每秒0.10美元,并展示了可将静态图像转为电商视频的演示应用 Omni Product Studio。
Google 推出 Nano Banana 2 Lite,号称最快、最高效的 Gemini 图像模型,以最低成本实现高速生成和编辑。模型延迟显著降低,适合大规模图像生成,同时不牺牲质量,支持角色一致性、精确视觉编辑和真实世界知识。目前可通过 Google AI Studio 试用,并在 Space Lift、Gridscape、Peek-A-Word 和 Anywhere 等应用中展示了能力。
Google DeepMind 发布 Nano Banana 2 Lite(正式名 Gemini 3.1 Flash Lite Image),默认低思考模式下约4秒生成一张图像,标准 Nano Banana 需约20秒。API 价格为每1000张图像 $0.034,输入 token $0.25/1M,输出 token $1.50/1M,是 Nano Banana 2 的一半,输出成本为 Nano Banana Pro 的八分之一。用户 Arena.ai Elo 评分接近非 Lite 版本,但在文本处理、小字和角色一致性上较弱。所有输出图像均带有 SynthID 水印。即日起可通过 Google AI Studio、API 及 Gemini(选择 Flash-Lite 选项)使用。
Google 推出两款新生成式 AI 模型。Nano Banana 2 Lite 可在 4 秒内生成图像,每张成本 0.034 美元(1K 分辨率),API 名称为 gemini-3.1-flash-lite-image。Gemini Omni Flash 允许开发者通过文本提示在 API 中生成和编辑最长 10 秒的视频,每秒输出价格 0.10 美元。Google 推荐将两个模型链式使用:先用 Nano Banana 2 Lite 生成图像,再传递给 Gemini Omni Flash 转化为视频。两者均使用 SynthID 水印,已通过 Google AI Studio、Gemini API 和 Gemini Enterprise Agent Platform 提供。
Apple Creator Studio 推出多项 AI 增强更新。Final Cut Pro 新增 on-device AI 驱动的 Generate Captions(自动转录音频生成字幕)和 Edit Detection(自动检测剪辑点)。Mac 版加入 Auto Mask(自动识别皮肤、天空等主体)、增强的 Match Color 和 Advanced Trimming。支持将帧发送至 Pixelmator Pro 编辑,并在 Keynote、Pages、Numbers 中直接调用 Pixelmator Pro 修改图片。Logic Pro 新增 Grammy 制作人制作的 Producer Project 及 Chord ID 改进。订阅价 $12.99/月或 $129/年,新用户免费试用一个月,教育用户 $2.99/月。
Google DeepMind 推出 Nano Banana 2 Lite(gemini-3.1-flash-lite-image),为 Nano Banana 系列速度最快、成本最低的图像模型,文本到图像输出仅需 4 秒,每 1K 分辨率图像成本 $0.034,已上线 Google AI Studio、Gemini API 及消费者产品(AI Mode in Search、Gemini app 等)。同时推出 Gemini Omni Flash(gemini-omni-flash-preview),支持高画质视频生成与对话式编辑,视频输出定价 $0.10/秒,面向开发者开放 API。
关联讨论 3 条X:Google DeepMind (@GoogleDeepMind)X:Logan Kilpatrick (@OfficialLoganK)X:Google AI (@GoogleAI)Lumo 2.0 新增图像识别和图像生成能力,用户可上传图片进行分析或编辑。Projects 功能新增用户控制的持久记忆,可跨对话保留偏好。响应速度比上一代提升 76%,并引入思考模式处理复杂问题。采用零访问加密架构,数据端到端加密,服务器不记录会话日志,不使用用户数据训练或与第三方共享。即日起可用,提供免费版及 Plus、Professional 付费方案。
ILLUME-X是一个统一多模态模型,能够自主生成高质量、自由形式的交错文本-图像序列。它通过三项核心组件实现:面向交错图文生成的扩展训练数据管道、基于自适应目标的渐进训练策略(适用于自由长度的多模态token序列),以及用于评估交错图文序列的客观综合方法ILScore。ILLUME-X在风格迁移、图像分解和故事讲述等多个交错图文生成任务上优于此前统一模型。
小米澎湃 OS 3 今日官宣升级。足球赛事方面:超级小爱新增赛事预约与问答(需 7.12 及以上,数据由中国移动灵犀提供);小米超级岛可常驻显示小红书(≥9.34.0)、直播吧(≥7.2.1)赛事比分;桌面新增 2026 世界杯赛程小部件(数据来自腾讯体育)。相册 AI 修图专区聚合全部 AI 工具,智能美化算法增强,可一键修复曝光失衡。新增录音机自动续录。流畅度优化覆盖文件管理、主题壁纸、笔记搜索等页面。修复多项问题,采用灰度到全量推送。
Nemotron-Labs-Diffusion-Image是一种用于高分辨率文本到图像合成的掩蔽离散扩散模型(MDM)。它引入token编辑机制,使推理时能动态修改已揭开的离散token,弥补标准MDM缺乏自纠正能力的缺陷;提出分组交叉熵(GCE)目标函数,为嵌入空间中邻近真实token的相邻token分配正学习信号,缓解大词汇量离散图像tokenizer带来的训练信号稀疏问题。同时实现针对GCE的自定义融合操作符,显著降低大词汇量场景下的显存占用。实验结果显示,该模型在GenEval上得分为0.90,DPG 86.9,HPSv3 10.76。
谷歌宣布,所有符合条件的美国 Gemini 免费用户均可使用由 Nano Banana 驱动的个性化图像生成功能,不再仅限 Plus、Pro 和 Ultra 订阅用户。该功能从用户授权的 Gmail、谷歌相册、YouTube 和谷歌搜索中获取信息,自动生成贴合个人兴趣的图像。用户需主动开启“个性化智能”,并自行选择 Gemini 可访问的应用,也可随时关闭。据悉,今年早些时候 Gemini 月活跃用户已突破 7.5 亿。
Google 宣布,Gemini 应用的 Nano Banana 驱动个性化图片生成功能向所有符合条件的美国用户免费开放,此前仅限 Plus、Pro 和 Ultra 订阅用户。该功能基于 Gemini 对用户喜好的理解生成图片,无需在提示词中指定具体内容,并可从 Google Photos 提取用户照片。数据来自 Gmail、Google Photos、YouTube 和 Search 等 Google 账户连接。Personal Intelligence 为可选功能,默认用于每个提示,用户可在 Tools 菜单中关闭。上个月 Google 预告了 Gemini 应用的后续更新,包括 Daily Brief、改版界面、AI 视频模型 Gemini Omni 和个人 AI 智能体 Gemini Spark。Gemini 月活跃用户已超 7.5 亿。
OpenAI Codex 项目负责人安布罗西诺称,设计比代码更难量化评判,训练模型区分优劣设计比验证代码编译更繁琐。Figma 首席执行官菲尔德指出,AI 模型基于数据分布训练,产出通常平庸。格莱美提名音乐人巴斯强调,引导 AI 创作离不开人类审美判断。目前 AI 在创意设计领域主要作为提速工具,无法独立产出成熟成品。
加拿大温哥华警察局在X平台发布缉毒照片,贴文带有“Made with AI”标签,且照片中部分50加元钞票被误标为20加元、背景出现模糊色块,引发真实性质疑。警方解释仅用软件遮挡嫌疑人姓名,但未平息争议。随后警方删除原贴并重发无AI标签版本,公众不信任情绪仍未消散。此事再次凸显政务部门使用AI内容时的公信力风险。
针对文本到图像模型在科学图像中语义对齐与逻辑推理的不足,本文提出SciIR框架,基于皮尔斯符号学三元组,涵盖实体结构、科学过程、科学定律三个维度。创建了SciIR-82k数据集,含超8万高质量科学图像-文本对,来自前沿论文,并引入科学推理思维链Sci-RCoT建模视觉逻辑。评估基准SciIR-Bench使用原子检查表将科学准确性转为可验证细粒度问题。实验表明当前模型推理能力不足;在SciIR-82k上微调的Qwen-Image-SciIR模型将Bench分数从35%提升至43%。
PhotoQuilt提出无需训练的任意分辨率光马赛克生成框架,通过自举式分块去噪解决高分辨率生成中局部细节与全局结构难以兼顾的问题。先低分辨率生成全局构图,再升维加噪恢复生成能力,然后在固定分块内独立去噪,使每个分块形成独立图像的同时保持整体布局一致。该方法避免了二次注意力开销,可扩展到大型画布。实验表明,PhotoQuilt在全局结构和局部真实感上均优于现有基线。
MirrorPPR 提出基于示例的结构化人像修图方法,通过 Retouching Operation Extractor 从示例对中提取细微修图操作,经连接器和 LoRA 模块注入预训练的 Diffusion Transformer(DiT)。为克服跨身份训练中的操作对齐难题,设计数据自增强范式确保严格对齐,并构建含超 4700 万对修图样本的大规模数据集 MirrorPPR47M,按模拟与专业子集组织以支持渐进课程学习。实验表明 MirrorPPR 在修图质量和身份保留上显著优于现有基线。
常州溧阳市博物馆展出的“八十年代拍摄”老照片被网友指出疑似 AI 生成,照片清晰但碑文字体模糊扭曲。馆方回应称该照片为短期展览“时光里的家园”展品,原图模糊,溧阳市总工会使用 AI 技术进行影像修复导致文字失真,目前已撤展,后续将加强审核。
安全专家lcamtuf购买了一本亚马逊畅销排行第一的AI生成儿童百科全书,发现书中插图出现大量“身体恐怖”缺陷:猫长着人脸、动物与树木融合成脉动的肉团、无头怪物缠绕读者脚踝。这些图片指向美国某头部实验室的旗舰模型生成。作者警告,尽管前沿模型在2025年夏季声称超越博士级智能,但2026年中问世的AI童书仍存在严重质量问题,正在影响儿童认知。当前模型无法保证内容准确性。
Unconventional AI 发布首个图像生成模型 Un-0,其核心是一个模拟的耦合振荡器系统——一种物理计算基板。在 class-conditional ImageNet 64×64 上,Un-0 达到 FID 6.74,匹配此前领先常规图像生成方法的首次发布质量。模型将耦合强度矩阵 K 和频率 ω 作为可学习参数,通过库拉莫托振荡器方程演化。权重、训练与消融代码均已开源。Un-0 旨在验证物理动态系统能以约 1000 倍更高能效运行现代 AI 工作负载。
像素空间连续 token 自回归图像生成面临高维 patch 单步误差大与训练-推理 gap 累积问题。现有方法只能部分缓解。本文提出并行 rollout 近似(PRA),通过生成低维中间状态再经像素解码器映射回像素 token,并在训练时利用相同路径构造类推理像素输入,保持并行教师强制训练。在 ImageNet-1K 256×256 类条件生成上,135M 参数的 PRA-S 取得 FID 2.58,511M 参数的 PRA-L 降至 1.94,创像素空间 AR 模型新 SOTA,且分类探查准确率优于其他基线。
流匹配生成模型在强化学习后训练中,速度范数膨胀5%-15%导致感知质量下降,而推理时重缩放无法修复。NormGuard引入铰链惩罚,仅在速度范数超过参考值时激活,可加性组合到任何速度局部损失之上。在两种基础模型、三种后训练方法(NFT、AWM、DPO)和两种奖励代理上,NormGuard一致提升MLLM评判的图像质量和逼真度,同时保持奖励,且收益在少步推理下进一步放大,并非由早停解释。
Midjourney V8.1 的草稿模式(draft mode)添加了随机风格功能。用户在提示词中加入 --sref random 即可一键生成 24 张不同风格的图片。开启草稿模式可通过点击提示栏的 ⚡ 图标或添加 --draft 参数。
由前 Databricks AI 负责人 Naveen Rao 创立的 Unconventional AI 发布了首个模型 Un0,一个图像生成系统,性能可媲美 Stable Diffusion 和 GPT Image 1。该模型基于全新的振荡器计算机架构,目前运行在软件模拟上。团队计划发布实际芯片图纸并构建完整推理堆栈,最终以网络电缆提供“提示词进入、推理输出”的服务。Unconventional AI 声称该架构最终能将推理功耗降低 1000 倍。公司员工不到 50 人,Rao 认为能源将是未来几年 AI 扩展的根本限制。
Adobe 宣布与 AI 图像及视频增强工具开发商 Topaz Labs 达成最终收购协议,交易预计 2026 年下半年完成,尚需监管批准。Topaz Labs 拥有超二十年技术积累,2025 年获艾美奖,旗下有 AI 视频放大模型 Astra、图像润饰模型 Wonder 及让大型 AI 模型在消费级 GPU 本地运行的 Neurostream。收购后其 AI 模型将整合至 Adobe Firefly 及 Photoshop、Lightroom、Premiere 等 Creative Cloud 产品,现有产品仍独立运营。CEO Eric Yang 将继续领导团队。
Adobe 本周四宣布收购图像与视频增强工具开发商 Topaz Labs。该公司成立已超过20年,去年凭其制作技术获艾美奖,近年推出 AI 视频升频模型 Astra 和图像修饰增强模型 Wonder,并开发了让大型视频模型在消费级 GPU 上运行的技术。Adobe 计划将 Topaz 的模型集成到 Firefly AI 应用及旗下编辑套件中,同时保留独立服务。交易预计2026年下半年完成。
百度智能云携手酱油文化、VAST、炫佳科技、魔方元启、LIKEAI,将千帆、百舸等能力落地于AI漫剧、3D内容、短剧创作。酱油文化漫剧制作周期压缩90%,月产能超200部,单月营收达5000万量级,抖音破亿作品中五分之一出自其手。VAST的Tripo大模型基于百度百舸数秒生成生产级3D网格。炫佳科技Kino-AIGC模型通过网信办备案并登顶VBench,累计生成超10万分钟AI视频。魔方元启制作周期缩短50%-80%。LIKEAI实现7-10人班组单周单部短剧交付,代表作《哎呀,我的娘亲是女帝》上线24小时播放量超2亿。
6月24日,生数科技与极豆科技签署战略合作协议。双方将整合生数科技多模态大模型(Vidu等)与极豆科技汽车AI解决方案、AI中台及车规级研发能力,围绕座舱内容、车主服务等场景打造汽车行业AIGC解决方案。重点探索个性化欢迎、亲子互动、旅途影像等场景,通过模型接入与场景编排将内容生成从预置供给升级为实时动态生成。同时将AIGC延伸至通勤、补能、车辆服务等环节,探索API、SDK及私有化部署等交付方式。极豆科技已与30余家车企合作,累计量产装车超1400万辆。
商汤科技正秘密研发一款面向“设计”场景的多模态大模型,内部代号U1 Pro,由首席科学家林达华牵头,属于日日新模型家族。该模型对标OpenAI的GPT-Image 2,能像“会思考的设计师”一样实现设计、生成、评审的长程循环,支持8K分辨率输出。预计今年7月启动内部邀请测试。知情人士称,在大量内部评测中,相同提示词下U1 Pro生成的图片效果与GPT-Image 2高度接近甚至更具优势。
JoyAI APP 上线「欢乐足球季」主题活动,用户上传一张人像照片即可生成沉浸式赛场动态视频,支持近 20 款视频模板(看台抓拍、进球巅峰时刻、足球手势舞等),内置全景推进、特写定格等多类运镜逻辑,人物动作与表情自然拟合,赛场光影与人群动效同步渲染。同时上线近 50 款足球主题 AI 智能体,覆盖战术复盘、趣味评球、互动陪伴等方向。活动上线首周日均互动增长率超 158%。
TryOnCrafter是首个面向相机可控视频虚拟试穿(CaM-VVT)的统一DiT框架。它引入可渲染4D试穿代理,将高保真2D试穿先验蒸馏为基于3DGS的服装化身,再由SMPL-X序列驱动动画并度量对齐至重建背景点云,实现人体与环境的显式解耦。基于该代理作为几何锚点,Proxy-Anchored Video DiT生成严格遵循指定相机轨迹和物理形变的光照真实视频。该框架还支持人体重定位、子弹时间效果和360度轨道观看等应用。
自回归Transformer可生成高质量网格拓扑,但串行解码计算量比并行模型慢数个数量级;连续扩散与流匹配方法无法直接处理离散网格。PolyFlow提出紧凑拓扑嵌入器,将离散顶点位置和法线投影为连续逐顶点嵌入,通过时空距离阈值忠实恢复原始邻接信息。预训练并冻结该嵌入器后,任意网格可转换为统一连续顶点状态空间。基于此表示,PolyFlow采用Transformer流匹配框架,对提取的点云特征条件化,实现完全并行顶点状态去噪;推理时通过ODE求解器快速生成,并支持直接指定目标顶点数精确控制分辨率。在Toys4K基准上,PolyFlow的Chamfer距离和Hausdorff距离均超越现有自回归基线。
SharpMoE针对扩散混合专家模型的路由分配问题提出后训练框架。现有路由器因依赖噪声损坏的潜特征而无法准确区分显著token。SharpMoE利用干净潜特征作为无噪声引导信号,使路由器在高噪声阶段也能识别显著token,并引入轨迹路由损失约束多步去噪过程中的计算分配。实验表明,SharpMoE作为即插即用方案可增强预训练收敛的MoE模型,在视觉生成任务上达到SOTA表现。