Moebius是一个仅0.22B参数的轻量级图像修复框架。它通过引入Local-λ Mix Interaction(LλMI)块重构扩散主干,其中Local-λ和Interactive-λ模块将空间上下文与全局语义先验压缩为固定大小的线性矩阵,在削减参数的同时保留复杂潜在交互。配合仅在隐空间执行的自适应多粒度蒸馏策略,Moebius在自然图像和人像基准上达到了与11.9B参数模型FLUX.1-Fill-Dev相当甚至更优的生成质量,总推理速度提升超过15倍。
Moebius是一个仅0.22B参数的轻量级图像修复框架。它通过引入Local-λ Mix Interaction(LλMI)块重构扩散主干,其中Local-λ和Interactive-λ模块将空间上下文与全局语义先验压缩为固定大小的线性矩阵,在削减参数的同时保留复杂潜在交互。配合仅在隐空间执行的自适应多粒度蒸馏策略,Moebius在自然图像和人像基准上达到了与11.9B参数模型FLUX.1-Fill-Dev相当甚至更优的生成质量,总推理速度提升超过15倍。
Midjourney V8.1 的 Draft mode 草稿模式每次生成24张低分辨率低质量图片。用户可对任意图片点击 "Vary",将其渲染为全质量、全分辨率版本。草稿任务消耗的快速小时数减半。
同一事件,精选展示《Midjourney V8.1 已成为默认模型》Midjourney 将在明天(美国太平洋时间下午6点)通过 Discord 和 X 平台直播,首次公开其秘密硬件项目。该项目被描述为“雄心勃勃、物理尺寸巨大且出人意料”。具体细节尚未公布。
6 月 16 日,华为 nova 15 系列手机开启鸿蒙 HarmonyOS 6.1.0.125 SP10 版本升级,系统包约 2.85GB。本次更新后,图库 AI 沾色支持为逆光人物图一键生成剪影效果,在复刻色调的同时增强人物光影对比。此外优化了部分应用和第三方相机拍照体验,提升部分游戏流畅性,并合入 2026 年 6 月安全补丁。华为采取分批推送,未收到更新的用户需等待。
6月16日,导演於水在上海国际电影节透露下一步工作计划是《浪浪山小妖怪2》。他坦言第一部故事已完整,第二部需在此基础上提升。谈及AI模仿其动画风格时,於水认为AI基于大模型无所不知,但人作为“小模型”因不完美才构成喜怒哀乐;艺术源于人类痛苦喜悦,大模型只能模拟概率而非真实情感,无法与观众产生共鸣。《浪浪山小妖怪》在2025年暑期档票房突破17.19亿元,成为中国影史二维动画票房冠军。
BRDFusion是一个统一框架,结合物理建模和生成先验,用于从视频中恢复城市场景的显式、一致的场景属性,同时缓解优化歧义。在正向渲染中,物理模型提供基于场景配置的可控渲染,生成模型负责去噪和修复伪影,从而生成高质量视频并支持精确控制。该方法在真实和合成场景中均优于基线,并支持新视角重光照、夜间模拟以及动态物体插入/编辑。
AMD 在 COMPUTEX 2026 上透露,FSR 4.1 模型基于 FP8 开发,但 RDNA 3 AI 加速器仅支持 INT8,因此将模型全面适配 INT8,且画质与 FP8 一致。RX 7000 系列今年 7 月可用 FSR 4.1,而 RX 6000 系列因 RDNA 2 无专用 AI 加速器,需优化着色器周期,预计明年初上线。开发流程采用 Instinct MI 训练、Radeon PRO 优化,并在数十万 PC 配置中测试,依托 ROCm 平台完成模型迁移。
Adobe 于 6 月 15 日升级 Creative Cloud 套件。Lightroom 新增辅助筛选(按“睁眼”“眼部清晰度”过滤)、照片转视频功能,以及基于 Topaz Labs 模型的 AI 锐化,已支持索尼 Alpha 7R VI 的 RAW 格式。Premiere 引入全局音频静音、标记搜索、Single Word 编辑、3D Spinback 和 Slide 转场及纹理效果。After Effects 新增 AI 对象蒙版,支持 SVG 导入为形状图层,优化与 Illustrator 的复制粘贴。Photoshop 加入设备端 AI 移除工具和反光去除工具。
Meta 宣布在 Facebook 推出“AI Mode”搜索功能,利用 Meta AI 从公开帖子(含群组和 Reels)提取信息并合成答案,用户可用自然语言提问获得摘要。同时新增视频拼贴剪辑、过渡效果及 AI 照片预设(可更换服装、发型和配饰),体育迷可在 Stories 中点击“AI Edit”虚拟穿上队服。这些更新延续了此前动态头像、Marketplace 自动回复和创作者 AI 助手的部署节奏。此外,Meta 近期启动了 Facebook、Instagram 和 WhatsApp 的全球订阅计划(每月 3.99 美元起),更多 AI 订阅层级正在规划中。
TV-Edit 联合文本与视觉指令,以文本作为语义意图、稀疏视觉指令(拖拽/点)作为空间指导,实现精确且忠实于意图的图像编辑。构建超23K文本-视觉指令配对数据集,将视觉指令与图像-文本语义融合为语义感知控制表征,输入预训练编辑骨干。相比纯文本或纯拖拽方法,空间控制更精确、指令歧义更少、结构一致性更强。TV-Edit-Bench 从语义忠实度、空间对齐和视觉一致性评估,TV-Edit 在多编辑骨干上一致优于 SOTA 基线。
iOS 27 开发者测试版为 iPhone 带来首批原生 AI 照片编辑功能。相比谷歌 Pixel 手机的同类工具,新功能显得较为温和,但标志着 iPhone 原生照片应用在编辑能力上的转折点。苹果可能将在面向公众发布前继续调整这些功能。
当前参考引导生成管线将高分辨率参考图像(HRRI)降采样至固定低分辨率,丢失细粒度细节,且生成步骤引入身份扭曲等伪影。现有精炼方法仍在低分辨率域操作,超分辨率方法则忽略生成管线伪影分布。论文提出RefGC-SR²任务,在后期处理阶段复用原始HRRI,同时恢复丢失细节、精炼伪影并提升分辨率。构建首个真实世界三元组数据生成管线,训练双面板条件生成器合成配对低质量锚点。提出频率感知扩散Transformer模型,从参考图像选择性注入精细细节并去除伪影。实验优于RefGCR与RefSR基线。
商汤科技开源日日新 SenseNova U1 系列新成员 U1-8B-MoT-Interleaved 图文交错增强版模型。该模型面向图文交错创作与生成场景强化,支持绘本、故事书、多页 PPT 等连续内容创作,解决了多轮生成后角色形象飘移、画风断裂、图文脱节等痛点。核心升级包括叙事一致性与角色连贯性提升、图文对应关系增强、视觉质量改善,以及新增多页 PPT 自动生成能力。模型已开源。
MoVerse 能从单张窄视野图像生成可交互漫游的实时视频世界模型。它将世界构建与观察渲染分离:先用拓扑感知扩散将输入扩展为重力对齐的 360° 全景图,再通过全景几何感知残差预测将其提升为持久 3D Gaussian scaffold,最后由 Gaussian 条件视频渲染器沿用户指定相机轨迹输出逼真视频。渲染器采用双向扩散教师蒸馏为因果自回归学生,实现有限延迟流式输出。在单个 NVIDIA RTX 4090 GPU 上支持 8 FPS 的实时场景漫游。
Surflo将可变数量的未定位RGB视图压缩成K个潜在token(全局状态),通过流匹配独立地将噪声点传输到曲面,解码出定向3D表面点。输出不受固定网格或token预算限制:同一潜在状态可在单次前向传播中生成数千到百万个点。推理时通过ODE积分注入光度梯度,关联邻近点以抑制局部不一致。在表面指标上匹配或超越前馈基线,比需数百视图的优化方法快一个数量级,是唯一结合全局潜在与任意分辨率解码的前馈方法。
InterleaveThinker 提出多智能体管线,通过规划智能体组织图像-文本输入序列、批评智能体评估生成结果并修正指令,使任意现有图像生成器具备交错生成能力。构建 Interleave-Planner-SFT-80k 和 Interleave-Critic-SFT-112k 数据集进行冷启动,并利用 GRPO 在 Interleave-Critic-RL-13k 上强化批评智能体的逐步指令修正。提出 accuracy reward 和 step-wise reward,使单步强化学习有效引导整个生成轨迹。在交错生成基准上性能与 Nano Banana 和 GPT-5 相当;在 4-step FLUX.2-klein 推理基准上,WISE 和 RISE 指标显著提升。
苹果在 iOS 27 中为图乐园新增壁纸自定义功能。用户可通过“设置→壁纸→添加新壁纸”或锁屏界面长按进入壁纸画廊,点击顶栏图乐园入口,用文字描述图像内容、选择风格或基于现有照片/人物生成壁纸。系统还会基于相册照片自动推荐风格化壁纸,所有AI生成壁纸均显示Image Playground图标。生成图像自动匹配iPhone 17等机型屏幕尺寸,无需手动裁剪。该功能于6月11日发布的博文中披露。
RepFusion复用多模态大语言模型(MLLM)作为噪声表示编码器,将其输出作为扩散Transformer的条件信号,用于文本到图像生成的去噪过程。在类似推理预算的对比中,RepFusion优于将同等容量分配给从头初始化的去噪器的基线。实验表明,MLLM为降噪视觉表示提供强先验,通过条件于演化的噪声表示,可以在现代T2I系统中有效利用测试时的重复MLLM计算。
Midjourney 已将默认模型从 V7 升级为 V8.1。V8.1 在智能性、连贯性、对详细提示的遵循度以及文本渲染效果上均有提升,HD 模式也已支持。
关联讨论 1 条X:Midjourney (@midjourney)HiLo-Token提出输入自适应高低频token压缩框架,解决扩散Transformer(DiT)在图像编辑中的延迟瓶颈——即使从50步蒸馏至8步,DiT仍占73%延迟。方法在用户掩码编辑区域内保留所有token维持局部关联性;外部区域基于空间频率选取高频token捕捉细节,并用16倍下采样图像的低频token保持全局结构。在生产级评估数据上,针对平均掩码比6.38%、15.92%、35.36%的小/中/大掩码编辑任务,在A100-80GB上分别实现3.13倍、2.59倍、1.67倍DiT加速,且生成质量无退化。
微信6月8日发布开发者接入微信AI生态指引,开放平台支持开发者授权接入。美图秀秀作为首批内测开发者完成初步适配,将围绕人像美容、拼图、证件照、智能消除、画质修复等核心场景接入微信AI Agent。京东、美团、滴滴、携程、同程、肯德基等也同步宣布作为首批内测团队接入微信AI生态。
针对流匹配模型中在线强化学习比率裁剪策略约束不当的问题,Flow-DPPO 提出用散度近端约束替代。关键洞察是流模型每步策略为高斯分布,可精确计算新旧策略间的 KL 散度。Flow-DPPO 采用非对称散度掩码,仅在梯度更新偏离信任区域且超阈值时阻止更新。实验表明,Flow-DPPO 获得更高奖励,KL 近端效率更优,缓解了灾难性遗忘,促进多目标均衡,并能在比率裁剪失效时支持稳定的多轮训练。代码已开源。
苹果在 iOS 27 系统中升级了基于 Apple Intelligence 的修图功能 Clean Up,重点修复了 iOS 26 版本中擦除背景后导致的人脸补全失真、画面扭曲问题。新版在人脸变形、画面边缘和肤色过渡方面表现更自然,成片更统一。X 用户 Alvin 反馈,调用苹果云端 AI 模型并选择“自动”或“高质量”模式可获得最佳效果。
SCAIL-2 提出绕过姿态骨架等中间表示的端到端角色动画框架,通过直接拼接驱动视频获取全部视觉信息。为解决端到端数据匮乏,用解耦条件统一子任务,构建异构运动迁移数据集 MotionPair-60K。采用上下文掩码条件与模式特定 RoPE 作为软引导,并引入 Bias-Aware DPO 构建偏好对以缓解合成数据在细节区域的误差。实验表明,该方法在多个任务中显著优于现有 SOTA。部分合成数据与模型权重将开源。
ARM是一种基于离散表示的自回归模型,将图像理解、生成与编辑统一在下一个token预测框架中。首先训练离散语义视觉tokenizer,通过多目标监督实现语义判别、语言对齐与忠实重建;然后在文本与图像token序列上训练7B自回归模型,自然融合视觉语言感知与生成能力;最后用强化学习优化文本到图像生成与指令引导编辑的偏好对齐,使WISE整体得分从0.50提升至0.56,GEdit-Bench-EN的G_O评分从5.75提升至6.68,并观察到跨任务协同效果。
多模态图像融合现有方法基于2D特征网格,局部建模强但全局外观控制有限。本文引入紧凑1D token接口,基于冻结预训练图像tokenizer作为全局载体,同时保留2D空间路径恢复局部结构。提出选择性token编辑(STE),稀疏更新或替换关键token,在不改变融合主干、不引入额外损失下引导全局一致性。在四个基准上取得最佳整体性能,全局一致性和局部保真度均提升。
Z-Image Turbo++是从8步教师模型Z-Image Turbo蒸馏得到的2步图像生成模型。针对两步生成中任务难度提升和模型容量有限的瓶颈,提出三项设计:分布对齐对抗学习(以教师生成图像而非真实图像作为GAN训练的真样本)、步骤分离参数化(两个去噪步独立参数)、以及带迭代正则化的端到端训练(第一步接收最终图像质量梯度并保留有意义的中间生成)。这些策略显著缩小了2步与8步生成的质量差距。
Apple在WWDC 2026宣布推出多项AI照片编辑工具,用户可轻松操控图像,但Apple仍将这些图像称为“照片”。两年前,Apple在“照片”应用中推出AI物体移除工具Clean Up(类似Google Photos的Magic Eraser),当时软件主管Craig Federighi表示公司重视避免扭曲真实感知。如今Apple不再坚持照片必须准确还原现实。
针对文本到图像Flow Matching模型与人类偏好对齐时,完整采样轨迹无法存储及跨步雅可比积导致梯度膨胀的问题,FlowBP提出统一代理轨迹框架,将反向轨迹本身作为设计对象。该框架分离奖励模型输入、活跃集、积分权重和桥耦合四个选择,并实例化三个变体:FlowBP-Sparse(稀疏Euler重建)、FlowBP-Bridge(受控桥耦合)和FlowBP-Lagrange(高阶跳跃求积)。三者通过活跃集大小限制内存,梯度链至多含一个雅可比因子。在SD3.5-M、FLUX.1-dev和FLUX.2-Klein-base上,三个变体在偏好、质量和组合指标上均优于直接梯度基线。
苹果确认 iOS 27 系统中部分 Apple Intelligence 功能(包括图像生成)设有每日使用限制,因依赖云端模型。大多数 iCloud+ 订阅方案可解锁更高使用额度,并为兼容的家庭摄像头启用 Apple Intelligence 支持。目前最便宜的 0.99 美元(约 6.7 元人民币)iCloud+ 套餐可能无法提升额度。这表明苹果正将高级 AI 功能与付费体系绑定。
部分苹果 iPhone 国行机型在升级至 iOS 27 Developer Beta 1 后,新增 AI 壁纸扩图功能。用户可通过长按锁屏壁纸、选择新照片并捏合屏幕激活,选定主体后点击“扩展”,等待片刻即可获得 AI 扩充后的照片。
可灵AI与候鸟300联合发起AIGC影像大赛。线下大赛6月16-26日在阿那亚海边举办,评审包括李少红、陈明昊、焦雄屏等影视与AI专家及美院教授,设10万奖金+超200万灵感值,结果6月27日晚揭晓。线上大赛6月22日前投稿可角逐“最受关注大奖”,获奖者受邀参加6月27日颁奖。参赛要求:视频≥50%由可灵AI生成,官网投稿填表并带话题分享。
亚马逊昨天推出 AI 定制商品功能,用户可通过 Alexa 使用自然语言提示词创建全新商品设计,将创意转化为图案并应用在服装、水杯等产品上。下单后由 Merch on Demand 生产,并通过 Prime 物流交付。该功能适合制作家庭聚会纪念 T 恤、宠物水杯等独一无二的定制商品,挑战 Redbubble、Bonfire 等在线周边平台,有望使 AI 设计商品成为普通消费者的日常购物选项。
基于预训练视觉基础模型(VFM)的表示自编码器(RAE)在图像生成中构建语义丰富的潜空间,但重建质量受限于深层特征丢失细节。IDEAL框架通过联合对齐量化token与浅层和深层VFM特征,使离散视觉token同时保留视觉保真度和丰富语义。在ImageNet上,IDEAL达到0.61 rFID,比之前最优方法提升0.28;用于自回归图像生成时取得1.89 gFID,创下新SOTA。
i1 是一个 3B 参数的文本到图像扩散模型,仅使用公开数据集训练。在 GenEval、DPG、PRISM、CVTG-2K 和 LongText 五个基准上,i1 性能与领先模型相当,平均比最佳现有完全开源模型高 29.5 个百分点。研究基于 300 余项控制实验(超 700K TPU v6e 小时),发现等权重混合 curated 数据集是强默认配置、更大文本编码器适配器以极少参数提升性能。i1 的检查点、训练与推理代码及数据处理流程已全部开源。
苹果今日正式公布 iOS 27 系统更新,其中 Genmoji 自定义表情功能经过全新改造。用户可根据描述创建表情符号,或从现有表情、照片中改造。新增“描述变更”界面,用于微调已创建的表情包,可迭代设计并修改颜色、物体等元素。Genmoji 输出更稳定,默认 3D 卡通风格,并支持切换其他风格。生成时间缩短,系统负担和电量消耗也更少。
在2026年全球开发者大会上,苹果为iOS 27的图乐园加入原生写实图像生成功能,用户输入文字提示即可直接生成接近照片风格的AI图片,不再需要像iOS 26那样借助ChatGPT。动画、插画、素描等原有风格仍可使用。科技媒体Appleinsider指出,新增的写实功能使图乐园更适合演示文稿、邀请函、模型草图和壁纸等场景,将生成内容从趣味表达扩展至日常创作与轻量生产。
在 2026 年 WWDC 上,苹果为 iOS 27 带来三项 AI 修图功能:空间重塑(Spatial Reframing)可围绕拍摄对象旋转图像,并生成新内容填补视角变化造成的空白;扩展(Extend)能在不裁剪关键内容的前提下拉直地平线或调整宽高比,自动填充缺失部分;升级后的 Clean Up 能以更高质量和更逼真的填充效果移除干扰元素。
Apple 发布下一代 Apple Intelligence,将 AI 能力集成到 iPhone、iPad 和 Mac 中,带来更个性化和有帮助的日常体验。
同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》Apple为Safari、Shortcuts和Password应用添加了AI驱动的新功能,让iPhone能够自动补全句子、完善照片和简化工作流程。