苹果的 AI 图像生成器 Image Playground 正在进行改版,旨在提升其市场竞争力。此次改版有望使该工具在 AI 图像生成领域更具竞争力。
苹果在 WWDC26 中为照片 App 引入“空间构图”技术,该功能源自 Vision Pro,利用设备端空间模型和专用云计算空间模型将照片变为“3D 空间场景”,用户后期可自由放大、移动照片视角位置,支持所有照片包括相机拍摄的。此外还升级了扩图和背景杂物移除功能,并改进图乐园,新增支持生成写实风格图片。
微软研究院推出Lens,一个仅3.8B参数的文本到图像模型。依靠由GPT-4.1生成的8亿条详细图像标题,而非模糊的网页替代文本,Lens在基准测试上匹配了规模更大的竞品,训练成本仅一小部分。代码和权重以开源许可证公开可用。
亚马逊扩展按需印刷功能,借助Alexa for Shopping,用户通过文本提示生成图像,印制在T恤、水瓶、连帽衫等空白商品上。设计可分享链接供他人购买。该服务适用于家庭团聚、宠物主题等场景,同时也对代发货产品生态及定制印刷公司构成潜在威胁。
Amazon Shopping应用新增AI功能,用户通过Alexa生成设计图案,并可将图案打印在T恤、连帽衫和随行杯等商品上,实现个性化定制。
公安部网安局6月8日公布10起涉高考网络谣言典型案例。其中,广东潮州网民沈某宏使用AI工具生成“坐在高考考场并用手机拍摄”的虚假图片并发布;河南驻马店网民吴某帅使用AI工具生成虚假“语文试卷”图片发布。其余8起案例涉及网民编造高考答案信息、谎称有答案或试题出售、散布“高考死人”谣言等。所有涉事者均已被公安机关依法行政处罚。
FlowLet是一种条件生成框架,在可逆3D小波域中利用流匹配合成年龄条件的3D脑MRI,避免潜在压缩伪影并降低计算开销。实验表明,仅需少量采样步即可生成高保真体积;用其数据训练脑年龄预测模型可改善欠代表性年龄组的表现,区域分析证实解剖结构得以保留。
Z-Reward 是一种教师-学生奖励建模框架,用于文生图后训练。教师为 27B VLM,采用 Group-wise Direct Score Optimization (GDSO) 结合策略梯度奖励与分数分布监督;学生通过 Reasoning-Internalized Score Distillation (RISD) 将教师推理条件分布压缩进 9B VLM,推理时无需显式推理链。在内部评测集上,27B 教师达 89.6% 人类偏好准确率,超越 SFT、RewardDance 和 GRPO;9B 学生达 88.6%,超越 O
ABot-Earth 0.5是一个生成式3D框架,利用3D高斯泼溅(3DGS)表示,从地理参考卫星图像合成大规模无缝3D环境。模型在真实城市重建数据集上训练,推理时仅依赖卫星图像,以每平方公里不到10分钟的速度生成逼真的几何与纹理。框架集成层次细节(LOD)结构,支持网页地图引擎上的实时交互可视化。该高保真模拟沙箱可缩小sim-to-real差距,服务于闭环无人机导航等具身AI应用,降低大规模3D重建的技术与财务门槛。
AI虚拟影响者最初较为容易识别——Lil Miquela、Imma、Shudu Gram等早期虚拟形象明显是数字制作。如今,AI生成的内容创作者与真人之间的界限日益模糊,用户越来越难以分辨。
WaveDiT是一种在3D Haar小波系数空间中的条件流匹配框架,结合分解时空注意力与基于高阶小波统计的带异方差不确定性建模。预测对数方差融入流目标和条件路径,适应解剖细节的输入相关方差结构。该方法在单个GPU上实现全分辨率3D合成。多中心评估显示,相比扩散、潜在和小波基线,生成与真实MRI分布对齐更优,下游脑年龄预测和区域解剖一致性均有提升。代码已开源。
针对扩散模型训练中噪声输入与干净参考特征的时间步信息不匹配问题,论文从token级视角发现:完整token对齐中梯度范数大的token具有稳定空间偏好,导致模型过度依赖完整干净图像token集。为此提出MaskAlign,训练时对随机采样的token子集施加表示对齐,减少对完整token集的依赖,增强鲁棒性;并引入轻量级预掩码token混合块,在掩码前跨token共享信息以缓解信息损失。实验表明该方法有效提升扩散Transformer的训练效率和生成质量。
Meta 在其独立的 Meta AI 应用中新增了“For You”栏目,自动填充由 AI 生成的点击诱饵风格文章。这些文章的主题、图片和文本均由 AI 生成,质量存疑。此前该应用主要提供公开的“Discover”信息流,展示 AI 生成的图片和用户对话,现已改为标准聊天机器人界面。
视觉Transformer在固定patch网格上存在相位依赖不稳定:改变patch划分会改变像素可用的token证据,尤其边界处。研究者将patch-grid相位形式化为干扰变量,提出Phase Marginalization后处理方法,评估结构化patch-grid相位、反对齐密集输出并在原始图像坐标系中聚合。核心变体Uniform Phase Marginalization with K=4无需训练,在分割、深度和局部匹配任务上优于标准K=1基线。在Cityscapes实验中,相比通用移位四前向测试时增强(TTA)获得+0.31 mIoU优势。缩放实验表明K=4是实用折中:K=8基本不变,K=16精度提升极小但延迟大增。结论将patch-grid相位定位为可测量干扰变量,Phase Marginalization为密集ViT预测提供了简单诊断和后处理基线。
MiniMax旗下海螺AI作为第28届上影节独家AI影像战略合作伙伴,6.14-6.15举办开放日。活动包括:AI片场·海螺专属Booth(展示1+1组合作品及过程)、6.14多模态行业交流会、6.15专题圆桌(超级创作者呈现四种图景、《流浪地球》制片人与青年导演对谈)。具体时间地点详见图片。
彭博社马克·古尔曼爆料,iOS 27 中 Apple Intelligence 多项升级。Visual Intelligence 新增读取营养成分标签、提取名片等信息。修图推出 Extend(AI 补全照片边界)、Reframe(调整空间照片角度)和 Enhance(优化画质色彩)。Safari 新增 Organize Tabs,按购物、旅行等主题自动分类标签页。Genmoji 根据用户照片库和常用短语主动生成个性化表情,该能力还将进入壁纸设置。健康项目 Mulberry 含血糖追踪和相机锻炼监测,预计不随 iOS 27 首发。
xAI 通过 API 开放预览版图像转视频模型 grok-imagine-video-1.5-preview,可将一张静态图像扩展为流畅的电影感视频片段。用户提供起始图片并用自然语言描述运动方式后,模型可控制镜头移动、画面节奏、环境氛围与物理效果。该模型最高支持 720p 视频生成,适合概念验证、分镜测试和短内容生产,并能通过逐段动画化将多镜头串联为更长场景。
标准连续时间生成模型需处理从各向同性噪声到复杂数据分布的不同信号状态,统一架构效率低下。本文提出复杂度平衡分裂(CBS)框架,基于函数逼近理论和de Boor均衡分布原理,将扩散时间线划分为等近似负担的片段,为生成动力学难建模区域分配更多表示容量。通过两种互补监测函数——基于流Dirichlet能量的空间测度和基于采样轨迹加速度的几何测度——估算局部复杂度,无需启发式分割或搜索。在SiT、JiT、UNet等架构及数据集上,CBS不增加每步推理成本,持续提升合成质量:在SiT-XL上使用CFG时,相比朴素时间划分,FID改善约35%。
UniSHARP扩展了SHARP真实感视图合成方法,实现从传统透视相机到鱼眼、全景等系统的通用单目渲染。核心思路是在统一全向潜空间中对齐图像,在射线基表示中沿射线和径向距离排列高斯原语,并联合解码UniK3D编码器提取的2D语义和3D空间特征。构建了覆盖多种成像系统并按视场角分层的benchmark,实验表明UniSHARP大幅优于替代方法。
Apple WWDC 2026 即将举行,备受期待的 Siri 改版与 Apple Intelligence 更新将成为焦点。
ZipSplat是一种基于token的前馈3D高斯泼溅模型。它通过k-means聚类将多视图密集视觉token压缩为紧凑场景token,再经交叉/自注意力细化后由轻量MLP解码为位置不受限的高斯组。推理时进行聚类,单一训练模型无需重训即可沿质量-效率曲线运行。无需真值位姿或内参,在DL3DV和RealEstate10K上以约6倍少于像素对齐方法的高斯数超越最佳无位姿基线,PSNR分别高2.1dB和1.2dB,并零样本泛化至Mip-NeRF360和ScanNet++,超越所有可比基线。
YouTube、Instagram、TikTok等平台过去一年已陆续采用自动标签区分AI生成的图像、视频和音乐,但用户仍无法主动过滤这些内容。目前的标签机制并未改变内容的呈现方式,用户依然被迫接触大量AI垃圾内容。文章呼吁平台提供过滤选项,让用户自行屏蔽AI生成内容。
xAI 发布 grok-imagine-video-1.5-preview 图像转视频模型,能将静态图片转换为最高 720p 分辨率的影视级视频,支持文本提示控制,多个片段可拼接为更长的场景。
Ideogram 6月3日发布开源文生图模型 Ideogram 4.0,核心规模 9.3B 参数,采用单流架构,文本 tokens 与图像 tokens 共享自注意力序列。模型使用 Qwen3-VL-8B-Instruct 文本编码器、34 层单流 DiT、Euler 流匹配采样器及冻结 KL 自动编码器。擅长文字绘制,能准确呈现较长文本;通过对象和文本边界框训练,配合结构化 JSON 字幕数据,支持用提示词指定版式和布局。在 DesignArena 人类评价排名中位列全球第 4。
关联讨论 1 条X:Krea AI (@krea_ai)英国工党议员杰丝·阿萨托起诉xAI,称Grok AI平台被用于制作她的色情深度伪造图像。阿萨托声明指出,Grok生成的深度伪造色情内容侵害数千名妇女与未成年人权益,该功能是产品研发方刻意的设计选择。xAI虽于1月中旬限制相关功能,但路透社2月核查发现用户输入指令后Grok仍能生成涉黄伪造人像。阿萨托已向英国高等法院递交诉状,指控违反数据保护法规及滥用隐私,要求赔偿、承认违法并申请禁令。此前美国巴尔的摩市也在3月起诉xAI。
中国美术学院与火山引擎联合开发「中国画创作平台」,通过6个月数据治理,将约3000张国画梳理为7维度结构化标签数据集,一次性标注通过率约95%。采用模型后训练技术,将国画鉴赏逻辑、创作理论注入豆包大模型和Seedream图像创作模型,封装为低门槛智能体。用户通过基础生成、修改调整、氛围添加三步操作,几分钟即可完成国画创作。智能体支持文生图、图生图,可集成至小程序、交互大屏,应用于教学、文创开发等场景。
MeshWeaver提出一种自回归网格生成框架,将网格生成视为表面编织过程,直接预测下一个顶点而非独立坐标。其核心是多级稀疏体素编码器,通过三种方式注入几何上下文:体素特征作为顶点表示、交叉注意力引导token预测、以及作为结构骨架约束生成。层次化设计可在单解码步骤中实现从粗到细的顶点预测。实验表明,MeshWeaver达到18%的压缩比(SOTA),可生成最多16K面网格,并在几何保真度上显著超越此前方法。
本文提出结构化缺陷定位(SDG),将文本到图像(T2I)模型缺陷诊断建模为结构化集预测,每个缺陷表示为(位置、类型、原因、重要性)元组。构建了SDG-30K数据集(30K图像,来自四种T2I生成器,含框级标注)和评估协议SDG-Eval。在此基础上提出诊断到对齐框架:以视觉语言模型为SDG检测器,BoxFlow-GRPO将预测缺陷集转化为框导出、重要性加权的空间奖励,用于扩散模型对齐。实验表明,SDG检测器在结构化缺陷定位上超越领先专有VLM,SDG引导的奖励持续提升T2I对齐并支持局部图像细化。
提出DIRECT框架,实现姿态可控的物体插入。该方法将插入条件分解为三个互补组件:参考物体外观引导、用户调整的3D代理几何引导、目标背景上下文引导,通过分开注入避免特征纠缠,同时保留参考外观、遵循指定姿态并适配场景。还引入自动化数据构建管道提升训练数据多样性与质量。实验表明,DIRECT在几何可控性和视觉质量上均优于此前方法。
Ideogram 发布 4.0 版本文本到图像模型,采用开放权重,支持原生2K分辨率、边界框控制和改进的文本渲染。在 DesignArena 排行榜上,该模型位列所有开放模型之首;仅 OpenAI 和 Google 的闭源系统得分更高。商业使用需购买付费许可证。
Amazon 更新了应用内搜索功能。用户输入衣物或家居用品的描述后,搜索栏会直接显示 AI 生成的对应商品图像,但这些图像对应的产品是虚构的,无法直接购买。用户点击最匹配的 AI 图像后,系统会搜索外观相似的真实商品。该功能旨在帮助记不清纹理或风格名称(如“荡领”)的用户进行更直观的搜索。
亚马逊将利用视觉搜索与AI技术,在用户搜索时生成并展示匹配查询的AI产品图片。该零售商表示,此举旨在帮助引导用户找到对应商品。
荣耀 Magic8 系列手机今日推送 MagicOS 10.0.0.160 版本升级,系统包约 11.11GB。新版本上线 YOYO AI 创作、AI 窥屏防护(智能识别窥视并触发遮挡)和虚拟权限(应用访问通话记录/联系人/日程仅返回空白)。灵动胶囊新增支持淘宝闪购买药、百度地图驾车导航、大众点评排号及美团拼好饭。桌面新增装饰卡片和闹钟卡片,锁屏小组件新增笔记与录音机,安全输入键盘支持挖孔区避让与圆角适配。离焦视力舒缓新增运动舒缓模式。系统优化相机拍摄、功耗与稳定性,合入安卓 2026 年 5 月安全补丁。
提出 Bootstrap Your Generator (ByG) 框架,用于非配对训练流匹配图像/视频编辑模型。方法从冻结的基础模型中提取指令遵循线索,结合循环一致性保持结构;通过梯度路由将下游损失反向传播到噪声训练状态,弥合训练-推理差距。在数据稀缺的图像和视频编辑任务上达到 SOTA,泛化到未见领域,性能优于用百万级配对样本训练的监督基线。实验表明,从基础模型提取的语义线索提供了稳健的训练信号,无需外部奖励模型。
微软在 Build 2026 大会上发布七款自研新 AI 模型,其中包括其首款推理模型。公司还推出了一种新的调优方法和一个自主后台 AI 智能体。
关联讨论 3 条X:Rohan Paul (@rohanpaul_ai)The Verge:AI(RSS)X:Satya Nadella (@satyanadella)针对现有深度研究系统以文本为中心、视觉元素可靠性与对齐性评估不足的问题,本文提出了TVIR框架,包括TVIR-Bench基准测试和TVIR-Agent多智能体框架。TVIR-Bench包含100个要求视觉元素服务于特定分析目标的多模态任务。TVIR-Agent采用分层多智能体设计,负责构建大纲、检索图像、生成可溯源图表并进行上下文感知写作。研究进一步开发了结合文本与视觉评估的双路径评估框架。对九个系统的实验表明,TVIR-Agent表现优异,凸显了多模态设计对于证据驱动报告生成的重要性。
本研究探讨预训练视觉语言模型能否通过生成可执行的Blender程序,直接从单张图像重建为可编辑的3D场景,且不依赖专门的2D/3D基础模型、可微渲染或多视图监督。文章提出了“可执行分阶段逆向图形”(SEIG)智能体框架,该框架在可执行的Blender代码空间中,通过分阶段优化几何、材质、构图与光照等因子来重建场景。实验评估表明,分阶段重建策略显著提升了场景重建的保真度(包括像素级、感知和语义保真度),验证了任务分解对于通用视觉语言模型执行可执行逆向图形的重要性。重建后的可编辑Blender场景可支持多种下游应用。
新研究挑战了文生图模型依赖文本编码器丰富上下文信息的普遍认知。研究者发现,基于扩散Transformer的模型主要只利用文本表示中两个简单方面:跨多个token的词汇合并,以及由位置编码印刻的词序。通过构造仅编码单个词义与顺序、但缺少完整提示上下文信息的“词义与顺序标记袋”文本嵌入,生成的图像在视觉质量与文本保真度上与使用完整文本嵌入相当。这表明,文生图模型往往不会使用文本嵌入中除词义和词序之外的丰富信息,而是由图像模型自身完成复杂语言结构的解码。