谷歌在2026年I/O开发者大会上,面向Workspace用户推出了AI图像生成与设计工具Google Pics。该工具以网页应用形式上线,核心是将图像生成与编辑设计整合在同一流程中,用户可通过鼠标悬停点选元素,并用文字或语音指令进行局部精细调整,无需重新生成整张图片。系统会提供多个候选版本,成品可输出为JPG或PNG格式。目前仅对部分受信测试者开放,AI Pro订阅用户将在夏季稍后体验,未来计划推出移动应用并整合到更多Workspace应用中。
谷歌在2026年I/O开发者大会上,面向Workspace用户推出了AI图像生成与设计工具Google Pics。该工具以网页应用形式上线,核心是将图像生成与编辑设计整合在同一流程中,用户可通过鼠标悬停点选元素,并用文字或语音指令进行局部精细调整,无需重新生成整张图片。系统会提供多个候选版本,成品可输出为JPG或PNG格式。目前仅对部分受信测试者开放,AI Pro订阅用户将在夏季稍后体验,未来计划推出移动应用并整合到更多Workspace应用中。
Google推出Gemini Omni,首个面向消费者的世界模型。它通过自然语言交互,将Gemini的智能与生成媒体系统结合,实现了对物理规律、历史、生物等世界的深刻理解。用户可以像编辑ChatGPT文本一样用单句指令编辑视频,实现人物一致性、风格迁移、角度调整等功能。它不是单纯生成像素,而是模拟连贯的物理与语义世界,标志着AI视频生成从拼接工具向智能创作系统的飞跃。
We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....
谷歌宣布向全球的 Google AI Ultra 订阅者开放新的访问权限,并推出一项基于 Street View 数据驱动的全新功能。该功能能够模拟真实世界的地点与场景,标志着 AI 在结合地理信息与沉浸式体验方面迈出新步伐,为用户带来更具现实感的交互与探索可能性。
today, Krea 2 goes live to everyone. to celebrate, we're offering unlimited Krea 2 generations to all our subscribers fo...
2026年5月19日,一个利用Gaussian Splatting技术渲染草莓高斯模糊效果的在线场景在superspl.at平台发布。该场景通过高斯点渲染算法实现模糊视觉效果,图片中草莓呈现出清晰的细节与艺术化处理。在Hacker News科技社区,此内容获得122个投票点,吸引了社区对新兴3D渲染技术的关注和讨论。
本研究针对扩散模型去除预训练阶段不安全内容时面临的监督数据昂贵及离线方法易导致灾难性遗忘等问题,提出了SafeDiffusion-R1在线强化学习框架。该框架采用组相对策略优化算法,在正负文本提示上进行后训练,无需依赖配对监督数据。其核心在于引入了一种奖励引导机制,直接利用CLIP嵌入特性,在嵌入空间中引导文本表征向安全方向优化,从而无需微调专门的安全奖励模型。实验表明,该方法将不安全内容生成比例从48.9%降至18.07%,裸体检测数大幅减少,同时提升了组合生成质量,并可泛化至多种危害类别,达到当前最优水平。
5月19日,Anthropic 宣布对 Claude 产品线进行两项重要更新。首先,所有付费套餐中 Claude Design 的 Token 上限已翻倍,旨在减少设计中断并支持更长上下文与迭代。其次,Claude Code 的快速模式(通过“/fast”启用)现已默认切换至 Opus 4.7 模型,速度提升至 2.5 倍,但 Token 成本更高。价格方面,Opus 4.7 与之前的 Opus 4.6 在快速模式下定价一致,均为每百万输入 Token 30 美元、输出 150 美元,并覆盖 100 万 Token 的完整上下文窗口。
可灵AI与候鸟300合作推出#候鸟记忆复活计划,邀请曾参与候鸟300的艺术家用旧照片、影像、手稿或故事作为素材,通过可灵AI续写创作。活动即日起至5月31日,带话题发布视频并填写问卷即视为参与。将综合创意独特性和技术表现力筛选10支优秀作品,各奖励12,000灵感值。
本文介绍了轻量级原生统一模型Lance,支持图像与视频的理解、生成与编辑。该模型摒弃了对模型规模扩张或文本-图像主导设计的依赖,探索通过多任务协同训练实现统一多模态建模的实用范式。其核心在于两个原则:统一上下文建模与解耦能力路径。Lance从头训练,采用共享交织多模态序列的双流专家混合架构,并引入模态感知旋转位置编码以减少异构视觉标记间的干扰,增强跨任务对齐。训练采用分阶段多任务范式,结合能力导向的目标与自适应数据调度。实验表明,Lance在图像与视频生成任务上显著优于现有开源统一模型,同时保持了强大的多模态理解能力。
作者利用GPT-Image-2模型,批量生成了超过380位艺术家的画风作品。为便于直观学习和借鉴(用于AI生图提示),他创建了一个可体验的网站,将蒙德里安、葛饰北斋等不同风格的创作并置展示,帮助用户快速建立对艺术风格的认知。该项目代码已在GitHub开源。
Gemini
StitchVM是一个用于扩散模型对齐的模型拼接框架。它解决了在噪声中间潜在值上评估奖励的挑战,通过将预训练的干净图像奖励模型(如CLIP ViT-L)与固定的扩散主干(如SD 3.5 Medium)轻量级地“拼接”起来。该框架的核心创新在于,使奖励模型能够直接处理噪声潜在值,从而避免了传统近似方法的计算成本或偏差问题。整个拼接与微调过程极为高效,仅需约10个GPU小时。实验表明,StitchVM显著提升了下游方法的效率,使DPS推理速度提升3.2倍、显存占用减半,并将DiffusionNFT加速2.3倍。
针对从平面图和风格参考生成一致全屋VR漫游的难题,本文提出了PanoWorld。该模型将整屋合成任务转化为基于节点的360度全景图自回归生成,与真实VR产品的导航方式一致。其核心方法是使用基于平面图的3D壳体作为全局几何代理,并结合动态3D高斯溅射缓存作为可渲染的空间记忆。通过专门设计的全景LRM和房间感知组注意力机制,模型能够更新全景图并抑制跨房间特征干扰,在保持高质量2D细节的同时显著提升了跨节点间的布局与材质一致性。项目详见:https://jjrcn.github.io/PanoWorld-project-home/
彭博社报道,苹果iOS 27系统计划引入AI版快捷指令App,并优化自定义壁纸生成功能。图乐园(Image Playground)功能将部署更强AI模型,增强AI生成壁纸能力,使壁纸更逼真,用户可在设置流程中即时生成个性化壁纸,无需依赖相册或预设。同时,写作工具(Writing Tools)在现有生成、总结和基础校对基础上,重点增强语法检查能力,提升句法问题处理,使体验更接近Grammarly。
近日,小米在 CVPR 2026 NTIRE 图像恢复与增强赛事中获得三项大奖。小米玄戒多媒体算法团队凭借自研SPANV2方法,以综合得分4.43夺得高效超分辨率赛道冠军,实现了画质与速度的均衡提升。小米大模型应用团队通过双阶段级联框架与单步扩散技术,获得人像修复赛道冠军;并在反光消除赛道通过骨干网络升级与知识蒸馏等策略获得亚军,主观评分达4.31分,多项客观指标位列第一。
HiDream开源了8B参数的HiDream-O1-Image模型,其核心创新在于采用像素级统一变换器,用单一架构直接处理原始图像块、文本与任务条件,将文本生成图像、编辑、个性化等任务统一为上下文生成,无需传统的VAE和文本编码器管线。该模型内置推理提示代理,能原生支持最高2048×2048的高分辨率合成。在性能上,它在参数量仅为部分同类模型三分之一的情况下,达到了可比的水平,尤其在文本渲染任务上表现出色,结果接近更大规模的模型。
AI绘画工具Krea 2.0发布了保持人物、风格与构图高度一致性的功能。这不仅是技术升级,更标志着创作范式的转移:创作者的核心工作从反复调试单张图像的提示词,转向如何运用多张一致图像进行序列化思考与构建完整视觉叙事。当“单图生成”变得容易,叙事能力便成为更稀缺的优势。目前该功能已向所有用户开放并有限时免费活动,正加速这种创作方式的普及。
today, Krea 2 goes live to everyone. to celebrate, we're offering unlimited Krea 2 generations to all our subscribers fo...
I've finished a video of just over 4 minutes, entirely created using Grok Imagine's Agent mode (see image). It's a much ...
2026年5月18日,一篇题为《那些充满氛围感的Photoshop作品都去哪儿了?》的评论文章在Hacker News引发讨论,获得106点热度。文章似乎聚焦于数字创作领域的趋势变迁,尤其探讨了曾流行于Photoshop中的“氛围感”视觉风格及其作品在当下的呈现状态或减少迹象,并关联到创作者工作流程与工具使用的潜在转向。
针对现有城市建筑能耗建模多为预测性、缺乏生成能力且数据稀缺的问题,本文提出了一个名为SENSE的统一生成式框架。该框架能够基于可控扩散模型,联合合成逼真的城市卫星图像以及与之对齐的高质量建筑能耗与高度图。其通过道路网络和城市密度指标进行条件控制,并利用大型视觉模型在潜在空间生成标注信息。在纽约等四个城市的实验表明,SENSE生成的图像视觉保真度高,且符合物理标准。该模型能利用少量标注数据生成合成数据集,显著提升了下游预测任务的性能并降低了误差,为城市可持续规划提供了新方案。
针对3D高斯溅射难以真实渲染半透明镜面物体的反射模糊与透射遮挡问题,本研究提出了RT-Splatting框架。其核心在于将高斯球的几何占据与光学不透明度解耦,从而用同一组高斯基元统一表征场景的表面与体积。通过混合渲染器,既能捕捉高频反射,又能保留清晰透射。为稳定联合优化,框架引入了镜面感知梯度门控,以抑制高镜面区域对透射分支的干扰梯度。实验表明,该方法在复杂半透明场景中实现了实时的高保真渲染,达到最先进水平,并自然支持灵活的场景编辑。
据马克・古尔曼报道,苹果计划在iOS 27和iPadOS 27中为Genmoji功能引入智能推荐。该功能将基于用户相册照片和键盘输入记录,自动生成个性化的专属表情,旨在提升功能使用率。用户可在键盘设置中自主选择开启或关闭此推荐选项。Genmoji功能最初随iOS 18.2上线,允许用户通过文字指令生成表情。此次升级强调场景贴合度与实用性,但具体是否仍完全依靠端侧AI模型运行尚未明确。
一日本账号将中国国宴上神情专注、站姿端正的女性服务员,通过配乐和AI生成图片暗示为“间谍”,引发英文推特热议。分析指出,这种指控源于典型的“镜像偏见”——美国情报机构历史上常招募服务行业人员为线人,因而推定他国行为模式相同。实际上,中国高端外事服务秉承零失误、极致专注的专业传统,却被曲解为“监听”。事件揭示认知战中,文化差异与预设剧本如何将专业行为扭曲为威胁信号。
中国の女性給仕係にスパイ疑惑ーー米ネットで話題に 国賓晩餐会で、中国の給仕係の女性がスティーブン・ミラー副首席補佐官のすぐ横に立ち、聞き耳を立てるような姿勢で写っている。別カットでは要人たちの様子をじっと観察するような表情も。 「中国ならや...
AMD一项名为“基于人工智能的游戏与渲染引擎”的专利曝光,计划推出一款完全依托AI打造的游戏引擎。该引擎旨在通过神经外推、智能超采样等技术,在生成逼真游戏画面的同时大幅降低算力消耗。其核心特点是允许开发者仅绘制简易草图轮廓,AI便能据此从零生成精细的游戏画面与内容,可承接传统游戏引擎的各类运算处理工作。目前该技术具体开放时间未定,但展现了AI颠覆游戏开发流程的潜力。
一条关于游戏开发的推文引发广泛共鸣:利用3D Gaussian Splatting技术生成的单颗树莓模型精度极高且运行流畅,但若将一整筐此类高精度模型放入游戏,帧率会骤降至2 FPS。这现象揭示了AI工具领域的普遍困境:生成单张图像、短视频或代码片段时效果出色,一旦进行批量生产或系统集成,就会出现质量崩溃、性能低下或依赖混乱等问题。其核心在于,新工具极大降低了创意demo的制作门槛,但将其转化为稳定、可交付的生产级应用,所需的工程优化与整合能力反而变得更加稀缺和关键。AI让创意唾手可得,但跨越demo到生产的鸿沟,仍需扎实的工程能力。
Cant wait for an indie dev to accidentally put a carton of these in his game as a prop and wonder why his game runs at 2...
论文提出EVA01框架,扩展多模态大语言模型以原生方式整合3D网格理解、生成和上下文感知编辑。它基于Mixture-of-Transformers架构,将模型解耦为预训练的理解专家和结构镜像的生成专家,通过共享的全局自注意力与硬模态路由进行耦合。结果显示,EVA01在文本到3D生成保真度上达到最先进水平,并解锁了具有身份保持能力的鲁棒长上下文多轮几何编辑功能,这是无状态重建流程无法实现的。
Image-blaster是一款开源工具,能够仅凭单张输入图片自动生成对应的3D场景、特效和网格模型。该项目已在GitHub平台发布,获得了开发者社区的关注,在Hacker News上收获了102个投票。这一技术简化了3D内容创作流程,有望降低相关领域的制作门槛。