商汤 SenseTime 推出 SenseNova U1 开源多模态模型,实现原生理解与生成文本和图像,可一键将提示词转化为专业信息图。该模型被开发者 @gurru_tech 评价为“非常令人印象深刻”。项目已开源,提供 SenseNova Studio 在线试用,并公开 HuggingFace 模型集合、GitHub 源码仓库及 Discord 社区入口。
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》YouTube、Instagram、TikTok等平台过去一年已陆续采用自动标签区分AI生成的图像、视频和音乐,但用户仍无法主动过滤这些内容。目前的标签机制并未改变内容的呈现方式,用户依然被迫接触大量AI垃圾内容。文章呼吁平台提供过滤选项,让用户自行屏蔽AI生成内容。
Today, we're launching Reve 2.0, the best 4K image model in the world. We invented a new way to generate and edit any im...
xAI 发布 grok-imagine-video-1.5-preview 图像转视频模型,能将静态图片转换为最高 720p 分辨率的影视级视频,支持文本提示控制,多个片段可拼接为更长的场景。
Ideogram 6月3日发布开源文生图模型 Ideogram 4.0,核心规模 9.3B 参数,采用单流架构,文本 tokens 与图像 tokens 共享自注意力序列。模型使用 Qwen3-VL-8B-Instruct 文本编码器、34 层单流 DiT、Euler 流匹配采样器及冻结 KL 自动编码器。擅长文字绘制,能准确呈现较长文本;通过对象和文本边界框训练,配合结构化 JSON 字幕数据,支持用提示词指定版式和布局。在 DesignArena 人类评价排名中位列全球第 4。
英国工党议员杰丝·阿萨托起诉xAI,称Grok AI平台被用于制作她的色情深度伪造图像。阿萨托声明指出,Grok生成的深度伪造色情内容侵害数千名妇女与未成年人权益,该功能是产品研发方刻意的设计选择。xAI虽于1月中旬限制相关功能,但路透社2月核查发现用户输入指令后Grok仍能生成涉黄伪造人像。阿萨托已向英国高等法院递交诉状,指控违反数据保护法规及滥用隐私,要求赔偿、承认违法并申请禁令。此前美国巴尔的摩市也在3月起诉xAI。
wow this @reve 2.0 launch copy is supurb. "it is now clear that the key to both controllable image generation and editin...
Reve 2.0 图像模型支持原生4K输出,核心亮点在于类似 Photoshop 的图像分层编辑能力。用户点击图像中的任意部分即可选中该区域,无需复杂的中间处理步骤,直接进行针对性编辑。该功能大幅简化了图像局部修改的工作流。
中国美术学院与火山引擎联合开发「中国画创作平台」,通过6个月数据治理,将约3000张国画梳理为7维度结构化标签数据集,一次性标注通过率约95%。采用模型后训练技术,将国画鉴赏逻辑、创作理论注入豆包大模型和Seedream图像创作模型,封装为低门槛智能体。用户通过基础生成、修改调整、氛围添加三步操作,几分钟即可完成国画创作。智能体支持文生图、图生图,可集成至小程序、交互大屏,应用于教学、文创开发等场景。
MeshWeaver提出一种自回归网格生成框架,将网格生成视为表面编织过程,直接预测下一个顶点而非独立坐标。其核心是多级稀疏体素编码器,通过三种方式注入几何上下文:体素特征作为顶点表示、交叉注意力引导token预测、以及作为结构骨架约束生成。层次化设计可在单解码步骤中实现从粗到细的顶点预测。实验表明,MeshWeaver达到18%的压缩比(SOTA),可生成最多16K面网格,并在几何保真度上显著超越此前方法。
Ideogram 发布首个开源 AI 图像模型 Ideogram 4.0,主推文字渲染与版面控制。模型引入 bounding box(边界框)控制,允许用坐标精确指定元素位置;支持结构化 JSON 提示词格式,不再仅限纯文本;英文 OCR 准确率达 0.97(X-Omni 基准),支持跨语言密集文字渲染,涵盖中日韩等非拉丁文字。
Grok Imagine Video 1.5 on AI Gateway. Image-to-video generation with synced audio in one pass. await generateVideo({ mod...
同一事件,精选展示《xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)》本文提出结构化缺陷定位(SDG),将文本到图像(T2I)模型缺陷诊断建模为结构化集预测,每个缺陷表示为(位置、类型、原因、重要性)元组。构建了SDG-30K数据集(30K图像,来自四种T2I生成器,含框级标注)和评估协议SDG-Eval。在此基础上提出诊断到对齐框架:以视觉语言模型为SDG检测器,BoxFlow-GRPO将预测缺陷集转化为框导出、重要性加权的空间奖励,用于扩散模型对齐。实验表明,SDG检测器在结构化缺陷定位上超越领先专有VLM,SDG引导的奖励持续提升T2I对齐并支持局部图像细化。
提出DIRECT框架,实现姿态可控的物体插入。该方法将插入条件分解为三个互补组件:参考物体外观引导、用户调整的3D代理几何引导、目标背景上下文引导,通过分开注入避免特征纠缠,同时保留参考外观、遵循指定姿态并适配场景。还引入自动化数据构建管道提升训练数据多样性与质量。实验表明,DIRECT在几何可控性和视觉质量上均优于此前方法。
Our independent research lab ranks top 2 on @arena Text-to-Image, ahead of Nano Banana 2 and GPT-Image-1.5.
Ideogram v4 is really good, and open weights. Images are crisp and feel fresh.
Introducing Ideogram 4.0: the best open image model in the world. Think it. Make it. Own it. Download the weights, fine-...
Grok @Imagine 1.5 Preview is here Try it today in the API: http://x.ai/api/imagine
关联讨论 3 条xAI:News(网页)X:Elon Musk (@elonmusk, xAI)X:阿易 AI Notes (@AYi_AInotes)Ideogram 发布 4.0 版本文本到图像模型,采用开放权重,支持原生2K分辨率、边界框控制和改进的文本渲染。在 DesignArena 排行榜上,该模型位列所有开放模型之首;仅 OpenAI 和 Google 的闭源系统得分更高。商业使用需购买付费许可证。
Introducing Ideogram 4.0: the best open image model in the world. Think it. Make it. Own it. Download the weights, fine-...
New open model Ideogram-4.0-Quality has landed at #8 in the Text-to-Image Arena. This makes the new model by @ideogram_a...
Amazon 更新了应用内搜索功能。用户输入衣物或家居用品的描述后,搜索栏会直接显示 AI 生成的对应商品图像,但这些图像对应的产品是虚构的,无法直接购买。用户点击最匹配的 AI 图像后,系统会搜索外观相似的真实商品。该功能旨在帮助记不清纹理或风格名称(如“荡领”)的用户进行更直观的搜索。
亚马逊将利用视觉搜索与AI技术,在用户搜索时生成并展示匹配查询的AI产品图片。该零售商表示,此举旨在帮助引导用户找到对应商品。
荣耀 Magic8 系列手机今日推送 MagicOS 10.0.0.160 版本升级,系统包约 11.11GB。新版本上线 YOYO AI 创作、AI 窥屏防护(智能识别窥视并触发遮挡)和虚拟权限(应用访问通话记录/联系人/日程仅返回空白)。灵动胶囊新增支持淘宝闪购买药、百度地图驾车导航、大众点评排号及美团拼好饭。桌面新增装饰卡片和闹钟卡片,锁屏小组件新增笔记与录音机,安全输入键盘支持挖孔区避让与圆角适配。离焦视力舒缓新增运动舒缓模式。系统优化相机拍摄、功耗与稳定性,合入安卓 2026 年 5 月安全补丁。
> Change the screen so it shows that she's on a facetime call
提出 Bootstrap Your Generator (ByG) 框架,用于非配对训练流匹配图像/视频编辑模型。方法从冻结的基础模型中提取指令遵循线索,结合循环一致性保持结构;通过梯度路由将下游损失反向传播到噪声训练状态,弥合训练-推理差距。在数据稀缺的图像和视频编辑任务上达到 SOTA,泛化到未见领域,性能优于用百万级配对样本训练的监督基线。实验表明,从基础模型提取的语义线索提供了稳健的训练信号,无需外部奖励模型。
商汤(SenseTime)开源SenseNova U1模型,宣称实现“看、思考、创作”一体——从一张普通运动鞋图片直接生成营销视觉效果。该模型代表了架构上的范式转变。用户可通过SenseNova Studio、HuggingFace和GitHub尝试使用。
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》微软在 Build 2026 大会上发布七款自研新 AI 模型,其中包括其首款推理模型。公司还推出了一种新的调优方法和一个自主后台 AI 智能体。
关联讨论 3 条X:Rohan Paul (@rohanpaul_ai)The Verge:AI(RSS)X:Satya Nadella (@satyanadella)Exploring the possibilities GPT Image Gen V2 Vertical smartphone screenshot from a Chinese short-video app. Front phone ...