6月3日

09:48

Berryxia.AI@berryxia

微软在Build大会宣布推出七个全新的MAI模型家族。该家族以“干净数据血统”从零开始训练，旨在任务专精并能无缝协作。其中，MAI-Code-1-Flash在SWE-Bench Verified上得分71.6，比Claude Haiku 4.5高出5分，并能节省60% token。MAI-Transcribe-1.5处理一小时音频仅需15秒，在43种语言上实现速度与准度领先。微软此次发布旨在展示其从零构建、专精且能协同工作的模型发展路径。

Microsoft AI: Seven new models launching at Build: let's go! Reasoning. Code. Image. Transcribe. Voice. Built from scratch on a clean ...

Microsoft 图像生成模型发布编码

09:48

Berryxia.AI@berryxia

微软MAI-Image-2.5在图像编辑评测中位列第二

微软发布新模型MAI-Image-2.5，并在Image Edit Arena（单图编辑）评测中取得第二名，得分为1401。根据评测数据，该模型分数比Nano Banana 2、Grok Imagine Image Quality和ChatGPT-Image-Latest-High Fidelity高出10分。尽管取得了进步，但评测显示当前的第一名仍是GPT-Image-2模型。该消息来源于X用户@berryxia。

Arena.ai: MAI-Image-2.5 has officially released from @MicrosoftAI landing at #2 in the Image Edit Arena (Single-Image-Edit) with a...

Microsoft 图像生成模型发布

08:30

jason@jxnlco

模型 'gpt-image-2' 不存在 https://chatgpt.com/s/m_6a1f701a74748191b883735fff3b28d7

OpenAI 产品更新图像生成

08:26

DogeDesigner@cb_doge

Grok Imagine 处理 Logo 的效果相当不错。🔥

xAI 图像生成评测/基准

06:29

fofr@fofrAI

K2 处理风格参考强度的方式真的很棒。

fofr: Playing around a bit with Krea's K2 Large image model. I love how expressive it feels, and the variability you get with ...

图像生成评测/基准

04:47

Chubby♨️@kimmonismus

"大家都讨厌 AI 垃圾内容" "我们将决定：这是氛围感，还是垃圾？" 这听起来是个有趣的活动：D

图像生成现象/趋势

04:29

fofr@fofrAI

稍微玩了一下 Krea 的 K2 Large 图像模型。我很喜欢它带来的表现力，以及每个提示词产生的多样性。

其他图像生成

03:59

OpenRouter@OpenRouter

精选68

三款新的 @MicrosoftAI 模型现已在 OpenRouter 上线！同步推出：MAI-Image-2.5、MAI-Transcribe-1.5 和 MAI-Voice-2。详情见下文 🧵

Microsoft 产品更新图像生成多模态

推荐理由：微软三个多模态模型一口气上架 OpenRouter，图像、转录、语音全齐了，开发者直接调 API 就能用，做产品的可以试试效果。

03:06

向阳乔木@vista8

论文图表生成框架Harness的架构与实践

Hugging Face 上一篇热门论文介绍了名为 Harness 的 AI 论文图表生成框架。该框架围绕一个共享的结构化规格文档 S 运作，包含四个协作角色：设计者生成视觉方案，执行者渲染图像或代码，验证者输出带定位的诊断报告，修订者据此修改规格文档 S。作者参考该框架进行了简化实践，写成一个技能包，其中使用了 GPT-image-2 进行生图，并整合了 URL 抓取功能，可直接生成配图。

Hugging Face 图像生成多模态教程/实践

02:38

TechCrunch：AI（RSS）

马丁·斯科塞斯成为好莱坞AI最新支持者

马丁·斯科塞斯是世界上最著名的在世导演之一，他成为AI技术的最新倡导者，但明确表示仅将该技术用于故事板制作。

图像生成行业动态

01:40

HuggingFace Daily Papers（社区热门论文）

TVIR：面向文本-视觉交错报告生成的深度研究智能体构建

针对现有深度研究系统以文本为中心、视觉元素可靠性与对齐性评估不足的问题，本文提出了TVIR框架，包括TVIR-Bench基准测试和TVIR-Agent多智能体框架。TVIR-Bench包含100个要求视觉元素服务于特定分析目标的多模态任务。TVIR-Agent采用分层多智能体设计，负责构建大纲、检索图像、生成可溯源图表并进行上下文感知写作。研究进一步开发了结合文本与视觉评估的双路径评估框架。对九个系统的实验表明，TVIR-Agent表现优异，凸显了多模态设计对于证据驱动报告生成的重要性。

图像生成多模态论文/研究

01:17

Artificial Analysis@ArtificialAnlys

Krea 2 Medium在AI文生图排行榜位列第6，性能与定价引发关注

Krea AI自研的文生图模型Krea 2 Medium在Artificial Analysis排行榜上位列第6，仅落后于OpenAI、Google和NVIDIA的模型。值得注意的是，体积更小、速度更快的Medium版本在排名上超过了定位更强大的Large版本。两款模型均支持通过API进行风格迁移和创意控制等操作，生成1K分辨率图像。定价方面，Krea 2 Medium为30美元/千张，Krea 2 Large为60美元/千张。

图像生成模型发布评测/基准

01:14

Krea@krea_ai

Krea 2 现已上线 @ArtificialAnlys 独立研究实验室排名第一的图像模型，全球文本到图像排行榜第六。开源版本正在制作中，即将推出。

图像生成开源生态评测/基准

6月2日

23:45

AK@_akhaliq

Crafter 一个用于从多样化输入生成可编辑科学图表的多智能体框架

图像生成论文/研究

23:22

Kling AI@Kling_ai

你最喜欢的世界杯球队是哪支？为他们生成一段助威舞蹈视频吧！🎉

产品更新图像生成视频

23:05

SenseTime@SenseTime_AI

精选81

商汤开源SenseNova-Skills AI办公技能套件

商汤开源了AI办公技能套件SenseNova-Skills。这是一个为任何技能兼容智能体（如OpenClaw与HermesAgent）设计的开源技能集合，提供四大核心功能：图像信息图表生成（可镜像参考风格）、数据分析（支持多表解析、清洗与可视化）、PPT创建（生成大纲内容并智能排版，输出可编辑文件）以及深度研究（跨学术、技术、社交等多源搜索并生成报告）。该技能套件现已完全开源。

智能体图像生成开源/仓库

推荐理由：商汤掏出了一套开箱即用的 agent 技能包，从做图到写报告都能一键接，而且代码全在 GitHub 上。想做 agent 产品的可以直接 fork 当乐高用，比等 API 发布快多了。

22:43

Krea@krea_ai

"现实如此无聊" Krea 播客与 @edbyus、@serialcut，以及 remembering_orion。完整采访见下方 👇

图像生成行业动态

21:29

OpenRouter@OpenRouter

OpenAI 产品更新图像生成

14:32

宝玉@dotey

baoyu-image-gen Skill 支持 Codex-cli 作为 Provider 画图也就是说你可以在 Claude Code、hermes agent 之类的 Agent 里面用它调用 Codex 出图，而不需要用 Codex，当然前提是安装了 codex cli 并且有订阅。感谢网友的 PRs： https://github.com/JimLiu/baoyu-skills/pull/158 https://github.com/JimLiu/baoyu-skills/pull/161 Skill 地址：https://github.com/JimLiu/baoyu-skills/tree/main/skills/baoyu-image-gen

GitHub MCP/工具图像生成开源/仓库

12:40

HuggingFace Daily Papers（社区热门论文）

在Blender中思考：基于视觉语言模型的可执行分阶段逆向图形

本研究探讨预训练视觉语言模型能否通过生成可执行的Blender程序，直接从单张图像重建为可编辑的3D场景，且不依赖专门的2D/3D基础模型、可微渲染或多视图监督。文章提出了“可执行分阶段逆向图形”（SEIG）智能体框架，该框架在可执行的Blender代码空间中，通过分阶段优化几何、材质、构图与光照等因子来重建场景。实验评估表明，分阶段重建策略显著提升了场景重建的保真度（包括像素级、感知和语义保真度），验证了任务分解对于通用视觉语言模型执行可执行逆向图形的重要性。重建后的可编辑Blender场景可支持多种下游应用。

智能体图像生成多模态论文/研究

12:35

SenseTime@SenseTime_AI

同事件精选73

感谢使用我们的模型来创建这些复杂的图表和图表。看到具有挑战性的信息被转化为清晰、准确和可读的视觉效果真是太棒了。这就是我们的目标。😄

The AI Colony: SenseNova U1 just released an infographic-specialized version and +18.2 on IGenBench Q-ACC isn't a rounding error. It me...

Hugging Face 图像生成开源生态模型发布

同一事件，精选展示《商汤发布信息图生成模型升级，增强多项核心能力》

推荐理由：SenseNova U1 这波信息图特化不是刷分，+18.2 Q-ACC 证明模型真的懂了排版，做汇报、做图表的可以直接上 Hugging Face 扒下来用。

12:35

SenseTime@SenseTime_AI

将复杂信息转化为准确的图表和示意图。这就是 SenseNova-U1-8B-MoT-Infographic。了解更多：https://x.com/SenseTime_AI/status/2061465029959209106?s=20

Future Stacked: AI-generated infographics with garbled text have been a running joke. SenseNova U1's new infographic-enhanced model fina...

Hugging Face 图像生成多模态模型发布

关联讨论 1 条

08:47

Berryxia.AI@berryxia

ComfyUI 5月工作流更新：集成11个新模型

ComfyUI在5月集成了11个涵盖图像、3D、音频、视频和多模态的新模型，将前沿AI能力转化为可本地运行的节点。亮点包括：Krea 2以Partner Node形式上线，专注于风格优先的图像生成；来自Netflix的VOID可干净移除对象及其引发的阴影、反射等物理交互；Tripo 3.1与TripoSplat结合，实现单图端到端生成3D Gaussian资产。此外，Gemma 4、Stable Audio 3等模型也已同步上线。用户无需单独调用API或处理兼容性，通过节点拖拽即可构建复杂工作流。

ComfyUI: In May, we integrated 11 new models spanning image, 3D, audio, video, and multimodal. The highlights: → Krea 2 - style-f...

产品更新图像生成多模态开源生态