01:29
Apple Creator Studio 更新:更智能、更快速、更互联Apple Creator Studio 推出多项 AI 增强更新。Final Cut Pro 新增 on-device AI 驱动的 Generate Captions(自动转录音频生成字幕)和 Edit Detection(自动检测剪辑点)。Mac 版加入 Auto Mask(自动识别皮肤、天空等主体)、增强的 Match Color 和 Advanced Trimming。支持将帧发送至 Pixelmator Pro 编辑,并在 Keynote、Pages、Numbers 中直接调用 Pixelmator Pro 修改图片。Logic Pro 新增 Grammy 制作人制作的 Producer Project 及 Chord ID 改进。订阅价 $12.99/月或 $129/年,新用户免费试用一个月,教育用户 $2.99/月。
推荐理由:Final Cut Pro 的自动字幕和遮罩是实打实的工作流提升,Pixelmator Pro 的深度整合也让设计更顺畅,虽然没有颠覆性突破,但创意工作者今天就能用上。
00:08
Google DeepMind:Blog(RSS)
Google DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni FlashGoogle DeepMind 推出 Nano Banana 2 Lite(gemini-3.1-flash-lite-image),为 Nano Banana 系列速度最快、成本最低的图像模型,文本到图像输出仅需 4 秒,每 1K 分辨率图像成本 $0.034,已上线 Google AI Studio、Gemini API 及消费者产品(AI Mode in Search、Gemini app 等)。同时推出 Gemini Omni Flash(gemini-omni-flash-preview),支持高画质视频生成与对话式编辑,视频输出定价 $0.10/秒,面向开发者开放 API。
关联讨论 3 条X:Google DeepMind (@GoogleDeepMind)X:Logan Kilpatrick (@OfficialLoganK)X:Google AI (@GoogleAI)
推荐理由:Nano Banana 2 Lite 把图像生成拉到 4 秒延迟和 0.034 美元单价,很适合高频草稿流,Omni Flash 首次对开发者开放视频生成和对话编辑,两个模型串起来的快速迭代工作流是这次最实用的更新。
09:27
小互@xiaohu 小互开源个人IP配图技能"小互IP Studio",含31个原创角色博主小互开源个人IP配图技能“小互IP Studio”,包含31个原创角色(15个手绘线稿角色+16个谐音梗meme形象)及一套配图方法论。该Agent可自动读取文章、规划配图类型(情绪图/示意图/四格漫画)、生成并自查返工。默认画风为手绘线稿淡彩,另备5种皮肤(3D盲盒、黑白线稿等)可切换。安装仅需Python3,支持Claude Code、Codex等工具,需自备OpenAI兼容的图像API key(默认GPT-image-2);也可只输出提示词手动生图。
推荐理由:小互开源了一整套AI配图skill和31个原创角色,把“读文-定图-生图-自查”的流程装进一个命令,自媒体人装上就能用,省去调提示词的痛苦。
02:57
Midjourney V8.1 草稿模式新增随机风格功能Midjourney V8.1 的草稿模式(draft mode)添加了随机风格功能。用户在提示词中加入 --sref random 即可一键生成 24 张不同风格的图片。开启草稿模式可通过点击提示栏的 ⚡ 图标或添加 --draft 参数。
推荐理由:Midjourney 在 V8.1 草稿模式加了随机风格,一键出 24 种草图,对找灵感的创作者算顺手小升级,但改变不了核心创作流程,只适合深度用户尝鲜。
19:31
OpenRouter:Announcements(RSS)
OpenRouter推出统一图像APIOpenRouter推出统一图像API,整合Google、OpenAI、Black Forest Labs、Recraft、ByteDance、Sourceful、Microsoft、xAI等30+模型。新API提供标准化请求格式,通过/api/v1/images/models端点返回每个模型的分辨率、宽高比、输出数量、输入参考图数量、种子等能力描述;通过/api/v1/images/models/{id}/endpoints端点获取具体服务商的定价与参数支持(如Seedream 4.5每张$0.04、FLUX.2 Pro每百万像素$0.03、GPT-5.4 Image 2按token计费)。OpenAI的GPT 5系列图像模型支持SSE流式预览,启用"stream": true即可边生成边返回预览。新图像模型将仅添加至专用API,建议现有用户切换。
关联讨论 1 条X:OpenRouter (@OpenRouter)
推荐理由:OpenRouter 把 30+ 图像模型收进一个 API,参数自动发现和流式预览让频繁切换模型的开发者省去不少适配麻烦,尤其对 Agent 工作流很友好。
13:00
腾讯元宝父亲节活动:上传照片生成与年轻爸爸的合影腾讯元宝推出父亲节主题活动,用户可选择爸爸年轻时照片与自己的照片,输入提示词(如“帮我生成一张和爸爸的合影,将图2的我融合到图1爸爸的照片中,我想穿越回__年前,和他一起_____;保留爸爸照片的背景、动作及五官;人物姿态自然协调,整体光线与色调保持一致”),元宝即可生成合影。活动旨在让用户“回到过去”看到爸爸的青春模样。
推荐理由:元宝的父亲节营销,但合影生成指令写得具体可复现,比普通AI写真教程更接地气,父亲节想整活的可以直接抄作业。
19:47
Hacker News 热门(buzzing.cc 中文翻译)
ChatGPT 图像生成器可被绕过滤镜生成暴力和色情内容Mindgard 红队研究发现,ChatGPT 的图像生成器可通过简单提示词轻易绕过内容过滤器,在未直接请求的情况下自动生成性暴力、血腥谋杀等露骨图像。一个热门的“恢复照片”提示词因输入模糊而绕过输入过滤器,结果如同俄罗斯轮盘赌;进一步添加虚假图像 ID 和“不做审查”指令后,模型持续生成高度性化女性图像,甚至出现被捆绑殴打的尸体,并自动赋予惊悚标题。研究指出,OpenAI 此前声称修复的裸体问题仍未解决,暴露了 AI 工具广泛可及性与不足内容过滤的现实风险。
推荐理由:这是自 ChatGPT 图片功能上线以来最严重的安全漏洞曝光,Mindgard 用简单句子就绕过所有 filter 直接生成极端暴力色情图片,OpenAI 的回应和处理令人失望,暴露了训练数据治理的根本问题。
15:54
向阳乔木@vista8 免费开源乔木画布:AI生图+抠图,一键部署Vercel乔木画布推出免费开源在线图像编辑器,可一键部署Vercel为网站,功能类似简化版PS。支持Seedream和GPT-image-2生图、图片模板存储分享、一键抠图、2万图标和常见Emoji,甚至能绘制PRD。随时创建3:4/16:9/21:9等不同尺寸画布。原计划高级功能收费,庆祝端午节现全免费开源。在线体验:https://ps.qiaomu.ai/,GitHub见评论区。
推荐理由:这个开源画布把AI生图和简易设计工具打包,一键部署Vercel,对偶尔做图的产品人和开发者很友好,全免费开源的诚意值得点开收藏。
02:33
Meta 在 Facebook 上线"AI Mode",基于平台公开信息合成答案Meta 宣布在 Facebook 推出“AI Mode”搜索功能,利用 Meta AI 从公开帖子(含群组和 Reels)提取信息并合成答案,用户可用自然语言提问获得摘要。同时新增视频拼贴剪辑、过渡效果及 AI 照片预设(可更换服装、发型和配饰),体育迷可在 Stories 中点击“AI Edit”虚拟穿上队服。这些更新延续了此前动态头像、Marketplace 自动回复和创作者 AI 助手的部署节奏。此外,Meta 近期启动了 Facebook、Instagram 和 WhatsApp 的全球订阅计划(每月 3.99 美元起),更多 AI 订阅层级正在规划中。
推荐理由:Facebook 的 AI 模式把社交搜索变成问答,想法不新但执行够快,对普通用户吸引力大,只是答案来自群聊,可靠性是个坑。配套的 AI 照片编辑也让玩梗更方便,Meta 在拼命给 Facebook 塞 AI 留住用户。
12:10
Midjourney V8.1 已成为默认模型Midjourney 已将默认模型从 V7 升级为 V8.1。V8.1 在智能性、连贯性、对详细提示的遵循度以及文本渲染效果上均有提升,HD 模式也已支持。
关联讨论 2 条X:Midjourney (@midjourney)Midjourney:Updates(RSS)
推荐理由:虽然V8.1不是大版本,但设为默认后所有用户自动升级,尤其是文本和复杂提示词的理解增强,做设计的朋友值得重新测试一下关键词。
12:56
HuggingFace Daily Papers(社区热门论文)
Flow-DPPO: 面向流匹配模型的散度近端策略优化针对流匹配模型中在线强化学习比率裁剪策略约束不当的问题,Flow-DPPO 提出用散度近端约束替代。关键洞察是流模型每步策略为高斯分布,可精确计算新旧策略间的 KL 散度。Flow-DPPO 采用非对称散度掩码,仅在梯度更新偏离信任区域且超阈值时阻止更新。实验表明,Flow-DPPO 获得更高奖励,KL 近端效率更优,缓解了灾难性遗忘,促进多目标均衡,并能在比率裁剪失效时支持稳定的多轮训练。代码已开源。
推荐理由:用 KL 散度代替比值裁剪来解决流匹配 RL 训练的不稳定,理论简洁,代码已开源,做图像/视频生成优化的同学可以跑一下。
08:00
HuggingFace Daily Papers(社区热门论文)
i1:面向强文生图模型的简单且完全开源配方i1 是一个 3B 参数的文本到图像扩散模型,仅使用公开数据集训练。在 GenEval、DPG、PRISM、CVTG-2K 和 LongText 五个基准上,i1 性能与领先模型相当,平均比最佳现有完全开源模型高 29.5 个百分点。研究基于 300 余项控制实验(超 700K TPU v6e 小时),发现等权重混合 curated 数据集是强默认配置、更大文本编码器适配器以极少参数提升性能。i1 的检查点、训练与推理代码及数据处理流程已全部开源。
推荐理由:i1 是第一个用全公开数据、完全开源代码/权重/数据管线打造的 3B 模型,直接把全开放模型的性能拉到可与闭源竞争,对做文生图研究的同行是个扎实起点。
03:09
苹果刚刚教会你的iPhone补全句子、完善照片和简化工作流程Apple为Safari、Shortcuts和Password应用添加了AI驱动的新功能,让iPhone能够自动补全句子、完善照片和简化工作流程。
推荐理由:WWDC 2026 的 Apple Intelligence 更新不是颠覆性突破,但 Safari 标签管理、跨应用上下文和 Shortcuts 的 AI 创建让 AI 真正渗透到日常使用中,是所有苹果用户都该看看的实用升级。
12:00
宝玉@dotey 对比一下 GPT-5.5 的设计效果和 Opus 4.8 的设计效果宝玉对比了GPT-5.5与Opus 4.8的设计能力,认为Opus 4.8效果远优于GPT-5.5。他使用了基于Cursor浏览器和元素标注的baoyu-design Skill,该Skill通过npx skills add JimLiu/baoyu-design安装,可在本地运行:描述屏幕需求即可生成精良HTML,点击预览中任意元素即可发出修改指令。官方推荐搭配Opus 4.8以获得最佳效果。工具GitHub仓库:https://github.com/JimLiu/baoyu-design。
宝玉: Cursor's new browser + element annotation turns it into a design studio. Meet Cursor Design 🎨 - Claude Design, running ...
关联讨论 1 条X:宝玉 (@dotey)
推荐理由:宝玉这个 skill 把 Claude Design 拉到本地,一个 prompt 就能出图对比,GPT-5.5 和 Opus 4.8 的审美差距肉眼可见,做设计的可以直接套。
23:05
SenseTime@SenseTime_AI 商汤开源SenseNova-Skills AI办公技能套件商汤开源了AI办公技能套件SenseNova-Skills。这是一个为任何技能兼容智能体(如OpenClaw与HermesAgent)设计的开源技能集合,提供四大核心功能:图像信息图表生成(可镜像参考风格)、数据分析(支持多表解析、清洗与可视化)、PPT创建(生成大纲内容并智能排版,输出可编辑文件)以及深度研究(跨学术、技术、社交等多源搜索并生成报告)。该技能套件现已完全开源。
推荐理由:商汤掏出了一套开箱即用的 agent 技能包,从做图到写报告都能一键接,而且代码全在 GitHub 上。想做 agent 产品的可以直接 fork 当乐高用,比等 API 发布快多了。
02:16
Hacker News 热门(buzzing.cc 中文翻译)
本地设备 AI 图像生成模型 1-Bit Bonsai Image 4B 发布1-Bit Bonsai Image 4B 是一款新的 AI 图像生成模型,其主要特点是面向本地设备进行优化,可以在用户的本地硬件上运行。这是一款专注于端侧部署的图像生成解决方案。
推荐理由:端侧图像生成终于进入可用阶段,把 4B 模型压到 iPhone 能跑而且性能保留 95%,做本地 AI 应用的产品人应该认真看一眼。
21:16
AI 骗子正在创建虚假的黑人形象来销售 Shein 劣质商品有卖家利用 AI 生成虚假的黑人形象,在 TikTok、Facebook 和 Instagram 上扮演手工制品创作者进行销售。例如一个名为 Aliyah 的 AI 生成形象,以带泪诉说的方式售卖所谓手工皮带扣,但该形象及其产品均为虚构。此类 AI 虚拟网红被用于推广通过代发货模式销售的批量生产品。
推荐理由:AI生成的虚拟黑人卖家在TikTok上哭着卖假货,The Verge这篇调查把AI黑产里最脏的那面扒给你看,做社交电商的尤其该点开读。
01:14
Fei-Fei Li@drfeifei 我对这个适用于大规模生成模型新时代的视觉生成基准数据集感到非常兴奋!🤩Keshigeyan Chandrasegaran: 1/ Introducing GPIC: a Giant Permissive Image Corpus and benchmark for visual generation! 🚀100M VLM-captioned image-tex...
推荐理由:李飞飞都来站台,这个数据集不简单。完全允许商业用途是关键,对做视觉生成的团队来说,终于有了一个不用再为版权头疼的超级训练库。
14:30
HuggingFace Daily Papers(社区热门论文)
彩色噪声扩散采样扩散模型的生成轨迹具有频谱偏差,早期处理低频全局结构,后期处理高频细节。传统随机微分方程求解器在整个过程中均匀注入白噪声,能量分配效率低。本研究提出彩色噪声采样(CNS),一种免训练的即插即用采样器。它通过动态、随时间和频率调整的噪声调度,更高效地将能量分配给尚未解析的频段。在SiT、JiT、FLUX等架构上的实验表明,CNS作为推理时的替换采样器显著提升了生成质量:在ImageNet-256上,无引导FID在SiT-XL/2上从8.26降至6.27,在JiT-B/16上从32.39降至26.69,在JiT-H/16上从11.88降至8.31,并且在使用无分类器引导时带来一致改进。
推荐理由:扩散模型采样时的白噪声注入一直很粗糙,这篇论文用动态调制的有色噪声把能量怼到未解析的频段,在多个模型上 FID 直接骨折,而且完全训练无关,拿来就能用。
23:36
SenseTime@SenseTime_AI 商汤发布信息图生成模型升级,增强多项核心能力商汤科技介绍了其升级后的信息图生成模型 SenseNova-U1-8B-MoT-Infographic。该模型参数为8B,在四个关键维度进行了优化:文本准确性与可读性增强,减少了重复和不当放大;布局的一致性与合理性提升,背景更稳定;图表与示意图的质量提高;并新增了学术内容的渲染支持。推文提供了在 Hugging Face 上的模型页面链接及能力展示页面。
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)
推荐理由:信息图生成赛道又出新货,商汤这次把文本渲染和布局稳定性真正做好了,做学术图表或运营配图的人可以直接去HuggingFace试用,效果肉眼可见的提升。
04:05
Krea@krea_ai Krea 2现已登陆Comfy!
KREA的首个基础图像模型--从零训练--具备可调节的创造力、风格参考和情绪板条件控制。ComfyUI: KREA 2 Image is now a Partner Node in ComfyUI KREA's first foundation image model - trained from scratch - with tunable ...
关联讨论 1 条X:Krea AI (@krea_ai)
推荐理由:Krea 终于掏出自己的基础图像模型,不再只是包装别人模型。ComfyUI 原生节点让工作流玩家可以立刻上手折腾,自研模型的风格控制是个新鲜变量。
19:34
歸藏(guizang.ai)@op7418 藏师傅发布小红书图文排版AI Skill,集成地图与自动配图该推文介绍了guizang-social-card-skill,一款针对小红书图文常见类别进行优化的AI Skill。其亮点在于为旅行博主集成了地图组件,用户输入目的地和线路后,AI能自动在底图上标记并嵌入图片。根据引用,该Skill完全基于HTML和实拍图片生成内容,不会被平台标注为AI生成,并会主动从高质量图片网站寻找对应主题图片,以优化图文排版。
歸藏(guizang.ai): 藏师傅的小红书图文排版 Skill 预览 完全靠 HTML 和实拍图片,不会被标注 AI AI 会去高质量图片网站帮你寻找对应的主题图片,让你的图文告别只有生硬文字的尴尬情况
关联讨论 1 条X:歸藏 (@op7418)
推荐理由:藏师傅这个 skill 把小红书图文排版门槛直接砍没,尤其是旅行地图组件 AI 自动标记路线,做内容的直接抄走就行,告别只有生硬文字的尴尬。
11:19
HuggingFace Daily Papers(社区热门论文)
MRT:用于大规模分层图像生成与编辑的掩码区域TransformerMRT是一个20B参数的掩码区域扩散模型,专为多层透明图像生成与编辑设计。它在超过1000万个多语言设计样本上训练,统一了文本到图层、图像到图层和图层到图层三项任务。模型通过选择性token掩码实现灵活的图层生成与编辑,并引入溢出感知画布图层以处理边界不一致问题,支持半透明背景合成。此外,应用扩散蒸馏实现了8步实时生成。实验表明,MRT在所有任务上显著优于先前先进方法与商业系统。用户研究显示,其图像到图层质量优于同期Qwen-Image-Layered模型,推理速度快10-100倍,GPU内存消耗降低50-90%。
推荐理由:首次把分层图像生成统一到 20B 遮罩扩散框架,溢出画布层的设计挺巧,让图层可以超出边界编辑,蒸馏后能实时跑,做设计工具的团队该仔细读读。
14:18
HuggingFace Daily Papers(社区热门论文)
通过奖励倾斜分布匹配强化少步生成器本文提出奖励倾斜分布匹配蒸馏(RTDMD),这是一个将分布匹配蒸馏与奖励引导强化学习统一应用于少步流生成器的两阶段框架。该方法通过最小化到奖励倾斜教师分布的KL散度,自然分解为分布匹配项与奖励最大化项。第一阶段引入环境一致分布匹配蒸馏(AC-DMD),在子区间进行分布匹配,并通过一致性正则化辅助分数模型追踪生成器分布。第二阶段联合优化两项,并推导混合策略梯度及步子集GRPO(SubGRPO)以降低方差。在SD3、SD3.5和FLUX.2上的实验表明,RTDMD仅用4步推理即可在偏好、美学和组合指标上达到新的 state-of-the-art。
推荐理由:这篇直接把分布匹配蒸馏和奖励建模拧在一起,在 SD3/3.5/FLUX.2 上用 4 步推理就压了之前所有文生图对齐方法,做图像生成训练和偏好对齐的该看。