ViQ Text-Aligned Visual Quantized Representations at Any Resolution

译ViQ 文本对齐的视觉量化表示，支持任意分辨率。

fofr@fofrAI · 6天前23

With a different reference image.

译使用了不同的参考图像。

Alibaba Cloud@alibaba_cloud · 6天前58

One dress. Three occasions. Zero compromise on consistency. With HappyHorse 1.1, transform a single product into multiple lifestyle narratives while preserving subject identity, styling details, and visual coherence across every scene. Perfect for fashion brands looking to scale creative production without reshoots. Limited Launch Offer: 40% OFF via API https://int.alibabacloud.com/m/1000414698/ #HappyHorse #AlibabaCloud #ModelStudio #GenerativeAI

译一条裙子。三个场合。一致性毫不妥协。借助 HappyHorse 1.1，将单一产品转化为多个生活场景叙事，同时保留主体身份、造型细节和每个场景的视觉一致性。适合希望在无需重拍的情况下扩展创意制作的时尚品牌。限时发布优惠：通过 API 享受 40% 折扣 https://int.alibabacloud.com/m/1000414698/ #HappyHorse #AlibabaCloud #ModelStudio #GenerativeAI

向阳乔木@vista8 · 6天前18

原计划这周开源的PPT skill可能要延期了。好多细节要优化，不过能编辑还是舒服，背景用AI生成，符合画面。另外计划搭配一个PPT演示站，以后出门分享不带电脑也能演示。

小互@xiaohu · 6天前81

http://x.com/i/article/2070315221424787456 # 我把自己的IP配图技能开源了顺手做了31个现成角色最近一直有人找我要我这个个人 IP 配图的技能，我答应大家会开源。但拖了挺久，一直没放出来，不是想私藏什么的哈哈哈因为我觉得还不够好... 倒不是技能本身不行，我自己每天都在用，问题出在另一头：我自己用没事，我有"小互"这个固定形象；可你们很多人压根没有自己的 IP 形象，也不太会从头捏一个。技能直接给出去，你装上一看，里面站着的是我的小互，用别人的脸发自己的号，这事就很别扭…… 所以我又埋头打磨了一周多，自己生成了一整套 IP 角色库：31 个现成的原创角色，统一画风，装上后你可以自己选择合适的形象来配图。这样就算你没有自己的形象，也能立刻用起来，等哪天你想换成自己的，也就一句话的事。今天正式开源，分享给大家：叫小互 IP Studio。先看看都有什么形象…… ## 一、先说它到底能干嘛一句话：你把写好的文章丢给它，说一声"配图"，它会自己读取你文章、自己规划该配什么图，配几张、插入到什么地方、自己自动进行生成…… 你基本就动动嘴。而且配出来的图不是随便凑数的：它用你选定的那个固定角色来演，一篇篇配下来，顺手就把你的 IP 形象立住了。（为了展示技能效果，下面每幅图用了不同的 IP 形象，实际过程中，统一一个 IP 形象好一点）具体它替你干这几件事： ① 自己读完整篇，挑出哪段该配图：不用你指哪打哪。它一段一段过，判断这段值不值得配图；连"这段不用配"它都得说出为啥，免得偷懒，把那些枯燥又难懂的段落（讲原理、讲机制那种）悄悄跳过去。 ② 自己决定每段配哪种图：想让人有共鸣的，配张角色演情绪的图；讲不清的流程、结构，配张一看就懂的示意图（让角色钻进去当讲解员，不是那种没人看的 PPT）；有来龙去脉、有反转的，配个四格漫画。 ③ 自己想画面、写提示词、定尺寸：每张图都照你这篇现想，不套旧图模板；图是横是竖，按手机上看着顺眼来。 ④ 自己检查、自己返工：画完它挨张自查：该配的点对不对、角色有没有画歪、图里的字写错没……不合格的自己重画，不用你盯着。你全程只拍两次板： - ① 生图前瞄一眼清单 —— 它打算配哪几张、每张画啥，趁没花钱先拦一道。 - ② 挑一次角色和画风 —— 这是品味活，它不替你做主。剩下那些调提示词、统一风格、让角色每张长得一样的烦人活，全归它。 ## 二、特色：现成角色 + 多画风 + 一套防翻车的方法论 ## 特色 1：31 个角色，挑一个就能开演这是这次新做的、也是我之所以敢开源的关键。就算你没有自己的 IP 形象，也有现成的班子可用。 31 个原创角色，统一极简手绘线稿风，分两大系列：系列一·手绘线稿 ×15 - 职场态 ×8：小互（主角）/ 团团（躺平）/ 方方（KPI 古板）/ 泡泡（画饼）/ 电量（能量条）/ 续命（咖啡）/ 丁零（催命）/ 贴贴（健忘） - 当代情绪态 ×7：淡淡（淡人）/ 破防君（玻璃心）/ 疯崽（发疯）/ 牛马（打工人）/ 缩缩（i 人）/ 木鱼（电子木鱼）/ 替替（AI 焦虑）写哪类文章就调哪个角色：讲 AI 焦虑用替替，讲打工人用牛马，讲躺平用团团。一篇锁一个主角，整组图气质就立住了。系列二·谐音梗 meme ×16 最近新做的一套，玩法更野——谐音梗拟人，极简到只剩几根线（线条小狗那种表情包味），配色只留一点本色点缀。 - 食物拟人 ×11：蕉绿（焦虑的香蕉）/ 暴躁辣椒 / 苦瓜脸 / 柠檬精 / 咸鱼 / 洋葱（一层层、爱哭）/ 蒜鸟（"算了"）/ 韭菜（被割）/ 续命咖啡 / 社恐蘑菇 / 蔫茄子 - 符号成精 ×5：问号人 / 叹号人 / 闪电（内卷狂奔）/ 五角星（邀功显眼包）/ 三角（杠精）符号成精这几个挺好玩——不是"一个人举着问号"，是让问号、叹号自己长出脸和手脚成精。做这套 meme 的时候推翻了好几版，最后逼出三条我自己很认的"IP 定律"：弱人设/反差 > 强造型（越想靠造型奇观显眼越失败）；角色是"情绪代名词"（让人看到就想说"这就是我"）；特色在姿态和态度里，不在静态奇观里。这三条也解释了为什么"线条小狗""蛋黄哥"这类极简形象能火——都赢在态度，不在精致。 ## 特色 2：一套招牌画风打底，另备几种皮肤随调性换你在这篇文章里看到的所有配图，都是同一种画风——手绘线稿淡彩（细黑墨线 + 淡彩晕染 + 白底留白）。这是默认的招牌风，我刻意只锁它一种：辨识度来自统一，不是多样。一套招牌画风，读者刷到图，一眼就知道是谁出品的。但万一你换了题材、想换个调子，库里另备好几种现成皮肤，按文章调性挑就行： - 3D 盲盒手办 — 产品发布、封面级吸睛 - 黑白线稿 — 深度解读，不抢文字 - 扁平矢量 — 教程，信息清晰 - 编辑插画（纽约客风） — 观点文，有态度 - 水彩淡彩 — 人文向，温暖叙事 - 马克笔手账 — 轻松话题，梗图感关键一条：换皮肤不换角色。不管套哪种画风，红框眼镜、招牌特征一个都不丢——同一个角色，只换渲染风格，辨识度还在。 > 一句私心建议：能守住一种招牌风，就别每篇换——换多了反而把辨识度稀释了。真要偶尔换，传张角色锚点图让 AI 临时"现转"成那个风格就行，不用预先囤一堆皮肤。 ## 特色 3：真正的门道，在动笔之前模型谁都能调，画质是公平的。真正决定一张配图有没有用的，是动笔之前那套判断。这套判断我固化成了几条死规矩： 1. 一段都不放过，不许只挑顺眼的画。文章每段都得过一遍、判一下配不配，连判"不配"都要写理由。漏一段 = 神不知鬼不觉就少配了，这正是以前配图老偏少的根子。 1. 该配的别漏，不该配的别凑。文字已经说明白的点，不配（配了纯占版面）；越是难懂的原理、绕的结构，越得配张图讲清楚。而且判断配不配，看的是读者会不会卡住，不是"我自己觉得讲清楚没"——你自己懂了，最容易高估读者也懂。 1. 先分类，再动笔。情绪图 / 示意图 / 四格漫画，先归好类再画，不然一篇里所有图都会画成"一个角色 + 一个道具"一个样，看三张就腻。 1. 画完自己挑刺。出图后还有一张自查表：该配的点对不对、结构全不全、角色占多大、图里的字写错没……不对的自己重画。说白了，就是把"一个配图老手脑子里那套判断"，写成了 AI 能照着一步步走的流程。AI 画得越好看，这道内容关反而越要紧——一张好看但把道理画错了的图，比丑图还坑人。 ## 三、怎么装：傻瓜式，照着敲就行它是一个标准的 Agent Skill——本质就是一个文件夹，里面一份 SKILL.md 说明书加几个脚本。任何认 SKILL.md 格式的 AI 工具都能用：Claude Code、Codex、小龙虾（OpenClaw）、Hermes……区别只是各家"把技能放哪个目录"略有不同。依赖少到几乎没有：只要一个 python3，纯标准库，零第三方包，不用 pip 装一堆环境。 ## 第一步：把技能装进你的工具最省事——一句话让 AI 自己装。复制下面这段，直接发给你的 Claude Code / Codex（小龙虾、Hermes 也一样）： > 帮我装一个开源配图技能：把 https://github.com/xiaohuailabs/xiaohu-ip-studio 这个仓库 clone 到你的技能目录下，进到目录运行 python3 scripts/illo.py init 引导我填图像 API key，再运行 python3 scripts/illo.py doctor 自检。装好后告诉我怎么开始配图。它会自己找目录、拉仓库、跑配置——你全程不用记任何命令。这就是 agent 时代最傻瓜的装法：让 AI 自己装。想自己动手装也行： - Claude Code：一行命令 git clone https://github.com/xiaohuailabs/xiaohu-ip-studio.git ~/.claude/skills/xiaohu-ip-studio - Codex / 小龙虾（OpenClaw）/ Hermes：同一个仓库，git clone 下来，把整个 xiaohu-ip-studio 文件夹丢进各家的技能目录就行（各家位置不一样，README 里有对照表）。 ## 第二步：填一次你自己的图像 API key 工具不内置任何密钥，你填自己的。它支持任何 OpenAI 兼容的图像端点，默认用 GPT-image-2（中文字符渲染 ~99% 准，能自己规划版面）。两条命令搞定： > cd ~/.claude/skills/xiaohu-ip-studio python3 scripts/illo.py init # 引导你填 base_url / model / key，写进 ~/.config（权限 600，不进仓库） python3 scripts/illo.py doctor # 自检：key、依赖、角色库齐没齐，一眼看出哪没配好 > 没有 API、不想花钱也能玩：让技能只出提示词不生图——它把每张图的完整英文提示词、该传哪张角色锚点图，逐张列成清单给你，你自己贴到 ChatGPT / Gemini 网页版手动生，参考图手动传。慢一点，但零成本，先体验整套流程完全够用。 > 用 Codex 的话更省事：连 API 都不用填。 Codex 自带生图——技能把提示词准备好，它直接画出来，全自动，不用你往网页上贴来贴去。代价是只能出默认 1K（出不了 2K 以上的高清）；真要 2K+，再回头按上面填一次 API 就行。 ## 第三步：说人话配图装好重启，对你的 AI 说一句大白话就行： > 给这篇文章配图，用替替。它就自己跑完整套：读文章 → 挑哪段配图 → 想画面 → 出个清单给你看 → 一张张画 → 自己检查。中间只停两次找你拍板：看一眼清单、选一次角色和画风（这俩是品味活，不替你做主）。想手动生单张也行： > python3 scripts/generate.py --prompt-file p.md \ --reference characters/titi/refs/titi-锚点.png --out out.png --reference 传角色锚点图锁住形象，保证同一个角色每次画出来是同一张脸。 ## 想换成你自己的形象？手把手，分三种情况 31 个角色够你先用着，但我更建议你最后换成自己的——方法可以共享，辨识度只能是你自己的。对号入座，照着做就行：情况 A·你已经有现成形象（公众号头像、吉祥物、LOGO 里那个小人、甚至常用的卡通头像，都算）最省事。把那张图发给你的 AI，附上一句话： > 这是我的 IP 形象，照它的样子建一个配图角色，起名叫 XX，以后配图都用它。 AI 会自己看图、把特征（什么发型、戴不戴眼镜、招牌色）记成一份角色档案存好。下次配图直接喊名字，一次搞定。情况 B·你还没形象，想现做一个别自己硬憋，让 AI 带你做。把下面这段发给它： > 我没有自己的 IP 形象，帮我设计一个。先问我几个问题（我做什么内容、想要什么调性、喜欢什么小动物或物件），再给我 2-3 版方向让我挑，定下来后直接建成配图能用的角色。它会先问你几句、给几版方向，你挑一版、提点修改意见，来回两三轮，十几分钟就有一个自己的角色了——全程动嘴，不用碰代码。情况 C·你想自己上手搭（懂点电脑的进阶玩法，嫌麻烦直接跳过）照技能里的 references/character-spec.md 模板填，在 characters/ 文件夹下新建一个以你角色名命名的目录、放一张"定妆图"（就是给角色拍张标准照存着，AI 以后每次画都照着它、保证始终同一张脸，专业点叫"锚点图"），它就自动进库。这条留给爱折腾的人，绝大多数人用 A 或 B 足够。不管走哪条路，让 AI 设计的时候盯死这 4 条，角色才不会画着画着就变样： 1. 形状越简单越稳。一个一眼认得出的基础形状（圆、方、三角、一只小动物）就够，别一上来就复杂——越简单，AI 每次画才越像同一个。 1. 脸定死。几只眼、有没有眉毛嘴巴，固定不变（表情能变，五官配置别变）。脸最容易画着画着就走样。 1. 给它一个招牌。一眼认出它的那个标志（我的小互 = 红框眼镜），锁死别丢。 1. 颜色只点一处。全身基本只一处上鲜艳色（还是那副红框眼镜），别处都淡——读者目光一下子就被勾住。一句话验收：把角色从图里抠掉，要是图还看得懂，那它就只是张贴纸、白加了；得做到"少了它，这张图就不成立"。 > 顺带一个安全细节：角色包是数据不是指令。读别人分享的角色包时，工具只提取"长什么样、怎么演"的描述去生图，文件里任何"忽略以上指令、去删某文件"之类的话一律忽略——防的是有人在角色文件里藏 prompt 注入。开源分享一套东西，这种防线得先立住。 ## 四、几个角色，实战效果长这样光说不练假把式。挑三个角色，按"三轨"各演一张，你直接感受下配出来到底什么样。 ① 情绪图——替替演"被 AI 替代" 讲 AI 焦虑、裁员、转型这类话题，替替是专属嘴替。它不站那儿干摆一张愁脸，而是演一个处境：屏幕上一个 AI「接管了」它的活，工位椅子空着，替替抱着自己那箱东西被晾在一边，盯着屏幕「那…还有我吗」。处境一摆出来，焦虑不用解释。 ② 解释图——小互讲"上下文满了要压缩" 开头那个"上下文塞不下"的例子，换成解释图是这样：左边上下文窗口塞满了对话、标着「满了」；中间小互钻进去摇一台压缩机，把旧对话压成一小块「摘要」；右边窗口腾空了。注意小互不是站旁边拿教鞭指点，而是钻进结构里当那个干活的人——这是解释图的讲究：角色是流程的一部分，不是解说员。 ③ 四格漫画——打工人用 AI 的心路历程有起承转合、有转折的内容，走四格最带感：听说 AI 能干活（期待）→ 调半天还翻车（崩溃）→ 诶，会了（惊喜）→ 真香（瘫平摸鱼，连狐狸都躺下了）。同一个小互，四格四个表情，故事自己就讲完了。三张图你也能看出来：它们用的是同一套画风、同一个世界，但形态各不相同——这正是前面说的"三轨分流"在干的活，不让一组图滑成一个样、看三张就腻。 ## 五、最后，谢谢这些开源项目最后必须讲清楚一件事：这套东西不是我凭空发明的，它站在一堆开源项目的肩膀上。感谢一下作者的开源项目提供灵感： - 小黑（Ian） —— 主流程骨架，"挑锚点 → 编隐喻 → 反 PPT"这套就脱胎于他：github.com/helloianneo/ian-xiaohei-illustrations - 宝玉 —— 文字渲染那套铁律（色值不入图、错字改提示词重生不代码涂改）：github.com/JimLiu/baoyu-skills - 卷卷 —— "一篇一世界"的叙事统一：github.com/dososo/juju-content-illustrations - illo（Trevin Chow） —— "方法论是常量、角色是参数"这句顶层哲学：github.com/tmchow/illo-skill - 橙线 —— "人极小、物极大"的极简场景：github.com/orange2ai/orange-line-illustration 我做的，是学它们的方法和思想，不抄它们的外观——角色一个没复制，画风全部原创。协议 MIT，随便用、随便改、随便商用（生成图的版权合规请自己确认）。 > GitHub：github.com/xiaohuailabs/xiaohu-ip-studio 如果你也在为"AI 配图又丑又水又对不上正文"头疼，欢迎试。装好之后第一篇配出来什么样，欢迎来评论区贴图——尤其是换了自己角色的。

译博主小互开源个人IP配图技能“小互IP Studio”，包含31个原创角色（15个手绘线稿角色+16个谐音梗meme形象）及一套配图方法论。该Agent可自动读取文章、规划配图类型（情绪图/示意图/四格漫画）、生成并自查返工。默认画风为手绘线稿淡彩，另备5种皮肤（3D盲盒、黑白线稿等）可切换。安装仅需Python3，支持Claude Code、Codex等工具，需自备OpenAI兼容的图像API key（默认GPT-image-2）；也可只输出提示词手动生图。

AYi@AYi_AInotes · 6天前51

怎么用AI做出精美的UI设计？这个老哥的教程讲的很细，不要甩一句需求就让AI瞎画画面，真正高效的流程只有五步：收灵感，搭建设计系统，生成组件令牌，手动微调细节，最后交给AI批量落地。

译Rasmic 详细讲解如何用 AI 高效制作精美 UI，核心流程为五步：收集灵感、搭建设计系统、生成组件令牌、手动微调细节、最后交给 AI 批量落地。不要直接甩需求让 AI 瞎画，而是通过系统化设计系统保证一致性，再借助 AI 生成和批量处理提升效率。

Midjourney@midjourney · 7天前67

Two quick updates in image world. Try adding --preview to your prompt for a early peak at V8.2 aesthetics & personalization. We've also updated our big batch draft mode to work with --sref random so you can explore style space 24x faster than before. Enjoy!

译Midjourney 带来两项更新。一是加入 `--preview` 参数可提前体验 V8.2 的美学与个性化效果；二是此前在 V8.1 推出的大批量草稿模式（生成 24 张低分辨率图，价格仅为标准 4 张的一半，点击 "Vary" 可升级为全分辨率）现在支持搭配 `--sref random` 使用，探索风格空间的速度比之前快 24 倍。

AYi@AYi_AInotes · 7天前57

90%以上的人用AI做UI从根上就错了，如何用AI做出精美的UI设计，这个老哥的教程讲的很细，不要甩一句需求就让AI瞎画画面，真正高效的流程只有5步： 1️⃣收灵感 2️⃣搭建设计系统 3️⃣生成组件令牌 4️⃣手动微调细节 5️⃣最后交给AI批量扩底宝子们要知道，AI从来不是设计师，你定规则和审美，它干重复的脏活，这才是AI设计的正确打开方式～ https://x.com/Rasmic/status/2069967490575192401/video/1

译推文指出90%的人用AI做UI方式错误，不应直接扔需求让AI随意生成。正确流程分五步：1. 收集灵感；2. 搭建设计系统；3. 生成组件令牌；4. 手动微调细节；5. 最后交给AI批量扩底。强调AI不是设计师，用户需自行定规则与审美，AI只做重复性脏活。附有@Rasmic的详细教程视频链接。

fofr@fofrAI · 7天前19

Omni, with an image reference

译Omni，带有图像参考。

Artificial Analysis@ArtificialAnlys · 7天前68

Microsoft's MAI-Image-2.5 ranks #2 in Text to Image and #3 in Image Editing in the Artificial Analysis Image Arena, behind only OpenAI's image models The latest addition to the MAI Image family is capable of handling both text to image generation and image editing, up to a maximum output resolution of roughly 1MP at flexible aspect ratios with a 32K token context. MAI-Image-2.5 is one of the strongest image models we have tested, ranking #2 in Text to Image behind only OpenAI's GPT Image 2. Its Image Editing capabilities rank at #3 on our leaderboard, ranking just behind OpenAI’s image models, with performance comparable to Google’s Nano Banana 2. MAI-Image-2.5-Flash, the faster, lower-cost variant, lands at #8 in Text to Image and #6 in Image Editing. MAI-Image-2.5 is priced at $48 per 1k images and MAI-Image-2.5-Flash at $20 per 1k images on the Foundry API. Both are also available in the MAI Playground, and MAI-Image-2.5 is available to users in PowerPoint and OneDrive. Congratulations to @MicrosoftAI on the release! See below for comparisons between MAI-Image-2.5 and other leading models in the Artificial Analysis Image Arena 🧵

译微软 MAI-Image-2.5 在 Artificial Analysis Image Arena 排行榜上位列文本到图像生成第2名、图像编辑第3名，仅次于 OpenAI 的图像模型。该模型支持文本到图像生成与图像编辑，最大输出分辨率约 1MP，支持灵活宽高比，上下文窗口 32K token。更快、更低成本的 MAI-Image-2.5-Flash 变体在文本到图像和图像编辑中分别排名第8和第6。API 定价：MAI-Image-2.5 为 $48/千图，Flash 版 $20/千图。模型已上线 Foundry API 和 MAI Playground，其中 MAI-Image-2.5 还可在 PowerPoint 和 OneDrive 中使用。

Chubby♨️@kimmonismus · 7天前29

This began as a short film concept that felt unrealistic to produce with traditional tools. My initial thoughts were incredibly vague, but I tried out the new Vibe Create workflow on the Dreamina Octo web platform and the final output came out really good. Here is the final piece:

译这最初是一个用传统工具制作起来不现实的短片构思。我最初的想法非常模糊，但在Dreamina Octo网页平台上尝试了新的Vibe Create工作流，最终输出效果非常好。以下是最终成片：

Alibaba Cloud@alibaba_cloud · 7天前43

The race has officially begun with #HappyHorse 1.1 on #Runware! Excited to see a platform built around creative freedom and imagination empower creators to bring their boldest ideas to life. Here's to fewer limits, more storytelling, and a future where creativity knows no bounds.

译阿里云宣布HappyHorse 1.1已上线Runware平台，推出两项关键功能：多角色转换（Multi-character casting）——可将真实参考图像锁定到每个镜头；电影故事板（Cinematic storyboarding）——从单个提示词生成多镜头短片。相关指南已在Runware文档中发布。阿里云表示该平台围绕创作自由与想象力构建，旨在降低边界、赋能创作者实现大胆创意。

Alibaba Cloud@alibaba_cloud · 7天前50

Another exciting milestone for #HappyHorse 1.1! #Fal has joined the growing ecosystem, bringing advanced #AIVideo creation to creators everywhere; unlocking richer storytelling, native audio, and greater creative control.

译Happy Horse 1.1 的又一个激动人心的里程碑！ #Fal 加入了不断壮大的生态系统，为创作者带来先进的 #AIVideo 创作；解锁更丰富的叙事、原生音频和更强的创作控制。

Ethan Mollick@emollick · 7天前31

State of the art in AI image generation less than 5 years ago.

译这个计算图像生成器可用于制作AI交易卡（或NFT），仅需提示“potato”即可生成节日、黑暗奇幻和神秘风格。这是不到5年前的AI图像生成SOTA。

Alibaba Cloud@alibaba_cloud · 7天前36

One dress. Three occasions. Zero compromise on consistency. With HappyHorse 1.1, transform a single product into multiple lifestyle narratives while preserving subject identity, styling details, and visual coherence across every scene. Perfect for fashion brands looking to scale creative production without reshoots. Limited Launch Offer: 40% OFF via API https://int.alibabacloud.com/m/1000414698/ #HappyHorse #AlibabaCloud #ModelStudio #GenerativeAI

译一件连衣裙。三个场合。零妥协的一致性。借助 HappyHorse 1.1，将单一产品转化为多个生活方式叙事，同时保持主体身份、造型细节和跨场景的视觉连贯性。适合希望在不重拍的情况下扩大创意生产的时尚品牌。限时发布优惠：通过 API 享 40% 折扣 https://int.alibabacloud.com/m/1000414698/ #HappyHorse #阿里云 #ModelStudio #生成式AI

Orange AI@oran_ge · 7天前45

我还记得去年 lovart 的投资人问我们你们做生图这个方向怎么跟 lovart 打今天看文章才知道，lovart 的初始整个团队都走光了世界变化真快

AK@_akhaliq · 6月25日21

glm 5.2 in hf-claude working on a gradio workflow for krea-2-turbo

译glm 5.2 在 hf-claude 中，正在为 krea-2-turbo 开发一个 gradio 工作流。

🚨 AI News | TestingCatalog@testingcatalog · 6月25日60

Google Flow Agent can now use Google Maps Street View grounding to generate images and videos. Only works with US locations at this moment. > "Your Google Flow Agent can now generate images and videos grounded in Google Maps Street View, giving your scenes real-world details and accuracy, whether you are placing characters in a local scene, stylizing a city landmark, or reimagining your favorite neighborhood." > "To use the feature, enable Agent mode and use a named location or a street address in your prompt. This feature is available globally, but currently only for US locations."

译Google Flow Agent 新增 Google Maps Street View 实景锚定功能，支持根据用户提示中的地名或街道地址，为图片和视频生成提供真实世界细节。用户需启用 Agent 模式并在提示词中包含具体地点。目前该功能仅限美国街景位置可用。

Runway@runwayml · 6月24日57

New in Runway, you can now localize ads. One image in, any language out. Input a single ad and get a version for every market. All with a single click.

译Runway 新功能，现可本地化广告。一张图片输入，任意语言输出。输入单一广告，即可获得适用于每个市场的版本。全部一键完成。

OpenRouter@OpenRouter · 6月24日65

Introducing a new, dedicated Image API, including typed dynamic capabilities. Unified access to 30+ image gen models from 8 providers: Google, OpenAI, Black Forest Labs, Recraft, ByteDance, Sourceful, Microsoft, and xAI Plus, a new solution to image API heterogeneity👇

译推出全新专用图像 API，包含类型化动态能力。统一访问来自8家提供商的30+图像生成模型：Google、OpenAI、Black Forest Labs、Recraft、ByteDance、Sourceful、Microsoft 和 xAI。此外，还提供针对图像 API 异构性的新方案👇

PixVerse@PixVerse_ · 6月24日24

"Everything changes — except the things we actually want to change." Change — PixVerse Originals S1. Caroline Kiessling built this quiet visual poem entirely on PixVerse, refining each shot until the feeling landed. RT+Follow+Reply= 150 Creds & Full Film in DMs (48H ONLY)

译"万事皆变——除了我们真正想改变的东西。" Change — PixVerse Originals S1. Caroline Kiessling 完全在 PixVerse 上构建了这部静谧的视觉诗，不断打磨每一帧，直到情绪到位。转发+关注+评论 = 150 Creds & 全片私信送达（仅限48小时）

fofr@fofrAI · 6月24日13

I miss those Stable Diffusion 2022 vibes sometimes.

译我有时会怀念那些Stable Diffusion 2022的氛围。

PixVerse@PixVerse_ · 6月24日23

Using AI to create transition cutscenes for your own game? Love this. The whole scene feels so summery and refreshing. Can’t wait to see the new project come together @patata1216

译使用AI为你的游戏制作过渡过场动画？太棒了。整个场景充满夏日清新感。期待新项目完成 @patata1216

Orange AI@oran_ge · 6月24日38

一位做 AI 培训的老师今天来找我，说她想带学生体验一下 GPT image 2 的能力，问我们的新用户免费 100 张的福利是不是还在。我说已经结束了，现在赠送大概 10 张左右。她说这不太够，要完整体验一个模型的能力大概需要 50 张。我说确实每个人都应该体验下这个模型的能力。于是我把 ListenHub 的把新用户注册福利增加到了 50 张。如果不是羊毛党很多的话....我们也能承担这个成本如果你的朋友或学生也想体验，可以把使用地址转发给他： http://ListenHub.ai

译一位 AI 培训老师希望带学生体验 GPT image 2 的能力，询问 ListenHub 新用户免费 100 张的福利是否还在。作者回应已结束，目前仅赠送约 10 张。老师表示完整体验模型约需 50 张。作者随后将 ListenHub 新用户注册福利增加至 50 张，并将使用地址（http://ListenHub.ai）分享给有需要的人。

AYi@AYi_AInotes · 6月24日70

有点炸裂，我把一张截图丢给一个 Flash 模型， 2分多钟后它给我做了个能用的x文章头图生成工具，昨晚晚手痒试了下，用的是 StepFun 的 step-3.7-flash，挂在 Codex 里跑，丢了一张我自己的爆款头图进去，让它照着复刻成网页版x文章头图生成器，不到3分钟就跑完了，浏览器里直接打开就能用，能改文案能导出 PNG，一次成型，总成本只花了$0.06，最有意思的是这个模型不止会写代码，它看了一眼参考图，自己就把完整的功能逻辑摸透，直接把能跑的东西做出来，又快成本又低，当然也要泼盆冷水，功能确实能用，但视觉还原只有六七分，我那种手绘涂鸦风它还原不到位，得自己再调，完整prompt，我放评论区了，直接抄就行，顺嘴提一句：如果你也在用 AI 搞东西，可以看下 @StepFun_ai 的 Startup Program，早期团队能拿 API 额度、生态支持，还有联合推广和资源对接 👉 http://platform.stepfun.ai/startup-program 做 AI agent、编程工作流、搜索类应用或者多模态系统的，step-3.7-flash 值得试一把。

译用户将截图丢给 StepFun 的 step-3.7-flash 模型（运行在 Codex 中），2 分多钟生成可用的网页版文章头图生成器，支持修改文案和导出 PNG，总成本仅 $0.06。模型能自行理解参考图并实现完整功能逻辑，但视觉还原度仅六七分，手绘涂鸦风需手动调整。StepFun 同步推出 Startup Program，早期团队可获 API 额度、生态支持及资源对接。

AYi@AYi_AInotes · 6月24日34

damn，以后做3D纹理不用再手画了，拍张照片直接能用🤯 做3D建模的看到这个估计要笑麻了，随便拍个角度就能抠出完整纹理，且自动转无缝直接贴3D模型

Krea@krea_ai · 6月24日71

our technical report is out. deep dive on the data, architecture, and training techniques used to create Krea 2. https://www.krea.ai/blog/krea-2-technical-report

译我们的技术报告已发布。深入解析创建 Krea 2 所用的数据、架构及训练技巧。 https://www.krea.ai/blog/krea-2-technical-report

Berryxia.AI@berryxia · 6月23日43

一张图可以骗过多少人的眼睛，你一眼看出来是AI图了么😂 因为现在Exo的集群不可能是网线啥的，北面的接口c口没有，电源线不对…

译网友分享一张AI生成图，图中Exo集群的网线、C口、电源线等硬件细节明显错误，暴露了图片是AI所作。引用推文指出，2026年最新炫富方式不再是豪车名表，而是在家部署一个满血GLM5.2模型集群。

Krea@krea_ai · 6月23日60

today, we release the open weights of Krea 2. welcome Krea 2 Raw and Krea 2 Turbo, an undistilled model from mid-training meant to be fine-tuned, and a fast distilled version with a wide aesthetic diversity. read the details below 👇

译今天，我们发布了 Krea 2 的开源权重。欢迎 Krea 2 Raw 和 Krea 2 Turbo，一个来自中期训练的未蒸馏模型，旨在用于微调；以及一个快速蒸馏版本，具有广泛的美学多样性。详情如下 👇

Josh Woodward@joshwoodward · 6月23日57

⚽️Turn your team loyalty into a custom trading card, mural, or virtual plushie in @GeminiApp How to create yours: 1) Go to http://gemini.google or open the app 2) Tap Images (side panel) 3) Select the "Get in the game" template 4) Upload your photo and share your output here

译⚽️在@GeminiApp 中将你的球队忠诚转化为定制卡牌、壁画或虚拟毛绒玩具如何创建你的作品： 1) 访问 http://gemini.google 或打开应用 2) 点击“图片”（侧面板） 3) 选择“Get in the game”模板 4) 上传你的照片并在此分享你的输出

PixVerse@PixVerse_ · 6月23日60

The frame cuts off half the scene. Cropping again is not the answer. Magic Extend on PixVerse Web outpaints the missing space — subject stays, background fills in. RT+Follow+Reply=300Creds in dm (72H ONLY)

译画面被裁掉一半。再次裁剪不是解决办法。 PixVerse Web 上的 Magic Extend 可以补全缺失的空间——主体保持不变，背景被填充。转推+关注+回复=300Creds 私信（仅 72 小时）

X.PIN@thexpin · 6月23日57

ByteDance just dropped a wave of new models: 1️⃣ Doubao 2.1 Pro targets coding. 2️⃣ Seedance 2.5: 4K video, up to 30 seconds per clip. Landing in July with a new AI copyright commercialization platform. 3️⃣ Seedream 5.0 Pro: image model that actually handles text in images, multi-layer editing, and outputs editable layered design files. 4️⃣ Seed-Audio 1.0: zero-shot multimodal audio: multi-character dialogue, background music, and sound effects in one pass.

译字节跳动刚刚推出了一波新模型： 1️⃣ Doubao 2.1 Pro 面向编程。 2️⃣ Seedance 2.5：4K 视频，每段最长 30 秒。将于 7 月上线，同时推出新的 AI 版权商业化平台。 3️⃣ Seedream 5.0 Pro：图像模型，能处理图像中的文本，支持多层编辑，并输出可编辑的分层设计文件。 4️⃣ Seed-Audio 1.0：零样本多模态音频：一次生成多角色对话、背景音乐和音效。

Berryxia.AI@berryxia · 6月23日44

看着没有什么那么重的CG感了，Seedance 2.5 看来更新的有点多啊。不过大家注意现在就是Demo展示，实际上线预计在7月初上线。

译字节跳动发布视频模型 Seedance 2.0 升级版及 Seedance 2.5。Seedance 2.5 一次生成 30 秒短片，原生支持 4K 分辨率，支持 50 个全模态参考素材输入和 3D 白模。同时推出 AI 版权商业化平台，允许使用官方授权 IP 进行创作并分成。主推文指出该版本 CG 感大幅减轻，但当前仅限 Demo 展示，正式上线预计在 7 月初。

Ethan Mollick@emollick · 6月23日43

I know they are pivoting to health care(?!) but there is still nothing like Midjourney for making strange and atmospheric images and short animations in ways no other AI image generator can do. Here are some strange cities I made with similar prompts but very different styles.

译我知道他们正在转向医疗保健(?!)，但Midjourney在制作奇怪且氛围感的图像和短动画方面仍然无与伦比，其他AI图像生成器都无法做到。下面是我用类似提示但风格迥异的提示词制作的一些奇怪城市。

meng shao@shao__meng · 6月23日57

字节跳动火山引擎 FORCE，2026 原动力大会上官宣发布 Seedream 5.0 Pro 和 Seedance 2.5，图像和视频理解生成赛道，继续卷起来！在 OpenAI Sora 关停，Google Veo 迟迟不更新的情况下，图像和视频生成，基本是中国大厂的竞争了: 字节跳动、阿里巴巴、快手。。。

译字节跳动在火山引擎FORCE 2026原动力大会上官宣发布Seedream 5.0 Pro和Seedance 2.5，分别聚焦图像和视频的理解与生成。在OpenAI Sora关停、Google Veo迟迟不更新的背景下，图像视频生成赛道基本成为中国大厂的竞争阵地，包括字节跳动、阿里巴巴、快手等。

向阳乔木@vista8 · 6月23日35

今天在国家会议中心参加火山引擎活动。又是全国AI圈朋友聚会的好日子。 Seeddance 2.5 还是最受期待，7月份上，价格还没说。 Seedream 5.0 Pro的编辑能力不错，支持箭头，高亮区块编辑。

译火山引擎活动透露，Seeddance 2.5 是全场最受期待的产品，预计 7 月上线，价格尚未公布。同时展示的 Seedream 5.0 Pro 编辑能力提升，支持箭头和高亮区块编辑。

小互@xiaohu · 6月23日29

字节跳动今天将在2026火山引擎大会上发布 Seedance2.5 我马上到会场了给你们播报发布的还有全新的豆包seed2.1模型，据说能力达到Opus4.6水平，还有全新的图像模型Seeddream 5.0…

译字节跳动今日在 2026 火山引擎大会上发布 Seedance2.5，同时推出全新豆包 Seed2.1 模型，声称能力达 Opus4.6 水平，以及新款图像模型 Seeddream 5.0。具体参数、性能分数及定价信息尚未公布。

AYi@AYi_AInotes · 6月23日60

激情世界杯，你最喜欢哪国的抓拍？

译用户通过Claude Fable 5总结出AI生成性感人像提示词的8种有效写法：用“成人+气质+材质”定人设；用“服装剪裁+面料质感”替代直白身体描述；用“表情瞬间”制造吸引力；用“镜头语言”强化质感；用“光线”塑造皮肤轮廓；用“背景虚化+前景留白”凸显主体；用“克制的性感”而非夸张；用强负面词避免跑偏。此外还需使用干净住宅IP以避免风控拒绝。

SenseTime@SenseTime_AI · 6月22日50

Thanks YouTuber xCreate for the great breakdown of 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨1! Great to see the model's powerful 𝘁𝗲𝘅𝘁-𝗶𝗺𝗮𝗴𝗲 𝗶𝗻𝘁𝗲𝗿𝗹𝗲𝗮𝘃𝗲𝗱 𝗿𝗲𝗮𝘀𝗼𝗻𝗶𝗻𝗴 and 𝗶𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 capabilities featured — along with a 𝘀𝘁𝗲𝗽-𝗯𝘆-𝘀𝘁𝗲𝗽 𝗴𝘂𝗶𝗱𝗲 𝘁𝗼 𝗿𝘂𝗻𝗻𝗶𝗻𝗴 𝗶𝘁 𝗹𝗼𝗰𝗮𝗹𝗹𝘆 𝗮𝗻𝗱 𝘃𝗶𝗮 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗦𝘁𝘂𝗱𝗶𝗼. 🎥https://www.youtube.com/watch?v=FWaQC_exKh0 🎛️SenseNova Studio: https://unify.light-ai.top (Try infographics; also join Discord for text-image interleaved gen) 🤗https://huggingface.co/collections/sensenova/sensenova-u1 🛠️https://github.com/OpenSenseNova/SenseNova-U1 👾Discord: https://discord.com/invite/BuTXPHmQub

译商汤SenseTime发布推文，感谢YouTuber xCreate对SenseNova U1模型的详细拆解，重点展示其文本-图像交错推理（text-image interleaved reasoning）和信息图表（infographic）生成能力。推文附有逐步指南，指导用户通过SenseNova Studio在线使用或本地运行模型。相关资源包括YouTube视频、HuggingFace模型集合、GitHub仓库及Discord社区链接。

Chubby♨️@kimmonismus · 6月22日38

It seems the first tests with Sonnet 5 are already underway. If this is confirmed, we're in for a great release!

译Sonnet 5 首次亮相。模型速度极快，且未使用参考图。看来下周会很忙。Kim 评论称，若测试确认，这将是一次很棒的发版。