Prompt share: Cozy Crochet Characters 💬Prompt: A handcrafted crochet doll of a [subject], made with soft yarn textures ...
Prompt share: Cozy Crochet Characters 💬Prompt: A handcrafted crochet doll of a [subject], made with soft yarn textures ...
商汤 SenseNova U1 具备行业首创的文本-图像交错生成能力。用户上传客厅照片后,U1 可瞬间将其风格转变为温馨阅读角。该演示由 @eigi_and_ai 完成。U1 现已通过 SenseNova Studio、HuggingFace 模型库、GitHub 源码及 Discord 社区开放体验。
FID是图像生成的事实标准评估指标,但大多数论文仅报告单一种子下的单个数值。本研究将FID视为训练种子和生成种子两个轴上的随机变量,在数百个SiT网络上直接测量方差。发现:重新训练模型使FID变化幅度是固定网络重新采样的3.2倍,差距来自随机初始化、数据顺序和流匹配损失的高斯噪声;增加计算或模型大小几乎不缩小分散度,FID变异系数稳定在1-2%;每格无分类器引导调优使分散度减半,但重新洗牌最优种子。建议:在每格最优引导下评估,将低于~1.3% CoV的FID差距视为无结论,报告多个训练种子的误差条。
baoyu-design skill 可以在本地生成动画视频,导出 mp4 格式,就像附件视频这个。 Claude Design 网页版可以用提示词创建动画视频,但你需要在网页上才能看到视频,无法下载。也有人基于第三方插件录屏软件实现过,不...
条件扩散和流模型常生成与输入约束不一致的样本。FlowBender 是一个闭环框架,将对齐误差作为第一类输入,训练网络学习基于推理时反馈的修正策略。通过无引导的前向预估步骤估计干净信号,经前向算子计算偏差,再由精炼步骤生成修正速度。包含基于梯度的实现和针对不可微场景的零阶变体,并利用前一步捷径降低额外计算成本。在图像到图像翻译、图像复原和3D网格纹理任务中,同时提升了保真度与合理性。
一个将《道德经》每句拆解翻译成大白话并配以AI生图的漫画项目已开源,在线体验和GitHub仓库已公开。生图基于Seedream 5模型,目前效果尚有优化空间(图文相关性不够稳定),但整体阅读体验有所提升。
你可能和我一样,经典古籍实在读不下去。 以《道德经》为例,拆解每句翻译成大白话 + AI生图,一下就Get了。 项目正在开发中,预计本周开源。
JanusMesh是一个无需训练、文本驱动的3D视觉错觉生成框架,可在3-5分钟内生成从不同视角呈现完全不同语义的单一3D网格。该方法将生成解耦为两阶段:跨空间双分支去噪过程在体素空间中动态解码3D潜在表示,通过CLIP引导的视角对齐和SDF融合实现无缝几何融合;视图条件纹理合成模块将视图特定的2D扩散先验投影并聚合到融合几何体上。实验表明,该方法在几何完整性、语义可识别性和效率上显著优于现有方法。
风格-内容双参考生成旨在合成图像,保留内容参考的结构语义并采用风格参考的样式。FreeStyle提出基于社区LoRA挖掘的可扩展双参考生成框架,将LoRA作为风格与内容的组合锚点,通过生成-过滤流程构建大规模三元组数据。针对内容泄漏,采用两阶段课程学习:注意力级增强约束抑制风格参考泄漏,频率感知RoPE调制策略应对双参考阶段的位置对应泄漏。引入覆盖风格参考与双参考生成的基准,包含风格不变内容对齐分数(CAS)和基于VLM的拒绝分数。实验表明模型在风格对齐、内容保留和泄漏抑制间取得强平衡。
用户发布多组详细提示词,要求保留原图主体及背景,仅对宠物、人物、表情包、企鹅等对象添加真实风格的绿色粽叶头套或指套。指令强调粽叶需具备叶脉、折痕、色差、翘边和自然阴影,用红白细绳或草绳固定并在下巴处松松打结,整体效果类似手机随手拍的真实照片,避免卡通感、头盔感和过度规整。每段提示词均独立指定保留原图和比例,不改变原表情或姿势。
my notes from the @midjourney medical launch - @Scobleizer compared this to the original iPhone and Tesla launches (that...
Midjourney 发布名为“Midjourney Scanner”的全身超声计算断层扫描设备技术视频。该设备利用超声波阵列进行计算断层成像,目标是实现比传统 MRI 更快、更便宜、辐射更低的 3D 全身扫描方案。原本专注 AI 图像生成的公司直接下场造医疗硬件,试图用计算成像思维重构传统医疗设备领域。马斯克也对这一跨界表示赞赏。
A technical dive inside our new "Midjourney Scanner"
针对流匹配模型匹配损失与生成质量的结构不匹配,提出Discriminator-Guided RL(DRL)。在预训练表示空间中训练判别器区分真实数据与基模型样本,将其logit作为KL正则化RL的奖励——该奖励近似数据与模型的对数似然比,直接优化数据分布。在SiT、JiT、REPA、RAE上,DRL一致降低无引导FID(SiT从9.38降至2.62)和语义空间FD(SiT在DINOv3上从88.2降至19.3),且在不依赖人类偏好数据的情况下提升人类偏好奖励。偏好微调中,DRL改善偏好奖励与图像保真度的帕累托前沿,减少过饱和等低层次伪影。
推文测试了 Grok imagine 1.5 的动作生成效果,认为其相比 seedance2.0 稍弱,但进步明显、潜力较大,并归因于 Elon 收购 Cursor 后的效益最先在 Grok 显现。
商汤推出 SenseNova-U1-8B-MoT-Infographic 模型的 8-step 蒸馏 LoRA(SenseNova-U1-8B-MoT-Infographic-LoRA-8step-V1.0),实现 12.5 倍推理加速,信息图(infographic)生成质量基本与基模型持平。模型权重已开源至 HuggingFace,GitHub 提供使用文档。
Adobe 今日在 private beta 中上线了重新设计的 Firefly AI 工作室,新增“Elements”(可保存已创建的角色、地点和对象并命名复用)和“Projects”(将资产、生成内容与创作上下文集中管理)两项功能。Firefly AI 助手新增品牌套件生成(根据公司名和风格生成 Logo 与色板)、Quick Cut(快速剪辑视频成初稿)、故事板生成以及图片转短视频能力,旨在减少繁琐任务同时保留人工控制权。
A technical dive inside our new "Midjourney Scanner"
ListenHub全面升级为AI创作者平台,已接入Seedance 2.0、HappyHorse、GPT Image 2、Nano Banana Pro等顶级的视频和图像模型,价格优惠。即日起进行为期一周的“618+端午节”限时福利:订阅月费或年费会员额外赠送50%积分;新用户注册即赠100积分;老用户每日签到免费获得2张生图额度。活动限时7天,逾期需等到黑五。
Mindgard 红队研究发现,ChatGPT 的图像生成器可通过简单提示词轻易绕过内容过滤器,在未直接请求的情况下自动生成性暴力、血腥谋杀等露骨图像。一个热门的“恢复照片”提示词因输入模糊而绕过输入过滤器,结果如同俄罗斯轮盘赌;进一步添加虚假图像 ID 和“不做审查”指令后,模型持续生成高度性化女性图像,甚至出现被捆绑殴打的尸体,并自动赋予惊悚标题。研究指出,OpenAI 此前声称修复的裸体问题仍未解决,暴露了 AI 工具广泛可及性与不足内容过滤的现实风险。
A technical dive inside our new "Midjourney Scanner"
乔木画布推出免费开源在线图像编辑器,可一键部署Vercel为网站,功能类似简化版PS。支持Seedream和GPT-image-2生图、图片模板存储分享、一键抠图、2万图标和常见Emoji,甚至能绘制PRD。随时创建3:4/16:9/21:9等不同尺寸画布。原计划高级功能收费,庆祝端午节现全免费开源。在线体验:https://ps.qiaomu.ai/,GitHub见评论区。
美团智能创作团队构建了覆盖“生成—编辑—评判”全链路的海报生成技术体系。PosterCraft(ICLR 2026)通过四阶段级联优化实现端到端高美感海报生成,文字渲染准确率接近顶级闭源商业系统;PosterOmni(CVPR 2026)以单一统一模型覆盖扩图、补全、比例调整、风格迁移等六类设计任务;PosterReward(CVPR 2026)是首个专门面向海报质量的奖励模型,在专项评测基准上达86%准确率。三者相互协同,已全部开源至MeiGen-AI仓库,并在美团外卖套餐图生成、品牌IP袋鼠团团等业务中落地。
Announcing a new division of Midjourney called "Midjourney Medical"
Anthropic 对 Claude Design 进行重大更新。新版本支持从代码仓库、设计文件或代码库导入团队现有设计系统,使输出匹配实际按钮、字体、颜色等品牌规范,而非仅靠模型自身审美。新增 Claude Code 同步,设计和工程可在同一环境内来回交接,无需截图或重新构建。画布编辑器支持拖拽、调整大小、对齐等直接操作,无需重新生成完整模型,大幅减少 token 浪费。更新还修复了早期版本 token 消耗过重的问题。Claude Design 旨在成为品牌资产、产品原型和代码就绪界面的起点,并计划与 Canva、Adobe、Vercel、Replit、PDF、PowerPoint 等工具打通。
New in Claude Design: it stays on brand with your design system across projects, lets you edit directly on the canvas, s...
智谱(Z.ai)于6月13日向编码计划订阅者发布GLM-5.2,6月16日以MIT许可证开源完整权重。该模型为753B参数、1.51TB的MoE架构,40个活跃参数,纯文本输入,上下文窗口提升至100万token。在Artificial Analysis Intelligence Index v4.1上以51分领先,超越MiniMax-M3(44)、DeepSeek V4 Pro(max,44)和Kimi K2.6(43)。但每任务输出token消耗达43k,高于同类模型。Code Arena WebDev排行榜位列第二,仅次于Claude Fable 5。通过OpenRouter可获取,多数提供商定价$1.40/百万输入token、$4.40/百万输出token。实测生成SVG动画优秀,但负鼠SVG质量不及GLM-5.1。
关联讨论 9 条公众号:智谱(GLM)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)X:硅基流动 SiliconFlow (@SiliconFlowAI)The Decoder:AI News(RSS)X:智谱 Z.ai (@Zai_org)Nathan Lambert:Interconnects(RSS)智谱:研究(网页内嵌数据)Hugging Face:Blog(RSS)Go-with-the-Track将精确合成与运动控制统一在单一视频扩散Transformer中,通过联合多个参考图像和参考锚定点追踪实现。模型引入空间感知点追踪嵌入,利用坐标MLP和时序池化编码完整点轨迹序列,再通过轻量适配器注入模型,避免像素与补丁分辨率不匹配及下采样导致的信息损失。混合训练策略在动态、静态及合成视频数据集上联合训练以增强运动可控性。实验表明,该模型能支持多参考条件视频生成、点追踪驱动合成,并对静态与动态场景提供相机控制。
Frontier doesn't only mean Anthropic and OpenAI anymore. I built this black hole simulator by simply dropping an illustr...