AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「图像生成」清除
5月24日周日
08:00HuggingFace Daily Papers(社区热门论文)54无需多视角生成的多视角一致3D高斯头部化身
08:00HuggingFace Daily Papers(社区热门论文)64注入视觉概念:在推理时向文本条件扩散模型注入图像引导
08:00HuggingFace Daily Papers(社区热门论文)57几何感知图像 Flow Matching
04:51elvis72发布新课程生成技能,可结合AI学习任意主题
5月23日周六
11:21向阳乔木58即梦Seedream 4.5测试500种艺术家风格
10:18Berryxia.AI61AI海报设计Agent上线:对话生成,限时1刀
08:00HuggingFace Daily Papers(社区热门论文)55VaaWIT:面向多语网页图像翻译的视觉感知大语言模型适配框架
06:08Luma60用户好评即最佳文案,Luma助你视觉呈现
5月22日周五
23:21PixVerse51AI工具打造柯基独处短片全流程
23:14Google DeepMind67精选Project Genie与谷歌街景合作推出交互式世界
22:18meng shao65AI工具ChatGPT图像处理速度碾压Photoshop效果持平
21:49向阳乔木72高效提示词插件一键赋能AI创作
21:16HuggingFace Daily Papers(社区热门论文)58SEGA: 基于频谱-能量引导注意力的扩散 Transformer 分辨率外推方法
20:56Hacker News 热门(buzzing.cc 中文翻译)38Antigravity 2.0 在 OpenSCAD 建筑 3D 大型语言模型基准测试中位居榜首
19:20PixVerse63PixVerse App上线图像生成功能
18:16Berryxia.AI32提示词Agent工具助力广告设计,高效出图引热议
18:16HuggingFace Daily Papers(社区热门论文)58DecQ:用于增强表征自编码器重建与生成质量的细节凝练查询
17:16Berryxia.AI37万能提示词太麻烦?他做了个对话式海报生成Agent
17:16Berryxia.AI40AI海报设计Agent:对话即出图,1美元限时体验
17:16Berryxia.AI64GPT-image-2低价体验:每张图不到1毛钱
15:44Elon Musk73精选Grok推出智能体模式,提升角色一致性
14:09IT之家(RSS)36安克影音推出 Nebula SpaceFlow 配件,配合 AI 生成 3D 投影场景
14:02公众号:龙猫LongCat(美团)54从高拟真到真可用,LongCat-Video-Avatar 1.5 正式开源
13:30歸藏(guizang.ai)41Codex 更新助力藏师傅 PPT Skills 一键出图
09:13Berryxia.AI68ChatGPT直接在PPT里做幻灯片,告别空白页发呆
09:13HuggingFace Daily Papers(社区热门论文)70精选RiT:在表示空间中使用原生扩散变换器已足够
09:07Luma62用户好评即最佳文案,视觉呈现由AI完成
08:13Berryxia.AI46YOLO模型在AI浪潮中持续进化
08:00HuggingFace Daily Papers(社区热门论文)53着色噪声:对抗性Sobolev对齐实现保真图像超分辨率
08:00HuggingFace Daily Papers(社区热门论文)61PhotoFlow:智能体化的3D虚拟摄影任务
08:00HuggingFace Daily Papers(社区热门论文)57PiD:基于像素扩散的快速高分辨率潜在解码
07:10Saining Xie60RAEv2重大升级:新指标开启生成模型新探索
03:36ViggleAI66精选Viggle推出3D格斗派对游戏Fight Anyone 3D
02:38Runway84Aleph 2.0发布:视频单帧编辑功能上线
02:14Krea26Krea 2更新与LoRAs讨论即将开始
01:11Berryxia.AI71AI幻灯片工具Magic Slide发布,效果丝滑
00:07美团 LongCat:HuggingFace 新模型73精选LongCat-Video-Avatar-1.5:升级版音频驱动数字人视频生成框架
5月21日周四
22:41Krea69精选Krea 2 推出 LoRA 微调系统
22:05Luma29Luma Agents打造活动宣传视觉,吸引全场关注
18:10Alibaba Cloud36阿里云助力摩纳哥首届AI电影节,重塑电影创作未来
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月24日
08:00
HuggingFace Daily Papers(社区热门论文)
54
无需多视角生成的多视角一致3D高斯头部化身

本文提出MVCHead,一个单次前馈状态空间模型。它仅从随机2D图像学习条件与无条件3D头部模型,无需使用多视角数据、3D监督或中间视角生成。模型核心是分层状态空间块,通过分层双向状态扫描渐进式优化高斯分布并捕捉长程依赖,以直接在3D表示中强制多视角一致性。同时,设计了一个SE(3)多视角评判器,在未观测真实多视角对的情况下,奖励跨视角像素对齐。MVCHead达到了SOTA的感知质量,超越先前方法的纹理和几何一致性。此外,文章发布了首个大规模可用3D Gaussian头部资产数据集FaceGS-10K,用于训练与评估。

arXiv图像生成数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
注入视觉概念:在推理时向文本条件扩散模型注入图像引导

Visual Concept Fusion (VCF) 是首个在推理阶段同时接受图像和文本提示、无需概念特定训练的方法。它通过将 CLIP 图像特征对齐到文本嵌入空间,实现视觉概念注入。VCF 包含一个轻量级对齐器、一种融合策略以及可选的提示噪声优化(PNO)模块。实验表明,VCF 能从参考图像转移风格、构图和调色板等视觉属性,同时遵循文本提示。定量结果显示,其文本对齐度(CLIP 分数)与视觉相似度(LPIPS)之间存在权衡,但在参考保真度上优于基线方法。

图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
几何感知图像 Flow Matching

研究发现,自然图像的语义信息主要编码在方向分量中,其范数分量可由全局平均近似,表明图像数据本质上可建模于超球面。基于此,论文提出了两种几何感知方法:利用角距离的球形最优传输流匹配(SOT-CFM)与在流形上约束动力学的球形流匹配(SFM)。实验证明,这两种方法性能优于欧几里得基线,为基于黎曼流形的建模与自然图像生成之间建立了联系。

arXiv图像生成论文/研究
04:51
elvis@omarsar0
72
刚刚发布了新的 /lesson-generator 技能。 与你的代理一起使用它来学习任何内容: - 生成任何主题的课程/教程 - 结合我的 /image-generator 技能添加 nano-banana 图片 - 将课程呈现为 HTML 作品 它也已在我们的学院中可用。
智能体图像生成教程/实践
5月23日
11:21
向阳乔木@vista8
58
即梦Seedream 4.5测试500种艺术家风格

即梦Seedream 4.5对500位艺术家风格进行了大规模测试,采用统一提示词模板——“一个女子坐在窗边读书,一只猫趴在她腿上,窗外是花园,用{artist}的风格绘制”——以凸显不同艺术家对AI生图的独特影响。测试结果已在线上展示,部分风格极具辨识度,常见于潮流设计领域。

图像生成教程/实践
10:18
Berryxia.AI@berryxia
61
AI海报设计Agent上线:对话生成,限时1刀

一款名为Bloome的AI海报设计Agent已上线,用户可通过直接对话的方式快速生成各类海报。该工具整合了之前用于快速出图的提示词,降低了使用门槛,让非专业设计人员也能高效完成设计工作。目前该功能限时一周开放,支付1美元即可解锁约100张图的生成额度,适合市场部等有设计需求的人员使用。

Berryxia.AI: 兄弟们,今天我不装了。 摊牌了~ 之前一直有朋友说你这套提示词生成的海报这么好看,而且非常丝滑。 捣鼓了一套万能产品、人文、科技、展会等等 都可以快速出图的提示词。 但是,很多人还是用不来觉得麻烦。 于是我,我把它在Bloome 做了个海报...

智能体图像生成教程/实践
08:00
HuggingFace Daily Papers(社区热门论文)
55
VaaWIT:面向多语网页图像翻译的视觉感知大语言模型适配框架

翻译网页图像中的文本对提升内容可访问性至关重要。现有大型视觉语言模型因视觉表征差距,常忽视识别多样字符形态所需的细粒度视觉细节,导致在此任务上表现不佳。为此,本研究提出VaaWIT框架,它通过双流注意力模块实现多语义特征与视觉细节的双向交互,并利用视觉感知适配器以参数高效微调方式将融合特征注入冻结的大语言模型骨干。实验表明,该框架在三个公开基准的八个任务上显著超越了SOTA开源基线模型,性能可与闭源模型相媲美。

图像生成多模态论文/研究
06:08
Luma@LumaLabsAI
60
你的客户写出了你永远无法超越的文案。现在,为它匹配相应的视觉效果吧。 插入引言,设定美学风格。Luma Agents 将处理后续所有推荐语图形。 让它被听见 → http://lumalabs.ai/app
产品更新图像生成
5月22日
23:21
PixVerse@PixVerse_
51
从分镜到电影感短片: 一只柯基独处的一天,由Pixverse使用GPT Image 2 × Seedance 2.0实现 转发 + 关注 + 回复 = 工作流
图像生成教程/实践视频
23:14
Google DeepMind@GoogleDeepMind
精选67
Project Genie 🤝 @GoogleMaps Street View 你现在可以将真实的美国地点转化为全新的交互式世界。🌍
DeepMindGoogle产品更新图像生成

推荐理由:Project Genie这次不是纸上谈兵了,直接吃进真实街景吐出来可玩世界,虽然暂时只限美国,但这是生成式游戏从能做走向普通人可玩的关键一步。
22:18
meng shao@shao__meng
65
AI工具ChatGPT图像处理速度碾压Photoshop效果持平

在为美甲甲片打印处理图像时,作者对比了AI工具ChatGPT的Image 2与传统专业工具PhotoShop的性能。专业设计师使用PhotoShop处理单张图像需1-2分钟,而ChatGPT Image 2仅用5-8秒即可完成超分、增强等操作,速度优势显著。最终输出效果接近,尤其在饱和度和对比度等关键参数上,AI的自主判断与专业设计师反复调整的结果高度一致,凸显了AI在图像处理中的高效与潜力。

OpenAI图像生成教程/实践
21:49
向阳乔木@vista8
72
高效提示词插件一键赋能AI创作

该插件整合了作者与姚老师长期积累的提示词库,支持一键复制或简写自动补全,可在任意网站与AI平台快速调用。同时收录了苍何整理的数百套GPT-Image-2提示词(含效果预览),并汇集全网500套覆盖开发、设计、营销等场景的常用提示词,提供搜索、导出JSON备份及共享功能。

图像生成教程/实践
21:16
HuggingFace Daily Papers(社区热门论文)
58
SEGA: 基于频谱-能量引导注意力的扩散 Transformer 分辨率外推方法

研究团队提出一种名为 SEGA 的无训练方法,用于解决扩散 Transformer 在生成超出训练分辨率图像时性能下降的问题。该方法根据去噪过程中潜变量的空间-频谱结构,对旋转位置编码的不同频率分量进行动态、自适应的注意力缩放,从而在提升图像全局结构连贯性的同时,更好地恢复细节保真度。实验表明,SEGA 在多种目标分辨率上均能稳定提升高分辨率图像合成质量,优于当前最先进的无训练基线方法。

图像生成论文/研究
20:56
Hacker News 热门(buzzing.cc 中文翻译)
38
Antigravity 2.0 在 OpenSCAD 建筑 3D 大型语言模型基准测试中位居榜首

Antigravity 2.0 在 OpenSCAD 建筑 3D 大型语言模型基准测试中夺得第一。该模型在生成符合 OpenSCAD 语法的建筑三维代码任务上,显著优于其他参与评估的模型,标志着其在该专业领域的领先地位。

图像生成评测/基准
19:20
PixVerse@PixVerse_
63
Create Image已在PixVerse App上线。 输入提示词或参考图,在手机上即可生成。 5月24日至31日11:00 UTC,每人可免费生成3次。 转发+关注+回复 = 300 Creds(仅限72小时)
产品更新图像生成端侧
18:16
Berryxia.AI@berryxia
32
提示词Agent工具助力广告设计,高效出图引热议

在Bloome平台上,@berryxia 推出了一款海报设计Agent,基于万能提示词集,可快速生成适用于产品、人文、科技、展会等多种场景的海报。用户通过对话交互即可生成设计图,1美元解锁后可生成100张图,限时一周。该系统被推荐用于电梯广告等设计,操作简单,只需输入数字并微调即可产出优质效果,鼓励广大用户尝试使用。

Berryxia.AI: 兄弟们,今天我不装了。 摊牌了~ 之前一直有朋友说你这套提示词生成的海报这么好看,而且非常丝滑。 捣鼓了一套万能产品、人文、科技、展会等等 都可以快速出图的提示词。 但是,很多人还是用不来觉得麻烦。 于是我,我把它在Bloome 做了个海报...

产品更新图像生成
18:16
HuggingFace Daily Papers(社区热门论文)
58
DecQ:用于增强表征自编码器重建与生成质量的细节凝练查询

表征自编码器(RAEs)使用冻结的视觉模型作为编码器,这在提供高质量生成的同时,限制了其空间重建能力。针对微调能改善重建但会损害生成质量这一权衡难题,本文提出了DecQ框架。该框架引入轻量级的“细节凝练查询”模块,从视觉模型的中间层提取细粒度信息,并将其融合到解码器和生成过程中。实验表明,仅增加8个查询和3.9%的计算量,DecQ就能将基于DINOv2的表征自编码器的峰值信噪比从19.13 dB显著提升至22.76 dB;在生成任务上,其收敛速度比原始框架快3.3倍,FID分数在无引导和有引导下分别达到1.41和1.05,有效兼顾了重建与生成性能。

图像生成编码论文/研究
17:16
Berryxia.AI@berryxia
37
万能提示词太麻烦?他做了个对话式海报生成Agent

一位创作者分享了其开发的通用AI海报提示词,适用于产品、人文、科技、展会等多个领域,但因使用复杂,部分用户难以驾驭。为此,他在Bloome平台将这套方法封装成一个海报设计Agent。用户现在可通过自然对话快速生成高质量海报,无需复杂提示词操作。工具设置了1美元的付费门槛以过滤免费滥用,该费用可解锁约100次生成额度,且该优惠可能限时一周。

智能体产品更新图像生成
17:16
Berryxia.AI@berryxia
40
工具发布在Bloome平台,以Agent形式将复杂的AI海报生成提示词封装为简易的对话操作。用户无需掌握专业提示词技巧,通过直接对话即可快速生成适用于产品、人文、科技等多场景的海报。目前该Agent以1美元解锁,可生成约100张图片,此举旨在降低使用门槛,活动限时一周。

Berryxia.AI: 兄弟们,今天我不装了。 摊牌了~ 之前一直有朋友说你这套提示词生成的海报这么好看,而且非常丝滑。 捣鼓了一套万能产品、人文、科技、展会等等 都可以快速出图的提示词。 但是,很多人还是用不来觉得麻烦。 于是我,我把它在Bloome 做了个海报...

产品更新图像生成
17:16
Berryxia.AI@berryxia
64
推文强调GPT-image-2的性价比,指出其生成图片成本仅约0.07元/张(1美元100张),并鼓励用户充分利用此低成本服务。引用补充了使用建议,倡导用户进一步细化操作方法以优化个人体验。整体传达了"以低成本获取AI图像生成服务"的核心信息,突出其亲民价格和实用价值。

Berryxia.AI: 你可以更加细化的使用个人用下来很不错!可以去试试~

OpenAI图像生成教程/实践
15:44
Elon Musk@elonmusk
精选73
Grok 进展 Grok Imagine Agent Mode 现已在 Grok iOS 应用上推出。 借助 Agent Mode,你可以生成: • 跨代际一致的角色 • 同一角色的多场景画面 • 不同的镜头角度和环境 • 更具电影感和连贯性的叙事视觉效果 这是角色一致性和 AI 生成叙事方面的一次重大升级。 现在就在 Grok iOS 应用中尝试吧。

X Freeze: Grok Imagine Agent Mode is now available on Grok iOS app With Agent Mode, you can generate: • Consistent characters acro...

智能体xAI产品更新图像生成

推荐理由:Grok Imagine Agent Mode把角色一致性从「抽卡」变成可控流程,做故事板、漫画创作的可以立刻上手,虽然目前仅限iOS,但这一步方向很对。
14:09
IT之家(RSS)
36
安克影音推出 Nebula SpaceFlow 配件,配合 AI 生成 3D 投影场景
产品更新图像生成端侧
14:02
公众号:龙猫LongCat(美团)
54
从高拟真到真可用,LongCat-Video-Avatar 1.5 正式开源

美团技术团队正式开源 LongCat-Video-Avatar 1.5,该版本从高拟真走向真可用,将视频头像生成从室内彩排演练推向千人千面的真实应用场景。

图像生成模型发布视频
13:30
歸藏(guizang.ai)@op7418
41
Codex 发布了史诗级更新,显著提升了开发体验。核心新功能包括:快捷截图通过组合键自动捕获窗口并添加上下文,内置浏览器支持高级注释模式可直接编辑页面元素,/goal 功能允许设定目标后持续执行任务数小时至数天,以及团队共享插件实现批量安装。这些更新优化了工具效率,使得藏师傅的 PPT Skills 能高效一键直出 3:4 介绍图片。

歸藏(guizang.ai): Codex 昨晚发布史诗级更新,体验爆炸提升! 其中快捷截图添加上下文和内置浏览器高级注释的功能太有用了。 你只需要同时按住左边和右边的 Command 键,它就会把你当前鼠标所在位置的窗口全部截下来,然后自动填入到 Codex 的输入框里...

图像生成教程/实践
09:13
Berryxia.AI@berryxia
68
ChatGPT直接在PPT里做幻灯片,告别空白页发呆

ChatGPT现已能在Microsoft PowerPoint中直接创建、编辑和优化演示文稿,无需切换应用或导出静态文件,保持全程可编辑。该功能可理解现有幻灯片内容,实现从生成到润色的全流程协助,并支持内置图片生成。此举旨在解决用户制作PPT时的痛点,更贴合国内使用习惯。目前该功能处于Beta测试阶段,官方正征集用户反馈。

ChatGPT: Have you ever thought to yourself: I really don't want to make this PowerPoint. Good news: ChatGPT can now create and ed...

OpenAI产品更新图像生成
09:13
HuggingFace Daily Papers(社区热门论文)
精选70
RiT:在表示空间中使用原生扩散变换器已足够

本研究探讨预训练表示空间在流匹配学习中的优势。比较像素、SD-VAE与DINOv2特征后发现,尽管像素与DINOv2的内在维度相近,但DINOv2在几何统计特性(如有效秩、协方差条件等)上表现更优,使回归过程更稳定。基于此,我们提出了表示图像变换器(RiT),它使用冻结的DINOv2特征,通过x-prediction目标训练一个原生扩散变换器。在ImageNet 256×256生成任务上,RiT性能优于参数量更多的DiT^DH-XL模型,且生成的常微分方程仅需少量步骤即可高效求解。

arXiv图像生成论文/研究

推荐理由:这篇论文没发明新架构,但通过剖析DINOv2特征的统计属性,证明简单结构在表示空间也能做出SOTA,对做图像生成的人来说是个省钱省参数的好思路。
09:07
Luma@LumaLabsAI
62
你的客户写出了你永远无法超越的文案。现在,为它匹配视觉呈现吧。 只需粘贴评价,设定风格,Luma Agents 将处理所有推荐语图形。 让它被听见 → http://lumalabs.ai/app
产品更新图像生成
08:13
Berryxia.AI@berryxia
46
YoLo这个传统模型在AI这一波来了之后,迭代速度和优化支持越来愈好。 支持交通信号灯的智能辅助系统,通过识别红绿灯和等待时间来辅助整个交通系统。

Ultralytics: Detect road signs and pedestrian symbols with Ultralytics YOLO26! 🚸 Identify traffic signs and walking signals in real ...

图像生成行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
53
着色噪声:对抗性Sobolev对齐实现保真图像超分辨率

图像超分辨率(SR)中的生成先验常因频谱失配而牺牲保真度。本文提出ASASR框架,通过“着色”噪声转换核以匹配自然图像频谱衰减,将生成流重构为Sobolev诱导的黎曼几何,从而解决这一问题。其核心在于集成一个基于Riesz表示定理的参数化对抗器,该对抗器生成等价于最差Sobolev梯度的负样本,沿可行结构失败的切线空间引导优化。评估表明,ASASR在保持频谱一致性与结构保真度方面优于现有生成方法,能有效缓解伪影。

arXiv图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
PhotoFlow:智能体化的3D虚拟摄影任务

PhotoFlow是一个用于闭环相机搜索的Director-Reviewer-Reflector智能体系统,能在预制3D场景中自主推断合适的摄影角度并生成最终图像。该系统包含VPhotoBench基准测试,涵盖47个Blender场景和141个基于语言的摄影任务。实验表明,在六轮渲染预算的设置下,PhotoFlow在多种基线方法中取得了最强的外部质量对齐表现和成功率。这是首个将基于语言的虚拟摄影转化为可执行智能体任务的工作,展示了以LLM为核心的智能体在同时涉及3D推理与美学判断的设置中,已能生成高质量摄影作品。

具身智能图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
PiD:基于像素扩散的快速高分辨率潜在解码

PiD是一种将潜在解码重构为条件像素扩散的解码器,统一了图像解码与上采样。它通过直接在高分辨率像素空间进行去噪,支持4倍及8倍上采样,并具有低延迟。模型采用轻量级sigma-aware适配器注入噪声潜在变量,允许提前终止潜在扩散过程;并利用DMD2进行蒸馏,将推理步骤压缩至4步。PiD兼容传统VAE潜在变量与语义潜在变量。在RTX 5090上,可将512x512潜在变量解码为2048x2048像素,耗时低于1秒,峰值内存13GB;在GB200 GPU上最快仅需210毫秒。

图像生成论文/研究
07:10
Saining Xie@sainingxie
60
RAEv2通过大幅简化架构并提升通用性,在文本到图像(T2I)和世界模型等任务中实现了超过10倍的收敛速度提升,同时改善了重建与生成质量。研究团队在大量实验中发现,强大的表示编码器对像素解码器至关重要。传统评估指标(如FID)已不足以全面衡量模型性能,新的评估指标(如ep@fid-k/fdr^k)揭示了生成模型领域仍存在广阔的研究空间。

Jaskirat Singh: In Oct last year, Representation Autoencoders provided an elegant solution to unified tokenization for understanding and...

图像生成论文/研究
03:36
ViggleAI@ViggleAI
精选66
介绍Fight Anyone 3D🥊一款3D派对格斗游戏,可能是上班时玩起来最爽的游戏。 上传任何人的照片 → 一个可玩的3D格斗角色,带有语音、个性+招牌动作,由Viggle自研游戏引擎+模型打造。 公测期间100%免费+赠送20张礼品卡。玩得越多,赢得越多! 和同事对战。和朋友对战。和任何人对战。链接+教程+更多内容见下方推文串 ↓
产品更新图像生成多模态

推荐理由:Viggle把「上传照片生成3D格斗角色」做成了免费派对游戏,有声音有个性,交互感拉满,是近期最适合摸鱼的产品,但AI含量主要在娱乐侧,别当生产力工具。
02:38
Runway@runwayml
84
Aleph 2.0来了。现在你可以编辑视频中的单个帧,预览更改,然后Aleph 2.0会将该编辑应用到整个视频。 立即在下方链接的网页版新编辑工作室中尝试。
图像生成模型发布视频
关联讨论 2 条X:Runway (@runwayml)Runway:News(网页)
02:14
Krea@krea_ai
26
1小时后开始! 加入我们,一起聊聊LoRAs和Krea 2即将到来的新更新。 【引用 @krea_ai】:我们明天将举办首次社区空间活动! 通过X Spaces加入我们,讨论Krea 2的更新、分享反馈或展示你的作品。 链接在下方 👇

Krea: we're hosting our first Community Spaces tomorrow! join us through X Spaces to chat about updates coming to Krea 2, shar...

图像生成行业动态
01:11
Berryxia.AI@berryxia
71
团队受Zara启发开发的Magic Slide项目正式发布,这是一个旨在解决日常幻灯片制作问题的AI工具。其转场和呈现效果被评为非常丝滑。项目联网与部分模型功能通过团队自研的网关PIPELLM实现。该团队目前除C端产品外,主要精力专注于AI Infra方向建设。

Cydiar: 团队小伙伴受到 Zara 的启发,闲暇时间搞了一个 Magic Slide 项目(终于发了,其实早就搞出来了),解决了日常 Slide 产出问题,欢迎大家一起体验,转场和效果非常丝滑!联网和部分模型使用我们自己的网关 PIPELLM 完成,...

产品更新图像生成
00:07
美团 LongCat:HuggingFace 新模型
精选73
LongCat-Video-Avatar-1.5:升级版音频驱动数字人视频生成框架

美团LongCat团队发布了LongCat-Video-Avatar-1.5,一个专注于音频驱动数字人视频生成的开源框架。其核心升级在于采用Whisper-Large音频编码器,显著优化了唇部动态的流畅度与自然度。该版本实现了精准的唇形同步、全身时序稳定性以及长视频中的身份一致性,并能泛化应用于动漫、动物及多人交互等复杂场景。通过基于DMD2的步蒸馏技术,模型仅需8步即可高效推理。团队还构建了一个涵盖多场景、多语言的人工评估基准,通过大规模主观评分与专家分析,验证了其在多项关键维度上的优异性能。

Hugging Face图像生成多模态开源/仓库
关联讨论 1 条IT之家(RSS)
推荐理由:美团把数字人模型升级到1.5版,换了Whisper做音频编码,唇形同步比之前自然不少,而且开源了训练代码,做电商直播和虚拟博主的朋友可以直接拿过来跟商业方案掰手腕。
5月21日
22:41
Krea@krea_ai
精选69
为 Krea 2(测试版)引入 LoRA。 我们迄今最强大的微调系统;现在你可以用惊人的精度,在 Krea 2 上训练你自己的特定风格、对象或角色。 了解其工作原理 👇
产品更新图像生成数据/训练

推荐理由:Krea 2 把 LoRA 微调直接做进了产品,对需要固定角色或风格的设计师来说省事了,虽然不是新概念但低门槛就是好文明。
22:05
Luma@LumaLabsAI
29
优秀的活动视觉设计不仅传递信息,更能激发期待。 定义关键时刻,指引方向。Luma Agents为每场活动制作从预告到最终号召的全套宣传视觉。统一创意,适配所有格式与渠道,旨在座无虚席。 座无虚席 → http://lumalabs.ai/app
智能体产品更新图像生成
18:10
Alibaba Cloud@alibaba_cloud
36
阿里云助力摩纳哥首届AI电影节,重塑电影创作未来

2026年6月,摩纳哥将举办首届AI电影节,标志着人工智能与电影叙事的深度融合。阿里云作为合作方,强调其云与AI基础设施(从基础模型训练到大规模实时渲染)致力于赋能创作者,为电影人、艺术家提供实验与实现大胆创意的工具,共同探索由AI技术驱动的电影制作新范式。

图像生成行业动态视频
‹ 上一页
1…1314151617…30
下一页 ›