AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「视频」清除
5月19日周二
11:10Luma54Luma Agents实现广告本地化创意适配
10:59歸藏(guizang.ai)46谷歌新视频模型演示引关注,I/O 2026会议在即
10:40Alibaba Cloud39阿里云新加坡展会主推AI企业转型方案
09:56Berryxia.AI16Gemini视频Veo4.X即将发布
09:26meng shao47Veo 4视频生成能力疑似曝光
08:49🚨 AI News | TestingCatalog68谷歌I/O大会展示Gemini新模型能力
08:00HuggingFace Daily Papers(社区热门论文)35HL-OutPaint: 高分辨率长时视频的由粗到精视频外绘
08:00HuggingFace Daily Papers(社区热门论文)51ParaVT:通过并行工具调用解决多智能体视频强化学习中的工具先验悖论
05:39Luma19Luma Agents:让功能视觉自己说话
00:52Hugging Face:Blog(RSS)67精选NVIDIA Cosmos Predict 2.5 微调:使用 LoRA/DoRA 生成机器人视频
00:20Elon Musk50Grok Agent模式:AI视频创作的重大能力解锁
5月18日周一
23:13Kling AI19把朋友变成游戏加载界面
22:31Runway58Runway角色升级:可执行操作并调用工具
18:59歸藏(guizang.ai)69基于PPT Skill的视频生成工具接近完成
16:07公众号:可灵AI(快手·视频)56可灵AI上线全球首个原生4K视频模型
13:45IT之家(RSS)46人民陆军英模系列 AI 微短剧《战魂》今起首播,5 段烽火传奇还原经典战役战斗
13:42Kling AI51世界杯倒计时,一键体验Kling AI新特效
10:35PixVerse60一键生成韩国棒球AI视频模板爆火
09:37Alibaba Cloud74阿里云推出HappyHorse视频生成模型
08:00HuggingFace Daily Papers(社区热门论文)55OmniPro:全模态主动流式视频理解综合基准
08:00HuggingFace Daily Papers(社区热门论文)55增强无训练无限帧生成以实现一致长视频
08:00HuggingFace Daily Papers(社区热门论文)61Artifact-Bench: 评估MLLMs在检测与评估AI生成视频瑕疵方面的表现
07:44IT之家(RSS)54Netflix 成立 AI 工作室 INKubator,发力生成式动画短片
07:44IT之家(RSS)55警惕 AI 造谣传谣!"张家界大峡谷玻璃桥断裂垮塌"视频系伪造
04:09Ethan Mollick18网友自制《奥德赛》电影版引热议
5月17日周日
20:59歸藏(guizang.ai)68AI工具组合高效生成动态解释视频
11:00公众号:可灵AI(快手·视频)35戛纳倒计时|可灵AI戛纳论坛议程抢先看
08:00HuggingFace Daily Papers(社区热门论文)45Soap2Soap:基于多智能体协作的长片电影级视频重制
08:00HuggingFace Daily Papers(社区热门论文)61LiteFrame:提升视频大语言模型帧处理能力的高效视觉编码器
5月16日周六
23:31Hacker News 热门(buzzing.cc 中文翻译)73精选SANA-WM:一个用于生成1分钟720p视频的26亿级开源世界模型
20:38Rohan Paul30外骨骼助钢琴家突破演奏速度瓶颈
20:25The Decoder:AI News(RSS)59YouTube 向所有成年创作者开放其深度伪造人脸替换检测工具
19:25The Decoder:AI News(RSS)44新基准测试证实AI视频生成器视觉效果惊艳,但仍无法进行世界推理
09:29PixVerse19用户盛赞月下战斗画面精彩绝伦
06:36Luma37Origami动画展示双鸟一剑
03:28Runway78精选Runway Agent一键生成完整广告
02:07Rohan Paul30黄仁勋北京活动中体验华为三折屏手机
02:04AK55PhyMotion推出物理驱动人体视频生成框架
5月15日周五
23:09Kling AI61戛纳倒计时 | Kling AI大会主讲阵容揭晓!
22:39Kling AI51宠物变身直播明星 AI特效一键生成
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月19日
11:10
Luma@LumaLabsAI
54
优秀的广告不止于翻译,更在于共鸣。 单一营销活动很难适用于所有市场。明确目标区域,设定核心信息,然后让 Luma Agents 处理后续所有本地化变体。为每个目标受众打造合适的创意与语言。 触达每个市场 → http://lumalabs.ai/app
智能体产品更新视频
10:59
歸藏(guizang.ai)@op7418
46
谷歌新视频模型的演示表明其可能具备视频编辑功能,引发了关于模型架构是否统一或分开生成与编辑的讨论。此演示与Google I/O 2026会议相关,Sundar Pichai推文预告会议将于明天10am PT举行,预示着更多技术细节可能在此次活动中披露。

Sundar Pichai: On our way to I/O 2026. See you at 10am PT tomorrow!

Google产品更新多模态视频
10:40
Alibaba Cloud@alibaba_cloud
39
阿里云新加坡展会主推AI企业转型方案

阿里云新加坡将在ATxEnterprise展会展示其通过智能基础设施、AI原生技术与现实解决方案加速企业转型的成果。重点展示包括AI Business Card Studio、AI视频工具Happy Horse、代理式AI助手Qoder、基于PingCAP AI就绪数据库能力的TiDB,以及Lingyang的企业AI解决方案。其合作伙伴Lumen Technologies亚太区也将参与。

智能体行业动态视频
09:56
Berryxia.AI@berryxia
16
Gemini 视频Veo4.X ? 要来了,期待超越SD2啊!兄弟们~~

Logan Kilpatrick: Gemini

Google行业动态视频
09:26
meng shao@shao__meng
47
推文疑似展示或讨论了Veo 4的视频生成能力,重点提及了视频续写、不同特效切换等效果,以及视频时长增加至10秒的新特性。该推文引用了Google CEO Sundar Pichai的预告,暗示这些展示可能与即将举行的Google I/O 2026大会相关。

Sundar Pichai: On our way to I/O 2026. See you at 10am PT tomorrow!

Google多模态行业动态视频
08:49
🚨 AI News | TestingCatalog@testingcatalog
68
谷歌I/O 🔥:这些传奇人物是通过即将推出的Gemini Omni模型生成的AI图像。 > 两段视频均为8秒高清样本。 > 与Sundar和Demis相关的视频很可能是使用Omni进行风格编辑的图像转视频生成。 > Logan的视频则可能是"相似度"虚拟形象与Omni视频的结合。 而"GEMINI"意味着新模型的发布!🤯

Logan Kilpatrick: Gemini

Google图像生成多模态模型发布
08:00
HuggingFace Daily Papers(社区热门论文)
35
HL-OutPaint: 高分辨率长时视频的由粗到精视频外绘

HL-OutPaint 是一个用于长序列的高分辨率视频外绘框架。它采用由粗到精的策略,包含两阶段管线:首先通过全局-局部帧交换机制构建低分辨率的全局粗糙指导(GCG),以统一表示视频的长期结构一致性与短期时间动态;随后在该表示的引导下,进行高分辨率的外绘,生成细节丰富且时间一致的内容。实验表明,其在宽空间外推和长视频序列的挑战性场景中优于现有方法。

视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
ParaVT:通过并行工具调用解决多智能体视频强化学习中的工具先验悖论

现有通过强化学习(RL)训练大语言模型(LLM)调用视频工具(如裁剪)的方法是顺序执行的,易导致错误传播和上下文污染。ParaVT是首个采用多智能体端到端RL训练的并行视频工具调用框架,能在单次调用中分派多个时间窗口裁剪任务。研究发现,预训练模型中存在“工具先验悖论”:既能促进工具探索又会破坏冷启动结构格式的稳定性。为解决此问题,提出了PARA-GRPO方法,通过添加定向格式奖励和随机化每提示的帧预算来稳定训练。该方法在六个长视频理解基准上,相比Qwen3-VL基线平均提升了7.9%,并将训练时的格式合规率从0.13提升至0.64。

智能体视频论文/研究
05:39
Luma@LumaLabsAI
19
最好的功能自己会说话。给它们视觉来展现。 定义亮点。设定美学。Luma Agents 从那里构建每个功能视觉。 展示它 → http://lumalabs.ai/app
产品更新视频
00:52
Hugging Face:Blog(RSS)
精选67
NVIDIA Cosmos Predict 2.5 微调:使用 LoRA/DoRA 生成机器人视频

NVIDIA Cosmos Predict 2.5 是一个 2B 参数的世界模型,可根据文本、图像或视频片段生成物理合理的视频。通过 LoRA 或 DoRA 在 DiT 的注意力层(to_q, to_k, to_v, to_out.0)和前馈层注入可训练适配器,冻结全部基座权重,在单个 80GB GPU 上即可完成参数高效微调,避免了全量微调的高成本与灾难性遗忘。该流程使用 diffusers 和 accelerate 库,利用 92 个机器人操作视频训练集与 50 个 (prompt, image) 测试对进行微调,并展示如何用微调模型生成合成机器人轨迹以支持下游机器人学习任务。支持单 GPU 与多 GPU 训练,切换不同领域适配器无需重训。

具身智能教程/实践数据/训练视频

推荐理由:这篇教程把微调Cosmos Predict 2.5的方法从头到尾讲清楚了,做机器人合成数据的同行可以直接抄作业,LoRA/DoRA切换也很方便,值得收藏。
00:20
Elon Musk@elonmusk
50
xAI更新了Grok的Agent模式,这被视为其能力的一次重大提升。该模式显著简化了AI视频创作流程。基于Grok Imagine,创作者能更流畅地制作视频,并借助Grok的理解能力完成素材生成与对话,无需额外配音,极大节省了时间成本。据早期测试,生成视频的写实效果良好,且图片参考等功能增强了实用性。这标志着AI在自动化、高质量内容生成领域取得了新的进展。

Déborah: I've finished a video of just over 4 minutes, entirely created using Grok Imagine's Agent mode (see image). It's a much ...

智能体xAI产品更新图像生成
5月18日
23:13
Kling AI@Kling_ai
19
视角:把我的朋友变成视频游戏加载界面 ⌛️
其他图像生成视频
22:31
Runway@runwayml
58
Runway角色现在不仅能说话,还能执行操作。告诉实时视频代理你想要什么,它们就能为你调用工具。 了解更多如何将工具调用集成到你的产品中,请点击下方链接。
智能体产品更新视频
18:59
歸藏(guizang.ai)@op7418
69
基于PPT Skill的视频生成工具接近完成

该工具基于藏师傅PPT Skill,结合Codex与远程控制,可实现离家时一键生成讲解视频。方案以极低成本保证了视频的可用性与表现力,主要通过前端技术生成内容,仅配音和部分分镜使用了Seedance 2.0等模型。此组合能直接基于文本生成带动效的解释视频。

歸藏(guizang.ai): 藏师傅的 PPT Skill+Codex+Heygen HyperFrames 这个组合太顶了! 可以直接基于问当生成带动效的解释视频 而且 Codex 居然可以在聊天里面直接预览视频,这个挺厉害的。 再加上即梦 CLI 补几个真实视频片段...

智能体OpenAI教程/实践视频
16:07
公众号:可灵AI(快手·视频)
56
可灵AI上线全球首个原生4K视频模型

可灵AI推出全球首个原生4K视频模型,旨在利用原生4K技术重塑创作流程,加速AI赋能影视工业级内容创作。

产品更新多模态视频
13:45
IT之家(RSS)
46
人民陆军英模系列 AI 微短剧《战魂》今起首播,5 段烽火传奇还原经典战役战斗

陆军英模系列AI微短剧《战魂》于5月18日首播。该剧由陆军政治工作部宣传局联合中央广播电视总台军事节目中心,首次运用AI技术制作推出。内容聚焦5支英模连队的5段烽火传奇,以全新视听形式还原经典战役战斗,并展示新时代陆军官兵风貌。该剧将在CCTV-7国防军事频道及“央视军事”渠道,连续5天每日播出一集。

多模态行业动态视频
13:42
Kling AI@Kling_ai
51
世界杯倒计时开始⚽ 穿上你的球队球衣,一键尝试Kling AI的新特效!
产品更新图像生成多模态视频
10:35
PixVerse@PixVerse_
60
那个热狗需要自己的座位 【引用 @MrDasOnX】:这可能是最简单的病毒式AI编辑。 PixVerse → 上传自拍 → 即时生成韩国棒球镜头视频 无需指令。无需编辑。 只需一键点击。 @PixVerse_ 上的K-Baseball Sprint模板太疯狂了。

Mr Das: This might be the easiest viral AI edit yet. PixVerse → upload a selfie → instant Korean baseball cam video No prompts. ...

产品更新视频
09:37
Alibaba Cloud@alibaba_cloud
74
电影级AI现已到来。🐎💨 HappyHorse现已登陆Model Studio。从原始提示词到1080p多镜头现实感画面--在统一工作流中体验视频生成的未来。没有阻碍。只有纯粹性能。 🔥 限时优惠:8折。观看演示并立即开始创作。 立即访问:https://int.alibabacloud.com/m/1000412936/
产品更新多模态视频
08:00
HuggingFace Daily Papers(社区热门论文)
55
OmniPro:全模态主动流式视频理解综合基准

OmniPro是首个联合评估全模态感知、主动响应和多样化视频理解任务的基准。它包含2700个人工验证样本,覆盖9个子任务、3个认知层级和6项基础能力,其中84%样本依赖语音或非语音音频信号,并标注模态隔离标签。该基准引入探测和在线双模式评估协议,以全面测试内容理解和主动能力。对11个模型的评估揭示:音频信号能提升性能但模型利用效率差异大;性能随时间下降,长程鲁棒性不足;非语音音频感知仍是当前最薄弱环节。

多模态视频论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
55
增强无训练无限帧生成以实现一致长视频

针对基础模型生成无限长视频时存在的训练-推理不匹配与长期一致性维持难题,研究提出了一种名为MIGA的无训练长视频生成方法。该方法通过两阶段对齐机制减少输入噪声跨度,有效弥合了训练与推理的差距;并创新性地引入双一致性增强机制,结合自反射修正与长距离帧引导,利用不同噪声水平的帧信息协同提升时序一致性。在VBench与NarrLV基准测试上,MIGA以较低的额外计算开销实现了当前最优的超长视频生成性能,项目主页已公开。

视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
Artifact-Bench: 评估MLLMs在检测与评估AI生成视频瑕疵方面的表现

研究团队提出了Artifact-Bench,一个用于评估多模态大语言模型(MLLMs)检测与分析AI生成视频瑕疵能力的综合基准。该基准构建了一个涵盖写实、动画和CG风格视频的三级真实感瑕疵分类体系,并在此基础上定义了三项任务:真实与AI生成视频分类、成对真实感比较、细粒度瑕疵识别。对19个主流MLLMs的实验表明,这些模型在瑕疵感知与推理上存在显著局限,许多模型在挑战性场景中表现接近甚至低于随机水平,且其判断与人类感知偏好存在明显偏差,凸显了其作为通用AI视频真实感评估器的可靠性不足。

arXiv多模态视频论文/研究
07:44
IT之家(RSS)
54
Netflix 成立 AI 工作室 INKubator,发力生成式动画短片

Netflix正在组建名为INKubator的内部AI动画工作室,专注于利用生成式人工智能制作短篇动画。该工作室正招募制片人、软件工程师等人才,其长期战略将围绕生成式AI驱动的工作流、艺术家工具及可扩展的多剧集环境展开,目标是开发电影长片质量的内容。这是Netflix在AI制作领域的又一重要布局,此前该公司已收购AI影视技术公司Interpositive,并多次强调对AI技术的投入。

行业动态视频
07:44
IT之家(RSS)
55
警惕 AI 造谣传谣!"张家界大峡谷玻璃桥断裂垮塌"视频系伪造

近日,一段“湖南张家界大峡谷玻璃桥断裂垮塌”的13秒视频在网上流传,画面惊险,引发关注。经查,该视频系嫌疑人马某某利用AI技术,将其十年前在景区拍摄的照片生成伪造而成。视频发布4天内获1.5万点赞、1.1万转发,下架后马某某又截取图片再次发布。目前相关虚假视频已全部清理,马某某因涉嫌编造、故意传播虚假信息罪被公安机关采取刑事强制措施。

行业动态视频
04:09
Ethan Mollick@emollick
18
我知道即将上映的电影版《奥德赛》存在争议, 所以我草草制作了一个完全准确的版本, 相信大家会欣然接受这是自荷马原作以来最权威的版本, 甚至可能更胜一筹。
其他视频
5月17日
20:59
歸藏(guizang.ai)@op7418
68
AI工具组合高效生成动态解释视频

作者推荐一套由“藏师傅的PPT Skill”、Codex和Heygen HyperFrames构成的AI工具组合,能基于提问直接生成带动效的解释视频。其亮点在于Codex可在聊天界面内直接预览视频,极大提升了流程效率。结合即梦CLI补充真实视频片段,该组合非常适合用于制作产品更新介绍等类型的视频内容。

歸藏(guizang.ai): http://x.com/i/article/2053655813877870592

教程/实践视频
11:00
公众号:可灵AI(快手·视频)
35
戛纳倒计时|可灵AI戛纳论坛议程抢先看
行业动态视频
08:00
HuggingFace Daily Papers(社区热门论文)
45
Soap2Soap:基于多智能体协作的长片电影级视频重制

Soap2Soap是一个用于系列级长视频重制的多智能体框架,旨在解决其中的身份漂移、背景突变与语义侵蚀等问题。该框架通过一个双桥一致性机制来维持长期一致性:使用场景感知的JSON剧本作为持久的语义骨架,并在场景和镜头层级动态分配视觉参考锚点。它通过批量关键帧一致性技术在合成前抑制漂移,并利用闭环验证智能体对身份、稳定性和对齐进行审计。实验表明,该方法在长程一致性与叙事保真度上显著优于商业视频生成API。

智能体arXiv多模态视频
08:00
HuggingFace Daily Papers(社区热门论文)
61
LiteFrame:提升视频大语言模型帧处理能力的高效视觉编码器

针对视频大语言模型处理长视频时视觉Token激增的瓶颈,本文指出传统后处理式压缩将延迟转移到了视觉编码器。为此,我们提出了LiteFrame,一种高效视觉编码器。其核心是压缩Token蒸馏训练框架,指导一个紧凑的学生模型直接预测大教师模型生成的高密度时空压缩表示,从而避免冗余计算。结合语言模型适配后,该方案构建了新的延迟-精度帕累托前沿:与基线相比,它将端到端延迟降低了35%,可处理帧数提升8倍,同时在多个基准上提高了视频理解的平均准确率,为固定算力下理解更长视频提供了新途径。

多模态视频论文/研究
5月16日
23:31
Hacker News 热门(buzzing.cc 中文翻译)
精选73
SANA-WM:一个用于生成1分钟720p视频的26亿级开源世界模型

NVIDIA研究团队发布了SANA-WM,这是一个参数规模达26亿的开源世界模型,专门用于生成长达1分钟、分辨率为720p的视频。该模型已在GitHub页面开源,旨在推动高质量长视频生成的研发。其在Hacker News社区获得了107点热度,显示出业界对该技术进展的关注。

开源生态模型发布视频

推荐理由:开源且能跑 1 分钟 720p,NVIDIA 这个 2.6B 世界模型在物理一致性上跨了一大步,做视频生成和物理仿真的同行该坐不住了。
20:38
Rohan Paul@rohanpaul_ai
30
机器人技术的创新应用。 外骨骼高速移动专业钢琴家的手指,推动他们执行比正常能力更快的击键动作,使大脑适应更高的"速度设定",从而突破表演瓶颈。
其他具身智能视频
20:25
The Decoder:AI News(RSS)
59
YouTube 向所有成年创作者开放其深度伪造人脸替换检测工具

YouTube 将其“肖像检测”工具向所有18岁及以上的创作者全面开放。该系统能识别其他用户视频中由AI生成的人脸伪造内容,并允许创作者直接通过YouTube Studio提交移除请求。此前该功能仅限于合作伙伴计划成员使用,此次开放旨在为更多小型频道提供保护。

产品更新安全/对齐视频
19:25
The Decoder:AI News(RSS)
44
新基准测试证实AI视频生成器视觉效果惊艳,但仍无法进行世界推理

WorldReasonBench新基准测试评估AI视频生成器的物理和逻辑合理性,而非图像质量。ByteDance的Seedance 2.0在该测试中领先,超过Veo 3.1和Sora 2。商业模型的得分大约是开源模型的两倍,逻辑推理是所有模型中最困难的类别,表现差距显著。这表明AI视频生成器虽能产生惊艳视觉效果,但尚未实现从像素生成器到真实世界模型的飞跃。

GoogleOpenAI推理视频
09:29
PixVerse@PixVerse_
19
@WuxiaRocks 这场月下战斗太棒了

WuxIA Rocks: Defy the laws of physics. Dreams don't have rules. Made in Pixverse. @PixVerse_

其他视频
06:36
Luma@LumaLabsAI
37
Spotlight: Origami 双鸟。一剑。零寒意。 由Misho使用Luma制作 → http://lumalabs.ai/app
行业动态视频
03:28
Runway@runwayml
精选78
Runway Agent 让你仅需一次会话,就能从产品照片和想法转变为完全制作完成的广告。 立即通过下方链接开始体验。
产品更新图像生成视频

推荐理由:Runway Agent把广告制作压到一张产品图加一句话的极简流程,做电商和创意的值得上手测一下是不是真省时间。
02:07
Rohan Paul@rohanpaul_ai
30
在北京的一场英伟达活动中,CEO黄仁勋拿起了华为Mate XT三折手机 它采用双铰链设计,可折叠为三部分 完全展开时可提供10.2英寸的显示面积
行业动态视频
02:04
AK@_akhaliq
55
PhyMotion 基于物理结构化的3D运动奖励 用于物理基础的人类视频生成
多模态视频论文/研究
5月15日
23:09
Kling AI@Kling_ai
61
戛纳倒计时 | Kling AI大会主讲阵容揭晓!

2026年戛纳电影节Kling AI大会将汇聚三位世界级电影制作人,展示他们运用Kling AI技术创作的标杆作品。中国动画导演魏立将分享AI生成动画《Born of the Tide》;Jon Erwin将解析为Amazon Prime制作的剧集《House of David》;Eekjun Yang则将介绍院线电影《RAPHAEL》的创作过程。三位讲者将深入探讨Kling AI在电影制作中的幕后应用,共同探索AI为影视创作带来的新可能性。活动定于2026年5月18日15:30至17:30,在戛纳影节宫主舞台举行。

多模态行业动态视频
22:39
Kling AI@Kling_ai
51
你的宠物现在成为直播明星了!🤗 立即在Kling AI上尝试这个特效吧!
产品更新视频
‹ 上一页
1…1617181920…28
下一页 ›