AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 656 条
全部一手资讯X论文
标签「视频」清除
Google AI@GoogleAI · 2天前74

We’re shipping two major updates to streamline your creative workflow, allowing you to generate high-speed images with one model and then instantly animate them with the other—all at a fraction of the cost 🍌⚡️ 1️⃣ Introducing Nano Banana 2 Lite: Our fastest and most cost-efficient Gemini Image model yet delivers text-to-image outputs in under 4 seconds. Now available via the Gemini API and Google AI Studio, and rolling out soon across @NotebookLM, @FlowbyGoogle, @geminiapp, @stitchbygoogle, Google Search and @GooglePhotos. 2️⃣ Gemini Omni Flash in Public Preview: Our natively multimodal model for cost-efficient video generation and conversational editing. Now available via the Gemini API, @googleaistudio, and Gemini Enterprise Agent Platform so you can integrate the model into your workflow. While exciting on their own, the real magic happens when you build using these models together. Watch how our interior design demo integrates Nano Banana 2 Lite and Omni to instantly reimagine any space. Upload a photo, swipe through tailored design concepts, and see Omni bring the details to life in cinematic motion. Try out the demo app in AI Studio: http://goo.gle/443xPqw

译Google AI 推出两大模型更新:1)Nano Banana 2 Lite——最快、最经济的 Gemini 图像模型,文本生成图像不到 4 秒,已上线 Gemini API 和 AI Studio,即将登陆 NotebookLM、Google 搜索、Google Photos 等;2)Gemini Omni Flash 进入公开预览——原生多模态模型,支持低成本视频生成与对话式编辑,可通过 Gemini API、AI Studio 及 Gemini Enterprise Agent Platform 集成。两模型结合可快速实现空间设计重绘:上传照片、滑动选择设计方案,Omni 将细节以电影级动画呈现。演示应用已在 AI Studio 上架。

NotebookLM@NotebookLM · 2天前60

Doom scrolling but make it educational 🤓 Introducing Short Video Overviews in NotebookLM! Turn your most complex sources into 60-second, vertical videos that deep dive into any concept. Rolling out now to Google AI Ultra and Pro subscribers on mobile & web (free users soon!)

译Doom scrolling but make it educational 🤓 介绍 NotebookLM 中的短视频概览功能!将你最复杂的信息源转化为60秒的竖屏视频,深入探讨任何概念。 现已面向移动端和网页端的 Google AI Ultra 和 Pro 订阅用户推出(免费用户即将支持!)

fofr@fofrAI · 2天前70

Gemini Omni Flash and Nano Banana 2 Lite now available in the API 🔥 Nano Banana 2 Lite is the fastest banana, images in ~4s, $0.034 per image (`gemini-3.1-flash-lite-image`) Omni api docs: https://ai.google.dev/gemini-api/docs/omni

译Gemini Omni Flash 和 Nano Banana 2 Lite 现已在 API 中可用 🔥 Nano Banana 2 Lite 是最快的 banana,图像约 4 秒生成,每张 $0.034(`gemini-3.1-flash-lite-image`) Omni API 文档: https://ai.google.dev/gemini-api/docs/omni

Kling AI@Kling_ai · 2天前15

Like the shimmer of a goldfish in water, every idea leaves a trace of color. ✨ The creators who colored our June.

译像金鱼在水中闪烁一样,每个想法都留下一丝色彩。✨ 那些为我们的六月染上色彩的创作者们。

PixVerse@PixVerse_ · 2天前28

This hospital hallway just served me a jump scare I did not order. My controller is now MIA. Seedance 2.0 on PixVerse. Native 4K horror, straight from prompt.

译这条医院走廊刚给我来了个我没点的跳吓。我的手柄现在不见了。 Seedance 2.0 上线 PixVerse。原生 4K 恐怖内容,直接通过提示词生成。

歸藏(guizang.ai)@op7418 · 2天前45

有了 Seedance 2.0 之后 AI 视频短片生态飞速发展 最近还有一个搞笑的是,做《神秘复苏》AI 视频的三个博主,被《神秘复苏》动画的官方举报删视频了。 这三个人的 AI 视频都做得挺好的,粉丝也不少。 结果那些小说粉丝就去把《神秘复苏》动画片官方的 PV 给举报下架了

译Seedance 2.0 的推出推动了 AI 视频短片生态的快速发展。近日,制作《神秘复苏》AI 视频的三位博主被该作品动画官方举报,导致视频被删除。这些博主的 AI 视频质量高且粉丝不少。作为回应,小说粉丝将动画官方的 PV 举报下架。

🚨 AI News | TestingCatalog@testingcatalog · 2天前33

GOOGLE 🔥: A new Nano Banana 2 Lite image generation model is on the horizon! > "Introducing Nano Banana 2 Lite for ultra-fast, cost-efficient image generation, and Gemini Omni Flash for powerful video creation with conversational, step-by-step editing"

译GOOGLE 🔥:一款新的 Nano Banana 2 Lite 图像生成模型即将到来! > “推出 Nano Banana 2 Lite,用于超快、高性价比的图像生成,以及 Gemini Omni Flash,用于通过对话式、逐步编辑进行强大的视频创作”

PixVerse@PixVerse_ · 2天前24

When you think you have outrun your problems… turns out it is a T-Rex. 💀🦖 Seedance 2.0 4K — your prompts turned into cinematic terror.

译当你以为已经摆脱了烦恼……结果发现是一只暴龙。💀🦖 Seedance 2.0 4K — 你的提示词变成了电影级恐怖。

Kling AI@Kling_ai · 2天前35

Kling AI at 🦁 Cannes Lions 2026 Films made with Kling AI took home three Lions at this year's International Festival of Creativity — a Silver in Film: Consumer Goods, a Bronze in Film: B2B, and a Bronze in the new AI Craft category. These wins belong to the brilliant teams behind them — but they also mark something bigger: AI taking its place as a real tool for real craft. Kling was built to give creators control over what matters most — believable physics, genuine emotion, the subtle performance in a character's face, a consistent look shot to shot. When technology serves the creative vision instead of limiting it, this is what's possible. Congratulations to Lipstick Film, Purga Films, and every human collaborator who brought these stories to life.

译可灵Kling AI在2026年戛纳狮子国际创意节上拿下三座狮子奖:电影类(消费品)银狮、电影类(B2B)铜狮,以及新设的AI工艺类铜狮。推文指出,这些奖项标志着AI作为真正工艺工具的地位——Kling旨在为创作者提供对可信物理、真实情感、角色面部微表情及镜头间一致性的控制。获奖作品来自Lipstick Film、Purga Films等团队。

PixVerse@PixVerse_ · 2天前11

Bushido is beauty and resolve and it's all in this single strike!

译武士道是美与决心,凝聚在这一击之中!

Kling AI@Kling_ai · 3天前19

What hour of life are you in? ⏰

译你正处于生命的哪个时刻?⏰

ViggleAI@ViggleAI · 3天前54

All you need is one headshot. Introducing our new model, Viggle V4.5. - Clearer full-body results in full detail, every angle, even from a headshot - Finer texture, truer to your reference - More stable motion 🎁 Follow + RT + comment to win 10 free memberships!

译只需一张头像。介绍我们的新模型 Viggle V4.5。 - 从一张头像出发,全身结果更清晰、细节更完整、每个角度都表现到位 - 纹理更精细,与参考图更一致 - 动作更稳定 🎁 关注 + 转发 + 评论,赢取 10 个免费会员资格!

Berryxia.AI@berryxia · 3天前45

兄弟们,终于跑通了~ 爆肝完成,现在做项目介绍太方便了! 这套视频讲解的Skills 差不多跑通了,只需提供网站、内容、视频地址等就可以直接给你剪基础这样的讲解视频。 还挺方便的,需要的人多吗? 感兴趣的朋友多么?评论区告诉我

译Berry Xia 宣布成功完成了一套“视频讲解的Skills”开发与测试。用户只需提供网站、内容、视频地址等信息,该技能就能自动生成基础的讲解视频。作者询问社区兴趣度,表示如果需求多可能会进一步分享。目前未披露具体使用的模型或平台名称。

PixVerse@PixVerse_ · 3天前40

Creating a fully realized dark sci-fi world once required studio sets, complex compositing, and a significant VFX budget. With PixVerse, a simple backyard phone clip can be transformed into a cinematic scene while keeping the original performance completely untouched.

译过去,打造一个完整的黑暗科幻世界需要摄影棚布景、复杂的合成技术以及大量视效预算。 有了 PixVerse,一段简单的后院手机拍摄视频也能转化为电影级场景,同时完全保留原表演的完整性。

fofr@fofrAI · 3天前54

> This is a prompt showing that text works well in Omni. The exact text of this prompt is shown verbatim in this ambient video. The text appears one sentence at a time, like at the beginning of a movie. The backdrop is flying through a blue sky.

译这是一个提示词,展示了文本在Omni中的良好效果。 该提示词的精确文本逐字显示在此环境视频中。 文本逐句出现,如同电影的开头。 背景是飞过蓝天。

PixVerse@PixVerse_ · 3天前48

This is Seedance 2.0 native 4K on PixVerse — the best AI video model for cinematic character motion and urban action, from text.

译这是 PixVerse 上的 Seedance 2.0 原生 4K——从文本生成电影级角色动作和城市动作的最佳 AI 视频模型。

Berryxia.AI@berryxia · 3天前62

开始让美女助教卖课了😂 丝滑~

译开源项目OpenMontage单日获3000 Star,将视频生产拆为12条pipeline,内置52工具和500+ agent skills。用户用自然语言描述需求,agent完成从调研到剪辑全流程,支持AI与真实素材混合工作流,具备预合成验证、后渲染自检等质量把控,渲染引擎Remotion+HyperFrames,普通人对话可产出专业级视频。

Rohan Paul@rohanpaul_ai · 3天前72

Bloomberg: AI is pushing animation toward a cost collapse, with Hollywood filmmakers saying feature production could fall by 90% as studios, workers, and unions brace for fewer human jobs. Hollywood employment has already been pressured by strikes, fewer productions, mergers, and AI-driven restructuring. --- bloomberg .com/news/newsletters/2026-06-28/animation-s-ai-reckoning-filmmakers-say-they-can-make-movies-for-90-less

译彭博社:AI正在推动动画行业走向成本崩塌,好莱坞电影制片人称长片制作成本可能下降90%,因为制片厂、员工和工会准备面对更少的人类工作岗位。 好莱坞就业已经受到罢工、减产、并购和AI驱动的重组的压力。 --- bloomberg .com/news/newsletters/2026-06-28/animation-s-ai-reckoning-filmmakers-say-they-can-make-movies-for-90-less

宝玉@dotey · 4天前20

这种AI视频也挺有意思的😂

PixVerse@PixVerse_ · 4天前58

From a basic grey 3D cockpit model to a full-speed cinematic lap. Seedance 2.0 uses the 3D pass to lock motion and camera movement, delivering precise, consistent results without relying on text prompts.

译从基本的灰色3D座舱模型到全速电影级圈速。 Seedance 2.0 使用3D通道锁定运动和相机移动,无需依赖文本提示即可提供精确、一致的结果。

PixVerse@PixVerse_ · 4天前6

so glad she's feeling better

译小企鹅从疾病中康复,本该回归日常,但梦境、星星、微光、旧箱子……奇怪的事情逐渐增多,不过它依然我行我素🐧📷

Berryxia.AI@berryxia · 5天前61

这个老师讲解LLM 真是通俗易懂啊,兄弟们~ 你觉得呢?

译一位老师以通俗易懂的方式讲解大语言模型(LLM),引发网友共鸣,并邀请大家分享看法。原文信息有限,未提及具体模型名称或课程细节。

Deedy@deedydas · 5天前34

Bytedance is dropping the best video gen model in the world in early July: Seedance 2.5! The video below (audio on) is the launch video from their Volcano Engine conference this week. It cements China’s absolute dominance in video. — 2x’d generation length of all previous models to 30s, with audio + 4k video — >5x’d reference images / audio / video to 50 — Allows localized editing (specific characters, closing, detail), will come with copyright filter Seedance 2 is already the #1 video model and does a whopping $2B in ARR, in a mere 4.5mos! At the current pricing of $2.5/15s, that implies >3.3M hours of video (!) have been generated. That’s 3x every feature film ever made and dozens of Netflixes. Only 3 US AI startups make more revenue. We are 2x’ing realistic video gen length every 6mos. — May 2025: Veo 3 does audio + video for the first time, 15s — Jan 2026: Kling 3 does 15s — Feb 2026: Seedance 2 does 15s, big quality bump — July 2026: 2.5 will do 30s In 18mos, entire music videos will be oneshotted by AI. China continues to extend its lead on video models vs America.

译字节跳动将于7月初发布视频生成模型Seedance 2.5,将生成长度从15秒翻倍至30秒,支持音频+4K视频;参考图片/音频/视频数量提升至50个以上;支持局部编辑(特定角色、闭合、细节),附带版权过滤。其前代Seedance 2已是视频生成模型第一名,ARR达20亿美元,定价$2.5/15秒,累计生成超330万小时视频。对比时间线:Veo 3(2025年5月)首降音视频生成15秒,Kling 3(2026年1月)15秒,Seedance 2(2026年2月)15秒,Seedance 2.5(2026年7月)30秒。中国视频模型持续扩大对美国的领先优势。

歸藏(guizang.ai)@op7418 · 5天前43

我去,Seedance 2.0 4K 这个文字清晰度太牛批了 重新用原生 4K 分辨率跑了一条 Codepilot 的宣传片,这个文字清晰度也太牛批了 而且整个材质的质感也高了非常多,这绝对是 1080P 超分做不到的

译用户用 Seedance 2.0 以原生 4K 分辨率重新生成 Codepilot 宣传片,文字清晰度极高,材质质感远超 1080P 超分效果。Seedance 2.0 在文字渲染和视觉细节上实现显著提升。

小互@xiaohu · 5天前64

http://x.com/i/article/2070795179813203968 # Wan Streamer:一个能跟你实时视频通话的真人 AI 阿里通义实验室 Wan 团队放出 Wan Streamer 模型,一个能跟你实时视频通话的真人 AI。 我们已经习惯了跟 AI 打字、语音聊天。Wan Streamer 往前走了一步,它能跟你视频通话:你这边有摄像头和麦克风,它那边实时生成一张会说话的脸,看着你、回应你。 效果展示: 📹 视频① · 中文日常通话 —— 在此插入视频。中文 · 暖色室内视频通话:聊刮胡子、在家办公、想看一部特效不错的新动作片。清晰自然男声。 ## 1 · 这是什么:一个模型跑通实时音视频对话 Wan Streamer v0.1 是一个实时音视频交互模型。能实时对话的 AI 现在不少,但能一边看你的脸、一边听你说话、一边开口回应、自己还自带一张会动的脸的,几乎没有。Wan Streamer 把这件事压进了一个模型里。 它在同一个 Transformer 里同时处理语言、音频、视频的输入和输出,做到亚秒级的全双工音视频对话:模型自己算出一段回应大约只要 200 毫秒,加上网络往返后总延迟约 550 毫秒。 为什么值得看:现在能实时对话的系统分两类,一类响应快但只出声音、没有可见的脸(GPT-4o Realtime、豆包、Gemini Live),另一类有脸但靠外部 ASR、语言模型、TTS、动画一串模块拼出来。官方称 Wan Streamer 是唯一用单个端到端 Transformer 同时吐出同步音视频、且总延迟压在 1 秒内的模型。 几个关键数字: - ~200 ms — 模型侧响应延迟 - ~550 ms — 总交互延迟(200ms 模型侧 + 350ms 网络往返) - 160 ms — 25fps 下最短的流式处理单元 - 192p — v0.1 分辨率,端到端设计的概念验证 把总延迟 550ms 拆开看:模型本身只占 200ms,剩下 350ms 是网络往返。也就是说,纯模型的反应速度,比你读到的总延迟更快。 ## 2 · 旧办法为什么慢:一道道接力,每步都在等 旧办法慢,是因为它们是一串独立模型拼起来的流水线:语音先转成文字(ASR),文字喂给语言模型想答案(LLM),答案再合成语音(TTS),最后驱动一张脸动起来(动画渲染)。 > 音视频输入 → ⏳ASR 识别 → ⏳LLM 想答案 → ⏳TTS 合成语音 → ⏳动画渲染 → 输出 每过一道工序都要等上一道交货,等待时间一段段累加,识别和口型对不齐的误差也一路累积。每个箭头都是一次等待 + 一次误差累积;模块之间靠文字当中转桥;多数系统只出语音,或者把一张脸勉强拼出来,且不报告端到端时延。 Wan Streamer 是端到端单模型:音视频输入 →「一个 Transformer」(感知 · 推理 · 规划 · 生成 一起做)→ 同步音视频输出。没有接缝,等待时间坍缩;轮次管理、被打断、长程一致性,作为一个连贯行为一起学出来。 打个比方:端到端像一个人自己听完直接开口;级联像传话游戏,每过一手都慢一拍,还可能把话传错。中间那层把语音/视频先转成文字、再用文字驱动下游——文字就是各模块之间隐藏的中转桥,桥越多越慢、越容易错。Wan Streamer 不要这个中间桥,模态之间直接耦合。 原文给这件事下了一个判断:实时音视频交互不是「多模态理解」加「多模态生成」的简单相加,它本质上是全双工的,所以可流式性是一种建模约束,而不只是上线后的工程优化。建在离线编码器、双向解码器、回合制对话之上的系统,光靠工程调优也补不出真正的低延迟全双工。 【📹 视频② · 即兴模仿 —— 在此插入视频。中文 · 明亮白色室内。聊 CP、娱乐圈八卦、周星驰《功夫》,最后模仿经典笑容,轻松愉快女声】 ## 3 · 核心创新:一个模型从听到说全包了 Wan Streamer 的内核只有一句话:把视觉、音频、文本的输入 token 和输出 token,交错排成同一条序列,交给一个 Transformer 处理;用 block-causal attention 协调,让它边来边算地往外吐。 单个端到端 Transformer 取消了外部的 VAD、ASR、语言模型、TTS、动画、视频生成等模块,把感知、推理、回应规划、语音与视觉生成、响应时机、轮次管理全放进同一个持久状态里联合优化。低延迟、全双工、同步音视频这三件事,根都在这里。 模型把交互看成一条连续的因果流:你的观测和它的回应,一起更新当前上下文。语言回应是一串离散 token,用 next-token 预测训练;音频和视频回应活在连续的 latent 空间里,用条件 flow matching 联合生成,让语音、动作、外观、场景演化作为一个耦合整体一起去噪,而不是各生成各的再拼。 为了撑住这条流,整栈从设计之初就是因果的:严格因果音视频 VAE、因果音视频编码器、因果音视频解码器,以及由 block-causal attention 协调的时序因果 Transformer。被这套设计抹掉的外部模块是:外部 VAD、ASR 识别、外部语言模型、TTS 合成、动画模块、视频生成模块。 ## 4 · 怎么做到边听边说、随时能打断 人和世界的交互天生是流式、全双工的:我们不是先听完、再单独想、最后才答,而是一边看一边听一边说、随时停顿和打断,感知和表达在音视频的时间尺度上重叠发生。实时交互模型也得长成这样。 因果编码器 + 因果解码器 + 低延迟多模态 token 调度,让 25fps 下的流式单元短到 160ms:输入的语音视频立刻影响输出,生成的音频和视觉状态在解码之前就耦合好,而不是事后修补。于是它能边听边说,你说话时它仍在听、被打断还能调整。 这套机制靠的是 block-causal attention:它把一小块(比如 160ms 的音视频片段)当成一个处理单位,块内部的 token 可以互相看(双向),但一个块只能看见过去的块、看不到未来的块。块 3 一到就能开算,因为它只依赖块 1、块 2,不用等未来的块 4——这就是流式生成。 部署细节:thinker–performer 怎么把延迟压到 200ms。Wan Streamer 训练时是单个端到端模型;实时部署时,同一个模型拆成跨两张 GPU 的 thinker–performer 流水线,尽量让计算重叠。thinker 负责编码、语言预测与状态更新、KV-cache 构建,以及把上一单元解码成音视频并立即输出;performer 只负责为下一段跑 flow-matching 求解器。因为 performer 从不跑解码器、thinker 从不跑高成本求解器,解码和生成互不阻塞。只要 performer 耗时加通信耗时塞进一个 160ms 单元,就维持实时吞吐。 边听边说、随时能被打断,落到对话里就是这种自然感。这两段都是英文实时对话: 【📹 视频③ · 英文车内 —— 在此插入视频。英文 · 车内近景。女生说自己很累,感谢对方耐心陪伴,疲惫真诚女声。】 【📹 视频④ · 英文室内 —— 在此插入视频。英文 · 浅色室内近景。聊无意识刷手机、自动化习惯、关掉通知,自然女声。】 ## 5 · 和别的系统比,快在哪、能做什么 下面两组延迟数字测的不是一回事,得分开看。上方一组是完整的端到端交互闭环(感知用户并产生回应),其中只有 Wan Streamer 同时输出视频;下方一组是数字人/音视频渲染器,只计到渲染阶段,不含它们依赖的外部语言模型、ASR、TTS,所以用户实际感受到的延迟比图里更高。 两组刻度各自独立,不能横跨两组直接比大小。数值取各系统公开报告中最接近的口径,混合了不同测量边界。 能力维度的覆盖如下,Wan Streamer 是唯一一行全部打勾的: 需要提一句:这五个维度是 Wan 按自己的能力边界定的;表里其他系统分属纯语音(GPT-4o、豆包、Gemini)和数字人渲染(StreamAvatar、LPM)两类,和 Wan 不是同一品类。这张表更适合看「各家覆盖了哪些点」,不是排名次——Wan 唯一全✓,更多是因为「维度由它来定」。 最后看一段完整的真实链路:一次真实联网对话的屏幕录制,能看到从感知到回应的全过程。 【📹 视频⑤ · 实时录屏 —— 在此插入视频。真实联网对话录屏:左边是本地用户画面,右边是 AI Agent 实时回应,下方同步滚动文本流】 注意:本项目还处于研究阶段,并没有上线,没有开放使用入口,只能当成「技术验证」看。 来源: Wan Streamer v0.1 官方发布页(wan-streamer.com), 论文 arXiv:2606.25041

译阿里通义实验室Wan团队发布Wan Streamer v0.1,首个端到端Transformer实现实时音视频对话。模型侧响应延迟约200ms,总延迟约550ms,25fps下流式处理单元160ms,分辨率192p。同步生成语音与面部视频,支持全双工打断,取消外部ASR/TTS/动画模块,通过thinker-performer部署压至200ms。官方称唯一单模型同步音视频且延迟<1秒的方案。目前为技术验证,未开放使用。

AYi@AYi_AInotes · 5天前57

现在用AI做视频可以跟喝水一样简单,不需要再付个700多块的剪映SVIP, 装这6个2026 年最顶的插件和skills就够了, 链接直接丢给你的AI Agent(Claude Code、Cursor、Hermes、OpenClaw 等等)让他们安装就, 老规矩6个安装链接🔗以及使用建议评论区自取⬇️

译推文指出,现在用AI做视频已变得极为简单,无需支付700多元的剪映SVIP。只需安装6个2026年最顶级的插件和Skills,提供安装链接,可直接交给AI Agent(如Claude Code、Cursor、Hermes、OpenClaw等)自动安装。具体链接和使用建议可在评论区自取。

歸藏(guizang.ai)@op7418 · 5天前38

用 Seedance 2.0 重新做了一下 Codepilot 的宣传片

小互@xiaohu · 5天前38

魔法 随便拖入任意人物照片 即可更换直播摄像头里面的人物😅

译开发者 @miyumiyuna5 制作了一款实时换脸AI工具,支持直接拖拽任意人物照片到界面,瞬间将直播摄像头中的人物替换为目标形象。该工具无需重新加载模型即可流畅运行,实现低延迟的实时换脸效果,甚至能让大叔秒变美少女。

Runway@runwayml · 6天前49

Congratulations to the winners of Runway's 2026 AI Festival. Get caught up on all of the films, "Best Of" winners and panels featuring Ron Howard, Roger Avary, Gala Avary, Joel Kuwahara and Girish Balakrishnan at the link below.

译恭喜 Runway 2026 AI 电影节的获奖者。请通过下方链接查看所有影片、"最佳"奖项得主以及 Ron Howard、Roger Avary、Gala Avary、Joel Kuwahara 和 Girish Balakrishnan 参与的专题讨论。

PixVerse@PixVerse_ · 6天前69

From a green screen and a single box to a full-scale blockbuster zone. Seedance 2.0 preserves the original motion and framing while seamlessly generating the rest of the scene. Cinematic VFX, now dramatically simpler.

译从绿幕和单个盒子到完整的电影级场景。 Seedance 2.0 保留原始运动和构图,同时无缝生成场景其余部分。 电影级视觉特效,如今大大简化。

Kling AI@Kling_ai · 6天前9

Here comes your cutie! 🐾

译你的可爱来了!🐾

Alibaba Cloud@alibaba_cloud · 6天前34

We're thrilled to announce that starting today, HappyHorse1.1 will become the default AI video generation model on Creative Fabrica Studio! To mark this upgrade, we're offering 50% off all video generations for one week — exclusively with HappyHorse 1.1. Whether you're a designer, marketer, or content creator, now's the perfect time to explore faster, higher-quality AI video creation. 👉 Try it now: https://studio.creativefabrica.com/ai-video-generator 👉 Learn more about the HappyHorse 1.1 model: https://int.alibabacloud.com/m/1000414899/ #AlibabaCloud #HappyHorse #CreativeFabricaStudio

译阿里云宣布HappyHorse 1.1即日起成为Creative Fabrica Studio的默认AI视频生成模型。为纪念此次升级,平台提供为期一周的视频生成50%折扣,适用于设计师、营销人员和内容创作者。附试用链接及模型详情页。

Berryxia.AI@berryxia · 6天前60

我靠,这个项目还挺有意思的! 有人用AI做了一个能实时解说世界杯的解说员,而且不只支持英语,还能切换成法语。 它实时抓取直播画面帧,让GPT-5.4-mini看比赛并生成解说词,再用ElevenLabs以体育解说员的语气播报出来。 整个过程是端到端的实时调用,已经能比较自然地跟上比赛节奏。 更关键的是,这个系统不是死板的模板生成,直接让模型真正“看”比赛内容后再组织语言。 这意味着理论上它可以适应不同语言、不同风格的解说,甚至未来还能做双解说员对喷这种更有趣的玩法。 目前最大的挑战还是延迟和解说的精准度,但方向已经很明确了:AI正在从“辅助内容”变成“实时内容生产者”。 这让我想到2个玩法,一个是已经有的产品叠叠社的一个字母实时互动,一个是声音多种声线克隆或者直接使用有些比如建国的声音来解说,就会比较有意思。 项目已经开源,地址见评论👇🏻

译开发者@zicohacks利用AI构建了一个实时世界杯解说员。系统像观众一样观看直播,采样最新帧,让GPT-5.4-mini理解比赛内容并生成解说词,再通过ElevenLabs以体育解说员语气播报。整个过程端到端实时调用,已能较自然跟上比赛节奏,支持英语和法语切换。项目已开源,目前主要挑战是延迟和解说精准度,但方向明确——AI正从辅助内容变为实时内容生产者。

Alibaba Cloud@alibaba_cloud · 6天前44

From anime-inspired worlds to cinematic action sequences, HappyHorse 1.1 transforms detailed prompts into visually stunning videos. Create stylized environments, dynamic camera movements, immersive lighting, and fluid motion with precision, bringing every frame of your imagination to life. Enjoy 40% OFF with a Limited Launch Offer API with Limited Launch Promotion: https://int.alibabacloud.com/m/1000414698/ #HappyHorse #AlibabaCloud #ModelStudio #GenerativeAI

译从动漫风格的世界到电影级动作场景,HappyHorse 1.1 将详细的提示词转化为视觉效果惊艳的视频。 精准创建风格化的环境、动态的镜头运动、沉浸式的光照和流畅的动作,将你想象中的每一帧变为现实。 限时发布享 40% 折扣 API 限时发布特惠:https://int.alibabacloud.com/m/1000414698/ #HappyHorse #阿里云 #ModelStudio #生成式AI

Alibaba Cloud@alibaba_cloud · 6天前46

Stop shooting. Start creating with #HappyHorse 1.1. Produce captivating brand and commerce videos with intelligent storytelling, expressive motion, refined details, and immersive sound experiences. Built for creators who want speed without compromising quality. Launch Offer: Save 40% https://int.alibabacloud.com/m/1000414698/ #HappyHorse #AlibabaCloud #ModelStudio #GenerativeAI

译别再拍摄了。用 #HappyHorse 1.1 开始创作吧。 通过智能叙事、富有表现力的动作、精细的细节和沉浸式音频体验,制作引人注目的品牌和商业视频。 为追求速度又不愿牺牲质量的创作者而打造。 发布优惠:节省 40% https://int.alibabacloud.com/m/1000414698/ #HappyHorse #AlibabaCloud #ModelStudio #GenerativeAI

Alibaba Cloud@alibaba_cloud · 6天前50

HappyHorse 1.1 is powering the next wave of AI video creation. From @ComfyUI and @runware to @fal , @replicate , and @Picsart , leading platforms are already building with it. Now available on Alibaba Cloud Model Studio. Start creating today: https://int.alibabacloud.com/m/1000412436/ #HappyHorse #AlibabaCloud #ModelStudio #AIVideo #GenerativeAI

译HappyHorse 1.1 正在推动下一波AI视频创作。 从 @ComfyUI、@runware 到 @fal、@replicate 和 @Picsart,领先平台已在使用它构建应用。 现已在阿里云Model Studio上可用。 立即开始创作:https://int.alibabacloud.com/m/1000412436/ #HappyHorse #阿里云 #ModelStudio #AI视频 #生成式AI

PixVerse@PixVerse_ · 6天前65

Seedance 2.0 now does native 4K on PixVerse The hard part isn't resolution — it's keeping detail alive in fast motion. Watch the scales and spray hold as the dragon skims the sea.

译Seedance 2.0 现已在 PixVerse 上支持原生 4K 难点不在于分辨率,而在于快速运动中保持细节清晰。 看看巨龙掠过海面时,鳞片和水花是如何保持清晰的。

DogeDesigner@cb_doge · 7天前40

BREAKING: Grok Imagine is now the #1 AI video model on Vercel AI Gateway. • ~51% of all videos generated come from Grok. • Bigger share than every other top video model combined. • Grok Imagine Video 1.5 Preview is also top 5. Grok is absolutely dominating AI video.

译重磅:Grok Imagine 现已成为 Vercel AI Gateway 上排名第一的 AI 视频模型。 • 约 51% 的视频生成来自 Grok。 • 份额超过其他所有顶级视频模型的总和。 • Grok Imagine Video 1.5 Preview 也位列前五。 Grok 正在绝对主导 AI 视频领域。

Artificial Analysis@ArtificialAnlys · 7天前57

HappyHorse-1.0 from @HappyHorseATH takes #1 in AI video editing, followed by Seedance 2.0 from @dreamina_ai and Wan 2.7 from @Alibaba_Wan, on the new Artificial Analysis Video Editing Leaderboard 🏆 In previous media generation modalities, we focussed on overall model quality. In Video Editing, we have started to identify the drivers of overall model quality. We score models across five editing capabilities, each reflecting how these models are actually used in the real world: ➤ Visual Effects Editing: VFX, relighting, background change, and restyling, valuable for creative production such as film and advertising ➤ Physics & World Simulation: how a scene moves through space and time under real or even fictional physics, valuable for creative direction and storytelling ➤ Sound & Speech Editing: sound design and dialogue, valuable for shaping mood and story or localizing narrated video content ➤ Object Editing: add, replace, or remove objects, valuable across ecommerce and entertainment for variants and spot fixes ➤ Complex Edits: multi-edit instructions, valuable when both controllability and efficiency matter After ~80K blind human votes, strengths are split: different models lead different capabilities. Kling 3.0 ranks #5 overall but #1 in Visual Effects Editing. In Sound & Speech Editing, Wan 2.7 rises to #2 (#3 overall), while Seedance 2.0 (#2 overall) sits at #3. Seedance 2.0 and HappyHorse-1.0 are tied at the top of Physics & World Simulation. HappyHorse-1.0 wins overall by being the only model never weak in any editing capability: top-3 in all five capabilities, and #1 or tied #1 in four of them. Full capability breakdowns and example videos below 🧵

译Artificial Analysis 发布最新 AI 视频编辑排行榜,HappyHorse-1.0 综合实力第一,Seedance 2.0 第二,Wan 2.7 第三。榜单基于约 8 万次人工盲评,从视觉效果编辑、物理与世界模拟、声音与语音编辑、对象编辑、复杂编辑五个能力维度评分。HappyHorse-1.0 是唯一在所有五个能力中均进入前三的模型,并在其中四个能力排名第一或并列第一。Kling 3.0 总排名第五,但在视觉效果编辑上排名第一。

AK@_akhaliq · 7天前36

Wan-Streamer v0.1 End-to-end Real-time Interactive Foundation Models

译Wan-Streamer v0.1 端到端实时交互式基础模型

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月1日
00:25
Google AI@GoogleAI
74
Google AI 发布 Nano Banana 2 Lite 与 Gemini Omni Flash 两大模型更新

Google AI 推出两大模型更新:1)Nano Banana 2 Lite——最快、最经济的 Gemini 图像模型,文本生成图像不到 4 秒,已上线 Gemini API 和 AI Studio,即将登陆 NotebookLM、Google 搜索、Google Photos 等;2)Gemini Omni Flash 进入公开预览——原生多模态模型,支持低成本视频生成与对话式编辑,可通过 Gemini API、AI Studio 及 Gemini Enterprise Agent Platform 集成。两模型结合可快速实现空间设计重绘:上传照片、滑动选择设计方案,Omni 将细节以电影级动画呈现。演示应用已在 AI Studio 上架。

Google产品更新图像生成视频
关联讨论 3 条Google DeepMind:Blog(RSS)X:Logan Kilpatrick (@OfficialLoganK)X:Google DeepMind (@GoogleDeepMind)
00:25
NotebookLM@NotebookLM
60
Doom scrolling but make it educational 🤓 介绍 NotebookLM 中的短视频概览功能!将你最复杂的信息源转化为60秒的竖屏视频,深入探讨任何概念。 现已面向移动端和网页端的 Google AI Ultra 和 Pro 订阅用户推出(免费用户即将支持!)
Google产品更新视频
00:20
fofr@fofrAI
70
Gemini Omni Flash 和 Nano Banana 2 Lite 现已在 API 中可用 🔥 Nano Banana 2 Lite 是最快的 banana,图像约 4 秒生成,每张 $0.034(`gemini-3.1-flash-lite-image`) Omni API 文档: https://ai.google.dev/gemini-api/docs/omni

Google DeepMind: We're shipping 2 major releases: 🔘 Nano Banana 2 Lite: our fastest and cheapest Gemini Image model 🔘 Gemini Omni Flash...

Google图像生成模型发布视频
6月30日
23:23
Kling AI@Kling_ai
15
像金鱼在水中闪烁一样,每个想法都留下一丝色彩。✨ 那些为我们的六月染上色彩的创作者们。
行业动态视频
21:57
PixVerse@PixVerse_
28
这条医院走廊刚给我来了个我没点的跳吓。我的手柄现在不见了。 Seedance 2.0 上线 PixVerse。原生 4K 恐怖内容,直接通过提示词生成。
产品更新多模态视频
20:24
歸藏(guizang.ai)@op7418
45
Seedance 2.0 加速 AI 视频短片生态发展

Seedance 2.0 的推出推动了 AI 视频短片生态的快速发展。近日,制作《神秘复苏》AI 视频的三位博主被该作品动画官方举报,导致视频被删除。这些博主的 AI 视频质量高且粉丝不少。作为回应,小说粉丝将动画官方的 PV 举报下架。

现象/趋势视频
19:26
🚨 AI News | TestingCatalog@testingcatalog
33
GOOGLE 🔥:一款新的 Nano Banana 2 Lite 图像生成模型即将到来! > "推出 Nano Banana 2 Lite,用于超快、高性价比的图像生成,以及 Gemini Omni Flash,用于通过对话式、逐步编辑进行强大的视频创作"

Logan Kilpatrick: ⚡️🍌🔮

Google图像生成模型发布视频
18:26
PixVerse@PixVerse_
24
当你以为已经摆脱了烦恼……结果发现是一只暴龙。💀🦖 Seedance 2.0 4K - 你的提示词变成了电影级恐怖。
产品更新图像生成视频
11:22
Kling AI@Kling_ai
35
可灵Kling AI在2026戛纳狮子节斩获三座狮子奖

可灵Kling AI在2026年戛纳狮子国际创意节上拿下三座狮子奖:电影类(消费品)银狮、电影类(B2B)铜狮,以及新设的AI工艺类铜狮。推文指出,这些奖项标志着AI作为真正工艺工具的地位——Kling旨在为创作者提供对可信物理、真实情感、角色面部微表情及镜头间一致性的控制。获奖作品来自Lipstick Film、Purga Films等团队。

行业动态视频
10:55
PixVerse@PixVerse_
11
武士道是美与决心,凝聚在这一击之中!

楽園: 武士道とは!? #pixversecpp @PixVerse_

其他视频
08:21
Kling AI@Kling_ai
19
你正处于生命的哪个时刻?⏰
其他视频
04:27
ViggleAI@ViggleAI
54
只需一张头像。介绍我们的新模型 Viggle V4.5。 - 从一张头像出发,全身结果更清晰、细节更完整、每个角度都表现到位 - 纹理更精细,与参考图更一致 - 动作更稳定 🎁 关注 + 转发 + 评论,赢取 10 个免费会员资格!
模型发布视频
6月29日
22:24
Berryxia.AI@berryxia
45
开发者跑通AI视频讲解Skills,可自动生成内容

Berry Xia 宣布成功完成了一套“视频讲解的Skills”开发与测试。用户只需提供网站、内容、视频地址等信息,该技能就能自动生成基础的讲解视频。作者询问社区兴趣度,表示如果需求多可能会进一步分享。目前未披露具体使用的模型或平台名称。

智能体教程/实践视频
22:23
PixVerse@PixVerse_
40
过去,打造一个完整的黑暗科幻世界需要摄影棚布景、复杂的合成技术以及大量视效预算。 有了 PixVerse,一段简单的后院手机拍摄视频也能转化为电影级场景,同时完全保留原表演的完整性。
产品更新视频
21:49
fofr@fofrAI
54
这是一个提示词,展示了文本在Omni中的良好效果。 该提示词的精确文本逐字显示在此环境视频中。 文本逐句出现,如同电影的开头。 背景是飞过蓝天。
多模态教程/实践视频
19:52
PixVerse@PixVerse_
48
这是 PixVerse 上的 Seedance 2.0 原生 4K--从文本生成电影级角色动作和城市动作的最佳 AI 视频模型。
模型发布视频
18:24
Berryxia.AI@berryxia
62
开源项目OpenMontage单日获3000 Star,将视频生产拆为12条pipeline,内置52工具和500+ agent skills。用户用自然语言描述需求,agent完成从调研到剪辑全流程,支持AI与真实素材混合工作流,具备预合成验证、后渲染自检等质量把控,渲染引擎Remotion+HyperFrames,普通人对话可产出专业级视频。

Berryxia.AI: 这个开源视频制作工作流真爽啊! 单日斩获3000 Star,真的牛~ 又一个把AI coding agent直接变成视频制作工作室的项目开源了,叫OpenMontage。 它把整个视频生产流程拆成12条结构化pipeline(动画解说、纪录...

智能体GitHub开源/仓库视频
15:27
Rohan Paul@rohanpaul_ai
72
彭博社:AI正在推动动画行业走向成本崩塌,好莱坞电影制片人称长片制作成本可能下降90%,因为制片厂、员工和工会准备面对更少的人类工作岗位。 好莱坞就业已经受到罢工、减产、并购和AI驱动的重组的压力。 --- bloomberg .com/news/newsletters/2026-06-28/animation-s-ai-reckoning-filmmakers-say-they-can-make-movies-for-90-less
现象/趋势视频
06:27
宝玉@dotey
20
这种AI视频也挺有意思的😂
其他视频
6月28日
22:21
PixVerse@PixVerse_
58
从基本的灰色3D座舱模型到全速电影级圈速。 Seedance 2.0 使用3D通道锁定运动和相机移动,无需依赖文本提示即可提供精确、一致的结果。
产品更新多模态视频
18:21
PixVerse@PixVerse_
6
小企鹅从疾病中康复,本该回归日常,但梦境、星星、微光、旧箱子……奇怪的事情逐渐增多,不过它依然我行我素🐧📷

楽園: 病気から回復したぺんぎんちゃん。 いつもの日常に戻ったはずなのに、 夢、星、小さな光、古い箱...... 少しずつ不思議なことが増えてきました。 でも本人は相変わらずマイペースです🐧📷 #pixversecpp @PixVerse_

其他视频
02:22
Berryxia.AI@berryxia
61
一位老师以通俗易懂的方式讲解大语言模型(LLM),引发网友共鸣,并邀请大家分享看法。原文信息有限,未提及具体模型名称或课程细节。

Berryxia.AI: 这个开源视频制作工作流真爽啊! 单日斩获3000 Star,真的牛~ 又一个把AI coding agent直接变成视频制作工作室的项目开源了,叫OpenMontage。 它把整个视频生产流程拆成12条结构化pipeline(动画解说、纪录...

智能体GitHub开源/仓库视频
6月27日
22:28
Deedy@deedydas
34
字节跳动7月初发布Seedance 2.5视频生成模型,生成长度翻倍至30秒

字节跳动将于7月初发布视频生成模型Seedance 2.5,将生成长度从15秒翻倍至30秒,支持音频+4K视频;参考图片/音频/视频数量提升至50个以上;支持局部编辑(特定角色、闭合、细节),附带版权过滤。其前代Seedance 2已是视频生成模型第一名,ARR达20亿美元,定价$2.5/15秒,累计生成超330万小时视频。对比时间线:Veo 3(2025年5月)首降音视频生成15秒,Kling 3(2026年1月)15秒,Seedance 2(2026年2月)15秒,Seedance 2.5(2026年7月)30秒。中国视频模型持续扩大对美国的领先优势。

多模态模型发布视频
22:19
歸藏(guizang.ai)@op7418
43
Seedance 2.0 4K 文字清晰度惊艳,重制宣传片材质质感飙升

用户用 Seedance 2.0 以原生 4K 分辨率重新生成 Codepilot 宣传片,文字清晰度极高,材质质感远超 1080P 超分效果。Seedance 2.0 在文字渲染和视觉细节上实现显著提升。

歸藏(guizang.ai): 用 Seedance 2.0 重新做了一下 Codepilot 的宣传片

视频评测/基准
17:29
小互@xiaohu
64
Wan Streamer v0.1:首个端到端Transformer实时音视频对话模型

阿里通义实验室Wan团队发布Wan Streamer v0.1,首个端到端Transformer实现实时音视频对话。模型侧响应延迟约200ms,总延迟约550ms,25fps下流式处理单元160ms,分辨率192p。同步生成语音与面部视频,支持全双工打断,取消外部ASR/TTS/动画模块,通过thinker-performer部署压至200ms。官方称唯一单模型同步音视频且延迟<1秒的方案。目前为技术验证,未开放使用。

arXiv多模态模型发布视频
17:16
AYi@AYi_AInotes
57
免费替代剪映SVIP,6个2026年顶级AI视频Skills

推文指出,现在用AI做视频已变得极为简单,无需支付700多元的剪映SVIP。只需安装6个2026年最顶级的插件和Skills,提供安装链接,可直接交给AI Agent(如Claude Code、Cursor、Hermes、OpenClaw等)自动安装。具体链接和使用建议可在评论区自取。

AYi: http://x.com/i/article/2069352641423896576

智能体教程/实践视频
15:19
歸藏(guizang.ai)@op7418
38
用 Seedance 2.0 重新做了一下 Codepilot 的宣传片
教程/实践视频
10:28
小互@xiaohu
38
开发者 @miyumiyuna5 制作了一款实时换脸AI工具,支持直接拖拽任意人物照片到界面,瞬间将直播摄像头中的人物替换为目标形象。该工具无需重新加载模型即可流畅运行,实现低延迟的实时换脸效果,甚至能让大叔秒变美少女。

みゅみゅ: Webcamのリアルタイムの映像を画像をドラック&ドロップでその人になれるものを作ってみた。 モデルを読み直さなくても、さくさく動くように改変 おっさんが美少女になる日も近い

产品更新图像生成视频
03:52
Runway@runwayml
49
恭喜 Runway 2026 AI 电影节的获奖者。请通过下方链接查看所有影片、"最佳"奖项得主以及 Ron Howard、Roger Avary、Gala Avary、Joel Kuwahara 和 Girish Balakrishnan 参与的专题讨论。
行业动态视频
03:19
PixVerse@PixVerse_
69
从绿幕和单个盒子到完整的电影级场景。 Seedance 2.0 保留原始运动和构图,同时无缝生成场景其余部分。 电影级视觉特效,如今大大简化。
产品更新图像生成视频
6月26日
23:13
Kling AI@Kling_ai
9
你的可爱来了!🐾
其他视频
18:57
Alibaba Cloud@alibaba_cloud
34
阿里云HappyHorse 1.1成Creative Fabrica Studio默认视频模型

阿里云宣布HappyHorse 1.1即日起成为Creative Fabrica Studio的默认AI视频生成模型。为纪念此次升级,平台提供为期一周的视频生成50%折扣,适用于设计师、营销人员和内容创作者。附试用链接及模型详情页。

行业动态视频
16:20
Berryxia.AI@berryxia
60
AI实时世界杯解说员项目开源

开发者@zicohacks利用AI构建了一个实时世界杯解说员。系统像观众一样观看直播,采样最新帧,让GPT-5.4-mini理解比赛内容并生成解说词,再通过ElevenLabs以体育解说员语气播报。整个过程端到端实时调用,已能较自然跟上比赛节奏,支持英语和法语切换。项目已开源,目前主要挑战是延迟和解说精准度,但方向明确——AI正从辅助内容变为实时内容生产者。

Zico: i tried building an AI commentator for the World Cup it watches the live stream as the viewers, samples the newest frame...

多模态开源/仓库视频
13:56
Alibaba Cloud@alibaba_cloud
44
从动漫风格的世界到电影级动作场景,HappyHorse 1.1 将详细的提示词转化为视觉效果惊艳的视频。 精准创建风格化的环境、动态的镜头运动、沉浸式的光照和流畅的动作,将你想象中的每一帧变为现实。 限时发布享 40% 折扣 API 限时发布特惠:https://int.alibabacloud.com/m/1000414698/ #HappyHorse #阿里云 #ModelStudio #生成式AI
模型发布视频
13:26
Alibaba Cloud@alibaba_cloud
46
别再拍摄了。用 #HappyHorse 1.1 开始创作吧。 通过智能叙事、富有表现力的动作、精细的细节和沉浸式音频体验,制作引人注目的品牌和商业视频。 为追求速度又不愿牺牲质量的创作者而打造。 发布优惠:节省 40% https://int.alibabacloud.com/m/1000414698/ #HappyHorse #AlibabaCloud #ModelStudio #GenerativeAI
产品更新多模态视频
10:26
Alibaba Cloud@alibaba_cloud
50
HappyHorse 1.1 正在推动下一波AI视频创作。 从 @ComfyUI、@runware 到 @fal、@replicate 和 @Picsart,领先平台已在使用它构建应用。 现已在阿里云Model Studio上可用。 立即开始创作:https://int.alibabacloud.com/m/1000412436/ #HappyHorse #阿里云 #ModelStudio #AI视频 #生成式AI
多模态模型发布视频
09:16
PixVerse@PixVerse_
65
Seedance 2.0 现已在 PixVerse 上支持原生 4K 难点不在于分辨率,而在于快速运动中保持细节清晰。 看看巨龙掠过海面时,鳞片和水花是如何保持清晰的。
产品更新多模态视频
05:53
DogeDesigner@cb_doge
40
重磅:Grok Imagine 现已成为 Vercel AI Gateway 上排名第一的 AI 视频模型。 • 约 51% 的视频生成来自 Grok。 • 份额超过其他所有顶级视频模型的总和。 • Grok Imagine Video 1.5 Preview 也位列前五。 Grok 正在绝对主导 AI 视频领域。
xAI行业动态视频
02:19
Artificial Analysis@ArtificialAnlys
57
Artificial Analysis 发布 AI 视频编辑排行榜,HappyHorse-1.0 夺冠

Artificial Analysis 发布最新 AI 视频编辑排行榜,HappyHorse-1.0 综合实力第一,Seedance 2.0 第二,Wan 2.7 第三。榜单基于约 8 万次人工盲评,从视觉效果编辑、物理与世界模拟、声音与语音编辑、对象编辑、复杂编辑五个能力维度评分。HappyHorse-1.0 是唯一在所有五个能力中均进入前三的模型,并在其中四个能力排名第一或并列第一。Kling 3.0 总排名第五,但在视觉效果编辑上排名第一。

多模态视频评测/基准
00:54
AK@_akhaliq
36
Wan-Streamer v0.1 端到端实时交互式基础模型
模型发布视频
‹ 上一页
1234…17
下一页 ›