AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 658 条
全部一手资讯X论文
标签「视频」清除
PixVerse@PixVerse_ · 5月20日18

Cam Live doing what it does best!

译Cam Live做它最擅长的事! #PixVerse #F1 #Broadcast #AIvideo

Berryxia.AI@berryxia · 5月20日19

我是想给一些零售连锁品牌做一些类似的实时模型的分析,或者也不用实时,进行视频解析就够了。 未来识别会看到更多的类似的场景应用啊~

meng shao@shao__meng · 5月20日64

Gemini Omni 来了!Google 的优势,果然还是在多模态模型吧?! Gemini 3.0 发布时,最惊艳的就是之前 Claude 和 GPT 都没有的多模态理解能力;Nano Banana 和 Veo 在多模态生成方面也是断档的强(发布时,后来被超越了) 现在 Google I/O 发布的 Gemini Omni,又是一个原生多模态的「理解 + 生成」模型,当前主攻视频,可用任意组合输入(图、文、视频、音频)产出或编辑视频。 来看看官方对 Omni 和 Veo 的对比: 1. 工作方式 Veo:多模态常被压成文本再生成 Omni:从底层原生多模态设计 2. 提示词 Veo:需非常具体、逐帧描述 Omni:可只给意图,由推理补细节 3. 编辑 Veo:多为单次生成 Omni:多轮对话式编辑,每步叠加上一步 4. 知识 Veo:偏视觉模式匹配 Omni:结合 Gemini 的世界知识、物理直觉 注意:这里的 Veo 代表了 Veo、Sora、Seedance 等几乎全部之前的视频生成模型,这个对比感觉几乎是吊打了。 Omni 三大能力 1. 对话式视频编辑(核心差异化) · 用自然语言改已有视频,每轮指令建立在上一轮结果上。 · 强调 一致性:角色、物理、场景记忆在多轮修改后仍连贯。 · 典型操作:换背景、改机位、换物体/角色、改动作、加特效,无需每次重述整段 prompt。 2. 世界知识 + 物理直觉 · 物理: 重力、动能、流体等,用于更可信的运动(如弹珠连锁轨道)。 · 知识: 历史、科学、文化语境,用于科普/叙事类内容(如粘土定格「蛋白质折叠」)。 · 文字: 不只「能写字」,而是文字与画面动作、节奏同步(如字母表 26 项 + 对应 lower third)。 3. 任意参考物组合(Reference anything) · 图、文、视频、音频可混用为「配料」,合成一条叙事。 · 能力包括:动作/风格迁移、参考图换角色(保留动作与口型)、草图仅作运动引导转实拍、分镜图按节拍生成等。 · 音频: 首发主要支持 人声参考;其他音频输入类型将陆续开放。

译Google发布了原生多模态模型Gemini Omni。与传统模型需逐帧描述不同,它采用底层原生设计,支持以意图驱动生成视频,并能通过多轮对话进行编辑,每一步都基于上一结果,确保一致性。该模型融合了Gemini的世界知识与物理直觉,并能将图、文、音视频等任意参考物组合,实现跨模态叙事生成。其目标是“从任何东西创造任何东西”,并从视频生成起步。

向阳乔木@vista8 · 5月20日47

小红书也是真离谱,AI生成的几秒无声视频,提示笔记违规。 抖音,视频号,x发布都没问题。 连视频没声音都管,何况只有几秒而已。。。

Berryxia.AI@berryxia · 5月20日63

Gemini Omni 不仅仅是构建看起来真实的场景,它还能推理接下来应该发生什么。 它将对物理学的直观理解与 Gemini 对历史、科学和文化背景的知识相结合。 今天开始向全球 Google AI Plus、Pro 和 Ultra 订阅用户推出,首先支持视频输出,通过

译Google 发布的 Gemini Omni 模型核心能力升级,它不仅能生成高度真实的场景,更关键的是具备了对物理世界后续发展的推理能力。这一能力源于其对物理学的直观理解与广泛的背景知识结合。该模型现已向全球 Google AI Plus、Pro 和 Ultra 订阅用户推出,初期将优先支持视频内容的生成与输出。

Berryxia.AI@berryxia · 5月20日71

Google I/O 大会发布会重要的一个发布就是它! Google DeepMind今天直接把“从任何东西生成任何东西”这件事,迈出了第一步。 他们发布了Gemini Omni。 不仅仅是又一个视频生成工具,而是想把Gemini和生成媒体系统彻底融合。 它真正懂物理、懂历史、懂文化、懂故事逻辑。 你能定义一个角色,然后随便扔进任何场景,它都能保持一致的外貌、动作和光影。 你能用自然语言改风格、加效果,或者直接把你自己拍的视频重新想象——改环境、加物体、换动作,全程对话式操作。 以前生成视频是“拍完一段就结束”,现在它是活的、可编辑的、能持续演进的世界。 视频终于不再是死的内容,是可以被实时重写的“世界素材”。 Gemini Omni Flash已经在Gemini App、Flow by Google和YouTube Shorts上线,几周后也会开放API。 PS:有人说效果不如SD2,尤其中文就更不用说了。 但是支持片段编辑的效果还不错。

译Google DeepMind在I/O大会上发布了Gemini Omni模型,旨在迈出“从任何东西生成任何东西”的第一步。该模型将Gemini的智能与生成媒体系统深度融合,在世界理解、多模态和编辑能力上实现飞跃。其核心特点在于生成的视频能保持角色、光影等逻辑一致性,并支持通过自然语言进行实时编辑和风格调整,将视频转变为可动态演进的“世界素材”。该模型目前已在部分应用上线并即将开放API,不过其实际效果,尤其是在中文生成方面,仍存在一些讨论。

Ethan Mollick@emollick · 5月20日62

For those saying "the tomato sauce blood from the sword wound that flying Shakespeare inflicted on the pizza robot while the otters discussed Spirit Airlines wasn't thick enough" or whatever... this was state of the art in July 2025 (2 years) for "an otter using wifi on a plane"

译该推文展示了2025年7月(两年前)AI视频生成模型所能达到的“最先进”技术水平,并以此作为当前讨论的参照。引用部分提供了关键上下文:早期Gemini Omni模型能根据包含多个角色、复杂场景与叙事逻辑的超现实文本提示(如飞行员海獭解释航空公司破产、莎士比亚与披萨机器人战斗等),生成相应的视频内容。推文作者通过展示这一历史技术状态,回应了关于生成内容细节真实性的讨论。

小互@xiaohu · 5月20日55

看看 Gemini Omni的实力 一句话就是:视频版的香蕉🍌 当然远不至于视频的编辑能力,它应该是世界模型的雏形... 通用AGI的初始形态...

Google Gemini@GeminiApp · 5月20日61

Create videos with your own voice and likeness using avatars with Gemini Omni. When you create an avatar, you have an AI digital version of yourself so you can easily generate videos that look and sound like you. No need to upload your image every time.

译使用Gemini Omni,你可以用自己的声音和形象创建数字分身视频。 当你创建一个数字分身后,你就拥有了自己的AI数字版本,可以轻松生成外观和声音都像你的视频,无需每次都上传你的图像。

Rohan Paul@rohanpaul_ai · 5月20日67

Google's new Gemini Omni, can generate "anything from any input" A video AI model that can create and edit clips from video, images, audio, text, and sketches. A user can record a normal video, then ask Omni to add a character, replace an object, change the action, alter the style, sync sound, or move the camera through plain language. Keeps the same scene stable after each edit. Video models often fail when they must preserve identity, motion, lighting, object position, and cause-and-effect across multiple changes. Gemini Omni Flash is meant to handle those edits inside the Gemini app, Google Flow, and YouTube Shorts. Omni has stronger world understanding, meaning it tries to model gravity, fluid motion, kinetic energy, and physical interaction more realistically. Ovearall, Omni makes AI video feel less like prompt-based generation and more like directing a scene through repeated instructions. Google is also attaching SynthID watermarking and C2PA Content Credentials to Omni outputs, so edited or generated media can be identified as AI-made.

译谷歌近日推出Gemini Omni,这是一款能处理视频、图像、音频、文本及草图等多种输入的全能型视频AI模型。用户可通过自然语言指令对已有视频进行添加角色、替换物体、调整动作、改变风格、同步音效及移动镜头等操作,且多次编辑后仍能保持场景一致性。该模型具备更强的世界理解能力,能更真实地模拟重力、流体等物理交互,使视频编辑更接近导演创作。输出内容将附带SynthID水印与C2PA内容凭证,以明确标识其AI生成属性。

Ethan Mollick@emollick · 5月20日67

The Odyssey and the Iliad get so many movie treatments but the sequel, the Roman Aeneid, is entirely ignored. Here is a teaser trailer from one prompt to Gemini Omni. The first pass made all the flags Danish(?) but Omni is capable of editing video, so I asked for their removal.

译《奥德赛》和《伊利亚特》被多次改编成电影,但其续作罗马史诗《埃涅阿斯纪》却完全被忽视。 这是用一段提示词为Gemini Omni制作的预告片。第一版把所有旗帜都做成了丹麦的(?),但Omni能够编辑视频,所以我要求移除了它们。

Demis Hassabis@demishassabis · 5月20日79

Gemini Omni is a major leap in world understanding & multimodal editing! It can take photos, video & audio and build entirely new scenes. Over time it’ll be able to handle any input & any output - starting w/ video You can even give it your own videos & iterate on your ideas:

译Gemini Omni在世界理解与多模态编辑方面实现了重大飞跃!它能处理照片、视频和音频,并构建全新的场景。随着时间的推移,它将能够处理任何输入和任何输出——从视频开始。 你甚至可以提供自己的视频,并在此基础上迭代你的想法:

Josh Woodward@joshwoodward · 5月20日32

Gemini Omni is so fun - insanely great at editing videos!

译Gemini Omni太有趣了——视频编辑能力简直逆天!

Google AI@GoogleAI · 5月20日74

By now, you've probably heard about Gemini Omni, our new model designed to create anything from any input, starting with video. But... what's the big deal? Let’s break it down 🧵👇

译到现在,你可能已经听说了 Gemini Omni,这是我们新推出的模型,旨在从任意输入(从视频开始)创造任何内容。 但……这有什么大不了的? 让我们来分解一下 🧵👇

Sundar Pichai@sundarpichai · 5月20日79

Gemini Omni doesn't just build scenes that look real, it reasons about what should happen next. It combines an intuitive understanding of physics with Gemini's knowledge of history, science, and cultural context. Rolling out today starting with video outputs to Google AI Plus, Pro and Ultra subscribers globally through the @Geminiapp + Google Flow, and @YouTube Shorts this week.

译Gemini Omni不仅能构建逼真的场景,还能推理接下来应该发生什么。它结合了对物理的直观理解与Gemini在历史、科学和文化背景方面的知识。 今日起,通过@Geminiapp + Google Flow和@YouTube Shorts,向全球Google AI Plus、Pro和Ultra订阅用户推出视频生成功能。

Google Gemini@GeminiApp · 5月20日81

Meet Gemini Omni, our new model that can create anything from any input, starting with video. With Gemini Omni, you can combine images, videos and text as inputs and generate high-quality videos grounded in Gemini's real-world knowledge. #GoogleIO

译介绍Gemini Omni,我们的新模型,可以从任何输入创建任何内容,首先从视频开始。 借助Gemini Omni,您可以将图像、视频和文本作为输入组合,并生成基于Gemini现实世界知识的高质量视频。#GoogleIO

AYi@AYi_AInotes · 5月20日80

Damn! Google has really gone absolutely wild this time. Gemini Omni is about to blow the roof off the ceiling of video generation 🤯 Making videos used to be like building with Lego blocks, piece by piece, slowly. Now it’s giving you a magic Lego factory that can actually think. You chat in natural language, and it understands real-world physics, history, biology, culture—then directly generates or edits any video. Five most mind-blowing abilities that you can use right now: 1Understands real physics—glass marbles colliding, turning, and bouncing in ways that match reality. 2Faces never get distorted—define a character once, put them in any scene, any action. 3Edit videos like you edit ChatGPT text—change backgrounds, swap people, add effects with a single sentence. 4Upload an image and apply any style—make claymation, visualize protein folding, whatever you imagine. 5Video isn’t a dead file anymore—change angles, lighting, objects, even storylines just by chatting. This isn’t a competitor to Sora. This is the first time a world model has truly entered a consumer-facing product. It’s not just generating pixels—it’s simulating a coherent physical and semantic world. Open the Gemini app right now and try Omni Flash. Go try it. You’ll thank me later.

译Google推出Gemini Omni,首个面向消费者的世界模型。它通过自然语言交互,将Gemini的智能与生成媒体系统结合,实现了对物理规律、历史、生物等世界的深刻理解。用户可以像编辑ChatGPT文本一样用单句指令编辑视频,实现人物一致性、风格迁移、角度调整等功能。它不是单纯生成像素,而是模拟连贯的物理与语义世界,标志着AI视频生成从拼接工具向智能创作系统的飞跃。

Google DeepMind@GoogleDeepMind · 5月20日72

Google Flow 🤝 Gemini Omni Create more cinematic stories with our latest model, which brings batch editing, improved character consistency and more. Here’s what else is new for @FlowbyGoogle → https://goo.gle/42K2nge #GoogleIO

译Google Flow 🤝 Gemini Omni 使用我们的最新模型创作更具电影感的故事,它带来了批量编辑、改进的角色一致性等功能。以下是@FlowbyGoogle的其他新功能 → https://goo.gle/42K2nge #GoogleIO

Chubby♨️@kimmonismus · 5月20日81

The real „wow“ moment is Gemini Omni. A world model towards AGI. It can create anything from any input. This is insane.

译真正的“哇”时刻是 Gemini Omni。一个迈向 AGI 的世界模型。 它可以从任何输入创建任何内容。这太疯狂了。

Ethan Mollick@emollick · 5月20日74

Gemini Omni: "a dramatic reading of Death by Water from the Wasteland by a man eating garlic bread while balanced on a unicycle on a small platform over a churning sea of tomato sauce in which, at the center, sites a meatball with bright blue eyes wearing a top hat"

译Gemini Omni:“一个男人一边吃着蒜香面包,一边在独轮车上保持平衡,站在翻滚的番茄酱海洋上方的小平台上,朗读《荒原》中的《溺水之死》。在酱海中央,漂浮着一颗戴着高顶礼帽、长着亮蓝色眼睛的肉丸。”

Google DeepMind@GoogleDeepMind · 5月20日78

We’re dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video. It combines Gemini’s intelligence with our generative media systems - representing a leap forward in world understanding, multimodality, and editing 🧵

译我们推出Gemini Omni:这是迈向一个能从任何内容生成任何内容的模型的第一步——从视频开始。 它结合了Gemini的智能与我们的生成式媒体系统——代表了在世界理解、多模态和编辑方面的飞跃🧵

Ethan Mollick@emollick · 5月20日44

I had early Gemini Omni access: "sea otter in a pilot's uniform explains why Spirit Airlines went bankrupt to a river otter who is distracted by their laptop while they are in a hot air balloon over NYC. in the next balloon over, william shakespeare fights a robot made of pizza"

译我早期获得了Gemini Omni的访问权限:"一只穿着飞行员制服的海獭在纽约上空的热气球里,向一只被笔记本电脑分心的河獭解释为什么精神航空破产了。在旁边的另一个热气球里,威廉·莎士比亚正在与一个由披萨制成的机器人搏斗"

🚨 AI News | TestingCatalog@testingcatalog · 5月20日30

Gemini Omni test 🔥 One of the best "Cyberpunk hacker robot" videos I've seen so far. It handled scene composition much better than the latest Veo model.

译Gemini Omni测试 🔥 这是我目前见过的最棒的“赛博朋克黑客机器人”视频之一。它在场景构图方面比最新的Veo模型处理得更好。

歸藏(guizang.ai)@op7418 · 5月20日67

哇! 谷歌新视频模型 Gemini Omni Flash 已经上线 FLow

歸藏(guizang.ai)@op7418 · 5月20日50

谷歌 Gemini Omni Flash 视频编辑测试。 你们应该能猜到我原始视频是在哪儿录的,反正效果远不如 SeeDance 2.0

译用户测试了谷歌新上线的Gemini Omni Flash的视频编辑功能,但实际效果并不理想。用户提及原始视频来源,并明确表示其效果远不如SeeDance 2.0。同时,该推文引用了另一条关于Gemini Omni Flash已上线Flow平台的信息,表明其具备了一定的可用性。整体来看,尽管新模型可用,但用户对其当前的视频编辑能力持保留态度,并认为在效果上与特定竞品存在差距。

🚨 AI News | TestingCatalog@testingcatalog · 5月19日59

GOOGLE I/O 🔥: More Google Flow updates! Characters and Scenes are now available there, too! Users can create characters that can later be reused for video generation. Different character voices are also available. Besides that, the Google Flow app for Android is now available on Google Play. TESTING TIME! 👀

译Google Flow在I/O期间发布了一系列重要更新。核心功能包括新增角色与场景创建,用户可生成并复用角色形象与语音,用于视频创作。应用已正式登陆Google Play,覆盖Android平台。通过集成Gemini Omni,Flow获得了新的AI助手体验,用户可通过聊天模式与Gemini协作,进行概念构思、图像变体生成等智能操作,并新增了可定制的风格工具。

歸藏(guizang.ai)@op7418 · 5月19日58

谷歌新的视频模型 Gemini Omni 已经开始放量了

AYi@AYi_AInotes · 5月19日64

Damn it!SAM3绝逼要封神了! 不但开源而且强的一批! 最牛逼的地方是追踪能力, 即使在篮球比赛这种 复杂到爆炸的场景里也稳得一逼!!

Alibaba Cloud@alibaba_cloud · 5月19日45

🎬 Proud Title Sponsor of the AI Film Festival Monaco! We're honored to be named Title Sponsor of the AI Film Festival Monaco 2026 — a groundbreaking gathering where cinema meets artificial intelligence. As a global leader in cloud computing and AI infrastructure, Alibaba Cloud is committed to empowering creators, studios, and innovators with the tools they need to shape the future of storytelling. From training large foundation models and generating immersive video content to delivering high-performance rendering at scale, our cloud platform provides the elastic, secure, and intelligent foundation for AI-native creative production. This festival embodies the powerful convergence of technology and artistry — and we're excited to support a new generation of visionaries building at the speed of AI. Join us in Monaco: 🔗 Get your seat to the future: https://int.alibabacloud.com/m/1000413073/ 📍 One Monte Carlo, Monaco 🗓 June 9–10, 2026 #AlibabaCloud #AIFilmFestiva #CreativeTech #GenerativeAI #Monaco2026

译阿里巴巴云宣布成为2026年蒙特卡洛人工智能电影节的冠名赞助商。该电影节旨在探索电影与人工智能技术的融合。作为全球云计算和AI基础设施领导者,阿里云将为创作者提供大模型训练、沉浸式视频内容生成及大规模高性能渲染等支持,构建AI原生创作所需的弹性、安全与智能云平台,助力新一代创作者加速创新。

歸藏(guizang.ai)@op7418 · 5月19日57

藏师傅这个通过前端生成讲解视频的 Skill 其实已经搞完了。 但是还是想优化一下效果,提高一下工程化,以及降低一下 Token 的用量。 所以我让 Claude Code 跑了一个 40 秒钟的案例,然后让他对其中的 Token 进行了一下分析,看一下哪边占比比较多,然后再进行针对性的优化。 看起来其中视频组合消耗的百分比非常大。如果用 Claude Code 的话,会有 92% 的缓存,所以还好。 具体分析如下: 1. 总消耗:一个 40 秒的视频是 145 万 Token 2. 消耗结构: (a) 输入占比非常高 (b) 输出占比很低,仅占 0.7% 视频组合和 Skills 占了最大的大头。

译“藏师傅”前端视频生成技能已完成,当前重点在于提升工程化水平与降低Token消耗。对一段40秒视频案例的分析显示,总消耗达145万Token,其中视频组合部分占比极高,但得益于92%的缓存率成本可控。该方案由PPT Skill(美学动效)、HyperFrames(时间线渲染)、Listenhub Skill(配音)及即梦CLI(生成演示镜头)协同完成。

Luma@LumaLabsAI · 5月19日54

Great advertising doesn't just translate. It resonates. One campaign rarely fits every market. Define the region, set the message, and let Luma Agents handle every localized variation from there. The right creative, the right language, built for every audience you need to reach. Reach every market → http://lumalabs.ai/app

译优秀的广告不止于翻译,更在于共鸣。 单一营销活动很难适用于所有市场。明确目标区域,设定核心信息,然后让 Luma Agents 处理后续所有本地化变体。为每个目标受众打造合适的创意与语言。 触达每个市场 → http://lumalabs.ai/app

歸藏(guizang.ai)@op7418 · 5月19日46

今晚谷歌新视频模型的演示。 看起来肯定是可以进行视频编辑了,就是不知道是统一模型还是跟生成分开的

译谷歌新视频模型的演示表明其可能具备视频编辑功能,引发了关于模型架构是否统一或分开生成与编辑的讨论。此演示与Google I/O 2026会议相关,Sundar Pichai推文预告会议将于明天10am PT举行,预示着更多技术细节可能在此次活动中披露。

Alibaba Cloud@alibaba_cloud · 5月19日39

We're excited to share that Alibaba Cloud Singapore will be at ATxEnterprise EXPO Hall 3, Booth 3K3-4! Visit us to discover how Alibaba Cloud is accelerating enterprise transformation with AI through intelligent infrastructure, AI-native technologies, and real-world solutions. What to expect at our booth: Live booth presentations and solution showcases Try out our AI Business Card Studio and take home your own AI-powered business card Experience our latest AI innovations and enterprise solutions - from Happy Horse, the latest powerful AI video content creation tool, to Qoder - agentic AI assistants, TiDB, powered by PingCAP AI-ready database capabilities, and enterprise AI solutions by Lingyang. Come explore how AI is reshaping the future of business with us. See you there! Lumen Technologies Asia Pacific #AlibabaCloudSG #AI #DigitalTransformation #LLM #Qwen #ATxEnterprise

译阿里云新加坡将在ATxEnterprise展会展示其通过智能基础设施、AI原生技术与现实解决方案加速企业转型的成果。重点展示包括AI Business Card Studio、AI视频工具Happy Horse、代理式AI助手Qoder、基于PingCAP AI就绪数据库能力的TiDB,以及Lingyang的企业AI解决方案。其合作伙伴Lumen Technologies亚太区也将参与。

Berryxia.AI@berryxia · 5月19日16

Gemini 视频Veo4.𝕏 ? 要来了,期待超越SD2啊!兄弟们~~

meng shao@shao__meng · 5月19日47

这就是 Veo 4 吗? 如果是,这个视频续写和不同特效切换,在视频剪辑方面效果很不错,而且视频长度加长到 10s 了。

译推文疑似展示或讨论了Veo 4的视频生成能力,重点提及了视频续写、不同特效切换等效果,以及视频时长增加至10秒的新特性。该推文引用了Google CEO Sundar Pichai的预告,暗示这些展示可能与即将举行的Google I/O 2026大会相关。

🚨 AI News | TestingCatalog@testingcatalog · 5月19日68

GOOGLE I/O 🔥: These legends are AI-generated via an upcoming Gemini Omni model. > Both videos are 8s HD samples. > Video with Sandar and Demis is likely generated as an image-to-video using Omni for style editing. > Logan's video is likely a "Likeness" Avatar and Omni video. And "GEMINI" means a new model release! 🤯

译谷歌I/O 🔥:这些传奇人物是通过即将推出的Gemini Omni模型生成的AI图像。 > 两段视频均为8秒高清样本。 > 与Sundar和Demis相关的视频很可能是使用Omni进行风格编辑的图像转视频生成。 > Logan的视频则可能是“相似度”虚拟形象与Omni视频的结合。 而“GEMINI”意味着新模型的发布!🤯

Luma@LumaLabsAI · 5月19日19

The best features speak for themselves. Give them the visuals to do it. Define the highlight. Set the aesthetic. Luma Agents build every feature visual from there. Show it off → http://lumalabs.ai/app

译最好的功能自己会说话。给它们视觉来展现。 定义亮点。设定美学。Luma Agents 从那里构建每个功能视觉。 展示它 → http://lumalabs.ai/app

Elon Musk@elonmusk · 5月19日50

Grok agent mode is a major ability unlock

译xAI更新了Grok的Agent模式,这被视为其能力的一次重大提升。该模式显著简化了AI视频创作流程。基于Grok Imagine,创作者能更流畅地制作视频,并借助Grok的理解能力完成素材生成与对话,无需额外配音,极大节省了时间成本。据早期测试,生成视频的写实效果良好,且图片参考等功能增强了实用性。这标志着AI在自动化、高质量内容生成领域取得了新的进展。

Kling AI@Kling_ai · 5月18日19

POV: turning my friend into a video game loading screen ⌛️

译视角:把我的朋友变成视频游戏加载界面 ⌛️

Runway@runwayml · 5月18日58

Runway Characters can now take actions, not just speak. Tell the real-time video agent what you want, and they can call tools for you. Learn more about how to integrate tool calling into your product at the link below.

译Runway角色现在不仅能说话,还能执行操作。告诉实时视频代理你想要什么,它们就能为你调用工具。 了解更多如何将工具调用集成到你的产品中,请点击下方链接。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月20日
11:02
PixVerse@PixVerse_
18
Cam Live做它最擅长的事! #PixVerse #F1 #Broadcast #AIvideo

pink shih tzu ponta: お姉さんがこんなところに! Cam Live on PixVerse @PixVerse_ #PixVerse #F1 #Broadcast #AIvideo

产品更新视频
10:05
Berryxia.AI@berryxia
19
我是想给一些零售连锁品牌做一些类似的实时模型的分析,或者也不用实时,进行视频解析就够了。 未来识别会看到更多的类似的场景应用啊~
其他视频
09:14
meng shao@shao__meng
64
Gemini Omni 来了!Google 的优势,果然还是在多模态模型吧?!

Google发布了原生多模态模型Gemini Omni。与传统模型需逐帧描述不同,它采用底层原生设计,支持以意图驱动生成视频,并能通过多轮对话进行编辑,每一步都基于上一结果,确保一致性。该模型融合了Gemini的世界知识与物理直觉,并能将图、文、音视频等任意参考物组合,实现跨模态叙事生成。其目标是“从任何东西创造任何东西”,并从视频生成起步。

Google DeepMind: We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....

DeepMindGoogle多模态模型发布
08:31
向阳乔木@vista8
47
小红书也是真离谱,AI生成的几秒无声视频,提示笔记违规。 抖音,视频号,x发布都没问题。 连视频没声音都管,何况只有几秒而已。。。
安全/对齐现象/趋势视频
08:05
Berryxia.AI@berryxia
63
Gemini Omni:不止于真实,更懂推理

Google 发布的 Gemini Omni 模型核心能力升级,它不仅能生成高度真实的场景,更关键的是具备了对物理世界后续发展的推理能力。这一能力源于其对物理学的直观理解与广泛的背景知识结合。该模型现已向全球 Google AI Plus、Pro 和 Ultra 订阅用户推出,初期将优先支持视频内容的生成与输出。

Google产品更新多模态视频
08:05
Berryxia.AI@berryxia
71
Google DeepMind发布Gemini Omni,迈向"生成万物"愿景

Google DeepMind在I/O大会上发布了Gemini Omni模型,旨在迈出“从任何东西生成任何东西”的第一步。该模型将Gemini的智能与生成媒体系统深度融合,在世界理解、多模态和编辑能力上实现飞跃。其核心特点在于生成的视频能保持角色、光影等逻辑一致性,并支持通过自然语言进行实时编辑和风格调整,将视频转变为可动态演进的“世界素材”。该模型目前已在部分应用上线并即将开放API,不过其实际效果,尤其是在中文生成方面,仍存在一些讨论。

Google DeepMind: We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....

Google多模态模型发布视频
08:02
Ethan Mollick@emollick
62
该推文展示了2025年7月(两年前)AI视频生成模型所能达到的"最先进"技术水平,并以此作为当前讨论的参照。引用部分提供了关键上下文:早期Gemini Omni模型能根据包含多个角色、复杂场景与叙事逻辑的超现实文本提示(如飞行员海獭解释航空公司破产、莎士比亚与披萨机器人战斗等),生成相应的视频内容。推文作者通过展示这一历史技术状态,回应了关于生成内容细节真实性的讨论。

Ethan Mollick: I had early Gemini Omni access: "sea otter in a pilot's uniform explains why Spirit Airlines went bankrupt to a river ot...

Google多模态大佬观点视频
07:49
小互@xiaohu
55
看看 Gemini Omni的实力 一句话就是:视频版的香蕉🍌 当然远不至于视频的编辑能力,它应该是世界模型的雏形… 通用AGI的初始形态…
Google多模态现象/趋势视频
07:08
Google Gemini@GeminiApp
61
使用Gemini Omni,你可以用自己的声音和形象创建数字分身视频。 当你创建一个数字分身后,你就拥有了自己的AI数字版本,可以轻松生成外观和声音都像你的视频,无需每次都上传你的图像。
Google产品更新多模态视频
06:03
Rohan Paul@rohanpaul_ai
67
谷歌发布Gemini Omni全能AI模型,支持多模态输入与精准视频编辑

谷歌近日推出Gemini Omni,这是一款能处理视频、图像、音频、文本及草图等多种输入的全能型视频AI模型。用户可通过自然语言指令对已有视频进行添加角色、替换物体、调整动作、改变风格、同步音效及移动镜头等操作,且多次编辑后仍能保持场景一致性。该模型具备更强的世界理解能力,能更真实地模拟重力、流体等物理交互,使视频编辑更接近导演创作。输出内容将附带SynthID水印与C2PA内容凭证,以明确标识其AI生成属性。

Google模型发布视频
06:02
Ethan Mollick@emollick
67
《奥德赛》和《伊利亚特》被多次改编成电影,但其续作罗马史诗《埃涅阿斯纪》却完全被忽视。 这是用一段提示词为Gemini Omni制作的预告片。第一版把所有旗帜都做成了丹麦的(?),但Omni能够编辑视频,所以我要求移除了它们。
Google多模态教程/实践视频
04:38
Demis Hassabis@demishassabis
79
Gemini Omni在世界理解与多模态编辑方面实现了重大飞跃!它能处理照片、视频和音频,并构建全新的场景。随着时间的推移,它将能够处理任何输入和任何输出--从视频开始。 你甚至可以提供自己的视频,并在此基础上迭代你的想法:
Google多模态模型发布视频
04:11
Josh Woodward@joshwoodward
32
Gemini Omni太有趣了--视频编辑能力简直逆天!
Google多模态大佬观点视频
03:40
Google AI@GoogleAI
74
到现在,你可能已经听说了 Gemini Omni,这是我们新推出的模型,旨在从任意输入(从视频开始)创造任何内容。 但……这有什么大不了的? 让我们来分解一下 🧵👇
Google多模态模型发布视频
03:29
Sundar Pichai@sundarpichai
79
Gemini Omni不仅能构建逼真的场景,还能推理接下来应该发生什么。它结合了对物理的直观理解与Gemini在历史、科学和文化背景方面的知识。 今日起,通过@Geminiapp + Google Flow和@YouTube Shorts,向全球Google AI Plus、Pro和Ultra订阅用户推出视频生成功能。
Google多模态模型发布视频
03:08
Google Gemini@GeminiApp
81
介绍Gemini Omni,我们的新模型,可以从任何输入创建任何内容,首先从视频开始。 借助Gemini Omni,您可以将图像、视频和文本作为输入组合,并生成基于Gemini现实世界知识的高质量视频。#GoogleIO
Google多模态模型发布视频
02:55
AYi@AYi_AInotes
80
Google Gemini Omni重新定义视频生成

Google推出Gemini Omni,首个面向消费者的世界模型。它通过自然语言交互,将Gemini的智能与生成媒体系统结合,实现了对物理规律、历史、生物等世界的深刻理解。用户可以像编辑ChatGPT文本一样用单句指令编辑视频,实现人物一致性、风格迁移、角度调整等功能。它不是单纯生成像素,而是模拟连贯的物理与语义世界,标志着AI视频生成从拼接工具向智能创作系统的飞跃。

Google DeepMind: We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....

DeepMindGoogle图像生成多模态
02:41
Google DeepMind@GoogleDeepMind
精选72
Google Flow 🤝 Gemini Omni 使用我们的最新模型创作更具电影感的故事,它带来了批量编辑、改进的角色一致性等功能。以下是@FlowbyGoogle的其他新功能 → https://goo.gle/42K2nge #GoogleIO
Google产品更新视频

推荐理由:Google Flow 终于把批量编辑和角色一致性拉上来了,对做视频内容的人能省不少事,虽然不算颠覆性的代际更新,但实用度提升明显。
02:30
Chubby♨️@kimmonismus
81
真正的"哇"时刻是 Gemini Omni。一个迈向 AGI 的世界模型。 它可以从任何输入创建任何内容。这太疯狂了。

Logan Kilpatrick: Introducing Gemini Omni 🔮........ Omni is our new model that can create anything from any input - starting with video (...

Google多模态模型发布视频
01:59
Ethan Mollick@emollick
74
Gemini Omni:"一个男人一边吃着蒜香面包,一边在独轮车上保持平衡,站在翻滚的番茄酱海洋上方的小平台上,朗读《荒原》中的《溺水之死》。在酱海中央,漂浮着一颗戴着高顶礼帽、长着亮蓝色眼睛的肉丸。"
Google其他多模态视频
01:41
Google DeepMind@GoogleDeepMind
78
我们推出Gemini Omni:这是迈向一个能从任何内容生成任何内容的模型的第一步--从视频开始。 它结合了Gemini的智能与我们的生成式媒体系统--代表了在世界理解、多模态和编辑方面的飞跃🧵
DeepMindGoogle多模态模型发布
01:28
Ethan Mollick@emollick
44
我早期获得了Gemini Omni的访问权限:"一只穿着飞行员制服的海獭在纽约上空的热气球里,向一只被笔记本电脑分心的河獭解释为什么精神航空破产了。在旁边的另一个热气球里,威廉·莎士比亚正在与一个由披萨制成的机器人搏斗"
Google其他多模态视频
00:34
🚨 AI News | TestingCatalog@testingcatalog
30
Gemini Omni测试 🔥 这是我目前见过的最棒的"赛博朋克黑客机器人"视频之一。它在场景构图方面比最新的Veo模型处理得更好。
Google视频评测/基准
00:09
歸藏(guizang.ai)@op7418
67
哇! 谷歌新视频模型 Gemini Omni Flash 已经上线 FLow
Google多模态模型发布视频
00:09
歸藏(guizang.ai)@op7418
50
用户测试了谷歌新上线的Gemini Omni Flash的视频编辑功能,但实际效果并不理想。用户提及原始视频来源,并明确表示其效果远不如SeeDance 2.0。同时,该推文引用了另一条关于Gemini Omni Flash已上线Flow平台的信息,表明其具备了一定的可用性。整体来看,尽管新模型可用,但用户对其当前的视频编辑能力持保留态度,并认为在效果上与特定竞品存在差距。

歸藏(guizang.ai): 哇! 谷歌新视频模型 Gemini Omni Flash 已经上线 FLow

Google视频评测/基准
5月19日
23:34
🚨 AI News | TestingCatalog@testingcatalog
59
Google Flow在I/O期间发布了一系列重要更新。核心功能包括新增角色与场景创建,用户可生成并复用角色形象与语音,用于视频创作。应用已正式登陆Google Play,覆盖Android平台。通过集成Gemini Omni,Flow获得了新的AI助手体验,用户可通过聊天模式与Gemini协作,进行概念构思、图像变体生成等智能操作,并新增了可定制的风格工具。

🚨 AI News | TestingCatalog: GOOGLE I/O 🔥: Google Flow is getting Gemini Omni and a new Flow Agent experience! > Your Agent is active! Ask Gemini to...

Google产品更新多模态视频
23:09
歸藏(guizang.ai)@op7418
58
谷歌新的视频模型 Gemini Omni 已经开始放量了

Charlie L.: Gemini Omni is starting to rollout for some users!

Google模型发布视频
20:52
AYi@AYi_AInotes
64
Damn it!SAM3绝逼要封神了! 不但开源而且强的一批! 最牛逼的地方是追踪能力, 即使在篮球比赛这种 复杂到爆炸的场景里也稳得一逼!!
Meta开源生态模型发布视频
12:44
Alibaba Cloud@alibaba_cloud
45
阿里云冠名2026年蒙特卡洛人工智能电影节

阿里巴巴云宣布成为2026年蒙特卡洛人工智能电影节的冠名赞助商。该电影节旨在探索电影与人工智能技术的融合。作为全球云计算和AI基础设施领导者,阿里云将为创作者提供大模型训练、沉浸式视频内容生成及大规模高性能渲染等支持,构建AI原生创作所需的弹性、安全与智能云平台,助力新一代创作者加速创新。

多模态行业动态视频
11:59
歸藏(guizang.ai)@op7418
57
藏师傅前端视频生成Skill完成与优化分析

“藏师傅”前端视频生成技能已完成,当前重点在于提升工程化水平与降低Token消耗。对一段40秒视频案例的分析显示,总消耗达145万Token,其中视频组合部分占比极高,但得益于92%的缓存率成本可控。该方案由PPT Skill(美学动效)、HyperFrames(时间线渲染)、Listenhub Skill(配音)及即梦CLI(生成演示镜头)协同完成。

歸藏(guizang.ai): 让 Codex 自己做了一条视频介绍了一下这个视频生成方案 藏师傅的 PPT Skill 负责美学、版式、动效 HyperFrames 负责时间线和渲染、字幕 Listenhub Skill 负责配音 即梦 CLI 负责 前端无法生成的演示...

智能体MCP/工具教程/实践视频
11:10
Luma@LumaLabsAI
54
优秀的广告不止于翻译,更在于共鸣。 单一营销活动很难适用于所有市场。明确目标区域,设定核心信息,然后让 Luma Agents 处理后续所有本地化变体。为每个目标受众打造合适的创意与语言。 触达每个市场 → http://lumalabs.ai/app
智能体产品更新视频
10:59
歸藏(guizang.ai)@op7418
46
谷歌新视频模型的演示表明其可能具备视频编辑功能,引发了关于模型架构是否统一或分开生成与编辑的讨论。此演示与Google I/O 2026会议相关,Sundar Pichai推文预告会议将于明天10am PT举行,预示着更多技术细节可能在此次活动中披露。

Sundar Pichai: On our way to I/O 2026. See you at 10am PT tomorrow!

Google产品更新多模态视频
10:40
Alibaba Cloud@alibaba_cloud
39
阿里云新加坡展会主推AI企业转型方案

阿里云新加坡将在ATxEnterprise展会展示其通过智能基础设施、AI原生技术与现实解决方案加速企业转型的成果。重点展示包括AI Business Card Studio、AI视频工具Happy Horse、代理式AI助手Qoder、基于PingCAP AI就绪数据库能力的TiDB,以及Lingyang的企业AI解决方案。其合作伙伴Lumen Technologies亚太区也将参与。

智能体行业动态视频
09:56
Berryxia.AI@berryxia
16
Gemini 视频Veo4.X ? 要来了,期待超越SD2啊!兄弟们~~

Logan Kilpatrick: Gemini

Google行业动态视频
09:26
meng shao@shao__meng
47
推文疑似展示或讨论了Veo 4的视频生成能力,重点提及了视频续写、不同特效切换等效果,以及视频时长增加至10秒的新特性。该推文引用了Google CEO Sundar Pichai的预告,暗示这些展示可能与即将举行的Google I/O 2026大会相关。

Sundar Pichai: On our way to I/O 2026. See you at 10am PT tomorrow!

Google多模态行业动态视频
08:49
🚨 AI News | TestingCatalog@testingcatalog
68
谷歌I/O 🔥:这些传奇人物是通过即将推出的Gemini Omni模型生成的AI图像。 > 两段视频均为8秒高清样本。 > 与Sundar和Demis相关的视频很可能是使用Omni进行风格编辑的图像转视频生成。 > Logan的视频则可能是"相似度"虚拟形象与Omni视频的结合。 而"GEMINI"意味着新模型的发布!🤯

Logan Kilpatrick: Gemini

Google图像生成多模态模型发布
05:39
Luma@LumaLabsAI
19
最好的功能自己会说话。给它们视觉来展现。 定义亮点。设定美学。Luma Agents 从那里构建每个功能视觉。 展示它 → http://lumalabs.ai/app
产品更新视频
00:20
Elon Musk@elonmusk
50
xAI更新了Grok的Agent模式,这被视为其能力的一次重大提升。该模式显著简化了AI视频创作流程。基于Grok Imagine,创作者能更流畅地制作视频,并借助Grok的理解能力完成素材生成与对话,无需额外配音,极大节省了时间成本。据早期测试,生成视频的写实效果良好,且图片参考等功能增强了实用性。这标志着AI在自动化、高质量内容生成领域取得了新的进展。

Déborah: I've finished a video of just over 4 minutes, entirely created using Grok Imagine's Agent mode (see image). It's a much ...

智能体xAI产品更新图像生成
5月18日
23:13
Kling AI@Kling_ai
19
视角:把我的朋友变成视频游戏加载界面 ⌛️
其他图像生成视频
22:31
Runway@runwayml
58
Runway角色现在不仅能说话,还能执行操作。告诉实时视频代理你想要什么,它们就能为你调用工具。 了解更多如何将工具调用集成到你的产品中,请点击下方链接。
智能体产品更新视频
‹ 上一页
1…910111213…17
下一页 ›