Your credits go further on every generation. Same model, same quality, more videos. Wan 2.7 is a powerful, next-generati...
xAI前视频多模态负责人Ethan He在离职转向语言模型研究时表示,视频模型最大的瓶颈是语言模型。他曾在NVIDIA参与Cosmos模型开发,并在加入xAI后三个月内从零搭建出Grok Imagine 0.9。他指出训练视频模型成本高昂,例如存储10亿个视频需5PB,仅AWS月费就达数百万人民币。视频模型需先预训练图像模型,再通过VLM生成合成字幕以解决数据对齐问题。当前模型在生成长视频时上下文容易爆炸,而他认为扩散模型对文本的理解过于字面化,对语言意图的深层理解才是突破关键。
雪山の山頂に導火線が到着すると・・・ See the world like a child. Create it with PixVerse🎈✨ @PixVerse_ #PixVerseChallenge #pixverse
Can MLLMs actually track what's happening in a video? Introducing VSTAT 🎯, our new benchmark for visual state tracking....
🤓rig+mocap+retarget整个流程走通了。 下一步是完善游戏的controller,做state machine 然后明天开始演戏当动捕演员了🤓 准备给我的游戏设计几个酷炫的技能 想想就好激动。
In case you missed it, I published a video last week that was 100% edited by @cursor_ai + @Remotion + @FFmpeg turning th...
美团LongCat发布视频世界模型评测基准WBench。该基准将测试重点从画面美观转向控制、多轮记忆、指令遵循和物理合理性等核心能力。它包含289个案例、1058个交互轮次,评估了20个模型在导航、主体动作、事件编辑等5个维度的表现,共使用22项自动指标。研究发现,没有任何模型能在所有维度上占据主导,这表明现有系统尚未将高质量渲染、可靠控制、长期记忆与物理规则遵循整合为稳定能力。WBench的设计能区分失败是源于渲染、场景设置、控制还是物理问题,并指出导航能力与视觉质量基本无关。
Gemini Omni现已上线数字头像(Avatar)创建功能。用户可通过Gemini App或网页,按三步流程(拍照、录语音、系统自动生成)创建外观和声音都像自己的数字分身。该功能可直接应用于视频创作,显著降低了制作个人视频内容的门槛。所有由Gemini Omni生成的视频均自动嵌入SynthID数字水印,可用于验证视频是否为AI生成及出处,以技术手段防范深假风险。
Easily add yourself to your video creations in Gemini. Here's how to create your own digital avatar that looks and sound...
前xAI世界模型负责人Ethan He在播客中分享了对Grok Imagine及视频生成未来的看法。他指出,视频模型的智能主要来自LLM,而非单纯扩大视频数据规模,因此正从视频生成转向LLM领域。他认为,视频生成的下一个前沿是训练用于编排视频模型的视频Agent模型。AI视频的发展将类似编程Agent路径,当前文本到视频仅是“自动补全”阶段。未来,世界模型将变得实时交互,语言模型或成为视频的控制层。
🆕Grok Imagine's Video Agent Moment: Cosmos, xAI, World Models, Generative UI, & the Codex Phase for Video! https://www....
KwaiKeye开源了多模态大模型Keye VL 2.0-30B-A3B,采用Apache 2.0许可。该模型总参数为30B,但仅激活3B参数。其核心亮点是通过DeepSeek稀疏注意力技术实现了256K的上下文长度。该模型的视频理解能力表现出一个反直觉的特性:喂入的帧数越多,其准确率反而持续上升。在基准测试中,其表现已与Qwen3 VL、Gemini 3 Flash等模型相当。
Keye VL 2.0-30B-A3B 🔥 New multimodal model from @KwaiKeye ✨ 30B/3B active - Apache 2.0 ✨ 256K context via DeepSeek Spar...
人魚の耀が海の中を案内してくれる動画🐬 🪼1個目の動画がPixVerse V6 スピード感とか色使いとか、夢の世界感ある😆 🪼2個目の動画がSeedance2.0 フォトリアルな写真も使えるようになったらしい。耀の顔が崩れずに動画に...
Congrats to the @MiniMax_AI team on the release of M3! 👉 A frontier-class open-weight model 👉 1M context window 👉 Nat...
关联讨论 12 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)IT之家(RSS)It's actually crazy how few people are talking about how powerful Pixverse C1 is for text-to-VFX.We're on a completely d...
女儿想要哈利波特的魔法世界,我用 ColaOS 在两周内给她造了一个专属游戏 从故事→剧本→分镜→人物/场景剧照→转场视频→音效→鼠标特效,一共设计了 5 种结局。收集物品解锁成就,最终打开下一个故事的彩蛋。 但看到她认真玩进去的那一刻--...
Nothing is impossible. It's just a matter if one is willing or not. Made in PixVerse @PixVerse_
Seedance2.0の動画で、赤い線で進行ルートを決めるやつやってみた😊(1/2) 細かい軌跡は無視しがち @PixVerse_ [PR]
Grok-Imagine-Video-1.5-Preview (720p) has landed #1 in the Image-to-Video Arena! This is a massive +52 pt improvement ov...
推文通过《黑袍纠察队》AI视频案例,点明AI意义在于呈现“希望发生的”剧情。核心讨论了AI工具的两条发展路径:以Claude Code为代表的“AI智能体型”(自主运行)与以Cursor为代表的“实习生型”(需人类监督判断)。作者认为后者是“以术入道”培养判断力的过程,但受限于必须人在场。为此推荐使用免费的UU远程配合Cursor,实现手机远程控制电脑,消除物理距离限制,从而随时随地磨练使用者自身,成为优秀的提问者。
今天,把一件关于 AI 很底层的事,彻底想透了。 使用 AI 的最佳方式是以道御术,但前提是你得先以术入道。 就像黄仁勋说的--真正会用 AI 的人,都是极高认知的提问者,带着自己的认知去提问,让 AI 帮你叩开未知的边界,而不是让它替你思...