Building a Precise Video Language with Human-AI Oversight paper: https://huggingface.co/papers/2604.21718

译构建一个由人类与AI监督的精确视频语言 paper: https://huggingface.co/papers/2604.21718

Amazing

译开发者通过整合Google Maps的街景与3D视图功能，利用OPENAI进行路线优化与关键地点提取，并结合预设的角色卡，调用Seedance的API，实现了从起点到终点的引导视频自动生成。该系统能自动选取路线中的标志性地标，并将虚拟角色融入场景进行引导。生成的视频片段经手动合成编辑后，最终形成完整的导航视频，展现了AI技术对生活方式的革新。

AK@_akhaliq · 4月28日48

Video Analysis and Generation via a Semantic Progress Function paper: https://huggingface.co/papers/2604.22554

译通过语义进展函数进行视频分析与生成 paper: https://huggingface.co/papers/2604.22554

阿绎 AYi@AYi_AInotes · 4月27日60

Damn，Hollywood is fucking over！ GPT-image-2+Seedance 2 就是一个超级王炸组合！有人用 Seedance 2.0 把《权力的游戏》搬到 2048 年了，居然比原版还带感！这个《权力的游戏：2048》的概念短片，直接把整个维斯特洛大陆重建成了赛博反乌托邦，尖端科技和废土地貌彻底改写了七大王国的模样，铁王座是用黄金 AK47 铸成，龙妈骑的是喷着等离子火焰的机械龙，夜王成了浑身发着冷光的赛博亡灵，连 HBO 标志性的片头都完美复刻，只是把中世纪城堡换成了刺破云层的摩天大楼，把冰原荒原换成了霓虹闪烁的废墟。最离谱的是，这压根不是 HBO 拍的，是普通人用 AI 做的电影级短片，光影质感、镜头运镜、那种刻在骨子里的权力肃杀感，每一帧都能直接截下来当电影海报。原来最经典的故事，永远能在新的时代长出最惊艳的样子，乔治・马丁要是刷到这个，估计都得愣三秒。兄弟们最想看哪个角色的赛博版？我先说，赛博詹姆・兰尼斯特，那只机械手简直就是是给他量身定做的。说实话，看到这个的时候我真的愣了很久。以前拍一部史诗级电影，要几亿预算，几百人的团队，熬好几年，现在一个人，一台电脑，就能拍出能和 HBO 掰手腕的东西。这才是 AI 最动人的地方。它把以前只有好莱坞握在手里的创作权，掰了一半，交到了每一个普通人手里。我自己一直在用 Rita，官方直连原版 Seedance 2.0，不用排队，没有降智，参数全开放，你脑子里任何天马行空的想法，现在都能变成看得见的画面，这大概就是这个时代，给普通人最好的礼物。

译网友利用GPT-image-2和Seedance 2.0等AI工具，创作出赛博朋克风格的《权力的游戏：2048》概念短片，将维斯特洛大陆重构为反乌托邦世界，其电影级质感可媲美HBO原作。这标志着AI技术正将曾属于好莱坞的顶级创作权下放给普通人，大幅降低了史诗级内容的制作门槛。同时，AI也成为有效的创收工具，例如通过特定平台批量生成“AI美女跳舞”类短视频，可凭借流量分成和商单实现低门槛副业盈利，目前该赛道仍处红利期。

阿绎 AYi@AYi_AInotes · 4月27日51

兄弟们，seedance 2.0 不抽卡、一次性出片的提示词见过吗，今天分享的几套提示词都是一次过没有任何返工的，大家可以直接拿去用🫡 当然 seedance 2.0 现在很贵，也经不起抽卡😂😂😂，睡睡前又肝了一版金瓶梅里的经典名场面，配一句词话里我最喜欢的诗。宿尽闲花万万千，不如归去伴妻眠。虽然枕上无情趣，睡到天明不要钱。现在真的是，只要提示词写得到位，一次就能出这种电影级别的成片，以前拍一个这样的镜头要几十万，现在一杯咖啡钱都不到。你们还想看哪个古典名著的名场面，评论区说。老规矩提示词评论区自取👇

译作者分享Seedance 2.0的提示词，可一次性生成高质量视频，无需返工，实现低成本电影级别制作。引用推文指出，利用Rita平台的Seedance2.0和GPT-image-2批量生成AI美女跳舞视频，在小红书、抖音和支付宝视频号等平台通过流量分成和商单盈利，适合零门槛副业。当前赛道处于红利期，提示词到位即可高效产出内容，大幅降低传统拍摄成本。

阿绎 AYi@AYi_AInotes · 4月26日54

Hollywood is over. 讲真，这要是真的Netflix版水浒传，我直接买票刷十遍😈 莱昂纳多演宋江，那股子藏在忧郁里的城府，及时雨的权谋感直接拉满，感觉下一秒就要在浔阳楼题反诗了 hhh 锤哥演李逵，雷神的身板加上黑旋风的暴躁，这压迫感，谁看了不腿软🤪 范迪塞尔演鲁智深，光头肌肉花臂，连妆都不用化，倒拔垂杨柳我真信他能做到💪('ω'💪) 甜茶演武松，清冷孤绝的劲儿，完全就是行者武松该有的样子(･ω･)🍵 安雅演李师师，一颦一笑都是风情，一眼万年的感觉直接出来了🤩 瑞恩高斯林演混江龙李俊，雨中撑船的那个眼神，江湖大佬的气场直接拉满😎 还有奥妹演扈三娘，英姿飒爽，又美又能打✌️ 最离谱的是，这是用 seedance 2.0 几分钟生成的视频，光影质感服化道，每一帧都像烧了几百万的大片，结果成本几乎为零🤣 以前我们总说，好的选角可遇不可求，现在好了，只要你脑子里有想法，就能把你心中最完美的演员，放到最适合的角色里，拍出你自己的天花板版本。我觉得这才是AI最可怕的地方，它把影视行业最昂贵的选角和视觉门槛，直接砸到了地板上。兄弟们，这个阵容要是真上映，你们会买票吗。

译用户利用Seedance 2.0等AI工具，仅用几分钟便生成了质感精良的《水浒传》明星选角概念视频，成本极低。视频中，莱昂纳多、锤哥、范·迪塞尔等演员被精准“分配”给宋江、李逵、鲁智深等角色，效果逼真。这凸显了AI技术正将影视行业中最依赖经验与资本的选角、视觉制作门槛急剧降低，使得个人能够轻松地将创意构想转化为高质量视觉内容，预示着创作权力格局的深刻变化。

Rohan Paul@rohanpaul_ai · 4月26日41

Medeo AI just brought a single creative workflow that pairs GPT Image 2.0 for high-quality photos with Seedance 2.0 for cinematic video inside one tool. keep image generation, video generation, and prompt reuse in one pipeline so the same assets can move from still frame to motion without manual handoffs. They are actually giving access to GPT Image 2 for free for a short time.

译Medeo AI推出集成式创意工具，将GPT Image 2.0的高质量图像生成与Seedance 2.0的电影级视频生成结合在同一工作流中。该方案允许用户无需切换工具即可完成从静态图像到动态视频的创作，并支持提示词复用，实现资产无缝衔接。目前正限时免费提供GPT Image 2.0的访问权限，旨在通过整合多款顶尖AI模型提升全流程创作效率。

Rohan Paul@rohanpaul_ai · 4月26日39

Medeo AI just brought a single creative workflow that pairs GPT Image 2.0 for high-quality photos with Seedance 2.0 for cinematic video inside one tool. keep image generation, video generation, and prompt reuse in one pipeline so the same assets can move from still frame to motion without manual handoffs. They are actually giving access to GPT Image 2 for free for a short time.

译Medeo AI推出整合性创意工具，将GPT Image 2.0的高质量图像生成与Seedance 2.0的电影感视频生成结合在单一工作流中。该方案允许用户在同一管道内完成图像生成、视频生成及提示词复用，实现静态帧到动态画面的无缝转换，无需手动切换工具或重复导出。目前正限时免费提供GPT Image 2.0的访问权限。

Kling AI@Kling_ai · 4月26日39

720p saw the silhouette, but 4K sees every hair lit against the sun. ✨ See more in Kling 4K.

译720p 看到了轮廓，但 4K 能看到每一根在阳光下闪耀的发丝。✨ 在 Kling 4K 中查看更多。

阿绎 AYi@AYi_AInotes · 4月26日44

Damn，我怎么也想不到，2026年的今天，我这种连剪映都用不利索的纯小白，用Seedance 2.0花了几分钟，居然手搓出了一个刘邦白登之围的历史大片。兄弟们看这大雪漫天，兵临城下，旌旗猎猎，雪原围城，匈奴骑兵压境的那种窒息感，全出来了，这股从屏幕里渗出来的肃杀劲儿，我自己看了都起鸡皮疙瘩。说实话，这一刻我才真正明白，AI视频生成真正厉害的地方，从来不是什么4K清晰度或者60帧流畅度，是它把当导演的门槛，直接砸到了地板上。以前想把脑子里的历史场景拍出来，得找投资，搭摄制组，租摄影棚，烧钱烧到天文数字，现在我一个人，一个想法，五分钟，就能把两千多年前秦汉之交的那种悲壮和绝望，原汁原味地还原出来。再也不是脑子里有IMAX，手里只有手机的无力感了，现在是，你想到什么，就能拍出什么。有人可能会说这不是在降低质量换便捷了吗😂 我认为恰恰相反，AI 是把创意的天花板给彻底拉高了，因为之前的瓶颈其实都不是想象力，主要瓶颈是技术和钱，现在好了，技术和钱的问题解决了，剩下的就只剩你的脑子了哈哈哈，以前总说，每个人脑子里都有一部电影，但也只能想想，现在我们真的可以把它拍出来了🤩🤩🤩 老规矩，提示词和参考图全部开源，评论区自取👇

译用户通过Rita平台使用原版Seedance 2.0模型，仅用几分钟便生成出描绘“刘邦白登之围”历史场景的高质量视频。该体验凸显AI视频生成的核心价值并非单纯提升画质与流畅度，而是将导演门槛降至极低，使个人能快速将创意视觉化。此前创作受限于资金、技术等瓶颈，如今工具便捷性解放了想象力，让创意成为唯一核心。引用推文补充指出，Rita平台直接接入未降配的Seedance 2.0，提供高并发、分钟级出片且成本较低的服务，进一步降低了工具使用门槛。

阿绎 AYi@AYi_AInotes · 4月26日47

很多人总说AI没用，我觉得那是因为你光刷不用，真正能赚钱的人早就闷声发大财了。分享一个用 AI 做副业的路子，有点野，基本上算零门槛，见钱快(｀・ω・´)💰 为啥说零门槛：首先不用囤货不用开店不用露脸，一台电脑就能干，成本低到可以忽略不计。就用Rita平台不用排队不降智的Seedance2.0，加上目前最强的GPT-image-2，批量生成AI美女跳舞视频，这个主题任何平台都是流量密码。发小红书抖音还有支付宝视频号，这三个平台现在都有巨额创作者扶持，光流量分成就能覆盖所有token成本，还能剩不少。等粉丝起来了，内衣美妆品牌方抢着找你投商单，因为你报价比真人网红便宜十倍，他们根本不挑。这个赛道还在红利期，有执行力的赶紧去试吧💪 提示词：画幅：9:16竖屏，时长15秒，5个镜头，纯欲高级感，合规无违禁 --- 镜1｜0-3s 开场眼神杀（脸部特写）竖屏9:16，15秒连贯，24fps，8K超高清，真人写实电影质感，画面稳定不闪烁。顶级颜值东亚美女，精致清透妆容，大波浪卷发，皮肤细腻通透，眼神魅惑紧盯镜头。MENTE MA经典起手手势，双手从下巴轻抬至额头，动作丝滑卡点。柔和环形柔光，面部光影干净，眼神光明显，镜头轻微匀速推进，主体居中，第一人称互动感，色彩高级，细节拉满。 --- 镜2｜3-6s 上半身卡点（中近景）竖屏9:16，24fps，8K超高清，真人写实。完美身材比例，肩颈线条优越，修身黑色显瘦吊带， MENTE MA手势舞，手部交叉波浪动作，手臂随节奏流畅摆动，身体轻晃卡点，眼神持续看向镜头。暖调氛围光，侧光勾勒轮廓，镜头缓慢横移，动作连贯不穿模，主体居中。 --- 镜3｜6-9s 全身展示（全景）竖屏9:16，24fps，8K超高清，真人写实电影质感。顶级腰臀比，修长线条，修身长裤，体态优雅。MENTE MA完整手势循环，腰胯轻摆卡点，动作舒展自然。极简干净背景，柔和顶光+侧光，光影层次强，镜头匀速轻微拉远，动作丝滑无卡顿，人物不畸变。 --- 镜4｜9-12s 手部特写（细节）竖屏9:16，24fps，8K超高清，真人写实。手指修长精致，MENTE MA指尖定点手势，动作干净利落。手臂轻抬轻晃，氛围感拉满。柔光特写，浅景深，镜头轻微跟随手势，焦点清晰，画面高级不低俗，动作流畅。 --- 镜5｜12-15s 收尾定格（上半身特写）竖屏9:16，24fps，8K超高清，真人写实电影质感。顶级颜值美女，MENTE MA收尾定型手势，双手在胸前定点，眼神魅惑，浅笑收尾。镜头快速匀速推近，画面稳定，主体居中，最终定格，高级性感，氛围感拉满。 --- 负面提示词（必加）画面闪烁，动作卡顿，穿模，畸形手指，多余肢体，五官扭曲，崩脸，画质模糊，噪点，镜头晃动，主体出框，表情僵硬，低俗暴露，水印，字幕，多人，穿搭跳变，发型跳变，背景杂乱，画面畸变，色彩失真

译AI可用于低门槛副业赚钱，通过Rita平台直接接入原版Seedance2.0，结合GPT-image-2批量生成AI美女跳舞视频。该平台不排队、不降智且性价比高，适合快速出片。视频可发布到小红书、抖音和支付宝视频号，利用平台创作者扶持获取流量分成，覆盖成本并盈利。粉丝增长后能吸引内衣美妆品牌商单，因报价远低于真人网红。当前赛道仍处红利期，强调执行力是关键。

阿绎 AYi@AYi_AInotes · 4月26日40

Damn，GPT Image 2加Seedance 2就是个王炸组合啊，兄们们看这个做出来的AAA游戏，给我看傻了🤯🤯🤯 0xInk老哥发的这个21秒的游戏实机演示，从主菜单角色定制武器改装，一气呵成切到赛博朋克街头第三人称游玩，光影UI建模和赛博朋克2077几乎没有区别，我看完第一遍真的以为是哪个新工作室的秘密项目，结果老哥在评论区轻描淡写地说，目前只是个概念，还不是可玩的游戏，就是一条纯AI生成的视频，很多人看完破防了，说这就是标题党垃圾，我反而觉得，正是因为它是假的，才更令人深思，以前做一个这样级别的预渲染演示，需要几十人的团队干几个月，烧几百万美金，现在一个人，一台电脑，几美元的token，十几分钟就搞定了，游戏行业最烧钱也最重要的预制作和营销环节，一夜之间被打穿了，以后估计再也不会有大厂靠一个精美预告片就能骗到几千万投资的事了，因为任何人都能做出一样的东西来了哈哈😄

译一段由GPT Image 2和Seedance 2生成的21秒“AAA游戏实机演示”视频引发热议。该视频呈现了从角色定制到赛博朋克街头游玩的完整流程，视觉效果堪比《赛博朋克2077》，但实为纯AI生成的概念视频。这凸显了AI工具对游戏行业预制作和营销环节的冲击：以往需庞大团队、高昂成本和数月时间的预渲染演示，现在个人用一台电脑、少量费用和极短时间即可完成，大幅降低了精美预告片的制作门槛，可能改变行业的投资与宣传模式。

阿绎 AYi@AYi_AInotes · 4月25日37

金瓶梅的艺术成分很高我们都知道，GPT-image-2+seedance 2能复刻一切，比如潘金莲约会西门庆，请兄弟们品鉴。顺便给大家分享我亲测有效的Seedance 2.0 喂提示词技巧，和提示词一起放评论区了，大家自取，视频由Rita制作，特别顶，强烈推荐！

译用户通过Seedance 2.0和Rita平台制作AI视频，复刻了潘金莲与西门庆等经典场景，并分享提示词技巧。Rita平台直接接入原版Seedance 2.0，模型无降智，支持高并发分钟级出片，月费11.99美元可跑30条4秒视频。工具门槛降低后，创作瓶颈从工具操作转向创意打磨，更多时间用于优化prompt和画面分镜。推荐提示词已放在评论区供取用。

阿绎 AYi@AYi_AInotes · 4月25日32

Damn，苹果这波直接把所有AI广告按在地上摩擦，论 no AI used 的含金量🤩🤩🤩 这个 MacBook Neo 的广告完整幕后视频， 64秒，没有一帧AI，没有一帧CG，全是纯手工实拍的定格动画，你看到的每一个App图标，每一道光影，每一次爆炸，都是真人一帧一帧堆出来的， Blinkink工作室用了几百个实体道具，十几台机械臂，上千小时的手工劳动，就为了拍这几十秒的广告，我之前觉得这就是个普通的营销噱头，看完才反应过来，这哪是在拍广告啊，明摆着在给AI时代写反宣言😂 当所有人都在用Runway一键生成视频的时候，苹果告诉我们，最顶级的魔法，永远是人类用手做出来的，当一切都变得廉价易得，愿意花时间笨功夫的人，反而更容易获得真正的价值，但对于大多数普通人来说，能有AI帮我们把脑子里的想法变成画面，不用再被技术门槛挡在门外，也是这个时代最珍贵的礼物。这里推荐下Rita，最近发现的宝藏视频制作神器， seedance 2.0官方接口，可以上传真人照片，不排队，降智，特别香😋

译苹果MacBook Neo广告采用纯手工实拍定格动画制作，强调“no AI used”，以人类劳动价值对抗AI生成内容的泛滥，形成对AI时代的反思。同时，推文推荐AI视频制作工具Rita，它直接接入原版Seedance 2.0官方接口，支持上传真人照片生成视频，具有不排队、不降智和高性价比的优势。工具门槛降低后，创作瓶颈从技术转向创意，凸显了AI辅助下创意表达的新可能。

Kling AI@Kling_ai · 4月25日43

See Image 2 posters transform into stunning 4K motion, powered by Kling4K.

译看 Image 2 海报在 Kling4K 驱动下，转变为惊艳的 4K 动态效果。

阿绎 AYi@AYi_AInotes · 4月25日42

兄弟们，挖到一个好东西，必须分享出来，直接说结论：目前能跑原版Seedance 2.0、不排队、不降智、还能传真人照片生成真人视频的平台, 性价比最高的就是Rita, 总之强烈推荐，冲就完了！有好多兄弟私信问我,怎么好久没发AIGC内容了，说实话,字节Seedance 2.0一直在涨价、降智、吃相难看,我就懒得玩了。直到这两天被朋友安利了Rita, GamsGo旗下的AI工作流产品, 和字节官方合作直接接入原版Seedance 2.0, 白名单首批,参数无降配。趁着周末休息写提示词，跑了一条潘金莲和西门庆在汴京那个夜晚重逢的视频——水浒传和金瓶梅里最经典的两个人物,一盏烛火,男人托住女人的脸,女人闭眼前倾,所有未说出口的话都在那一帧里🌚 关于平台值不值得用, 我一直以来的的判断标准就三件事： 🎯 第一:模型有没有被偷偷降智 AI视频圈很多套壳平台跑出来的效果和官方差一截， Rita这版跑下来,男主侧脸的颌骨阴影、女主腮红的过渡层次、烛光在面部的反射,和我之前在字节官方测试时一模一样,没割韭菜 ⚡ 第二:要不要排队灵感来了等十分钟基本就凉了， Rita高并发,分钟级出片,我连续改了七版prompt一气呵成，用着真的很爽啊！ 💰 第三:贵不贵 Mega套餐月费11.99美元跑30条4秒视频，对我这种一晚上要试十几版的玩法,这点钱就是早餐钱，新用户注册送100积分,够你免费跑一条Seedance 2.0先验证下手感。跑完这个视频我最大的体感: 工具门槛降下来之后,真正的瓶颈,从工具回到了创意。以前做AI视频,三分之二的时间折腾工具、等渲染、算成本，现在反过来了——大把时间花在打磨prompt、调画面分镜、找文化重量点上。这才是创作本来的样子嘛！潘金莲西门庆这条只是开胃菜, 我还跑了一条李清照赵明诚归途那一刻的视频, 情绪密度更狠，完整prompt我下条单独发,想自己跑同款的兄弟蹲一下🌚 这个西门庆和潘金莲约会的提示词需要的兄弟评论区留言，链接放评论去了，大家赶紧冲！ #AIVideo #Seedance #Rita

译博主推荐Rita作为目前性价比最高的AI视频生成平台。该平台是GamsGo旗下产品，与字节官方合作，直接接入未经降配的原版Seedance 2.0模型，无需排队且生成速度快。其Mega套餐月费为11.99美元，可生成30条4秒视频，新用户注册赠送积分。博主通过生成“潘金莲与西门庆重逢”等视频测试，确认其画面细节与官方效果一致，认为该平台降低了工具门槛，使创作者能将更多精力集中于创意与提示词打磨。

Kling AI@Kling_ai · 4月25日43

720p saw the light beam, but 4K sees every ray carving through dust. ✨ See more in Kling 4K.

译720p 看到了光束，但 4K 能看到每一道穿透尘埃的光线。✨ 在 Kling 4K 中查看更多。

AK@_akhaliq · 4月24日44

Seeing Fast and Slow Learning the Flow of Time in Videos paper: https://huggingface.co/papers/2604.21931

译看见快与慢学习视频中的时间流论文: https://huggingface.co/papers/2604.21931

Rohan Paul@rohanpaul_ai · 4月22日

The problem with long video is that its full of moments people may want, but finding them is hard. Usually means watching, tagging, cutting & checking who is on screen. HeyGen's Instant Highlights V2 solves that beautifully, you can search with a prompt. It detect the relevant moment, follow the right face across the shot, handle cases where multiple speakers appear, and generate captions automatically. the downstream workflow is where HeyGen pulls away. clip → caption → translate with lip-sync → upscale to 4K. no exports, no re-uploads, no third-party tool.

译长视频内容挖掘通常需要人工观看、标记和剪辑。HeyGen Instant Highlights V2通过提示词搜索自动解决这一痛点，可检测相关时刻、跨镜头追踪人脸、处理多说话人场景并生成字幕。其优势在于无缝下游工作流：剪辑完成后可直接进行翻译（支持175+语言）、唇同步和4K画质升级，无需导出或借助第三方工具。

TestingCatalog News 🗞@testingcatalog · 4月22日

AI/ML API is running a time-limited promo on the full MiniMax model family, covering M2.7, Music 2.6, TTS, and Video. All are now available for testing in the Playground & via API. Music is free for 7 days. TTS & Video are 30% off. LLMs are 10% off.

译AI/ML API 正在针对完整的 MiniMax 模型家族开展限时促销，涵盖 M2.7、Music 2.6、TTS 和 Video。所有模型现已在 Playground 和 API 中开放测试。 Music 免费 7 天。TTS 和 Video 30% 折扣。LLMs 10% 折扣。

Chubby♨️@kimmonismus · 4月22日

AI/ML API is rolling out a major promotion in collaboration with MiniMax, bringing their latest models to the forefront of the Playground - and they reached out to me to tell all of you :) For the next 7 days: • MiniMax Music → Free access • Text-to-Speech → 50% off • Video generation → 30% off • LLMs → 10% discount Alongside the promo, AI/ML API is expanding coverage of the MiniMax model family, including the latest 2.7 and music-2.6 releases, and publishing a deep dive on their capabilities. All MiniMax models are now prioritized on the Playground for easier access and testing. Thanks AIMLP API :)

译AI/ML API 携手 MiniMax 推出为期七天的模型促销活动。MiniMax Music 及最新 music-2.6 版本免费开放，Text-to-Speech 五折，视频生成七折，LLMs 享九折优惠。平台同步上线 MiniMax 2.7 等最新模型，并在 Playground 中优先展示全部模型便于测试。此次限时优惠是开发者体验 MiniMax 最新 AI 能力的最佳窗口。

SemiAnalysis@SemiAnalysis_ · 4月22日

With the new Vera Rubin rack, one can generate AI videos of Toy Jensen giving an dance tutorial faster than before. Video generation inferencing is one of the most compute bound workloads out there.

译使用新的 Vera Rubin 机架，可以比以往更快地生成 Toy Jensen 舞蹈教程的 AI 视频。视频生成推理是最受计算限制的工作负载之一。

swyx 🏝️@AIEmiami@swyx · 4月22日

do not miss. one of the INSANE gets courtesy of @osanseviero and the @GoogleDeepMind london avengers. if you always felt out of the loop on the SOTA on Imagegen, today or otherwise, this is the best 40 minutes you will find on the internet, period.

译千万别错过。这是 @osanseviero 和 @GoogleDeepMind London Avengers 带来的疯狂收获之一。如果你总是觉得跟不上 Imagegen 的 SOTA 进展，无论现在还是平时，这就是你在互联网上能找到的最棒的 40 分钟，绝对如此。

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 4月21日

Dead Internet Theory update: AI song uploads have nearly overtaken human music RECAP: 1) The majority of articles on the internet are written by AIs... 2) 4 of the top 10 Youtube channels... 3) 4 in 10 Facebook posts... 4) 1 in 5 videos shown to new Youtube users... 5) The #1 most-subscribed Twitch streamer is an AI... 6) 44% of songs on Deezer... Also, anecdotally, I tried a new Youtube account and most of the ads were AI generated. Fake humans fake endorsing products for gullible boomers and grandmas

译死互联网理论正在成为现实。数据显示，AI内容已全面渗透：Deezer上44%歌曲为AI上传，Twitch订阅第一主播也是AI；多数网络文章、四成Facebook帖子及Top 10 YouTube频道内容均由AI生成。连广告领域也充斥AI生成的虚假代言。AI正系统性替代人类创作，从音乐到视频全面入侵。

Rohan Paul@rohanpaul_ai · 4月17日

HTML to MP4. Write HTML. Render video. Built for agents. Newly launched, completely open-source framework Hyperframes is an video rendering framework that lets you create, preview, and render HTML-based video compositions — with first-class support for AI agents. Instead of inventing another editing language, HyperFrames adds a thin layer of data-* attributes on top of normal web code, then lets agents preview in the browser and render locally to MP4. An AI coding agent like Claude Code, Cursor, Gemini CLI, or Codex uses HyperFrames’ skills to write the HTML composition, and then HyperFrames previews it in the browser and renders it to MP4.

译Hyperframes推出全新开源视频渲染框架，支持AI智能体通过编写HTML直接生成MP4视频。该框架无需学习新语言，仅在标准网页代码中添加data-*属性，即可让Claude Code、Cursor、Gemini CLI、Codex等编程智能体创建、预览并本地渲染视频合成内容。智能体负责编写HTML构图，Hyperframes提供浏览器预览和MP4渲染能力，实现从代码到视频的无缝转换。

Rohan Paul@rohanpaul_ai · 4月17日

HeyGen just open-sourced HyperFrames, it lets AI agents turn HTML, CSS, and JavaScript into MP4, MOV, or WebM video from the terminal. An AI-agent-first renderer for video. You describe the video, the AI-agent writes HTML/CSS/JS, and HyperFrames turns that code into a real MP4 video. The idea is that agents already know the web stack far better than timeline video-editors, so HyperFrames adds a small set of data attributes for timing, layering, and composition, then hands animation to familiar browser tools like GSAP, Lottie, Three.js, and standard CSS.

译HeyGen开源AI视频渲染框架HyperFrames，支持AI代理将HTML/CSS/JS代码转为MP4等格式。该工具摒弃传统时间线，利用数据属性控制动画时序与图层，兼容GSAP、Lottie、Three.js等Web动画库。HeyGen团队已使用Claude Code配合该框架完成官方视频制作。开发者可通过npx命令安装，实现代码到视频的自动化生成。

AK@_akhaliq · 4月17日44

Seedance 2.0 Advancing Video Generation for World Complexity paper: https://huggingface.co/papers/2604.14148

译Seedance 2.0 推进视频生成以应对世界复杂性论文: https://huggingface.co/papers/2604.14148

Deedy@deedydas · 4月16日

i generated this entire 45s movie clip (audio + video) with claude code + seedance 2 api there's still telltale AI smell, but we should be at full length movies indistinguishable from real ones by the end of the year (veo 5)

译我用 claude code + seedance 2 api 生成了这整段45秒的电影片段（音频+视频）仍有明显的AI痕迹，但到今年年底（veo 5）我们应该就能做出与真实电影无法区分的全长电影了

AK@_akhaliq · 4月15日38

OmniShow Unifying Multimodal Conditions for Human-Object Interaction Video Generation paper: https://huggingface.co/papers/2604.11804

译OmniShow 统一多模态条件以生成人物-物体交互视频论文: https://huggingface.co/papers/2604.11804

DogeDesigner@cb_doge · 4月14日

Grok Imagine just keeps getting better every single day! The video realism is absolutely mind-blowing. Update to v1.3.60 on the App Store now!

译Grok Imagine 每天都在变得越来越好！视频真实感绝对令人震撼。立即在 App Store 更新至 v1.3.60！

Rohan Paul@rohanpaul_ai · 4月14日

HeyGen just turned AI video generation into a CLI workflow, so an agent can go from script to avatar, then render the video and ship it without leaving the terminal. The great point here is, once video is exposed as a command, any research agent, reporting bot, or automation stack can treat video as just another output format. The useful idea here is that video-generation can now sit inside cron jobs, pipelines, internal tools, and autonomous agents that move from script to avatar to finished asset without a human stitching the steps together.

译HeyGen正式上线CLI工具，将AI视频生成转化为命令行工作流。用户通过单一命令即可实现从脚本撰写、虚拟形象生成到视频渲染与交付的全流程自动化，无需离开终端。这一功能使视频生成可被任何研究agent、报告机器人或自动化栈作为标准输出格式调用，轻松集成至cron任务、流水线及内部工具中。CLI的推出意味着AI视频生产可完全嵌入自主agent的工作流，实现从脚本到成品的无人干预端到端自动化。

Ethan Mollick@emollick · 4月13日

Impressed that Seedance 2.0 can pull of "a mech battle between Neanderthal and Homo Sapiens" so well. (This is exactly what happened, historically)

译惊讶于 Seedance 2.0 能如此出色地实现"尼安德特人与智人之间的机甲战斗"。（这正是历史上真实发生的）

Rohan Paul@rohanpaul_ai · 4月13日

Dreamina Seedance 2.0 is officially live in the US after months of waiting 🎉 I’ve been testing it a lot, and honestly the upgrade feels very real. Its an all-in-one platform from idea → final video 1/

译Dreamina Seedance 2.0 结束数月等待正式在美上线。实测体验升级显著，该平台支持从创意到成片的一站式视频创作。

TestingCatalog News 🗞@testingcatalog · 4月12日

Can’t stop playing with Remix Character on Grok Imagine! xAI is cooking a new feature for Grok on mobile which will allow users to insert any character from the image into a video generated by Grok Imagine. Imagine v2? 👀 * Not available yet

译xAI 正为 Grok 移动端开发 Remix Character 功能，允许用户将图片中的任意角色插入到 Grok Imagine 生成的视频中。该功能尚未上线，疑似 Imagine v2 的前瞻。

Ethan Mollick@emollick · 4月11日

AI finally lets us see Raphael's The School of Athens the way Raphael obviously intended it, illustrating the delicate dance and subtle conflicts between Plato and Artistotle. (Seedance 2.0 is very fun to play with)

译Seedance 2.0 用 AI 技术重新诠释拉斐尔名作《雅典学院》，呈现柏拉图与亚里士多德之间的微妙冲突与思想张力。生成效果有趣，可玩性高。

Ethan Mollick@emollick · 4月10日

All is not lost. Duckerton is still possible. Here is Seedance 2.0 with the same prompt.

译Seedance 2.0 可用相同提示词生成 Duckerton 视频（人人头戴活鸭的摄政风场景），证明这种怪诞创作仍有可能。作者讽刺 OpenAI 似乎已认为此类内容不配占用其算力。

AK@_akhaliq · 4月9日

INSPATIO-WORLD A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling paper: https://huggingface.co/papers/2604.07209

译INSPATIO-WORLD 通过时空自回归建模实现实时 4D 世界模拟，可实时生成动态三维环境并支持交互。技术论文已发布于 Hugging Face。

AK@_akhaliq · 4月9日

Video-MME-v2 Towards the Next Stage in Benchmarks for Comprehensive Video Understanding paper: https://huggingface.co/papers/2604.05015

译Video-MME 基准测试发布 v2 版本，推动全面视频理解评估进入新阶段。论文已上传至 Hugging Face。

Artificial Analysis@ArtificialAnlys · 4月8日

We’ve added a new pseudonymous video model to our Text to Video and Image to Video Arenas.‘HappyHorse-1.0’ is currently landing in the #1 spot for Text and Image to Video (No Audio) and the #2 spot for Text and Image to Video (With Audio). Further details coming soon. Example generations below from HappyHorse-1.0 in the Artificial Analysis Video Arena 🚀

译Artificial Analysis 在 Text to Video 和 Image to Video Arenas 中引入匿名视频模型 HappyHorse-1.0。该模型在无音频视频生成榜单排名第一，有音频榜单排名第二，详细技术信息即将公布。

Deedy@deedydas · 4月1日

I’ve been obsessed with the most exciting software tech today that’s not AI: Gaussian splats. It’s the next generation of videos where you can move around in the scene. And the whole thing renders in realtime on your iPhone. I went into a pretty deep rabbit hole on it.. so here’s some history. The initial idea was: can we take pictures from different angles and reconstruct a 3D scene? Fun fact: one of the seminal papers in the field (“Photo Tourism”) was written by a professor I taught graphics for in college, Noah Snavely! Problem: objects look different at diff angles, because of light etc Then we had NeRFs which could figure out lighting. Problem: extremely slow. Gaussian splatting represented a 3D scene with diffuse blobs (gaussians) that encoded structure and appearance. Now, you could take camera shots or drone shots and make a splat in <5s. Problem: a) still needed many images b) splats were static and didn’t have video in them c) unseen parts of video or holes are just black or missing Still need many images? Apple’s ML SHARP can take one image and give you a splat! Can't have video? Companies like 4DV ai who made the video below build special capture techniques which allow dynamic scenes to be put in a splat Parts of the video just black? Generative models (a subset of world models) can fill in the missing parts not captured by camera. What does that leave us with? The future entertainment format whether it's in VR on a Vision Pro or interacting with immersive video are going to use splats. There's still open problrms: a) how do we create splats more efficiently b) how do we store and stream them more efficiently c) how do we make them visually more realistic (lighting d) instead of being a flying camera, can we move like a video game character in the space and interact with objects Splats are closely related world models and virtual reality. Cool projects like Seoul World Model take street view images and let you fly through any part of the city. It's only a matter of time before the entire world gets a 3D representation we can move through baked straight into Google Maps. Or you can play control a video game character watching a live sports game.

译Gaussian splats是新兴的实时3D渲染技术，可在iPhone上实现自由视角的沉浸式场景浏览。该技术用高斯分布编码场景结构与外观，相比NeRFs极大提升渲染速度。当前突破包括单图生成（Apple ML SHARP）、动态场景捕捉（4DV ai）及生成模型填补未拍摄区域。未来将成为Vision Pro等VR设备的核心娱乐格式，并与世界模型结合实现城市级漫游或游戏化交互，但仍需解决创建效率、存储传输及视觉真实感等挑战。