AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 658 条
全部一手资讯X论文
标签「视频」清除
PixVerse@PixVerse_ · 6月12日28

Seedance 2.0 is 70% OFF . ONLY on PixVerse Web for Pro & Premium members through June 25. Build in Canvas. Generate with SD2 for fewer credits. Ultra members save more. RT + Follow + Reply “Canvas” =in DMs (48H only).

译Seedance 2.0 打三折。 仅限 PixVerse Web 的 Pro 和 Premium 会员,截至6月25日。 在 Canvas 中构建。使用 SD2 生成可减少积分消耗。 Ultra 会员节省更多。 转发+关注+回复“Canvas”=私信获取(仅限48小时)。

Alibaba Cloud@alibaba_cloud · 6月12日31

AI as both the destroyer and the continuation of human creativity. 👁️Featured showcase: A stunning music video by @duan_wenkai @Lilychou @musicure @yangcao_ @C_voiceStudio @MeiQingDing , winner of the Outstanding AI-Themed Short Film award at the 16th BJIFF [WanMuse+] Theme Competition. 🔗: https://int.alibabacloud.com/m/1000413253/ Looking back at art history from the future, it explores a museum defined by power—where AI devours the past to birth its own existence. LINYE enters as both the intruder and the newest exhibit.

译阿里云宣传一部由多位创作者联合制作的AI音乐视频,该片荣获第16届北京国际电影节(BJIFF)[WanMuse+]主题竞赛“优秀AI主题短片”奖。视频从未来视角审视艺术史,描绘一个由权力定义的博物馆——AI吞噬过去以创造自身存在。主角LINYE既是闯入者,也是最新展品,探讨AI作为人类创造力的毁灭与延续。

PixVerse@PixVerse_ · 6月12日12

Loving Ep 24! Love seeing creators bring such emotional stories to life with Pixverse.

译喜欢第24集!很高兴看到创作者用PixVerse带来如此情感丰富的故事。 用户@dave392750用PixVerse创作了第24话,讲述企鹅酱做了可怕的梦后身体不适,现已恢复返校,但逐渐对梦中听到的"救命"声、看到星星时的奇异感受、未知的歌谣和梦中的城堡产生好奇。这一切似乎与她忘记的"遇到妈妈之前的记忆"有关。妈妈看着旧箱子,担心企鹅酱的变化。然后在某个夜晚…… #pixversecpp

🚨 AI News | TestingCatalog@testingcatalog · 6月12日58

GOOGLE 🔥: Gemini Omni Flash will soon be available via APIs for image-to-video, text-to-video, and video editing! Did it get updated again after the release? 👀

译GOOGLE 🔥:Gemini Omni Flash 即将通过 API 提供图像转视频、文本转视频和视频编辑功能! 发布后又更新了吗?👀

Orange AI@oran_ge · 6月12日39

这是最近我最喜欢的 Fable 5 游戏 一次 Prompt 生成的 完成度很高 非常上头

Logan Kilpatrick@OfficialLoganK · 6月12日81

Gemini Omni Flash is SOTA at image to video, text to video, and video editing : ) Excited to get this to developers in the API soon!

译Gemini Omni Flash 在图像到视频、文本到视频和视频编辑方面达到了 SATA : ) 很高兴很快能将这一能力通过 API 提供给开发者!

Luma@LumaLabsAI · 6月12日62

"AI can make it. The great idea still has to be human". Dream Brief, named one of five Cannes contenders for shots by Lora Schulson of 72andSunny. - https://shots.net/news/view/cannes-contenders-2026-usa-2

译"AI可以制作。但伟大的创意仍必须来自人类。" Dream Brief,被72andSunny的Lora Schulson评为五个戛纳竞争者之一。 - https://shots.net/news/view/cannes-contenders-2026-usa-2

PixVerse@PixVerse_ · 6月11日49

\🎬 PixVerse、ついに東京へ上陸! 🗼/ 来週6/16(火)の夜、@PixVerse_ 初となる東京オフラインイベントを開催します!✨ AI動画の最前線で活躍するクリエイターや業界関係者が大集結🤝 @btrax_jp 様 、 @AICollectiveCo 様とともに、熱いクリエイティブの夜をお届けします🔥

Luma@LumaLabsAI · 6月11日35

Partnership is the new power move. Luma is at Cannes Lions 2026 with the partners building the next era of creative work. June 22–26, AI & Tech Sandbox and Luma House. Full schedule below. RSVP to join us → http://lumalabs.ai/cannes

译合作是新的力量之举。 Luma 将参加 2026 年戛纳创意节,与合作伙伴共同构建创意工作的新时代。6 月 22–26 日,AI & Tech Sandbox 和 Luma House。完整日程如下。 RSVP 参加 → http://lumalabs.ai/cannes

Runway@runwayml · 6月11日65

Today, we’re deepening our partnership with Lionsgate with a slate of new initiatives, including a joint development program focused on creating original IP together. Learn more at the link below.

译今天,我们正在深化与狮门影业的合作,推出一系列新举措,包括一个专注于共同打造原创IP的联合开发项目。详情请见下方链接。

fofr@fofrAI · 6月11日22

How can I prompt this?

译我该如何提示这个?

Alibaba Cloud@alibaba_cloud · 6月11日26

Mexico | The Rhythm of Creation and Wisdom, Reimagined by AI From the cradle of ancestral wisdom and the time-honored mastery drawn from the earth’s bounty, to the vibrant rhythms of mariachi and the intricate woven patterns of Zapotec art—this video, created by Qwen and Wan, uses AI to reimagine time and culture. We journey from ancient sanctuaries to modern hubs of innovation, illustrating how AI bridges the wisdom of the past with the possibilities of the future, charting infinite new paths. Ready to bring your own ideas to life? Explore the power of our models on Model Studio and start creating today. 🔗 https://int.alibabacloud.com/m/1000414330/ #AlibabaCloud #Wan #Qwen #ModelStudio #Mexico #CreativeAI #AInnovation

译阿里云发布一段由Qwen和Wan模型生成的AI视频,以墨西哥文化为主题,融合祖先智慧、传统工艺、Mariachi音乐和Zapotec编织艺术,从古老圣地到现代创新枢纽,展现AI如何连接过去与未来。视频旨在展示模型的创意能力,并引导用户通过Model Studio平台使用相关模型进行创作。

Alibaba Cloud@alibaba_cloud · 6月11日21

UAE | The Fusion of Heritage and Innovation, Reimagined by AI From the endless desert horizons and the flowing artistry of Arabic calligraphy to the timeless warmth of traditional hospitality and the glowing modern skyline of Dubai, this video—created by Qwen and Wan—uses AI to connect these iconic symbols. We trace the journey from ancient astronomical wisdom and cultural landmarks to the futuristic possibilities of tomorrow, showcasing how the UAE balances its rich traditions with boundless innovation. Ready to bring your own ideas to life? Explore the power of our models on Model Studio and start creating today. 🔗 https://int.alibabacloud.com/m/1000414322/ #AlibabaCloud #Wan #Qwen #ModelStudio #UAE #Dubai #TechForGood #CreativeAI #ArabicCulture #AInnovation

译阿里云发布AI生成视频,由通义千问(Qwen)和万相(Wan)模型共同创作。视频以阿联酋为主题,融合沙漠、阿拉伯书法、传统待客之道与迪拜现代天际线等元素,从古代天文智慧到未来科技,展现文化遗产与创新的平衡。官方推荐使用Model Studio平台调用模型进行创作。

Elon Musk@elonmusk · 6月11日32

Video made with Grok Imagine

译《巴比伦蜜蜂》用AI模拟了AOC被迫学习经济学的情景,该视频由Grok制作。

宝玉@dotey · 6月11日65

这段视频展示了一个极其前沿且硬核的视频制作方式:视频完全没有使用传统的非编软件(如 Premiere 或 Final Cut),而是由 Claude Code 配合 Fable 5 通过全自动编写代码和调用命令行工具“剪辑”而成的。 整个工作流被抽象成了一个软件工程项目,主要包含以下几个关键步骤: 1. 全量语音转写与时间戳打点 (Whisper): 将拍摄的 25GB 原始素材(17个 Take,4个场景)交给本地运行的 Whisper 模型。模型不仅输出了文本,还生成了精确到毫秒级的单词时间戳 JSON 文件。 2. AI 智能挑选最佳镜头 (Subagents): 多个 Subagent(子智能体)基于生成的 JSON 文件,自动分析并剔除了包含“嗯”、“啊”等停顿词的废片,选出了表达最清晰、结尾最干净的备选片段。 3. FFmpeg 自动粗剪: 将 AI 挑选出的最终片段生成一个决策 JSON 文件,然后直接通过代码调用 ffmpeg,将这些片段无缝拼接到一起,完成第一版粗剪。 4. 纯代码自定义调色 (Color Grading): AI 从零开始手写了 LUTs(色彩查找表)代码,并且为了方便人类介入,它还自动生成了一个带有滑块的 HTML 网页,让人类可以通过拖拽滑块直观地调整色温、亮度和对比度,调好后的参数会直接传回代码中。 5. React 组件化动画制作 (Remotion): 并没有使用 After Effects。AI 将原本静态的图形文件转写成了基于 React 的 Remotion 动画组件。利用第一步生成的单词时间戳,AI 实现了极其精准的“卡点”——当作者念出特定的词(如 "right")时,UI 动画会自动触发,完全不需要手动对齐时间轴。 6. Figma MCP 协作打磨: AI 将生成的画面导出到 Figma 中,让人类设计团队进行排版和视觉优化。人类修改完毕后,AI 再通过 MCP(模型上下文协议)将 Figma 的最新设计自动“抓”回代码里,最终渲染出 4K 24fps 的成片。

译视频完全摒弃 Premiere/Final Cut,由 Claude Code 配合 Fable 5 通过代码与命令行自动剪辑。流程:本地 Whisper 转写 25GB 素材(17 个 Take,4 场景),生成毫秒级单词时间戳 JSON;Subagent 剔除停顿废片选出最佳镜头;代码调用 FFmpeg 自动粗剪;AI 手写 LUTs 调色代码并生成带滑块的 HTML 页面供人工调整;静态图形转为 React 的 Remotion 动画组件,利用时间戳精准卡点;通过 Figma MCP 将画面导出至 Figma 供设计优化,再自动抓回代码,渲染 4K 24fps。作者全程未触碰视频编辑器。

AYi@AYi_AInotes · 6月11日64

真的是CV开发者的终极偷懒神器, Supervision,GitHub近4万星, 计算机视觉界真正的可视化瑞士军刀, 以前做CV可视化,要写几百行又臭又长的OpenCV胶水代码, 画框, 跟踪, 画轨迹, 做热力图, 全是没有技术含量的重复劳动。 现在一行pip install supervision。 几行代码全部搞定: ✅ 持久ID对象跟踪 ✅ 任意自定义样式标注 ✅ 区域计数与越线检测 ✅ 人体姿态关键点连线 ✅ 一键互转YOLO/COCO/Pascal VOC所有数据集格式 从NBA球员实时跟踪, 到路口车流量统计, 再到工厂工业缺陷检测, 所有CV可视化场景通吃, 它不是让你会写可视化。 简直就是让你不用再写可视化

译Supervision 是开源计算机视觉可视化工具库,安装仅需 `pip install supervision`,几行代码即可实现持久ID对象跟踪、自定义标签标注、区域计数与越线检测、人体姿态关键点连线、YOLO/COCO/Pascal VOC 数据集格式一键互转。模型无关,支持 YOLO、Transformers 等任意检测模型。已被6500+开源CV项目采用,适用于NBA球员实时跟踪、路口车流量统计、工业缺陷检测等场景。

meng shao@shao__meng · 6月11日69

Claude Fable 5 实现零传统编辑的 Launch 视频生产:Remotion + FFmpeg + Figma MCP 端到端实践 来自 Claude Code 核心开发者 @trq212 的又一次高质量分享:他全程未打开任何传统视频编辑软件,仅通过提示驱动 Claude Fable 5 生成代码、调用工具、迭代优化,最终产出 4K、3 分钟成品视频。 https://thariqs.github.io/cc-video-editing-deck/ # 核心流程与关键步骤(高度结构化、可复现) 原材料准备:17 个拍摄 take(约 25GB Sony S-Log3 4K 原片),分为 4 个场景(Intro、Thought Partner、Goals & Verification、Be More Ambitious)。 Step 01:转录与理解 · 一条完整提示启动整个流程:要求使用 ElevenLabs / Whisper(本地 M4 Max 运行)对所有视频进行逐词时间戳转录。 · Claude 生成 JSON 格式的详细转录,支持精确到帧的定位(即使 Whisper 误听名字如 “Thariq” 为 “Sark”,时间戳仍准确)。 Step 02-03:智能选片与剪辑决策 · Claude 作为子 agent 逐场景分析所有 take,挑选最佳版本(优先零 ums、完整脚本、干净结尾)。 · 输出 final-edit.json(EDL 编辑决策列表),包含每个 clip 的起止时间、候选 take、详细选片理由。 · 直接用 FFmpeg 执行 JSON,实现精确拼接(第一版可在几分钟内生成可观看的 2:50 粗剪)。Claude 还会自验证转录结果(“zero ums”)。 Step 04:颜色分级(Color Grading) · 从 S-Log3 平面原片出发,Claude 手写多个 .cube LUT(7 个自定义 LUT,如 neutral_cool_desat、warm_filmic 等)。 · 通过提示迭代生成示例,作者选择后应用 FFmpeg 编码。突出代理在专业视觉任务中的潜力(虽有色域专家指出可能存在细微 gamma/管理问题,但整体可用)。 Step 05-08:图形叠加与设计迭代(Remotion + Figma MCP) · 输入 11 张静态设计 PNG(interludes/overlays)。 · Claude 将 PNG 重构为 Remotion React 组件(JSX),每个文字、颜色、动画均为可提示参数。 · 定义全局 timing knobs(6 个关键帧参数)和 cue sheet(基于转录词时间戳精确对齐叠加,如在 “right” 一词出现帧上触发动画)。 · 通过 Figma MCP 导出为真实 Figma 文件,支持设计团队审阅/调整滑块。 · 设计反馈转回提示 → Claude 更新代码 → 重新渲染,实现高效 code <-> Figma 往返。 最终渲染:npx remotion render 生成 3840×2160@24fps、4334 帧、653MB 成品。 Claude 会先逐帧截图自审,再全渲染。整个过程在几天内完成(主要在 Jun 6-9),凌晨 6:24 交付。 底层架构(“The edit is text”) · 整个项目是一个代码仓库:转录 JSON、final-edit.json、LUT 文件、Remotion 组件、anim.tsx。 · 无时间线、无项目文件,一切可 diff、可 grep、可提示修改。 · 强调 agent 协作哲学:“Treat Claude like a thoughtful partner” — 给出清晰目标、验证方法,保持雄心。 · 结果:从 raw 文件夹到成品,agent 承担绝大部分“中间劳动”,作者主要提供 taste 和最终把关。

译Claude Fable 5 通过纯提示驱动,端到端生成 4K Launch 视频。从 17 个 Sony S-Log3 4K take(约 25GB)出发,流程包括:Whisper 逐词转录、Claude 作为子 agent 选片输出 JSON 编辑决策列表 (EDL)、FFmpeg 拼接粗剪、手写 7 个自定义 .cube LUT 颜色分级、通过 Remotion + Figma MCP 将 11 张设计 PNG 转为 React 组件并实现代码↔Figma 往返迭代。最终渲染 3840×2160@24fps、4334 帧、653MB 成品,全程未打开视频编辑器。

jason@jxnlco · 6月11日71

fun little trick called '$request-design-best-practices-from-anthropic-design-team' heres the prompt! 1. make a first pass 2. create a figma file 3. message the design team on slack to fix everything about the design 4. profit great video tho! we do something very similar! but i've been very impressed at fable's taste around sound design too

译开发者 @trq212 展示如何用 Fable 通过代码和工具调用完成其自身启动视频的编辑:调用转录服务、ffmpeg、调色、Figma MCP,制作 Remotion UI 并渲染,全程未手动操作视频编辑器。主推文作者 Jason Liu 幽默总结了一个“向 Anthropic 设计团队请求最佳实践”的流程,但对 Fable 的用法表示赞赏。

AK@_akhaliq · 6月11日53

SCAIL-2 Unifying Controlled Character Animation with End-to-end In-Context Conditioning

译SCAIL-2 统一可控角色动画与端到端上下文条件化

Thariq@trq212 · 6月11日56

Lots of people asked how I used Fable to edit its own launch video so I made a video about that! TLDR it wrote a lot of code &amp; tool calls to use transcription services, ffmpeg, do colorgrading, use the figma mcp, make remotion UI and render it. I didn't touch a video editor.

译很多人问我怎么用 Fable 编辑它自己的发布视频,所以我做了个视频来解释! TLDR:它写了很多代码和工具调用,来使用转录服务、ffmpeg、做调色、使用 figma mcp、制作 remotion UI 并渲染。 我根本没碰视频编辑器。

Kling AI@Kling_ai · 6月11日25

What’s inside this football? ⚽

译这个足球里面有什么?⚽

Kling AI@Kling_ai · 6月10日54

In June 2024, a group of creators began creating with Kling AI. Besides "this is amazing," we heard one phrase more than anything else: "If only." If only characters felt more alive. If only movement felt more real. If only she could speak. For two years, we heard this over and over again. And with every iteration of our product, we listened. From Kling 1.0 to 3.0, every breakthrough began with a creator saying: "If only it could be better." In June 2026, Kling AI has reached over 100 million users worldwide. As we celebrate our Anniversary II, we want to say thank you to every creator. Kling has grown with you, every step of the way.

译2024年6月,创作者开始使用可灵Kling AI。用户反复提出“如果角色更生动”“如果动作更真实”“如果她能说话”等需求。从Kling 1.0到3.0,每次迭代都基于创作者反馈改进。2026年6月,可灵Kling AI全球用户突破1亿。官方在二周年之际向所有创作者致谢。

AYi@AYi_AInotes · 6月10日68

一个 10 万粉的小红书 AIGC 博主, 不带货,不卖课,不引流私域,她是靠什么挣钱的? 我拆了7 篇爆款(赞≥5000),规律全在这, 这篇请收藏起来,你一定会用到! 1️⃣封面:7 篇有 5 篇零文字,纯靠画面。"封面要大字+痛点"在 AIGC 赛道是错的——唯二带大字的两条都是品牌广,大字=广告语 2️⃣广告:7 篇里 5 篇是品牌合作(兰蔻、李锦记、华为、脉动),但没一条像硬广,产品全包进"猫咪 meme""穿进古画当厨子"的剧情里 3️⃣选题天花板:萌宠拟人化。一条 AI 跳舞猫 7.9 万赞、4.2 万藏,干翻所有奢品大片 4️⃣标题:强动词造戏剧感——闯进 / 穿进 / 征服 > 分享 / 介绍,再配疑问感叹 + emoji 5️⃣开头:第一句直接说出用户心里话("也太治愈了吧"),或具体场景代入 6️⃣形式:100% 视频,0 图文 能抄的就这 6 条, 十几分钟扒完 7 篇的封面/标题/钩子/数据 + 我用的提示词,都在下面这篇干货满满的文章里 👇

译一位10万粉小红书AIGC博主,不带货、不卖课、不引流私域。拆解7篇赞≥5000爆款:封面5篇零文字靠画面,唯二带大字的为品牌广;7篇中5篇品牌合作(兰蔻、李锦记、华为、脉动),产品嵌入“猫咪meme”“穿进古画当厨子”剧情;选题萌宠拟人化,一条AI跳舞猫获7.9万赞、4.2万藏;标题用强动词如“闯进/穿进/征服”+疑问感叹;开头直说用户心里话或具体场景;全部视频、0图文。详细提示词见原文。

🚨 AI News | TestingCatalog@testingcatalog · 6月10日63

HeyGen has released HyperFrames connector for Claude, allowing users to generate short videos directly from Claude conversations. The composition agent has 25+ built-in skills that handle typography, motion, captions, and voice, then render to MP4, WebM, or MOV in the cloud.

译HeyGen 发布 HyperFrames 连接器,成为 Claude 官方连接器(与 Anthropic 合作)。用户可在 Claude 对话中直接生成短视频。合成代理内置 25+ 技能,处理排版、运动、字幕和语音,云端渲染输出 MP4、WebM 或 MOV。旨在解决 LLM 回答文本密集、难以阅读的问题,将文档略读转化为视频理解。

PixVerse@PixVerse_ · 6月10日38

A clever role-reversal short that highlights the creative power of AI video. Humorous, visually sharp, and perfectly executed. Great work @ai_am_furufuru !

译一则巧妙的角色反转短片,凸显了AI视频的创意力量。幽默、视觉锐利、执行完美。干得漂亮 @ai_am_furufuru !

向阳乔木@vista8 · 6月10日55

昨天通宵开发的口播提词器,Codex目标运行了五个小时。 目前感觉,比多数收费提词器好用一点。 还没加手机录制,主要配合大疆Pocket3录口播。 项目已免费开源,欢迎Star或Fork二改。 地址见评论区

译Vista 分享其通宵开发的免费开源口播提词器,项目基于 Codex 开发,运行约 5 小时。他评价该工具比多数收费提词器好用,目前配合大疆 Pocket3 录制口播,暂未加入手机录制功能。项目已开源,欢迎 Star 或 Fork 二改,地址见评论区。

Alibaba Cloud@alibaba_cloud · 6月10日59

Want to build an AI Agent that runs an entire short drama pipeline? 🎬 Welcome to the AI Showrunner Arena! Use frontier video models (Wan / HappyHorse) to automate scriptwriting, storyboarding, and editing to win your share of the $70,000+ prize pool. 🔗 Register now: https://click.qwencloud.com/m/20000000281/

译想要构建一个能运行整条短剧制作管线的AI智能体?🎬 欢迎来到AI Showrunner Arena!使用前沿视频模型(Wan / HappyHorse)来自动化脚本编写、分镜和剪辑,赢取总计超过70,000美元的奖金池。 🔗 立即注册:https://click.qwencloud.com/m/20000000281/

🚨 AI News | TestingCatalog@testingcatalog · 6月10日71

Creatify Agent can now research a brand, direct the ad, and connect to Meta, TikTok and Google to launch it, all from a single conversation. The agent leads the work and brings the marketer in at the checkpoints that matter: strategy, scripts, casting.

译Creatify Agent 升级至 Wave 2。AI 智能体现在可通过单次对话完成品牌研究、广告导演,并直接连接 Meta、TikTok 和 Google 三大平台,按指定日期自动发布广告。智能体主导整个流程,仅在策略、脚本、选角等关键节点让营销人员介入。引用推文强调:智能体没有被更新,而是被升职了。

Chubby♨️@kimmonismus · 6月10日66

The HyperFrames engine leaving the terminal and becoming a Claude connector is a bigger deal than it looks. Ask for a video the way you'd ask for the report. No repo, no setup. That's the version of AI video that non-developers will actually use.

译HyperFrames 引擎已脱离终端,正式成为 Claude 官方连接器(MCP),与 Anthropic 合作实现:用户像索要报告一样直接请求视频,无需代码仓库或本地配置。这使非开发者也能真正使用 AI 视频生成——文档常被略读,而视频更易理解。

Luma@LumaLabsAI · 6月10日78

The Ray3.2 API runs cinematic-grade at scale and integrates into the products you already build. Made for developers, agencies, and enterprises building cinema inside the products they ship. Start building → http://lumalabs.ai/api

译Ray3.2 API 可大规模运行电影级渲染,并集成到您正在构建的产品中。专为在交付的产品中打造电影感的开发者、代理机构和企业而设计。 开始构建 → http://lumalabs.ai/api

AK@_akhaliq · 6月10日66

Latent Spatial Memory for Video World Models

译视频世界模型的潜在空间记忆

Luma@LumaLabsAI · 6月9日74

Direction goes in. Cinema comes out. Ray3.2 is here → http://lumalabs.ai/ray3-2

译方向进入,电影出来。 Ray3.2 来了 → http://lumalabs.ai/ray3-2

Runway@runwayml · 6月9日63

Easily reformat your videos to different aspect ratios, so you can show up everywhere that matters. Get started at the link below.

译轻松将视频重新格式化为不同宽高比,让你在每一个重要平台都能展示。 点击下方链接开始。

小互@xiaohu · 6月9日51

实际上安装了我这个一系列的工具后 还可以让codex或者claude code帮你自动剪切视频 你看我让它翻译WWDC2026的视频 并按照视频内容进行片段裁切 它可以自动分析精准将视频裁切成多个独立片段

译安装一系列工具后,可让 Codex 或 Claude Code 自动剪切视频。例如,让 AI 翻译 WWDC2026 视频,并根据视频内容自动分析、精准裁切成多个独立片段,实现自动化视频处理。

Berryxia.AI@berryxia · 6月9日74

Kimi Code一行命令直接把所有coding agent的安装门槛干到零。 还能拖视频当上下文生成LUT文件或者把屏幕录像转成可运行代码! 官方开源版现在零配置、秒启动,配上Kimi K2.6,视频推理强到离谱。 拖个参考视频它就能吐出现成的.cube文件,拖个屏幕录像它直接给你写出对应代码。 更狠的是插件系统已经上线,股票价格、财报、学术论文一键拉取,ACP协议直接打通JetBrains和Zed,还留了自定义hooks让你随便扩展工作流。 以前大家默认coding agent必须搞一大堆配置、只吃文本提示才能干活。 结果Kimi Code用最简单的CLI+视频+插件,直接把开发者日常最烦的“描述不清、上下文不够”这两个痛点一次性干掉。

译Kimi Code 开源 coding agent 迎来重大升级:一行 CLI 命令安装、零配置、秒启动;支持拖拽视频作为编码上下文,可参考视频生成 .cube LUT 文件或把屏幕录像转成可运行代码;插件系统上线,可一键拉取股票、财报、学术论文;支持 ACP 协议,对接 JetBrains、Zed,并提供自定义 hooks 扩展工作流。配合 Kimi K2.6 模型使用,视频推理能力大幅增强。

ViggleAI@ViggleAI · 6月9日66

Introducing the Viggle API. Give any character any motion, one API call - alive in seconds. Wire it into Claude, Codex, or any agent you're building. Starting from $0.01/sec. Get 100 free credits on signup. RT + follow + comment, 10 winners get 100 more! Learn more below👇

译推出 Viggle API。 给任意角色添加任意动作,一次 API 调用——数秒内即可激活。 可接入 Claude、Codex 或你正在构建的任何智能体。起价 $0.01/秒。 注册即获 100 次免费额度。 转发 + 关注 + 评论,10 位中奖者再获 100 次! 了解更多👇

Artificial Analysis@ArtificialAnlys · 6月9日68

Grok debuts grok-imagine-video-1.5-preview, achieving #2 in Image to Video (With Audio) in the Artificial Analysis Video Arena, behind only ByteDance's Seedance 2.0! grok-imagine-video-1.5-preview is @xAI's latest video generation model, currently supporting only Image to Video with native audio, and durations up to 15s. It ranks #2 in the Image to Video (With Audio) Leaderboard, trailing only ByteDance's Seedance 2.0. In the Without Audio Leaderboard it places #3, behind Seedance 2.0 and xAI's own grok-imagine-video, which it performs very closely to. grok-imagine-video-1.5-preview costs $8.40 per minute of generated video, and is available now via xAI's API, with a broader rollout across the Grok app and X in progress. Congratulations to @xAI and @elonmusk on the release! See below for comparisons between grok-imagine-video-1.5-preview and other leading models in the Artificial Analysis Video Arena 🧵

译xAI推出视频生成模型grok-imagine-video-1.5-preview,目前在Artificial Analysis Video Arena的Image to Video (With Audio)排行榜中排名第二,仅次于字节跳动Seedance 2.0。该模型支持图像转视频并原生生成音频,最长可生成15秒视频。在无音频排行榜中位列第三,紧随Seedance 2.0和自家的grok-imagine-video。模型定价为每分钟视频$8.40,现已通过xAI API提供,并将逐步在Grok app和X上线。

Runway@runwayml · 6月9日79

One video, now made for every feed and format. Upload your existing video, choose your desired aspect ratio and watch our editing model, Aleph 2.0, fill in the rest of the scene as if you made it that way from the start. Try it on our desktop web app at the link below.

译一个视频,现在可以为每个信息流和格式制作。上传你现有的视频,选择你想要的宽高比,然后观看我们的编辑模型 Aleph 2.0,填充场景的其余部分,就像你从一开始就这样制作一样。 在我们的桌面 Web 应用上尝试,链接如下。

小互@xiaohu · 6月8日79

http://x.com/i/article/2063968924019163136 # 一句话,翻译任何视频:我把用了半年的视频翻译工具开源了 有人说,现在 AI 自动翻译字幕的工具一大把,你这个还有啥用? 确实有不少工具能在线翻译视频,我自己也用了很多。但总觉得翻得不太准、不太好,有时候还冒出一堆错误。 另外我经常在推特、视频号上分享海外视频,干脆就顺手做了这么一套——所以它其实还能帮你把海外视频搬运到国内平台,嘿嘿。 这套工具我用了半年,来回调了很多次,现在比较成熟了,整理干净开源给大家。 装好以后,你只要对它说一句「把这个链接翻译成中文字幕视频」,剩下的它全自动做完:下载、转写、翻译、润色、烧字幕、出文稿,一条龙到底。 转写完全在你自己电脑上跑,不花一分钱 API 费。翻译用的就是你已经装好的 AI,顺手就做了。而且不只英文,日语、韩语、法语这些外语视频,一样能转成中文字幕。 还有它本质就是几个脚本加一份说明书,没绑死 Claude Code 一家——小龙虾(OpenClaw)、Gemini、Codex 这些 AI 编程工具也都能用,区别只是各家装技能的方式不同。 下面手把手带你装上、跑通第一个视频。 ## 这玩意儿到底能干嘛 给它一个视频链接(YouTube、Bilibili、抖音都行),或者一个本地视频文件,它会一条龙做完这五步: > 下载 → 转写 → 翻译 → 润色 → 烧字幕,最后顺带出一份文稿 拆开说就是: - 把视频下下来(本地文件就直接用) - 提取音频,用 Whisper 转写成带精确时间戳的原文字幕 - 把原文翻译成中文,再润色成符合中文观看习惯的字幕 - 把字幕烧进画面,输出一个带中文字幕的视频 - 顺便再出一份 Markdown 文稿,方便你存档或者改成文章 语言不挑。 英语、日语、韩语、法语、西班牙语,只要 Whisper 听得懂的,都能转成中文字幕。它会自己识别原视频是什么语言,再翻成中文。中文视频就只做转写出文稿,不绕翻译这一步。 字幕有两种可以选。一种是纯中文,画面干净。另一种是中英双语,中文大、英文小,主次分明,适合想顺便练听力的人。 你全程不用记任何命令。想要什么就用大白话说,比如「这个要双语字幕」「不要水印」「用快速模式」,它都听得懂。 > 简单说,它把「下载 + 转写 + 翻译 + 配字幕」这条原本要开四五个软件、来回折腾一两个小时的流水线,压缩成了说一句话。 ## 跟现成的翻译工具有啥不一样 市面上字幕工具不少,我自己用下来最在意三件事,这套工具就是冲着这三件事做的。 第一,本地、免费、能离线。 转写用的是 OpenAI 开源的 Whisper 模型,苹果芯片的 Mac 上还会自动调 GPU 加速。整个转写过程在你电脑里完成,不上传、不收费。翻译复用你已经在用的 AI,不用再单独买一个翻译 API。 第二,时间戳是真的准。 很多工具的字幕会跑在说话人前面,或者半句话挤进下一条,看着难受。这套工具拿到的是精确到每个词什么时候说出口的时间戳,再按「一句话 + 换气停顿」来切,字幕基本说完正好换条。 第三,字幕是给人看的,不是机翻直出。 它会自动纠正转写听错的专有名词(Claude 经常被听成 cloud,MCP 被听成 NCP),按语义断句,每行不超过十二个字,技术术语保留英文。双语模式下中文大、英文小,同一条里拉开字号,不是两行一样大堆在一起。 这些都是我自己做了上百条视频踩出来的细节,全写进规则里了。 ## 效果长这样 拿 a16z 刚发的一条访谈试试。受访的是前 OpenAI 首席技术官 Mira Murati,我让工具配了中英双语字幕。 她原话里有个比喻: > It's more like a tandem bike where both people are pedaling. 机翻大概会甩给你「串联自行车」这种读着别扭的词。这套工具翻成的是: > 它更像一辆双人自行车,两个人一起踩着踏板。 接地气、不绕口。专有名词也拎得清,Thinking Machines 这种公司名直接留英文,不硬翻。 你只要发一句「链接 + 翻译这个视频」,它会先问你要纯中文还是中英双语——我平时主要翻成中文,就默认留了这两个选项,实际上翻成任意语言都行。 除了带字幕的视频,它还会同时出一份文稿,原文加中文对照。 整段读下来是这样: > 它更像是去造这样一种系统:不会自己闷头狂奔、把整个文明甩在身后,而更像一辆双人自行车,两个人一起踩着踏板。上坡的时候,也许更有劲的那个人踩得更用力,但两个人的手都在车把上。 不挑语言是这套工具最实在的地方。同一段访谈,中文、日语、韩语、阿拉伯语、法语都能翻成双语字幕——各国译文在上、英文原文统一压一行在下,主次分明,连从右往左写的阿拉伯语也排得整整齐齐: 十几分钟的视频没问题 一个半小时以上的长视频也能轻松应对 ## 它其实是三个技能 打开仓库你会看到三个文件夹,各管一段活,可以单独用,也可以串起来用: - xiaohu-video-md:总指挥。负责下载、转写、调翻译、烧字幕、出文稿 - xiaohu-subtitle-polish:专门管字幕翻译润色。纠错、翻译、断句、对时间轴、做双语 - xiaohu-video-download:纯下载工具。下视频、下音频、下整个播放列表,也能给本地视频烧字幕 翻译一个视频的时候,是 xiaohu-video-md 在总调度,翻译那一步它自己会去叫 xiaohu-subtitle-polish。你不用管这些,知道有这么三块就行。 ## 手把手安装 这套工具目前是给 Mac 调的,苹果芯片的机器跑得最顺。装法有两种,挑一种就行:嫌麻烦,就把下面那段话整段丢给 AI,让它替你全装完;想搞清楚每一步在干嘛、或者怕中途出岔子,就照着后面的手动三步敲。 ## 偷懒版:把这段话丢给 AI 打开你的 AI 编程工具,Claude Code、Codex、小龙虾(OpenClaw)都行,把下面这段原样复制进去发给它。它会自己判断你是什么系统、装好依赖、拉仓库、跑安装脚本,一条龙搞定,中间该问你的会停下来问: > 帮我安装这个视频翻译工具:https://github.com/xiaohuailabs/xiaohu-video-translate 按下面的顺序来: 1. 先看我的系统:Mac 还是 Windows;Mac 的话是不是苹果芯片(M 系列) 2. 装依赖:yt-dlp、ffmpeg、whisper-cpp(Mac 用 brew install,Windows 走 WSL 或 winget)。 转写引擎——苹果芯片装 mlx-whisper,其它机器一律装 faster-whisper 3. git clone 这个仓库,进目录跑 bash install.sh,把三个技能装进我的技能目录 4. 装完找到 xiaohu-video-md 技能里的 config.json(Claude Code 在 ~/.claude/skills/ 下), 问我成品想存在哪个文件夹,帮我把 output_dir 改成完整路径 5. 最后检查依赖都装齐了没,告诉我能不能开始用 每一步做完简单说一句你干了啥;依赖装失败就停下来问我,别硬往下跑。 它替你跑的其实就是下面这三步,只是你不用自己敲。想自己动手、或者中途卡住想排查,就照着手动版来。 ## 第一步:装几个基础工具 先确认你装了 Homebrew(Mac 上最常用的软件包管理器,没装的去 brew.sh 按提示装一下)。然后一行命令把三个工具装上: > brew install yt-dlp ffmpeg whisper-cpp > 这三个分别是:yt-dlp 负责下视频,ffmpeg 负责音视频处理和烧字幕,whisper-cpp 是「只下载」子技能在本地转写时用的备用命令,主翻译流程不靠它,真正干转写的是下面这步要装的引擎。 再装一个转写引擎。苹果芯片的 Mac 用这个,会走 GPU 加速,最快:(命令里 --break-system-packages 看着吓人,其实只是绕过新版系统的一个安装限制,不动你系统本身,放心敲。) > pip3 install --break-system-packages mlx-whisper 如果不是苹果芯片,就换成通用版本: > pip3 install --break-system-packages faster-whisper ## 第二步:把技能装进 Claude 把仓库拉下来,跑一下自带的安装脚本: > git clone https://github.com/xiaohuailabs/xiaohu-video-translate.git cd xiaohu-video-translate bash install.sh 这个脚本会把三个技能复制到 Claude 的技能目录,自动生成配置文件,还会帮你检查依赖装齐没有。脚本跑到最后会逐项打印 [OK] 或 [缺],看到 yt-dlp、ffmpeg、转写引擎都是 [OK] 就说明装齐了,哪个显示 [缺] 就按提示补那一个。这里路径以 Claude Code 为例(技能在 ~/.claude/skills/);你要是用 Codex、小龙虾,把这个目录换成你那家工具的技能目录就行,其余都一样。 ## 第三步:告诉它把成品放哪 打开 ~/.claude/skills/xiaohu-video-md/config.json 这个文件,把里面的 output_dir 改成你想存放成品的文件夹路径(要写完整路径,比如 /Users/你的用户名/Documents/视频翻译)。 中间的临时文件会进 tmp/,最终的文稿进 data/,烧好的视频默认放在下载文件夹里。 > 转写模型不用手动下。第一次跑的时候,mlx-whisper 会自己从网上把模型拉下来(一点五个 G 左右),下一次就直接用了。 装完,重启一下你的 AI 工具,就能用了。 ## Windows 用户看这里 上面是 Mac 的装法。Windows 也能跑,但有几处不一样,别照搬。 最省事的办法是用 WSL,也就是 Windows 自带的 Linux 子系统。装好以后把下面这几样装上,脚本就能原样跑: > sudo apt install ffmpeg pip3 install yt-dlp faster-whisper 如果不想用 WSL,想直接在 Windows 上装,记住三点: - 转写引擎用 faster-whisper,别装那个苹果芯片专用的版本。脚本检测不到苹果引擎,会自动用它兜底 - 安装脚本得用 Git Bash 跑,或者干脆手动把三个技能文件夹复制到工具的技能目录,再把每个配置模板复制成正式配置 - 字幕字体要换。默认用的是 Mac 的苹方,Windows 上没有这个字体,中文会显示成方块。把命令里的 PingFang SC 换成系统自带的微软雅黑就行 直接在 Windows 上装依赖的话,命令是这样: > pip install yt-dlp faster-whisper winget install Gyan.FFmpeg > 字体这条 Linux 上也一样,苹方是苹果独有的,得换成系统里的中文字体。想让非苹果系统也能自动选对字体、开箱即用,我正在做适配,可以去仓库提 issue 催我。 ## 怎么用 装好以后就一句话的事。下面这些话你都可以直接说: 你说的话 它做的事 把这个链接翻译成中文字幕视频 + 链接 全流程,下载到出成品 翻译这个视频,要中英双语字幕 + 链接 同上,字幕换成中英双语 把这个视频转成文字 + 链接 只出 Markdown 文稿,不烧字幕 给我本地这个视频加中文字幕 + 文件路径 本地文件直接处理 下载这个视频 + 链接 只下载,不翻译 用快速模式转写 换更快但精度略低的模型 翻译时不要水印 关掉水印 ## 几个坑先跟你说在前面 都是我自己踩过的,提前知道能少走弯路。 YouTube 有时候下不动,报一串 403 之类的错。 这是 YouTube 近一年风控变严了。脚本会自动从你浏览器里读 cookies 重试,一般能过。还不行就挂个代理。 烧出来的中文字幕是一个个方块。 这是 Mac 字体索引的老问题,脚本默认已经绕开了,正常装完不会遇到。只有你手动改过字体设置、或换了系统里没有的字体才会冒出来,真碰上就把字体换回 PingFang SC(苹方)。 第一次用抖音,要先登录一次。 跑一下 python3 ~/.claude/skills/xiaohu-video-md/scripts/douyin_login.py,弹出来的浏览器里扫码登录,登录状态只存在你自己电脑上,不会上传到任何地方。开源仓库里我也把我自己的登录信息全删干净了,你拿到的是空的。 ## 拿去用,随便改 仓库地址在这: > github.com/xiaohuailabs/xiaohu-video-translate 代码是 MIT 协议,水印、字幕样式、默认字号这些你都可以照自己喜欢改。唯一提醒一句:别把你自己的配置文件和抖音登录信息传到公开仓库上去,仓库里已经默认帮你挡掉了。 这套工具是我日常真在用的,不是写来演示的玩具。觉得好用,点个 star,有问题提 issue,我会接着维护。 下期我会开源自己的文章 IP 配图技能——用个人 IP 形象给文章生成配图,本文里那些插画就是这么来的。

译小互(@xiaohu)开源视频翻译工具(xiaohu-video-translate),只需说一句“把链接翻译成中文字幕视频”即可全自动完成下载、Whisper本地转写、AI翻译润色、烧字幕、出文稿。转写本地运行,不花API费。支持YouTube、Bilibili、抖音等链接及本地文件,英语、日语、韩语、法语、西班牙语等均可转成中文字幕。字幕精确到词级时间戳,按语义断句,每行不超过12字,双语模式下中文大英文小。提供纯中文与中英双语模式。工具由三个子技能组成,可单独或串联使用,适配Claude Code、Codex、OpenClaw等AI编程工具。已开源,附安装指南。

AYi@AYi_AInotes · 6月8日24

剪映的翻译很烂,最近尝试vibe了一个本地视频剪辑应用, 本来主要是做视频翻译和字幕的,今天试了下根据文档生成口播视频的功能,跑了一版吉卜力动漫风格的,还不错, 再迭代一下,增加动画效果啥的,以后可以拿去做微信视频号了~ 以下是文档内容,大家可以对照感受下~ 别侥幸,不要撞在监管的枪口上。 1,周末消息特别多,鱼龙混杂。今天本来想写一个图文版本,但这个标题,估计一定会被404。言简意赅,把观点说清楚就行。 2,周五晚美股暴跌,很多媒体把锅给美联储加息。这个理由是完全错误的:1)美债收益率上行,但还未突破5月19日高点。2)美元指数虽然上行,但远未到3月高点。美元流动性在收紧,但幅度很有限。 3,美股这次暴跌的路径清晰。周四晚上,博通暴跌,市场低开高走。周五开盘之后,低开。在一系列不利消息之下,低开低走。这波暴跌的主要原因是SOXX暴跌。而SOXX暴跌,在博通单日跌没了一个阿里的时候,就已经是前奏。 4,SOXX(NYSE半导体指数ETF),本身对美联储加息不敏感。真正敏感的是创新药这些高度依赖,传统资本开支模式的企业。ai本轮的资本开支来自于一级市场以及谷歌等大厂自身良好的现金流。 5,真正问题,市场对于博通200%的增长都不满意。博通200%增长证明了ai的产业趋势,但单日暴跌,证明了市场的预期太高。你一开始的预期是清华北大不可,最后考个中山大学,当然是不符合预期的。 6,也不是说SOXX真的结束了。SOXX这波拔地而起,上涨快速而迅猛。很多投资者获益颇丰,他们的筹码非常稳固,不会因为下跌10%+就恐慌。我们测算了一下,SOXX再下跌10%,这些筹码才会大面积松动。 7,相对SOXX来说,我们问题更严重。周五市场的下跌,是在没有定价SOXX暴跌的情况下。我们市场因为集中度过高,之前已经通过两根大阴线来调节,周五又下跌4%。 8,除此之外,周末有一个应该广泛关注的消息,但讨论度明显不够。村长针对公募基金的发言:公募基金要坚决遏制赌押赛道、风格漂移、高位发行等顽疾。如果市场顺风顺水,其实都还好。但问题在于,趋势已经不好了。 9,公募基金本质上都是国企。对于他们来说,监管宽松的时候,冲赛道搞风格漂移,那是OK的。一旦监管严格了,那么,他们首先想到的必然是保住饭碗。风格漂移,赚钱了都还好说。但如果亏钱了,那饭碗可能都没了。 10,明天,会有一大波资金出于各种目的来进行避险。有多少资金回流老登,不确定。很多买小登的资金,即使小登不好了,也只会选择空仓。老登多少资金回流,取决于多少资金漂移了。24年夏天的时候,很多科技类公募主题基金,重仓股都是四大行。风格漂移在市场极端的情况下,一定会存在的,并不针对科技。只能说,不要赌周一,不要侥幸,尤其是高位上了杠杆的朋友们。

译剪映翻译效果不佳,作者尝试自建了一个本地视频剪辑应用,主要功能为视频翻译和字幕。近日测试了根据文档自动生成口播视频的功能,并输出了一段吉卜力动漫风格的视频。作者表示后续将迭代增加动画效果,可用于微信视频号内容创作。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月12日
20:29
PixVerse@PixVerse_
28
Seedance 2.0 打三折。 仅限 PixVerse Web 的 Pro 和 Premium 会员,截至6月25日。 在 Canvas 中构建。使用 SD2 生成可减少积分消耗。 Ultra 会员节省更多。 转发+关注+回复"Canvas"=私信获取(仅限48小时)。
行业动态视频
16:40
Alibaba Cloud@alibaba_cloud
31
阿里云展示AI短片获北影节奖项

阿里云宣传一部由多位创作者联合制作的AI音乐视频,该片荣获第16届北京国际电影节(BJIFF)[WanMuse+]主题竞赛“优秀AI主题短片”奖。视频从未来视角审视艺术史,描绘一个由权力定义的博物馆——AI吞噬过去以创造自身存在。主角LINYE既是闯入者,也是最新展品,探讨AI作为人类创造力的毁灭与延续。

其他多模态视频
10:27
PixVerse@PixVerse_
12
喜欢第24集!很高兴看到创作者用PixVerse带来如此情感丰富的故事。 用户@dave392750用PixVerse创作了第24话,讲述企鹅酱做了可怕的梦后身体不适,现已恢复返校,但逐渐对梦中听到的"救命"声、看到星星时的奇异感受、未知的歌谣和梦中的城堡产生好奇。这一切似乎与她忘记的"遇到妈妈之前的记忆"有关。妈妈看着旧箱子,担心企鹅酱的变化。然后在某个夜晚…… #pixversecpp

楽園: 第24話 謎の寝言!? これまでのあらすじ ぺんぎんちゃんは、こわい夢を見て体調をくずしてしまいました。 今は元気になって学校にも戻りましたが、 夢の中で聞こえた「たすけて」という声や、 星を見ると感じる不思議な気持ち、 知らない歌、夢に出...

其他视频
07:38
🚨 AI News | TestingCatalog@testingcatalog
58
GOOGLE 🔥:Gemini Omni Flash 即将通过 API 提供图像转视频、文本转视频和视频编辑功能! 发布后又更新了吗?👀

Logan Kilpatrick: Gemini Omni Flash is SOTA at image to video, text to video, and video editing : ) Excited to get this to developers in t...

Google产品更新多模态视频
06:14
Orange AI@oran_ge
39
这是最近我最喜欢的 Fable 5 游戏 一次 Prompt 生成的 完成度很高 非常上头
其他视频
01:20
Logan Kilpatrick@OfficialLoganK
同事件精选81
Gemini Omni Flash 在图像到视频、文本到视频和视频编辑方面达到了 SATA : ) 很高兴很快能将这一能力通过 API 提供给开发者!
Google图像生成多模态模型发布
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:视频生成正式进入全模态一体时代,Gemini Omni Flash 把图生视频、文生视频和剪辑整合在一个模型里,API 很快上线,做视频工具的可以提前琢磨对手在哪了。
00:08
Luma@LumaLabsAI
62
"AI可以制作。但伟大的创意仍必须来自人类。" Dream Brief,被72andSunny的Lora Schulson评为五个戛纳竞争者之一。 - https://shots.net/news/view/cannes-contenders-2026-usa-2
行业动态视频
6月11日
23:56
PixVerse@PixVerse_
49
\🎬 PixVerse、ついに東京へ上陸! 🗼/ 来週6/16(火)の夜、@PixVerse_ 初となる東京オフラインイベントを開催します!✨ AI動画の最前線で活躍するクリエイターや業界関係者が大集結🤝 @btrax_jp 様 、 @AICollectiveCo 様とともに、熱いクリエイティブの夜をお届けします🔥
行业动态视频
23:38
Luma@LumaLabsAI
35
合作是新的力量之举。 Luma 将参加 2026 年戛纳创意节,与合作伙伴共同构建创意工作的新时代。6 月 22-26 日,AI & Tech Sandbox 和 Luma House。完整日程如下。 RSVP 参加 → http://lumalabs.ai/cannes
行业动态视频
22:22
Runway@runwayml
65
今天,我们正在深化与狮门影业的合作,推出一系列新举措,包括一个专注于共同打造原创IP的联合开发项目。详情请见下方链接。
行业动态视频
18:44
fofr@fofrAI
22
我该如何提示这个?

돌아온평직 (돌평): 롤러코스터를 타고 줌회의를 하면 눈치 챌까? 진짜 미친 콘텐츠넼ᄏᄏ

其他图像生成视频
14:04
Alibaba Cloud@alibaba_cloud
26
阿里云Qwen和Wan生成墨西哥文化AI视频

阿里云发布一段由Qwen和Wan模型生成的AI视频,以墨西哥文化为主题,融合祖先智慧、传统工艺、Mariachi音乐和Zapotec编织艺术,从古老圣地到现代创新枢纽,展现AI如何连接过去与未来。视频旨在展示模型的创意能力,并引导用户通过Model Studio平台使用相关模型进行创作。

多模态行业动态视频
14:04
Alibaba Cloud@alibaba_cloud
21
阿里云用Qwen与Wan创作阿联酋AI视频

阿里云发布AI生成视频,由通义千问(Qwen)和万相(Wan)模型共同创作。视频以阿联酋为主题,融合沙漠、阿拉伯书法、传统待客之道与迪拜现代天际线等元素,从古代天文智慧到未来科技,展现文化遗产与创新的平衡。官方推荐使用Model Studio平台调用模型进行创作。

图像生成行业动态视频
12:21
Elon Musk@elonmusk
32
《巴比伦蜜蜂》用AI模拟了AOC被迫学习经济学的情景,该视频由Grok制作。

The Babylon Bee: We Asked AI To Simulate What Would Happen If AOC Was Forced To Learn Economics Made with @grok.

xAI产品更新多模态视频
11:21
宝玉@dotey
65
Claude Code + Fable 5 全自动剪辑视频工作流

视频完全摒弃 Premiere/Final Cut,由 Claude Code 配合 Fable 5 通过代码与命令行自动剪辑。流程:本地 Whisper 转写 25GB 素材(17 个 Take,4 场景),生成毫秒级单词时间戳 JSON;Subagent 剔除停顿废片选出最佳镜头;代码调用 FFmpeg 自动粗剪;AI 手写 LUTs 调色代码并生成带滑块的 HTML 页面供人工调整;静态图形转为 React 的 Remotion 动画组件,利用时间戳精准卡点;通过 Figma MCP 将画面导出至 Figma 供设计优化,再自动抓回代码,渲染 4K 24fps。作者全程未触碰视频编辑器。

Thariq: Lots of people asked how I used Fable to edit its own launch video so I made a video about that! TLDR it wrote a lot of ...

智能体Anthropic教程/实践视频
09:35
AYi@AYi_AInotes
64
Supervision:CV 可视化瑞士军刀,GitHub 近4万星

Supervision 是开源计算机视觉可视化工具库,安装仅需 pip install supervision,几行代码即可实现持久ID对象跟踪、自定义标签标注、区域计数与越线检测、人体姿态关键点连线、YOLO/COCO/Pascal VOC 数据集格式一键互转。模型无关,支持 YOLO、Transformers 等任意检测模型。已被6500+开源CV项目采用,适用于NBA球员实时跟踪、路口车流量统计、工业缺陷检测等场景。

AYi: 分享一个计算机视觉开发者必藏神器,4 万星GitHub开源! 不用自己写几百行画框跟踪代码, 一行命令搞定所有可视化, Supervision,CV 界真正的瑞士军刀。 1️⃣ 它到底有多强? 自动画框加标签,支持编号、自定义样式, 视频对...

开源生态教程/实践视频
08:55
meng shao@shao__meng
69
Claude Fable 5 零传统视频编辑的 4K Launch 视频生产实践

Claude Fable 5 通过纯提示驱动,端到端生成 4K Launch 视频。从 17 个 Sony S-Log3 4K take(约 25GB)出发,流程包括:Whisper 逐词转录、Claude 作为子 agent 选片输出 JSON 编辑决策列表 (EDL)、FFmpeg 拼接粗剪、手写 7 个自定义 .cube LUT 颜色分级、通过 Remotion + Figma MCP 将 11 张设计 PNG 转为 React 组件并实现代码↔Figma 往返迭代。最终渲染 3840×2160@24fps、4334 帧、653MB 成品,全程未打开视频编辑器。

Thariq: Lots of people asked how I used Fable to edit its own launch video so I made a video about that! TLDR it wrote a lot of ...

智能体AnthropicMCP/工具教程/实践
06:44
jason@jxnlco
71
开发者 @trq212 展示如何用 Fable 通过代码和工具调用完成其自身启动视频的编辑:调用转录服务、ffmpeg、调色、Figma MCP,制作 Remotion UI 并渲染,全程未手动操作视频编辑器。主推文作者 Jason Liu 幽默总结了一个"向 Anthropic 设计团队请求最佳实践"的流程,但对 Fable 的用法表示赞赏。

Thariq: Lots of people asked how I used Fable to edit its own launch video so I made a video about that! TLDR it wrote a lot of ...

AnthropicMCP/工具教程/实践视频
06:25
AK@_akhaliq
53
SCAIL-2 统一可控角色动画与端到端上下文条件化
视频论文/研究
06:13
Thariq@trq212
56
很多人问我怎么用 Fable 编辑它自己的发布视频,所以我做了个视频来解释! TLDR:它写了很多代码和工具调用,来使用转录服务、ffmpeg、做调色、使用 figma mcp、制作 remotion UI 并渲染。 我根本没碰视频编辑器。
MCP/工具教程/实践视频
00:02
Kling AI@Kling_ai
25
这个足球里面有什么?⚽
行业动态视频
6月10日
22:01
Kling AI@Kling_ai
54
可灵Kling AI两周年:全球用户突破1亿

2024年6月,创作者开始使用可灵Kling AI。用户反复提出“如果角色更生动”“如果动作更真实”“如果她能说话”等需求。从Kling 1.0到3.0,每次迭代都基于创作者反馈改进。2026年6月,可灵Kling AI全球用户突破1亿。官方在二周年之际向所有创作者致谢。

行业动态视频
21:34
AYi@AYi_AInotes
68
10万粉小红书AIGC博主爆款拆解:封面靠画面、选题萌宠拟人化、5/7为品牌合作

一位10万粉小红书AIGC博主,不带货、不卖课、不引流私域。拆解7篇赞≥5000爆款:封面5篇零文字靠画面,唯二带大字的为品牌广;7篇中5篇品牌合作(兰蔻、李锦记、华为、脉动),产品嵌入“猫咪meme”“穿进古画当厨子”剧情;选题萌宠拟人化,一条AI跳舞猫获7.9万赞、4.2万藏;标题用强动词如“闯进/穿进/征服”+疑问感叹;开头直说用户心里话或具体场景;全部视频、0图文。详细提示词见原文。

AYi: http://x.com/i/article/2064536412670562304

图像生成教程/实践视频
20:27
🚨 AI News | TestingCatalog@testingcatalog
63
HeyGen 发布 HyperFrames 连接器,成为 Claude 官方连接器(与 Anthropic 合作)。用户可在 Claude 对话中直接生成短视频。合成代理内置 25+ 技能,处理排版、运动、字幕和语音,云端渲染输出 MP4、WebM 或 MOV。旨在解决 LLM 回答文本密集、难以阅读的问题,将文档略读转化为视频理解。

HeyGen: Hyperframes is now an official @claudeai connector LLM answers are often dense pages of text that go unread we partnered...

AnthropicMCP/工具产品更新视频
11:46
PixVerse@PixVerse_
38
一则巧妙的角色反转短片,凸显了AI视频的创意力量。幽默、视觉锐利、执行完美。干得漂亮 @ai_am_furufuru !

ふるふるの大冒険/Furufuru's Epic Adventure: 「The Fish Strikes Back/魚の逆襲」 #seedance #pixversecpp @PixVerse_

其他多模态视频
10:43
向阳乔木@vista8
55
Vista 开源免费口播提词器,用 Codex 开发 5 小时

Vista 分享其通宵开发的免费开源口播提词器,项目基于 Codex 开发,运行约 5 小时。他评价该工具比多数收费提词器好用,目前配合大疆 Pocket3 录制口播,暂未加入手机录制功能。项目已开源,欢迎 Star 或 Fork 二改,地址见评论区。

开源/仓库开源生态视频
09:20
Alibaba Cloud@alibaba_cloud
59
想要构建一个能运行整条短剧制作管线的AI智能体?🎬 欢迎来到AI Showrunner Arena!使用前沿视频模型(Wan / HappyHorse)来自动化脚本编写、分镜和剪辑,赢取总计超过70,000美元的奖金池。 🔗 立即注册:https://click.qwencloud.com/m/20000000281/
智能体行业动态视频
02:23
🚨 AI News | TestingCatalog@testingcatalog
71
Creatify Agent 升级至 Wave 2。AI 智能体现在可通过单次对话完成品牌研究、广告导演,并直接连接 Meta、TikTok 和 Google 三大平台,按指定日期自动发布广告。智能体主导整个流程,仅在策略、脚本、选角等关键节点让营销人员介入。引用推文强调:智能体没有被更新,而是被升职了。

Creatify AI: Creatify Agent, Wave 2. You watched it make the ad. Now watch it run the whole campaign. It learns your brand. Directs a...

智能体产品更新视频
02:07
Chubby♨️@kimmonismus
66
HyperFrames 引擎已脱离终端,正式成为 Claude 官方连接器(MCP),与 Anthropic 合作实现:用户像索要报告一样直接请求视频,无需代码仓库或本地配置。这使非开发者也能真正使用 AI 视频生成--文档常被略读,而视频更易理解。

HeyGen: Hyperframes is now an official @claudeai connector LLM answers are often dense pages of text that go unread we partnered...

AnthropicMCP/工具产品更新视频
00:59
Luma@LumaLabsAI
精选78
Ray3.2 API 可大规模运行电影级渲染,并集成到您正在构建的产品中。专为在交付的产品中打造电影感的开发者、代理机构和企业而设计。 开始构建 → http://lumalabs.ai/api
产品更新视频

推荐理由:Luma把Ray3.2的电影级视频生成做成API,开发者和产品团队不用自己搞视频模型了,能直接嵌进现有产品,做视频应用的值得试试。
00:46
AK@_akhaliq
66
视频世界模型的潜在空间记忆
arXiv多模态视频论文/研究
6月9日
22:59
Luma@LumaLabsAI
74
方向进入,电影出来。 Ray3.2 来了 → http://lumalabs.ai/ray3-2
模型发布视频
22:42
Runway@runwayml
63
轻松将视频重新格式化为不同宽高比,让你在每一个重要平台都能展示。 点击下方链接开始。
产品更新视频
11:39
小互@xiaohu
51
Codex/Claude Code 实现自动视频剪切

安装一系列工具后,可让 Codex 或 Claude Code 自动剪切视频。例如,让 AI 翻译 WWDC2026 视频,并根据视频内容自动分析、精准裁切成多个独立片段,实现自动化视频处理。

小互: http://x.com/i/article/2063968924019163136

教程/实践视频
08:03
Berryxia.AI@berryxia
74
Kimi Code升级:一行安装+视频上下文+插件系统

Kimi Code 开源 coding agent 迎来重大升级:一行 CLI 命令安装、零配置、秒启动;支持拖拽视频作为编码上下文,可参考视频生成 .cube LUT 文件或把屏幕录像转成可运行代码;插件系统上线,可一键拉取股票、财报、学术论文;支持 ACP 协议,对接 JetBrains、Zed,并提供自定义 hooks 扩展工作流。配合 Kimi K2.6 模型使用,视频推理能力大幅增强。

Kimi Developers: Kimi Code, our open-source coding agent, just got a major upgrade! 🔹One-line CLI install, zero setup, fast startup 🔹Dr...

智能体GitHub产品更新编码
04:58
ViggleAI@ViggleAI
精选66
推出 Viggle API。 给任意角色添加任意动作,一次 API 调用--数秒内即可激活。 可接入 Claude、Codex 或你正在构建的任何智能体。起价 $0.01/秒。 注册即获 100 次免费额度。 转发 + 关注 + 评论,10 位中奖者再获 100 次! 了解更多👇
智能体产品更新视频

推荐理由:给角色加动作的API降到$0.01/秒,还能直接接进Claude和Codex,做视频Agent的开发者可以试试。但纯API发布,普通用户不用激动。
04:16
Artificial Analysis@ArtificialAnlys
68
xAI发布grok-imagine-video-1.5-preview,在AI视频生成评测中位列第二

xAI推出视频生成模型grok-imagine-video-1.5-preview,目前在Artificial Analysis Video Arena的Image to Video (With Audio)排行榜中排名第二,仅次于字节跳动Seedance 2.0。该模型支持图像转视频并原生生成音频,最长可生成15秒视频。在无音频排行榜中位列第三,紧随Seedance 2.0和自家的grok-imagine-video。模型定价为每分钟视频$8.40,现已通过xAI API提供,并将逐步在Grok app和X上线。

xAI模型发布视频评测/基准
00:08
Runway@runwayml
同事件精选79
一个视频,现在可以为每个信息流和格式制作。上传你现有的视频,选择你想要的宽高比,然后观看我们的编辑模型 Aleph 2.0,填充场景的其余部分,就像你从一开始就这样制作一样。 在我们的桌面 Web 应用上尝试,链接如下。
产品更新图像生成视频
同一事件,精选展示《Aleph 2.0 与 Edit Studio》
推荐理由:Runway 把视频重构图做成了上传即填充,Aleph 2.0 自动补全不同比例画面,对同时做横竖版内容的人太实用,省掉重新拍摄或手动裁剪的功夫。
6月8日
21:36
小互@xiaohu
精选79
小互开源视频翻译工具:一句话自动下载、转写、翻译、烧字幕

小互(@xiaohu)开源视频翻译工具(xiaohu-video-translate),只需说一句“把链接翻译成中文字幕视频”即可全自动完成下载、Whisper本地转写、AI翻译润色、烧字幕、出文稿。转写本地运行,不花API费。支持YouTube、Bilibili、抖音等链接及本地文件,英语、日语、韩语、法语、西班牙语等均可转成中文字幕。字幕精确到词级时间戳,按语义断句,每行不超过12字,双语模式下中文大英文小。提供纯中文与中英双语模式。工具由三个子技能组成,可单独或串联使用,适配Claude Code、Codex、OpenClaw等AI编程工具。已开源,附安装指南。

GitHub开源/仓库视频语音

推荐理由:小互把自己用了半年的视频翻译工具开源了,本地Whisper转写加AI润色,下载、翻译、烧字幕一句话搞定,做海外视频搬运或想省时间的,装一下就能省掉大半天手工。
21:27
AYi@AYi_AInotes
24
用户自建本地视频剪辑工具生成吉卜力风格口播视频

剪映翻译效果不佳,作者尝试自建了一个本地视频剪辑应用,主要功能为视频翻译和字幕。近日测试了根据文档自动生成口播视频的功能,并输出了一段吉卜力动漫风格的视频。作者表示后续将迭代增加动画效果,可用于微信视频号内容创作。

教程/实践编码视频
‹ 上一页
1…45678…17
下一页 ›