AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 907 条
全部一手资讯X论文
标签「多模态」清除
StepFun@StepFun_ai · 5月30日55

Curious to hear your verdict once it’s loaded. 👀

译等加载完想听听你的看法。👀

StepFun@StepFun_ai · 5月30日62

Small is a feature. 😌

译小即是美。😌

向阳乔木@vista8 · 5月30日52

Codex 制作的 Suno MTV,任意一首Suno歌曲自动转成带LRC歌词同步显示的 MV。 图片由Codex根据歌词内容自动生成,还挺符合意境。

OpenRouter@OpenRouter · 5月30日72

Now you can use your OpenRouter models directly inside @ComfyUI workflows!

译现在你可以直接在ComfyUI工作流中使用你的OpenRouter模型了! [引用 @ComfyUI]:ComfyUI刚刚添加了@OpenRouter支持。 你不再局限于单一的大语言模型,现在可以直接在Comfy中访问20多个模型。 更多灵活性,更少摩擦,同样的工作流。 工作流链接在下方👇

Jeff Dean@JeffDean · 5月30日76

I enjoyed this chat immensely with @OfficialLoganK and my fellow Gemini leads @OriolVinyalsML and @NoamShazeer and @koraykv.

译我非常享受与@OfficialLoganK以及我的Gemini联合负责人@OriolVinyalsML、@NoamShazeer和@koraykv的这次对话。

Google Gemini@GeminiApp · 5月30日69

From the screen to reality in a single prompt. Check out these incredible examples of how Gemini Omni can understand your video input, apply physics, and generate seamless new motion. Try it out for yourself and share how you're experimenting with Gemini Omni in the replies 👇

译从屏幕到现实,只需一个提示词。 看看这些令人惊叹的例子,了解 Gemini Omni 如何理解你的视频输入,应用物理规律,并生成无缝的新动作。 亲自试试看,并在回复中分享你如何实验 Gemini Omni 👇

🚨 AI News | TestingCatalog@testingcatalog · 5月30日60

OPENAI 🔥: Codex for Windows now supports Computer Use and remote control from ChatGPT as well! Windex 💪👀

译OpenAI宣布Codex的Windows版本现已支持Computer Use功能,能够直接在用户的Windows电脑上执行操作。同时,ChatGPT移动应用也新增了对Windows平台Codex的支持,允许用户在移动中启动、审查和引导任务,而任务本身可在Windows设备上持续运行。这是一项早期体验,OpenAI表示将继续开发更多功能,帮助用户随时随地高效工作。

Greg Brockman@gdb · 5月30日76

OpenAI for realtime translation — speak in any of 70+ input languages and translate into 13 output ones:

译OpenAI 实时翻译功能——使用70多种输入语言说话,翻译成13种输出语言: gpt-realtime-translate 接收任意语言的语音输入,并输出目标语言的语音。 大语言模型很棒,但特定用例需要专用模型。 我们正在智能眼镜上运行此功能。

Josh Woodward@joshwoodward · 5月30日47

Editing video with our Omni model 🤯 Here are 10 creative examples that caught my eye in the last 24 hours… Try it in @GeminiApp and @FlowbyGoogle

译用我们的 Omni 模型编辑视频 🤯 以下是过去 24 小时里吸引我注意的 10 个创意示例…… 在 @GeminiApp 和 @FlowbyGoogle 中试试看

Google Gemini@GeminiApp · 5月30日74

Gemini Omni can transform even a basic sketch into a new reality. Try for yourself in the Gemini app. Upload a video of someone drawing a circle and then enter this prompt: When I finish drawing the circle, it becomes ___.

译Gemini Omni甚至能将简单的草图变为新的现实。 在Gemini应用中亲自尝试。上传一段有人画圆的视频,然后输入这个提示词:当我画完这个圆时,它变成了___。

Suno@suno · 5月30日28

blending west coast rap and americana with Compton Cowboys

译将西海岸说唱与乡村音乐融合,Compton牛仔

AK@_akhaliq · 5月30日55

DynaFLIP Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation

译DynaFLIP 通过三模态动态引导的表征重新思考机器人感知

Berryxia.AI@berryxia · 5月30日69

最近开发了一个OCR的 工具,疯狂给干法律的客户案例! 效果非常好,很合适~ 但也遇到有些错乱和不好的结果 金融合同、法律文件、研究报告、历史档案,这些东西里公式、表格、印章、稀有字符混在一起,传统工具经常认错或者直接漏掉,导致后续LLM输出质量直接拉低。 今天PaddlePaddle把PaddleOCR-VL 1.6正式发布了。 它在OmniDocBench上刷到96.33%的SOTA,把开源和商业方案同时甩在身后。 表格识别、经典文本、稀有字符都有明显提升,印章检测、图表理解也更稳。 最实用的是,它和1.5版本完全架构兼容,零迁移成本,拿来就能用。 以前大家总觉得RAG的瓶颈在模型参数或者检索算法,现在看,真正决定上限的往往是输入数据的干净程度。 这份高精度解析能力,直接把文档智能喂给LLM的门槛又往下拉了一大截。

译飞桨发布了PaddleOCR-VL 1.6版本。该版本在OmniDocBench评测基准上取得了96.33%的新SOTA成绩,在该榜单及Real5-OmniDocBench上均排名第一。在表格、经典文本和稀有字符识别能力上均有显著提升,并增强了印章检测与图表理解能力。该版本与1.5版本架构完全兼容,实现了零迁移成本,方便直接部署使用,旨在为大语言模型和检索增强生成等系统提供更高质量的输入数据。

AK@_akhaliq · 5月30日62

Qwen-VLA Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

译Qwen-VLA 跨任务、环境与机器人具身的统一视觉语言动作建模

Google AI@GoogleAI · 5月30日64

Hear the architects of Gemini reflect on their journey to continue pushing the frontier of AI, on this episode of Release Notes. @JeffDean, @koraykv, @OriolVinyalsML, and @NoamShazeer sit down on camera together to share a behind-the-scenes look at the people behind the model, and how they saw the vision come together.

译聆听Gemini的架构师们回顾他们持续推动AI前沿的旅程,本期Release Notes节目。 @JeffDean、@koraykv、@OriolVinyalsML和@NoamShazeer一同出镜,分享模型背后团队的幕后故事,以及他们如何见证愿景的实现。

Berryxia.AI@berryxia · 5月29日66

等我把我做这个项目的过程,写个文章分享给大家。 有一些启示和帮助,记得Star起来啊。 费不费Token不知道,但是真的废人啊! 兄弟们等等我~~

译这是一个用Three.js搭建的盛唐长安3D互动世界,接入Agora技能实现核心实时语音交互功能。用户可与NPC对话、与李白对诗、玩诗词小游戏,并参观珍宝馆和AI展馆。开发者耗时两周、花费800刀完成,现已开源。

Berryxia.AI@berryxia · 5月29日68

🔥我尼玛,兄弟们,这下真的是爆肝了。 已经开源在GitHub了,记得Star一波啊! 我肝了2周+花费了800刀干出来的项目~😭 自己可以真实去体验,文旅馆的真的都可以搞一搞! 一个用 3D 渲染技术three.JS 搭起来的盛唐长安互动世界,并接入 Agora Skills 做了核心实时语音互动小游戏。 你可以在里面: - 和 NPC 对话、李白对诗、玩诗词小游戏 - 进入珍宝馆欣赏诗画 - 逛 AI 展馆,体验古文明与 AI 结合的沉浸感 这玩意我改了N遍,改的我头皮发麻。 强迫症的我,光剪视频都剪了N次,有可能有人说是垃圾,不管如何,我认真做了。 享受这个Solo 干项目的时光,Learning in Public ! 如果你觉得有意思,欢迎点个 Star 支持一下。 体验地址和Github地址见评论👇🏻,兄弟们记得一键三连啊!

译作者开源了一个使用3D渲染技术Three.js搭建的盛唐长安互动世界项目。项目核心功能是接入Agora Skills,实现了实时语音互动。用户可以在虚拟世界中与NPC对话、与李白对诗、玩诗词小游戏、进入珍宝馆欣赏诗画,以及逛AI展馆体验古今融合。作者透露该项目花费了2周开发时间及800美元成本,现已托管在GitHub上并开放体验。

OpenBMB@OpenBMB · 5月29日53

🚀 A 1.3B model handling real work at a mine site and in enterprise offices — faster than your annotation team. One recent community case shared by developer Jingdong, explored using MiniCPM-V 4.6 for: ✅ore sample counting in lab images ✅vehicle detection and counting from site images ✅mining zone identification from aerial maps ✅Go code completeness checking Here's what actually happened 🧵

译🚀 一个1.3B模型在矿山现场和企业办公室处理实际工作——比你的标注团队更快。 开发者Jingdong分享的一个近期社区案例,探索了使用MiniCPM-V 4.6进行: ✅实验室图像中的矿样计数 ✅现场图像中的车辆检测与计数 ✅航拍地图中的矿区识别 ✅Go代码完整性检查 以下是实际发生的情况🧵

StepFun@StepFun_ai · 5月29日68

Step 3.7 Flash is now live in @kilocode ! Open weights, ready to run. Appreciate the quick integration 🙏

译Step 3.7 Flash 现已在 @kilocode 上线! 开放权重,随时可运行。感谢快速集成 🙏

Rohan Paul@rohanpaul_ai · 5月29日56

Google fixed some issues around Gemini’s usage/quota limits. - The biggest issue was that 1 or 2 Omni videos could drain limits for some users because of a bug; Ultra users now get 2X Omni generations - Pro prompts now have a per-prompt quota cap - Failed requests won’t count against quota - Flash-Lite is free and won’t use quota - Granular usage breakdowns/alerts are coming - Selected model will stay remembered unless you change it or hit a cap

译Google针对Gemini应用配额问题推出多项修复。主要修复了一个导致1-2个Omni视频即耗尽部分用户配额的bug,Ultra用户的Omni生成次数提升至2倍。Pro提示词现在设有每提示配额上限,失败的请求不再计入配额。Flash-Lite模型免费使用且不占用配额。此外,系统将记住用户选择的模型,除非用户主动更改或达到配额上限。更详细的用量分析和提醒功能即将推出。

Berryxia.AI@berryxia · 5月29日57

兄弟们,我搞出来。 就用Opus 4.8,大概两轮对话就能做出这个效果,可以 口喷绘制CAD。 比如:给我画个球,圈圈什么的。都可以 基础的演示肯定没问题,但真正到工业使用的话,肯定还有一个距离。 不过做一些 demo 演示,我觉得完全没有问题,大家可以去试试。

译用户展示使用 Opus 4.8 模型,仅通过约两轮自然语言对话即可生成基础 3D CAD 模型(如球体、圆圈等),初步演示效果良好,但离工业级应用尚有距离。该成果呼应了 AI 辅助设计从代码生成向自然语言直接驱动三维建模的演进趋势。

Rohan Paul@rohanpaul_ai · 5月29日23

Google omni is underrated indeed.

译Google omni确实被低估了。

SenseTime@SenseTime_AI · 5月29日27

"Hong Kong is uniquely positioned to become a leading hub for #TrustedAI innovation — combining advanced infrastructure, #multimodal foundation models, and strong #ecosystem partnerships." — Lewis Fung, Managing Director, SenseTime Hong Kong and Macau, Asia Pacific Business Group. Lewis recently joined the Cyberport × Hong Kong Police Force Smart Policing Joint AI Lab inauguration, sharing how responsible AI can strengthen #CyberSecurity, #PublicSafety, and #SmartCity operations. SenseTime looks forward to continued collaboration with partners in advancing trusted AI innovation for a smarter, safer Hong Kong.

译SenseTime高管Lewis Fung表示,香港凭借先进基础设施、多模态基础模型和生态伙伴合作,有条件成为可信AI创新中心。他近日出席数码港与警方智能 policing 联合 AI 实验室启动活动,分享了AI在网络安全、公共安全与智慧城市方面的应用。SenseTime将继续与伙伴合作推动可信AI发展,打造更智慧安全的香港。

StepFun@StepFun_ai · 5月29日71

Step 3.7 Flash now showing up on @ZenMuxAI — nice to see it plugged into more model stacks!

译阶跃星辰(Step Fun)的视觉语言模型Step 3.7 Flash已在ZenMux平台上线。该模型采用稀疏MoE架构,专为智能体、编程、搜索、多模态及长上下文工作流设计。其核心性能包括:400 TPS推理速度、约110亿激活参数、256K上下文窗口及3个推理级别。该模型能够理解UI、图表、文档和图像以编写代码或调用工具,并擅长深度网络与视觉搜索,在τ²-bench上跨难度级别取得98%+的成绩。它兼容Claude Code、MCP风格工作流等,并可本地部署于Mac Studio M4 Max、DGX Spark等硬件。

StepFun@StepFun_ai · 5月29日71

Step 3.7 Flash is now live on @OpenRouter ! should make it easier to plug into existing workflows.

译Step 3.7 Flash现已在 @OpenRouter 上线! 这应该能让它更容易地融入现有工作流。

StepFun@StepFun_ai · 5月29日72

Excited to see Step 3.7 Flash available on @ModelScope2022 🚀 Can’t wait to see what builders create with it!

译阶跃星辰发布的多模态模型 Step 3.7 Flash 已在 ModelScope 平台上线。该模型采用 198B 总参数的 MoE 架构,每个 token 激活 11B 参数,推理速度最高达 400 tok/s,支持 256K 上下文窗口,并提供低、中、高三个推理级别以平衡速度与效果。其在 ClawEval-1.1 榜单位列第一(67.1分),在 SWE-bench Pro 上排名第二(56.3分)。模型具备原生多模态能力,由语言骨干与视觉编码器组成,原生支持解析密集UI、图表及财报。该模型采用 Apache 2.0 协议开源,并兼容 vLLM 等多种推理框架。

OpenRouter@OpenRouter · 5月29日69

Step 3.7 Flash from @StepFun_ai is live on OpenRouter. A multimodal (image/video/text) MoE that activates just 11B of 196B params. Tuned for coding, agentic workflows, and structured outputs, with selectable reasoning levels to trade off speed, cost, and depth.

译阶跃星辰的Step 3.7 Flash已在OpenRouter上线。 这是一个多模态(图像/视频/文本)MoE模型,196B参数中仅激活11B。针对编码、智能体工作流和结构化输出进行了调优,并提供可选的推理级别,以权衡速度、成本和深度。

PixVerse@PixVerse_ · 5月29日65

#1 We built a 15-second animated IP teaser — from character sheet to final video. Meet MILO & BUMBLE: Underground Postal Riders RT+ Follow+ Reply= we’ll dm you the workflow & prompt

译我们制作了一个15秒的动画IP预告片——从角色设定到最终视频。认识一下MILO和BUMBLE:地下邮政骑手 转发+关注+回复=我们会私信发送工作流程和提示词

Berryxia.AI@berryxia · 5月29日72

兄弟们! 现在已经可以在 ZenMux 上免费体验 Claude Opus 4.8 了! 我第一时间用它跑了那个Hugging Face大佬M 硬核的「Three.js 纯图元造飞机测试」,要求只用内置几何体(Box、Cylinder、Cone、Sphere…),不准用任何模型加载器,纯手搓一架高细节波音 747-400。 (见视频-Prompt 见评论区) Opus 4.8 从输入提示词到生成完整可运行的 HTML 网页(后掠机翼 ~35°、四台发动机精准吊装、驼峰上层客舱、可收放起落架动画、翼梢小翼、导航灯频闪),一次成型! 整体效果非常惊艳:比例严谨到离谱、从正面/侧面/俯视/3/4 视角一眼就是 747、连发动机吊架的角度都对! 熟悉的老朋友都知道,ZenMux 每次新模型都是 ZeroDelay 首发,并且限时免费额度体验! Anthropic 旗舰刚发布,现在立刻就能通过 API 调用! 另外平台 还“有赔付保障的生产级 AI Gateway”,统一接入 + 路由 + 可用性 + 赔付保障,快速尝鲜首选 复杂空间推理 + 一次成型的工程代码能力是真的没话说,几乎不用返工。 专为 Agent 与长程编码设计,在 SWE-bench、Terminal-Bench、Agentic Coding 等多项榜单直接拿下第一! 代码与多模态理解全面超越上一代,复杂三维结构、物理比例、动画时序都拿捏得死死的。 完全兼容主流 API 格式,无需改动现有工具链。 支持按量计费 + Builder 套餐。 👇 Promot直接体验见评论区:

译Anthropic 旗舰模型 Claude Opus 4.8 现已在 ZenMux 平台提供免费体验。实测中,该模型根据提示词一次生成可运行的 HTML 网页,仅用 Three.js 内置几何体纯手搓出一架包含后掠机翼、四台发动机、可收放起落架等复杂结构的高细节波音 747-400,比例精准、效果惊艳。模型在 SWE-bench、Terminal-Bench、Agentic Coding 等多项榜单排名第一,代码与多模态理解能力较上一代有显著提升。ZenMux 平台以 ZeroDelay 方式首发新模型,并提供限时免费额度。

Rohan Paul@rohanpaul_ai · 5月29日65

Yann LeCun's new paper asks when LeJEPA truly learns hidden world variables, and finds Gaussian structure is the key. Means LeJEPA can only reliably learn the real hidden causes behind what it sees when those causes are shaped like a balanced Gaussian cloud. The paper proves that, when the true hidden variables are independent Gaussian variables and the paired views come from a stable noisy process, the best LeJEPA solution must recover those variables up to a rotation or flip. The paper gives a math reason for when a self-supervised AI model is really learning the structure of the world, not just making useful features that happen to work on a test. ---- Link – arxiv. org/abs/2605.26379 Title: "When Does LeJEPA Learn a World Model?"

译Yann LeCun团队的新论文探讨了LeJEPA模型学习真实世界隐藏变量的条件。其核心结论是,LeJEPA只有在真实的隐藏变量呈现高斯云结构时,才能可靠地学习它们。论文通过数学证明,当这些隐藏变量是独立高斯变量,并且配对视图由一个稳定的噪声过程生成时,LeJEPA的最优解能够以旋转或翻转等价的形式恢复这些变量。这项研究为自监督AI模型究竟在何时能真正理解世界结构(而不仅仅是提取在测试集上有效的特征)提供了理论解释。

StepFun@StepFun_ai · 5月29日69

Now live on @Designarena — go test it out 👀

译现已在 @Designarena 上线——快去试试看 👀

小互@xiaohu · 5月29日62

ElevenLabs 推出 Dubbing V2 端到端的AI配音模型... 最大的变化:配音不再是"先转写、再翻译、最后合成"三段式拼接,而是模型直接基于原始表演建模声音。 并将音色、情绪、演绎都跟着穿越进每一种语言 也就是说,同一个人开口讲六国语言,听上去还是他本人,连情绪和呼吸节奏都对得上 Dubbing v2 支持 90 多种语言和口音, 原理:它针对原始表演来生成,而不是针对一段转录文本,所以语气、情绪、表达方式会跨语言保留下来,声音克隆全自动,会给原说话人建一个声音模型并应用到所有目标语言,保留身份、音高和语气,不用手动设置。 另外支持音频、视频和文字三种输入 具体能力: • 音色穿越:不是模仿你的声音,是你的声音直接在另一种语言里说话 • 情绪保真:原片里你笑你叹气你激动,译版照样有 • 同步感知翻译:译文长度匹配原片口型和停顿,不会嘴动完了字幕还在跑 • 措辞本地化:不是字面直译,每种语言用自己的表达方式 • 端到端全自动:传一个视频进去出一份配音,中间没有手工拼接 视频里他们演了三个场景: MrBeast 风格的荒岛求生在 English/German/French 之间无缝切换 一段财务部门的快节奏对白试连贯性 一个童话故事试表达力

译ElevenLabs 推出 Dubbing V2,一个端到端的AI配音模型。它突破了传统“转写-翻译-合成”的拼接流程,直接基于原始表演建模声音,从而将说话者的音色、情绪和演绎完整迁移到目标语言中。该模型支持 90 多种语言和口音,支持音频、视频及文本输入。其核心能力包括跨语言音色克隆、情绪演绎保留、输出时长与原片口型同步,以及本地化自然表达。演示视频展示了其在多语种无缝切换、快节奏对白及故事叙述中的应用效果。

StepFun@StepFun_ai · 5月29日79

Day-0 NVIDIA support for Step 3.7 Flash — NIM, NeMo, and GPU-accelerated endpoints ready to go. Thanks @NVIDIAAI !🤝

译阶跃星辰Step 3.7 Flash首日支持——NIM、NeMo和GPU加速端点已就绪。 感谢@NVIDIAAI!🤝 [引用 @NVIDIAAI]:Step 3.7 Flash现已发布 ICYMI:198B MoE,11B激活参数,256K上下文,原生图像+视频支持。 首日支持已在http://build.nvidia.com上线,提供GPU加速端点,可通过NVIDIA NIM推理微服务部署,并使用NVIDIA NeMo框架进行微调。 祝贺@stepfun_ai团队!

StepFun@StepFun_ai · 5月29日64

Day-0 SGLang support. Thanks @lmsysorg for moving so fast.

译SGLang宣布其推理框架现已对阶跃星辰(StepFun AI)的新模型Step 3.7 Flash提供Day-0支持。该模型是一个专为高吞吐量智能体工作负载设计的198B稀疏MoE视觉语言模型,具备原生多模态感知能力。它在SimpleVQA评测中以79.2分排名第一,V*得分为95.3。在智能体工作流方面,它在ClawEval-1.1上以67.1分领先,展现出可靠的长期工具编排能力;在软件工程任务中,于SWE-Bench PRO上以56.3分位列第二。模型支持256K上下文,并提供3种推理级别以平衡速度、成本与深度。

StepFun@StepFun_ai · 5月29日79

Day-0 vLLM support. Thanks @vllm_project 🤝

译阶跃星辰发布了 Step-3.7-Flash 模型,vLLM 在模型发布当天即提供支持。该模型是一个 198B 参数的稀疏 MoE 视觉语言模型,每个 token 约有 11B 激活参数,支持原生图像与文本输入。其上下文窗口达到 256K,适用于长文档、多文件代码库及密集视觉界面。模型提供 FP8 和 NVFP4 量化权重版本,并内置 MTP 推测解码、原生工具调用及推理解析功能。

Google AI@GoogleAI · 5月29日24

Some fun Gemini Omni use cases from the community 🧵👇

译一些来自社区的有趣Gemini Omni用例 🧵👇

StepFun@StepFun_ai · 5月29日75

⚡️ Step 3.7 Flash is here: The new frontier is agent efficiency. #1 ClawEval-1.1 (67.1), #1 SimpleVQA Search (79.2), #2 SWE-PRO (56.3), 95.3 on V* Python. Open weights under Apache 2.0. Built for agentic, coding, search, and multimodal workflows — balancing speed, cost, and reliable execution. - 400 TPS. 198B sparse MoE, ~11B active. 256K context, 3 reasoning levels. - Understands UIs, charts, docs, images — then writes code or calls tools to act on what it sees. - Web + visual search reaches further: more sources, deeper follow-up. - Reliable tool use — less drift, fewer broken toolcalls. 98%+ on τ²-bench across all difficulty levels. - Works with Claude Code, KiloCode, Hermes Agent, OpenClaw, and protocols like MCP. - Runs locally on Mac Studio M4 Max, DGX Spark, AMD AI Max+ 395. GitHub: http://github.com/stepfun-ai/Step-3.7-Flash HuggingFace: http://huggingface.co/stepfun-ai/Step-3.7-Flash GGUF: http://huggingface.co/stepfun-ai/Step-3.7-Flash-GGUF ModelScope: http://modelscope.cn/models/stepfun-ai/Step-3.7-Flash API: http://platform.stepfun.ai Blog: http://static.stepfun.com/blog/step-3.7-flash/

译阶跃星辰(Step)发布了开源大模型 Step 3.7 Flash,主打智能体(Agent)工作流的效率。该模型在 ClawEval-1.1(67.1分)和 SimpleVQA Search(79.2分)评测中排名第一。其架构为 198B 参数的 MoE,约 11B 为活跃参数,支持 256K 上下文。模型具备多模态理解能力,能处理图像、文档并生成代码或调用工具执行任务。在工具使用方面,它致力于高可靠性,τ²-bench 得分超过 98%。Step 3.7 Flash 兼容 Claude Code、MCP 协议等工具链,并支持在 Mac Studio M4 Max 等设备上本地运行。模型权重以 Apache 2.0 许可开源。

Rohan Paul@rohanpaul_ai · 5月29日23

Google Omni deserves a more hype.

译Google Omni 值得更多关注。

🚨 AI News | TestingCatalog@testingcatalog · 5月29日63

GOOGLE 🔥: Both Nano Banana 2 and Nano Banana Pro are now in General Availability on the APIs! > NEW: Nano Banana 2 now supports video files as an input prompt. > The 1K and 2K output capabilities are generally available for both models, while the 4K capability remains in preview. > General Availability means that these models are backed by enterprise-grade infrastructure and security.

译Google 宣布 Nano Banana 2 和 Nano Banana Pro 模型现已通过 API 达到通用可用状态。其中,Nano Banana 2 新增了支持将视频文件作为输入提示的功能。在输出方面,两款模型的 1K 和 2K 输出能力已正式发布,而 4K 输出功能仍处于预览阶段。达到通用可用意味着这些模型由企业级的基础设施和安全体系提供支持。它们可通过 Gemini Enterprise Agent Platform 集成,使开发者能够将高质量的图像生成与编辑功能整合到其应用与工作流中。

Google Gemini@GeminiApp · 5月29日62

You’re in luck! Users in India can now upload videos (from their camera roll or saved files) and use Gemini Omni to edit and transform them. Give it a try and let us know what you think.

译好消息!印度用户现在可以上传视频(来自相册或已保存文件),并使用Gemini Omni进行编辑和转换。快来试试,并告诉我们你的想法。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月30日
20:11
StepFun@StepFun_ai
55
等加载完想听听你的看法。👀

Ivan Fioravanti ᯅ: Step 3.7 Flash was another one I was really looking for! Big jump compared to 3.5, multi modal and even better than Deep...

多模态模型发布端侧
19:11
StepFun@StepFun_ai
62
小即是美。😌

Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 - ∞): I've been waiting for this! They managed to do it before June, and they open sourced it right away! @antirez I've been s...

多模态开源/仓库模型发布端侧
12:11
向阳乔木@vista8
52
Codex 制作的 Suno MTV,任意一首Suno歌曲自动转成带LRC歌词同步显示的 MV。 图片由Codex根据歌词内容自动生成,还挺符合意境。
图像生成多模态教程/实践
08:06
OpenRouter@OpenRouter
精选72
现在你可以直接在ComfyUI工作流中使用你的OpenRouter模型了! 【引用 @ComfyUI】:ComfyUI刚刚添加了@OpenRouter支持。 你不再局限于单一的大语言模型,现在可以直接在Comfy中访问20多个模型。 更多灵活性,更少摩擦,同样的工作流。 工作流链接在下方👇

ComfyUI: ComfyUI just added @OpenRouter support. Instead of being locked into a single LLM, you can now access 20+ models directl...

产品更新多模态开源生态

推荐理由:ComfyUI 首次直接集成 LLM 路由服务,等于给图像管线加了个「外挂大脑」,做自动化工作流的人可以直接在节点里调用 20+ 模型,省掉一堆 API tinker 环节。
05:46
Jeff Dean@JeffDean
76
我非常享受与@OfficialLoganK以及我的Gemini联合负责人@OriolVinyalsML、@NoamShazeer和@koraykv的这次对话。

Logan Kilpatrick: My conversation with @JeffDean, @koraykv, @NoamShazeer, and @OriolVinyalsML (the Gemini co-leads) about the current stat...

Google多模态大佬观点
05:36
Google Gemini@GeminiApp
69
从屏幕到现实,只需一个提示词。 看看这些令人惊叹的例子,了解 Gemini Omni 如何理解你的视频输入,应用物理规律,并生成无缝的新动作。 亲自试试看,并在回复中分享你如何实验 Gemini Omni 👇
Google产品更新多模态视频
04:50
🚨 AI News | TestingCatalog@testingcatalog
60
OpenAI宣布Codex的Windows版本现已支持Computer Use功能,能够直接在用户的Windows电脑上执行操作。同时,ChatGPT移动应用也新增了对Windows平台Codex的支持,允许用户在移动中启动、审查和引导任务,而任务本身可在Windows设备上持续运行。这是一项早期体验,OpenAI表示将继续开发更多功能,帮助用户随时随地高效工作。

OpenAI: Windows users, this one's for you. Computer use now works on Windows, so Codex can take action on your Windows computer....

智能体OpenAI产品更新多模态
04:19
Greg Brockman@gdb
精选76
OpenAI 实时翻译功能--使用70多种输入语言说话,翻译成13种输出语言: gpt-realtime-translate 接收任意语言的语音输入,并输出目标语言的语音。 大语言模型很棒,但特定用例需要专用模型。 我们正在智能眼镜上运行此功能。

cayden 凯登: OpenAI just dropped a completely new kind of model gpt-realtime-translate takes in speech audio from any language and ou...

OpenAI多模态模型发布语音

推荐理由:OpenAI悄悄推出一个专门做实时语音翻译的模型,不是通用LLM,而是专用模型。这标志着AI交互从文字转向语音的第一步,做翻译硬件或AR眼镜的团队要睡不着了。
03:38
Josh Woodward@joshwoodward
47
用我们的 Omni 模型编辑视频 🤯 以下是过去 24 小时里吸引我注意的 10 个创意示例…… 在 @GeminiApp 和 @FlowbyGoogle 中试试看
Google产品更新多模态视频
03:06
Google Gemini@GeminiApp
精选74
Gemini Omni甚至能将简单的草图变为新的现实。 在Gemini应用中亲自尝试。上传一段有人画圆的视频,然后输入这个提示词:当我画完这个圆时,它变成了___。
Google产品更新多模态

推荐理由:Google 把「画个圈然后说变什么」做成了真功能,创意交互的门槛又低了,普通用户随手就能玩,但本质是锦上添花,不是核心能力跃迁。
01:40
Suno@suno
28
将西海岸说唱与乡村音乐融合,Compton牛仔
其他多模态
00:45
AK@_akhaliq
55
DynaFLIP 通过三模态动态引导的表征重新思考机器人感知
arXiv具身智能多模态论文/研究
00:34
Berryxia.AI@berryxia
69
PaddleOCR-VL 1.6 发布,文档解析SOTA提升

飞桨发布了PaddleOCR-VL 1.6版本。该版本在OmniDocBench评测基准上取得了96.33%的新SOTA成绩,在该榜单及Real5-OmniDocBench上均排名第一。在表格、经典文本和稀有字符识别能力上均有显著提升,并增强了印章检测与图表理解能力。该版本与1.5版本架构完全兼容,实现了零迁移成本,方便直接部署使用,旨在为大语言模型和检索增强生成等系统提供更高质量的输入数据。

PaddlePaddle: 🚀PaddleOCR-VL 1.6 Officially Released! We are thrilled to announce the official release of PaddleOCR-VL 1.6 - this vers...

多模态开源生态模型发布
00:15
AK@_akhaliq
62
Qwen-VLA 跨任务、环境与机器人具身的统一视觉语言动作建模
具身智能多模态开源生态论文/研究
00:07
Google AI@GoogleAI
64
聆听Gemini的架构师们回顾他们持续推动AI前沿的旅程,本期Release Notes节目。 @JeffDean、@koraykv、@OriolVinyalsML和@NoamShazeer一同出镜,分享模型背后团队的幕后故事,以及他们如何见证愿景的实现。
Google多模态大佬观点
5月29日
23:34
Berryxia.AI@berryxia
66
这是一个用Three.js搭建的盛唐长安3D互动世界,接入Agora技能实现核心实时语音交互功能。用户可与NPC对话、与李白对诗、玩诗词小游戏,并参观珍宝馆和AI展馆。开发者耗时两周、花费800刀完成,现已开源。

Berryxia.AI: 🔥我尼玛,兄弟们,这下真的是爆肝了。 已经开源在GitHub了,记得Star一波啊! 我肝了2周+花费了800刀干出来的项目~😭 自己可以真实去体验,文旅馆的真的都可以搞一搞! 一个用 3D 渲染技术three.JS 搭起来的盛唐长安互...

多模态开源/仓库语音
22:34
Berryxia.AI@berryxia
68
开源项目:Three.js打造3D盛唐长安互动世界

作者开源了一个使用3D渲染技术Three.js搭建的盛唐长安互动世界项目。项目核心功能是接入Agora Skills,实现了实时语音互动。用户可以在虚拟世界中与NPC对话、与李白对诗、玩诗词小游戏、进入珍宝馆欣赏诗画,以及逛AI展馆体验古今融合。作者透露该项目花费了2周开发时间及800美元成本,现已托管在GitHub上并开放体验。

多模态开源/仓库语音
21:30
OpenBMB@OpenBMB
53
🚀 一个1.3B模型在矿山现场和企业办公室处理实际工作--比你的标注团队更快。 开发者Jingdong分享的一个近期社区案例,探索了使用MiniCPM-V 4.6进行: ✅实验室图像中的矿样计数 ✅现场图像中的车辆检测与计数 ✅航拍地图中的矿区识别 ✅Go代码完整性检查 以下是实际发生的情况🧵
多模态教程/实践
21:10
StepFun@StepFun_ai
68
Step 3.7 Flash 现已在 @kilocode 上线! 开放权重,随时可运行。感谢快速集成 🙏

Kilo: StepFun's Step 3.7 Flash is one of the best open-weight models you can run right now, and it's live in Kilo. A multimoda...

智能体多模态开源/仓库模型发布
16:45
Rohan Paul@rohanpaul_ai
56
Google针对Gemini应用配额问题推出多项修复。主要修复了一个导致1-2个Omni视频即耗尽部分用户配额的bug,Ultra用户的Omni生成次数提升至2倍。Pro提示词现在设有每提示配额上限,失败的请求不再计入配额。Flash-Lite模型免费使用且不占用配额。此外,系统将记住用户选择的模型,除非用户主动更改或达到配额上限。更详细的用量分析和提醒功能即将推出。

Josh Woodward: We've heard your feedback about hitting limits too quickly on @GeminiApp. We're rolling out several fixes to make your q...

Google产品更新多模态
16:34
Berryxia.AI@berryxia
57
Opus 4.8 实现两轮对话生成基础 CAD 模型

用户展示使用 Opus 4.8 模型,仅通过约两轮自然语言对话即可生成基础 3D CAD 模型(如球体、圆圈等),初步演示效果良好,但离工业级应用尚有距离。该成果呼应了 AI 辅助设计从代码生成向自然语言直接驱动三维建模的演进趋势。

Berryxia.AI: 大家越来越叼了! 从原来的Coding软件已经无法满足大家的胃口了,现在都是开始自然文本-3D CAD 来Coding了。

Anthropic多模态教程/实践
15:15
Rohan Paul@rohanpaul_ai
23
Google omni确实被低估了。
Google多模态大佬观点
14:39
SenseTime@SenseTime_AI
27
SenseTime高管:香港有条件成可信AI中心,已与警方合作

SenseTime高管Lewis Fung表示,香港凭借先进基础设施、多模态基础模型和生态伙伴合作,有条件成为可信AI创新中心。他近日出席数码港与警方智能 policing 联合 AI 实验室启动活动,分享了AI在网络安全、公共安全与智慧城市方面的应用。SenseTime将继续与伙伴合作推动可信AI发展,打造更智慧安全的香港。

多模态行业动态
12:40
StepFun@StepFun_ai
71
阶跃星辰(Step Fun)的视觉语言模型Step 3.7 Flash已在ZenMux平台上线。该模型采用稀疏MoE架构,专为智能体、编程、搜索、多模态及长上下文工作流设计。其核心性能包括:400 TPS推理速度、约110亿激活参数、256K上下文窗口及3个推理级别。该模型能够理解UI、图表、文档和图像以编写代码或调用工具,并擅长深度网络与视觉搜索,在τ2-bench上跨难度级别取得98%+的成绩。它兼容Claude Code、MCP风格工作流等,并可本地部署于Mac Studio M4 Max、DGX Spark等硬件。

ZenMux: Excited to support Step 3.7 Flash by @StepFun_ai on ZenMux from day one. 🚀 A sparse MoE vision-language model built for...

智能体MCP/工具多模态模型发布
11:40
StepFun@StepFun_ai
71
Step 3.7 Flash现已在 @OpenRouter 上线! 这应该能让它更容易地融入现有工作流。

OpenRouter: Step 3.7 Flash from @StepFun_ai is live on OpenRouter. A multimodal (image/video/text) MoE that activates just 11B of 19...

智能体多模态模型发布
11:40
StepFun@StepFun_ai
72
阶跃星辰发布的多模态模型 Step 3.7 Flash 已在 ModelScope 平台上线。该模型采用 198B 总参数的 MoE 架构,每个 token 激活 11B 参数,推理速度最高达 400 tok/s,支持 256K 上下文窗口,并提供低、中、高三个推理级别以平衡速度与效果。其在 ClawEval-1.1 榜单位列第一(67.1分),在 SWE-bench Pro 上排名第二(56.3分)。模型具备原生多模态能力,由语言骨干与视觉编码器组成,原生支持解析密集UI、图表及财报。该模型采用 Apache 2.0 协议开源,并兼容 vLLM 等多种推理框架。

ModelScope: Thrilled to welcome Step 3.7 Flash landing on ModelScope, a 198B sparse MoE VLM from @StepFun_ai 🔥🤖 https://modelscope...

智能体多模态开源/仓库模型发布
11:06
OpenRouter@OpenRouter
69
阶跃星辰的Step 3.7 Flash已在OpenRouter上线。 这是一个多模态(图像/视频/文本)MoE模型,196B参数中仅激活11B。针对编码、智能体工作流和结构化输出进行了调优,并提供可选的推理级别,以权衡速度、成本和深度。
智能体多模态模型发布编码
关联讨论 3 条X:阶跃星辰 StepFun (@StepFun_ai)IT之家(RSS)公众号:阶跃星辰(Step)
10:44
PixVerse@PixVerse_
65
我们制作了一个15秒的动画IP预告片--从角色设定到最终视频。认识一下MILO和BUMBLE:地下邮政骑手 转发+关注+回复=我们会私信发送工作流程和提示词
多模态教程/实践视频
10:32
Berryxia.AI@berryxia
72
Claude Opus 4.8 在 ZenMux 平台开启免费体验

Anthropic 旗舰模型 Claude Opus 4.8 现已在 ZenMux 平台提供免费体验。实测中,该模型根据提示词一次生成可运行的 HTML 网页,仅用 Three.js 内置几何体纯手搓出一架包含后掠机翼、四台发动机、可收放起落架等复杂结构的高细节波音 747-400,比例精准、效果惊艳。模型在 SWE-bench、Terminal-Bench、Agentic Coding 等多项榜单排名第一,代码与多模态理解能力较上一代有显著提升。ZenMux 平台以 ZeroDelay 方式首发新模型,并提供限时免费额度。

Anthropic多模态编码评测/基准
09:44
Rohan Paul@rohanpaul_ai
65
LeJEPA何时学习世界模型?

Yann LeCun团队的新论文探讨了LeJEPA模型学习真实世界隐藏变量的条件。其核心结论是,LeJEPA只有在真实的隐藏变量呈现高斯云结构时,才能可靠地学习它们。论文通过数学证明,当这些隐藏变量是独立高斯变量,并且配对视图由一个稳定的噪声过程生成时,LeJEPA的最优解能够以旋转或翻转等价的形式恢复这些变量。这项研究为自监督AI模型究竟在何时能真正理解世界结构(而不仅仅是提取在测试集上有效的特征)提供了理论解释。

Meta多模态论文/研究
09:39
StepFun@StepFun_ai
69
现已在 @Designarena 上线--快去试试看 👀

Design Arena: Step 3.7 Flash is now on Design Arena! A 400TPS open-weight model with a 256K content window, built for agentic, coding,...

多模态开源生态模型发布
09:09
小互@xiaohu
62
ElevenLabs 推出 Dubbing V2

ElevenLabs 推出 Dubbing V2,一个端到端的AI配音模型。它突破了传统“转写-翻译-合成”的拼接流程,直接基于原始表演建模声音,从而将说话者的音色、情绪和演绎完整迁移到目标语言中。该模型支持 90 多种语言和口音,支持音频、视频及文本输入。其核心能力包括跨语言音色克隆、情绪演绎保留、输出时长与原片口型同步,以及本地化自然表达。演示视频展示了其在多语种无缝切换、快节奏对白及故事叙述中的应用效果。

产品更新多模态语音
09:09
StepFun@StepFun_ai
79
阶跃星辰Step 3.7 Flash首日支持--NIM、NeMo和GPU加速端点已就绪。 感谢@NVIDIAAI!🤝 【引用 @NVIDIAAI】:Step 3.7 Flash现已发布 ICYMI:198B MoE,11B激活参数,256K上下文,原生图像+视频支持。 首日支持已在http://build.nvidia.com上线,提供GPU加速端点,可通过NVIDIA NIM推理微服务部署,并使用NVIDIA NeMo框架进行微调。 祝贺@stepfun_ai团队!

NVIDIA AI: Step 3.7 Flash is here ICYMI: 198B MoE with 11B active params, 256K context, native image + video support. Day 0 support...

多模态模型发布
关联讨论 3 条X:阶跃星辰 StepFun (@StepFun_ai)IT之家(RSS)公众号:阶跃星辰(Step)
08:39
StepFun@StepFun_ai
64
SGLang宣布其推理框架现已对阶跃星辰(StepFun AI)的新模型Step 3.7 Flash提供Day-0支持。该模型是一个专为高吞吐量智能体工作负载设计的198B稀疏MoE视觉语言模型,具备原生多模态感知能力。它在SimpleVQA评测中以79.2分排名第一,V*得分为95.3。在智能体工作流方面,它在ClawEval-1.1上以67.1分领先,展现出可靠的长期工具编排能力;在软件工程任务中,于SWE-Bench PRO上以56.3分位列第二。模型支持256K上下文,并提供3种推理级别以平衡速度、成本与深度。

LMSYS Org: 🎉 Meet Step 3.7 Flash from @StepFun_ai, a 198B sparse MoE vision-language model built for high-throughput agentic workl...

智能体多模态模型发布编码
08:39
StepFun@StepFun_ai
79
阶跃星辰发布了 Step-3.7-Flash 模型,vLLM 在模型发布当天即提供支持。该模型是一个 198B 参数的稀疏 MoE 视觉语言模型,每个 token 约有 11B 激活参数,支持原生图像与文本输入。其上下文窗口达到 256K,适用于长文档、多文件代码库及密集视觉界面。模型提供 FP8 和 NVFP4 量化权重版本,并内置 MTP 推测解码、原生工具调用及推理解析功能。

vLLM: 🎉 Congrats to @StepFun_ai on releasing Step-3.7-Flash, with day-0 support in vLLM. - 198B sparse MoE vision-language mo...

多模态推理模型发布部署/工程
关联讨论 3 条X:阶跃星辰 StepFun (@StepFun_ai)IT之家(RSS)公众号:阶跃星辰(Step)
08:37
Google AI@GoogleAI
24
一些来自社区的有趣Gemini Omni用例 🧵👇
Google产品更新多模态
08:09
StepFun@StepFun_ai
75
阶跃星辰 Step 3.7 Flash 发布,聚焦智能体效率

阶跃星辰(Step)发布了开源大模型 Step 3.7 Flash,主打智能体(Agent)工作流的效率。该模型在 ClawEval-1.1(67.1分)和 SimpleVQA Search(79.2分)评测中排名第一。其架构为 198B 参数的 MoE,约 11B 为活跃参数,支持 256K 上下文。模型具备多模态理解能力,能处理图像、文档并生成代码或调用工具执行任务。在工具使用方面,它致力于高可靠性,τ²-bench 得分超过 98%。Step 3.7 Flash 兼容 Claude Code、MCP 协议等工具链,并支持在 Mac Studio M4 Max 等设备上本地运行。模型权重以 Apache 2.0 许可开源。

智能体多模态开源生态推理
关联讨论 3 条X:阶跃星辰 StepFun (@StepFun_ai)IT之家(RSS)公众号:阶跃星辰(Step)
06:14
Rohan Paul@rohanpaul_ai
23
Google Omni 值得更多关注。
Google多模态大佬观点
05:49
🚨 AI News | TestingCatalog@testingcatalog
63
Google 宣布 Nano Banana 2 和 Nano Banana Pro 模型现已通过 API 达到通用可用状态。其中,Nano Banana 2 新增了支持将视频文件作为输入提示的功能。在输出方面,两款模型的 1K 和 2K 输出能力已正式发布,而 4K 输出功能仍处于预览阶段。达到通用可用意味着这些模型由企业级的基础设施和安全体系提供支持。它们可通过 Gemini Enterprise Agent Platform 集成,使开发者能够将高质量的图像生成与编辑功能整合到其应用与工作流中。

Thomas Kurian: Nano Banana 2 and Nano Banana Pro are now generally available via Gemini Enterprise Agent Platform. Backed by enterprise...

Google图像生成多模态模型发布
03:06
Google Gemini@GeminiApp
62
好消息!印度用户现在可以上传视频(来自相册或已保存文件),并使用Gemini Omni进行编辑和转换。快来试试,并告诉我们你的想法。

Vijay Choudhary: Gemini Omni seems to outperform everything. Crazy updates for Vibe Video Editing at #google Let's see when this update w...

Google产品更新多模态视频
‹ 上一页
1…89101112…23
下一页 ›