AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 281 条
全部一手资讯X论文
标签「多模态」清除
6月8日周一
18:00公众号:通义实验室(千问)68同事件精选Agent 辅助开发,一站式打通 Qwen3-VL Android 端侧推理同一事件,精选展示《Agent辅助开发:通义实验室教程打通Qwen3-VL Android端侧推理》
17:53公众号:通义实验室(千问)67精选Agent辅助开发:通义实验室教程打通Qwen3-VL Android端侧推理
6月6日周六
17:52公众号:MiniMax(稀宇科技)56海螺AI×上影节活动日历:开放日6.14-6.15
03:33Anthropic:Research(发表成果 · 网页)65精选Anthropic:让Claude成为化学家
01:17Cursor Blog74精选在 Design Mode 中通过视觉提示直接指挥智能体
6月5日周五
23:11Google Blog:AI(RSS)34谷歌2026年5月AI最新动态
13:27公众号:京东JoyAI72精选京东开源JoyAI-Echo长音视频生成框架
03:43Hugging Face:Blog(RSS)78精选Nemotron 3.5 Content Safety:面向全球企业AI的可定制多模态安全
6月4日周四
21:07公众号:百度智能云(文心)53全灵(SEELE AI)联合百度智能云推出MoT大模型,一句话生成可玩世界
18:25公众号:面壁智能(MiniCPM)42智能座舱卷到头了?这份白皮书给出了答案
11:00公众号:火山引擎48中国美术学院×火山引擎:高质量数据集赋能普通人专业作画
09:28xAI:News(网页)75精选xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)
00:07Google Developers Blog(RSS)75在笔记本电脑上运行 Gemma 4 12B:借助 Google AI Edge 解锁本地智能体工作流
00:07Google Developers Blog(RSS)78同事件精选Gemma 4 12B:开发者指南同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
6月3日周三
21:34Google Blog:AI(RSS)50Google Search 提升二手和复古购物体验的5种方式
6月2日周二
01:59公众号:通义实验室(千问)64同事件精选Qwen3.7-Plus 多模态智能体模型发布同一事件,精选展示《Qwen3.7-Plus:多模态智能体模型发布》
01:37Qwen:Blog Retrieval(API)81精选Qwen3.7-Plus:多模态智能体模型发布
01:26Google Blog:AI(RSS)42谷歌员工如何使用 Gemini 制作 Google I/O 2026
6月1日周一
18:21公众号:腾讯混元46腾讯混元为《和平精英》推出AI明星队友「小田」
13:36Hugging Face:Blog(RSS)75NVIDIA 发布 Cosmos 3:首个面向物理AI推理与动作的开源全能模型
11:39MiniMax:Blog(网页)83精选MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型
09:23公众号:MiniMax(稀宇科技)65MiniMax M3 发布:1M 上下文、原生多模态、前沿编程与 Agent 能力
5月30日周六
01:38Google Blog:AI(RSS)74同事件精选Gemini Omni 与 Gemini 3.5 的 11 个实战展示同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
5月29日周五
23:13Qwen:Blog Retrieval(API)66精选Qwen-VLA:从理解世界到付诸行动
17:44公众号:通义实验室(千问)64精选通义实验室发布教程:在 Android 手机部署 MCP 感知服务器
15:43公众号:腾讯元宝41元宝助手正式入驻QQ浏览器,底层模型升级至Hy3 preview
08:02公众号:阶跃星辰(Step)61同事件精选阶跃发布 Step 3.7 Flash,面向生产级 Agent 的高效率 Flash 模型同一事件,精选展示《在 NVIDIA GPU 上运行面向企业级就绪的多模态 AI——Step 3.7 Flash》
00:06Google Blog:AI(RSS)61Google I/O 2026 一文速览:12 大重要时刻
00:00LMSYS:Blog(Chatbot Arena 团队)61精选LMSYS与Intel合作通过异构CPU+GPU EPD架构提升视觉语言模型服务性能
5月28日周四
20:21公众号:京东JoyAI51听见京东 618:大模型时代下的声音供应链
19:58公众号:龙猫LongCat(美团)44美团&顶会论文分享 | 5大专场,32篇论文解读
17:47公众号:通义实验室(千问)54通义实验室发布Qwen-Image-Bench:56项细粒度创作评测基准
5月27日周三
22:09Runway:News(网页)73精选Runway 推出 Model Context Protocol 服务器
5月26日周二
22:34Runway:News(网页)68精选Project Luxo:跨越AI媒体的恐怖谷
14:21公众号:火山引擎50网龙×火山引擎:豆包大模型让优质AI课程实现"量产"
5月25日周一
18:49蚂蚁 inclusionAI:HuggingFace 新模型71同事件精选<中文标题>SingGuard: 策略自适应多模态护栏模型族开源</中文标题>同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》
18:48蚂蚁 inclusionAI:HuggingFace 新模型69同事件精选蚂蚁 inclusionAI 发布策略自适应多模态安全护栏模型 Sing-Guard-8b同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》
18:48蚂蚁 inclusionAI:HuggingFace 新模型68同事件精选inclusionAI 发布 Sing-Guard-2b:策略自适应多模态大模型安全护栏同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》
15:25蚂蚁 inclusionAI:GitHub 新仓库67精选蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard
5月23日周六
08:16Hugging Face:Blog(RSS)63精选NVIDIA 发布 Nemotron-Labs Diffusion 系列模型,支持三种生成模式
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月8日
18:00
公众号:通义实验室(千问)
同事件精选68
Agent 辅助开发,一站式打通 Qwen3-VL Android 端侧推理

通义实验室教程演示了如何用 Agent(Qoder)辅助完成 Qwen3-VL-2B 模型在 Android 端侧的全流程部署。操作包括:检查 JDK 21、NDK 27、CMake 3.18.1 等环境;创建 arm64-v8a 的 Native C++ 工程(minSdk 29、compileSdk 35);通过 ModelScope CLI 下载约 1.4GB 的 MNN/Qwen3-VL-2B-Instruct-MNN 模型;编译开启 LLM 视觉支持(MNN_BUILD_LLM、LLM_SUPPORT_VISION)的 libMNN.so;构建 APK 并推送模型至手机私有目录。最终 App 提供图文推理页面,输出 MNN 版本(v3.5.0)、ABI 及推理指标。所有繁琐步骤均可由 Agent 自动执行。

多模态推理教程/实践端侧
同一事件,精选展示《Agent辅助开发:通义实验室教程打通Qwen3-VL Android端侧推理》
推荐理由:用Agent辅助走通Qwen3-VL安卓端侧推理全流程,从环境搭建到JNI桥接一步到位。如果你在做移动端AI应用,这可能是目前最详细的实战指南,可以直接抄作业。
17:53
公众号:通义实验室(千问)
精选67
Agent辅助开发:通义实验室教程打通Qwen3-VL Android端侧推理

通义实验室第二期教程展示如何利用Agent(如Qoder)自动完成Android端侧AI App开发全流程。Agent依次执行:检查并配置Android环境(JDK 21、NDK 27等)、创建Native C++工程PhotoTaggerMNN、下载约1.4GB的Qwen3-VL-2B-Instruct-MNN模型、编译支持视觉能力的libMNN.so、将MNN接入工程、构建APK、推送模型至手机私有目录,最终确认MNN版本3.5.0及模型文件全部ok。核心思路是开发者定义业务目标,Agent负责环境检查、代码编写、编译构建与排错。

多模态教程/实践端侧

推荐理由:这是一篇手把手教程,用 Agent 简化 Qwen3-VL Android 部署,对想试端侧 VL 的开发者实用,但绑定阿里生态,通用性有限。
6月6日
17:52
公众号:MiniMax(稀宇科技)
56
海螺AI×上影节活动日历:开放日6.14-6.15

MiniMax旗下海螺AI作为第28届上影节独家AI影像战略合作伙伴,6.14-6.15举办开放日。活动包括:AI片场·海螺专属Booth(展示1+1组合作品及过程)、6.14多模态行业交流会、6.15专题圆桌(超级创作者呈现四种图景、《流浪地球》制片人与青年导演对谈)。具体时间地点详见图片。

图像生成多模态行业动态视频
03:33
Anthropic:Research(发表成果 · 网页)
精选65
Anthropic:让Claude成为化学家

Anthropic与顶尖化学家合作,提升Claude在化学领域的实用性。首个白皮书测试Claude在NMR谱图分析上的表现:在20个化合物上,对比Claude Opus 4.7、Opus 4.6、Sonnet 4.6与ChemDraw、MestReNova的正向预测(从结构预测谱图)和反向结构解析(从实验谱图推断结构)能力。所有化合物选自模型训练截止日期后发布的ChemRxiv预印本,以避免选择偏差。

Anthropic多模态论文/研究评测/基准
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)X:Anthropic (@AnthropicAI)
推荐理由:化学家可能几年后回头看会记起这篇,Claude Opus 4.7 在 NMR 预测上追平了 ChemDraw,还顺手做了反向结构解析——专业软件不干的事,它用更接近人类日常输入的方式做到了。
01:17
Cursor Blog
精选74
在 Design Mode 中通过视觉提示直接指挥智能体

Cursor 更新 Design Mode,支持点击元素、在页面上绘制区域或语音描述来向 AI 智能体传达修改意图。智能体将元素身份(xpath、组件、属性、计算样式等)与页面截图一并纳入上下文,快速定位源代码并高效编辑。借助 Composer 2.5 模型的快速执行能力,可连续下达多个编辑指令,智能体完成后应用热更新即时显示效果。这一更新将视觉交互融入正常编辑循环,使 UI 迭代更直观高效。

智能体产品更新多模态编码

推荐理由:Cursor这次的Design Mode把「指哪改哪」做成了标准流程,不再靠一句prompt猜你的意图,而是直接给agent看元素、画圈圈,前端开发的反馈循环被压缩到秒级,赶紧试试。
6月5日
23:11
Google Blog:AI(RSS)
34
谷歌2026年5月AI最新动态

谷歌在2026年5月公布了一系列AI最新进展,涵盖模型更新、产品功能及可用性提升。具体细节未在摘要中展开。

智能体Google产品更新多模态
13:27
公众号:京东JoyAI
精选72
京东开源JoyAI-Echo长音视频生成框架

6月3日,京东开源JoyAI-Echo框架,解决长视频生成中角色身份崩坏、音色突变和生成缓慢三大难题。该框架通过跨模态音视频记忆库保持5分钟内角色外观与音色一致,记忆驱动后训练结合DMD技术带来约7.5倍推理加速。新增Director Agent支持自然语言对话式局部修订,无需重跑整条视频。配套轻量化实时超分模块,支持736×1280→1152×1920及1472×2560两档分辨率。评测集显示,语音内容准确率0.8646,用户偏好多项领先。代码与权重已开源至GitHub。

GitHub多模态模型发布

推荐理由:长视频生成一直被角色崩塌和龟速生成卡死,JoyAI-Echo 开源给出了角色一致性方案和 7.5 倍加速,Director Agent 对话式编辑的思路很先进,做 AI 视频的朋友可以直接去 GitHub 开跑。
03:43
Hugging Face:Blog(RSS)
精选78
Nemotron 3.5 Content Safety:面向全球企业AI的可定制多模态安全

Nemotron 3.5 Content Safety基于Gemma 3 4B IT,提供128K上下文窗口,支持用户提示、可选图像与助手响应的统一多模态安全评估。新增自定义策略执行,允许企业用自然语言定义专属安全规则;THINK模式可输出可审计的逐步推理痕迹。显式训练覆盖12种语言,并借助基座模型零样本泛化至约140种语言。输出提供低延迟二分类、带分类标签、THINK推理痕迹三种模式。安全分类遵循Aegis 2.0框架(13核心类别+10细分类别)。同步发布多模态、多语言安全数据集,可在8GB+ VRAM GPU上实时部署。

Hugging Face多模态安全/对齐开源/仓库

推荐理由:Nemotron 3.5 把内容安全从「单模态英文」拉到「多语言多模态可定制」,自定义策略和推理 trace 让企业能审计决策,做安全平台的值得细看。
6月4日
21:07
公众号:百度智能云(文心)
53
全灵(SEELE AI)联合百度智能云推出MoT大模型,一句话生成可玩世界

全灵(SEELE AI)推出自研MoT(Mixture-of-Transformers)多模态大模型,围绕游戏世界训练,模型内部同步学习“看懂世界”与“生成世界”。数据层构建3000万+独家空间语义数据对,标注空间关系、物体属性和交互规则。百度百舸AI计算平台提供训练调度、GPU管理、故障诊断及推理加速等底层支撑。全灵已上线“都市射击”“CS重制版”“城市冒险”等可玩Demo,玩家可在AI生成的城市中移动、跳跃、瞄准、换弹,与NPC互动;内测中的3A Open-World由4D World Model驱动,目标实现真正可玩的开放世界。

智能体多模态行业动态
18:25
公众号:面壁智能(MiniCPM)
42
智能座舱卷到头了?这份白皮书给出了答案
多模态现象/趋势端侧
11:00
公众号:火山引擎
48
中国美术学院×火山引擎:高质量数据集赋能普通人专业作画

中国美术学院与火山引擎联合开发「中国画创作平台」,通过6个月数据治理,将约3000张国画梳理为7维度结构化标签数据集,一次性标注通过率约95%。采用模型后训练技术,将国画鉴赏逻辑、创作理论注入豆包大模型和Seedream图像创作模型,封装为低门槛智能体。用户通过基础生成、修改调整、氛围添加三步操作,几分钟即可完成国画创作。智能体支持文生图、图生图,可集成至小程序、交互大屏,应用于教学、文创开发等场景。

产品更新图像生成多模态
09:28
xAI:News(网页)
精选75
xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)

xAI 通过 API 发布了图像转视频模型 grok-imagine-video-1.5-preview(Grok Imagine 1.5 预览版)。该模型能将单张静态图片转为流畅的电影感视频,用户提供起始帧和描述运动的提示词后,模型可生成包含相机移动、氛围和物理效果的动画,并保持对源图像的忠实。支持生成 720p 片段,可使用自然语言指令控制镜头、节奏和音效,并支持逐帧拼接成长场景。模型目前通过 xAI API 提供预览使用。

xAI多模态模型发布视频
关联讨论 4 条X:Elon Musk (@elonmusk, xAI)X:阿易 AI Notes (@AYi_AInotes)X:cb_doge (@cb_doge)xAI:News(网页)
推荐理由:xAI的新视频模型从单张图像生成电影级短片,支持自然语言控制运镜和氛围,对视频创作者和开发者是个值得一试的工具。
00:07
Google Developers Blog(RSS)
75
在笔记本电脑上运行 Gemma 4 12B:借助 Google AI Edge 解锁本地智能体工作流

Google DeepMind 的 Gemma 4 12B 模型可在 16GB RAM 的普通笔记本上运行,支持本地数据处理与视觉洞察生成。macOS 用户可通过 Google AI Edge Gallery 执行动态 Python 代码与可视化,通过 Google AI Edge Eloquent 实现完全离线的语音听写和文本编辑。另外,LiteRT-LM CLI 新增 serve 命令,可创建行业兼容的本地端点,驱动完全本地的 AI 工具和智能体。

智能体Google产品更新多模态
关联讨论 7 条X:Demis Hassabis (@demishassabis)X:Sundar Pichai (@sundarpichai)X:Google AI for Developers (@googleaidevs)X:Jeff Dean (@JeffDean)The Decoder:AI News(RSS)Google DeepMind:Blog(RSS)Hacker News 热门(buzzing.cc 中文翻译)
00:07
Google Developers Blog(RSS)
同事件精选78
Gemma 4 12B:开发者指南

Gemma 4 12B 是一款密集多模态模型,专为消费级设备上的高性能本地 AI 执行而设计。其采用新颖的无编码器架构,绕过传统视觉和音频编码器,将多模态数据直接输入大语言模型主干。

Google多模态模型发布端侧
同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
推荐理由:Google 把多模态模型直接塞进消费级设备,靠的不再是缩水而是架构层面的创新。12B 放在本地跑,这次玩法变了。
6月3日
21:34
Google Blog:AI(RSS)
50
Google Search 提升二手和复古购物体验的5种方式

Google Search 和 Google Shopping 中的 AI 工具帮助用户在二手和复古购物中发现好物。

Google多模态搜索教程/实践
6月2日
01:59
公众号:通义实验室(千问)
同事件精选64
Qwen3.7-Plus 多模态智能体模型发布

Qwen3.7-Plus 深度融合视觉与语言,实现“看、想、写、做、验”端到端闭环,在 12 项核心基准测试中表现提升。实测中,基于该模型的智能体连续运行超 11 小时,自动完成英语学习 APP 开发,生成代码超 10000 行、触发调用超 1000 次;复刻 macOS Stocks 应用并通过 10 项功能验证。支持图像/视频转 SVG、视觉驱动网页设计及浏览器自动化。已在阿里云百炼上线,提供 OpenAI 兼容 API 与 Anthropic 协议。

智能体多模态模型发布
同一事件,精选展示《Qwen3.7-Plus:多模态智能体模型发布》
推荐理由:Qwen3.7-Plus 把视觉智能体推到了‘能看、能想、能动手’的端到端闭环,从写代码到操作浏览器一条龙,做自动化 Agent 的团队可以直接拿来用。
01:37
Qwen:Blog Retrieval(API)
精选81
Qwen3.7-Plus:多模态智能体模型发布

阿里云通义千问推出 Qwen3.7-Plus,基于 Qwen3.7 文本骨干,增强视觉语言能力,保留编码、工具使用和生产工作流的智能体能力。它支持感知现实场景、读取并操作 GUI、从视觉参考编写代码、端到端导航手机应用、基于网络知识回答视觉问题,融合 GUI 与 CLI 交互,跨 Claude Code、OpenClaw、Qwen Code 等框架泛化。在 Terminal Bench 2.0-Terminus 得分 70.3,SWE-Verified 77.7,QwenWorldBench 62.1,GPQA Diamond 90.3,MMLU-Pro 88.5。通过阿里云 Model Studio API 提供。

智能体多模态模型发布
关联讨论 4 条IT之家(RSS)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:Kim (@kimmonismus)X:通义千问 / Qwen (@Alibaba_Qwen)
推荐理由:Qwen3.7-Plus 把视觉感知、GUI 操作和编码能力整合进同一个 agent 模型,在 ScreenSpot 和浏览器操作上的提升很实在,做自动化的开发者值得上手试试。
01:26
Google Blog:AI(RSS)
42
谷歌员工如何使用 Gemini 制作 Google I/O 2026

本文介绍了谷歌员工使用 Gemini 模型来制作 2026 年的 Google I/O 开发者大会。

Google图像生成多模态教程/实践
6月1日
18:21
公众号:腾讯混元
46
腾讯混元为《和平精英》推出AI明星队友「小田」

腾讯混元多模态数字人团队基于Hy3 preview模型和GameMate1.0框架,为《和平精英》推出代言人田曦薇形象的AI队友「小田」。该角色具备战局感知、独立决策能力,并实现对话情感化回应、动态策略推理与主动协同作战。基于大模型长文记忆,玩家可生成由Image3.0制作的专属图文记忆。该AI队友累计体验用户突破1.1亿,单日活跃峰值1770万,玩家麦克风开启率75%。

智能体产品更新多模态
13:36
Hugging Face:Blog(RSS)
75
NVIDIA 发布 Cosmos 3:首个面向物理AI推理与动作的开源全能模型

NVIDIA 发布 Cosmos 3,基于 Mixture-of-Transformers(MoT)架构的开源全能模型,统一世界生成、场景理解、因果推理和策略生成。该模型通过自回归与扩散子序列联合注意力,在单一前向过程中处理文本、图像、视频、音频和动作等多模态。本次发布包含两个版本:Cosmos 3 Nano(16B 参数,8B 推理器 + 8B 生成器,面向工作站级 GPU)和 Cosmos 3 Super(64B 参数,32B + 32B,面向 Hopper 和 Blackwell GPU,用于大规模合成数据生成与研究)。两者均已上架 Hugging Face,并提供 Diffusers 集成、GitHub 后训练脚本和开源合成数据数据集。

具身智能多模态模型发布
关联讨论 9 条X:Kim (@kimmonismus)HuggingFace Daily Papers(社区热门论文)IT之家(RSS)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)LMSYS:Blog(Chatbot Arena 团队)
11:39
MiniMax:Blog(网页)
精选83
MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型

MiniMax M3 是一个开源前沿模型,具备先进的编码与AI智能体能力。它支持100万token的超长上下文窗口,并采用名为MSA(MiniMax Sparse Attention)的新型稀疏注意力架构。该架构使模型在100万token上下文下的每token计算成本降至前代的1/20,预填充速度提升9倍以上,解码速度提升15倍以上。在SWE-Bench Pro编码基准上,MiniMax M3得分59.0%,超越GPT-5.5和Gemini 3.1 Pro,性能接近Opus 4.7。该模型可通过MiniMax Code、Token Plan和API服务使用。

多模态开源/仓库推理模型发布
关联讨论 12 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)IT之家(RSS)
推荐理由:MiniMax M3 把开源模型的编码能力推到了 GPT-5.5 和 Opus 4.7 这条线上,还附带 1M 上下文和原生多模态,这是开源社区真正能打的前沿选项,做 Agent 的值得立刻跑一下。
09:23
公众号:MiniMax(稀宇科技)
65
MiniMax M3 发布:1M 上下文、原生多模态、前沿编程与 Agent 能力

MiniMax M3 今日发布,采用自研 MSA 稀疏注意力架构,支持 1M 上下文窗口,100 万上下文下每 token 计算量仅为上代 1/20,prefilling 加速超 9 倍,decoding 加速超 15 倍。它是原生多模态模型,支持图片、视频输入及 Computer Use。Coding 与 Agent 能力在 SWE-Bench Pro(59.0%)、Terminal Bench 2.1(66.0%)等基准达到前沿水平。M3 是国内首个同时具备 1M 上下文、原生多模态、前沿编程与 Agent 能力的开源模型。API 已开放,按上下文分两档计价,上线首 7 天 512k 及以下 5 折。同步推出 MiniMax Code Agent 与 Token Plan 订阅(¥49/月起)。预计 10 天内发布技术报告并开源模型权重。

智能体多模态推理模型发布
关联讨论 12 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)IT之家(RSS)
5月30日
01:38
Google Blog:AI(RSS)
同事件精选74
Gemini Omni 与 Gemini 3.5 的 11 个实战展示

Google 在 2026 年 Google I/O 大会上发布了新一代多模态模型 Gemini Omni 与 Gemini 3.5,并同步提供了 11 个视频,集中演示了这两款模型在实际场景中的能力。

Google多模态模型发布视频
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Google 官方放出的这组视频演示,直接展示了 Gemini Omni 和 3.5 的实际表现,比参数和 benchmark 更直观,做多模态应用的可以逐帧研究。
5月29日
23:13
Qwen:Blog Retrieval(API)
精选66
Qwen-VLA:从理解世界到付诸行动

通义千问推出通用视觉-语言-动作模型Qwen-VLA,基于Qwen多模态骨干,将视觉感知、语言理解与空间推理扩展至连续动作生成和轨迹预测。训练分四阶段:文本到动作预训练(T2A)、持续预训练(CPT)、监督微调(SFT)和强化学习(RL)。在LIBERO上达97.9%,Simpler-WidowX达73.7%,RoboTwin-Easy/Hard达86.1%/87.2%,匹配或超越专精模型。数据涵盖超10,000小时公共机器人轨迹、1,000+小时内部真实轨迹及800万+合成仿真轨迹。

具身智能多模态模型发布
关联讨论 2 条HuggingFace Daily Papers(社区热门论文)公众号:通义实验室(千问)
推荐理由:Qwen-VLA 把机器人操作、导航和跨实体控制统一进一个模型,在多个基准上打平甚至超越专用模型,这是通用具身智能的一个重要信号,但离实际可用还有距离。
17:44
公众号:通义实验室(千问)
精选64
通义实验室发布教程:在 Android 手机部署 MCP 感知服务器

通义实验室发布教程,演示如何在 Android 手机上部署 MCP 感知服务器,使手机具备本地视觉与听觉分析能力。核心基于端侧 MNN 推理引擎和 Qwen3-VL 2B 模型(约 1.3GB),摄像头与麦克风采集的音视频在本地实时转化为结构化 JSON,再通过 MCP Tool 供 Claude Code 等云端 Agent 远程调用。整个过程不上传原始数据,仅传输语义提取结果。项目已开源,实测可识别红绿灯状态等场景。

MCP/工具多模态教程/实践端侧

推荐理由:如果你做Agent总觉得AI对物理世界是瞎子,这篇教程就是解药。把Qwen3-VL塞进手机当本地眼睛,不传原始视频只给结构化文字,隐私友好又能被Claude直接调用。
15:43
公众号:腾讯元宝
41
元宝助手正式入驻QQ浏览器,底层模型升级至Hy3 preview

元宝助手正式入驻QQ浏览器,搜索栏、划词等AI入口全面升级为元宝助手,底层模型同步升级至Hy3 preview。新功能包括搜索栏唤起提问、跨标签读取多个网页与文件、拍照搜题分步解析、长网页一键转音频,以及写作、改文章、出图等。元宝助手已同步嵌入微信、腾讯会议、QQ音乐等腾讯系应用,Mac版本已更新,其他版本逐步放量。

产品更新多模态搜索
08:02
公众号:阶跃星辰(Step)
同事件精选61
阶跃发布 Step 3.7 Flash,面向生产级 Agent 的高效率 Flash 模型

阶跃星辰发布并开源 Step 3.7 Flash,采用稀疏 MoE 架构(总参数 196B+1.8B,激活 11B),最高生成速度 400 Tokens/s。围绕原生多模态理解与执行、联网与视觉搜索增强、高可靠工具调用与编排、Agent 生态兼容优化四大能力优化。在 Toolathlon 达 49.5%,ClawEval-1.1 达 67.1%,GDPval 达 45.8%,τ²-bench Telecom 通过率超 98%。兼容 Claude Code、KiloCode 等主流架构及 MCP/Skills 协议,支持云端与本地部署,已在 Kilo Code 等生态中完成接入验证。

智能体MCP/工具多模态开源生态
同一事件,精选展示《在 NVIDIA GPU 上运行面向企业级就绪的多模态 AI--Step 3.7 Flash》
推荐理由:Step 3.7 Flash 用激活仅 11B 的 MoE 架构把 Agent 工作流稳定性做透了,兼容主流框架还开源,对需要低延迟、高可靠性的生产环境 Agent 是真正可用的选择。
00:06
Google Blog:AI(RSS)
61
Google I/O 2026 一文速览:12 大重要时刻

Google I/O 2026 发布会上披露了 12 个重要时刻,其中包括 Gemini Omni 和 Gemini 3.5 Flash 等产品的相关消息。

Google产品更新多模态推理
关联讨论 1 条Google Research:Blog(网页)
00:00
LMSYS:Blog(Chatbot Arena 团队)
精选61
LMSYS与Intel合作通过异构CPU+GPU EPD架构提升视觉语言模型服务性能

LMSYS团队(Intel与SGLang)通过Dynamo和SGLang框架,为视觉语言模型(VLM)启用了异构编码-预填充-解耦(EPD)架构。该方案将视觉编码任务从GPU卸载至CPU(如Intel Xeon 6747P),与GPU协同工作。在Qwen3-VL-8B-Instruct模型的测试中,采用4 CPU + 1 GPU作为编码器、4 GPU作为预填充解码器(能力比R=12)的配置,在ISL/OSL 128/256、1080p 8张图像的负载下,实现了P99 TTFT和请求吞吐量约1.2倍至1.3倍的提升,并将P99 TPOT降低了约1.3倍至30倍。

多模态推理教程/实践部署/工程

推荐理由:做VLM服务部署的可以认真看一下,用CPU头节点做异构EPD分离,几乎零成本换来了TTFT和TPOT的显著提升,有完整脚本和benchmark,能直接上手试。
5月28日
20:21
公众号:京东JoyAI
51
听见京东 618:大模型时代下的声音供应链

京东自研JoyAI语音大模型LiveTTS具备多语种、情绪解耦、语速解耦、捏声音色及一句话音色克隆(3—10秒语音)五大能力,已接入JoyClaw技能商店。覆盖10余种语言和8种方言,支持同一音色多方言与情绪表达。应用于JoyInside智能终端、JoyAI App万能博士、数字人JoyStreamer(累计服务超7万商家)及AI播客。618期间支撑千万级并发实时交互,为智能客服、数字人直播等场景提供低延迟语音输出。

产品更新多模态语音
19:58
公众号:龙猫LongCat(美团)
44
美团&顶会论文分享 | 5大专场,32篇论文解读

2026年,美团数十篇论文被ACL、SIGIR、ICML、KDD等顶会收录,精选32篇分为5大专场进行直播解读。内容涵盖大模型推理、智能体记忆与自进化、代码智能、多模态交互、超高清视频生成、本地生活搜索等方向,既有底层能力突破也有生活服务落地探索。活动自6月11日起陆续直播,可报名参与。

多模态推理行业动态
17:47
公众号:通义实验室(千问)
54
通义实验室发布Qwen-Image-Bench:56项细粒度创作评测基准

通义实验室推出文生图评测基准Qwen-Image-Bench,由专业艺术家团队开发,将创作能力解构为5大核心支柱、17大场景及56项可量化维度。配套开源自动化评估模型Q-Judger,与资深人类艺术家评估相关性达Spearsman 0.92。评测使用1000条中英文分层Prompt,每条覆盖至少4项考点。结果显示,当前T2I模型在文字准确性、信息可视化、跨语言生成等子领域差距明显,世界知识与逻辑推理能力是跻身第一梯队的分水岭。完整数据集与Q-Judger已开源。

arXivHugging Face图像生成多模态
5月27日
22:09
Runway:News(网页)
精选73
Runway 推出 Model Context Protocol 服务器

Runway 正式推出 Runway MCP 服务器,允许任何兼容 MCP 的 AI 智能体(如 Claude、ChatGPT、Cursor)在对话界面中直接生成图像与视频,无需切换工作流。该服务器接入了 Runway 最新的多款 SOTA 模型,包括 Gen-4.5、Seedance 2.0、GPT Image 2、Kling 3.0 及 Nano Banana Pro。其应用场景涵盖为产品制作营销视频、批量生成网站视觉素材、创作角色广告以及在应用开发中集成视觉内容。用户设置简便,通过 runwayml.com/mcp 添加服务器并登录现有 Runway 账户即可使用,无需单独申请 API 密钥。

MCP/工具产品更新多模态
关联讨论 1 条X:Runway (@runwayml)
推荐理由:Runway 把 Gen-4.5 和 Seedance 2.0 等模型接入了 MCP,以后做产品图、营销视频不用切窗口,这个集成对依赖视觉内容的 Agent 工作流是个 real upgrade。
5月26日
22:34
Runway:News(网页)
精选68
Project Luxo:跨越AI媒体的恐怖谷

Runway通过Project Luxo研究发现,AI生成视频已跨越“恐怖谷”。他们向创意生态从业者展示了《The Rogue》等AI短片及广告样片,评估显示观众开始关注故事本身,而非技术瑕疵。所有作品均由单人团队制作,耗时从3周到4小时不等。Runway认为,这标志着AI媒体成熟——当技术足够好以至于“隐形”,观众沉浸于故事时,便实现了这一跨越。

多模态现象/趋势视频
关联讨论 1 条X:Runway (@runwayml)
推荐理由:Runway 用短片和一次百万播放广告测试宣称 AI 视频已越过恐怖谷,观众开始投入故事而非找瑕疵。这对内容生产的心理门槛是一次重塑,但一次推广式的成功不等于行业已稳定跨过。
14:21
公众号:火山引擎
50
网龙×火山引擎:豆包大模型让优质AI课程实现"量产"

网龙与火山引擎达成合作,将底层架构全面上云并率先接入Seedance 2.0 API,依托豆包大模型构建覆盖文本、图像、视频的全链路AI智能生产体系,已落地2000余门标准化课程。豆包图像创作模型实现分镜风格统一,视频生成模型保障声画同步与角色声线一致,并用于制作K12虚拟实验互动资源。业务上云后资源利用率提升50%。双方计划2026年每月新增1500门以上AI融合课程,培训超1万名骨干教师,借助火山引擎全球化部署覆盖190多个国家和地区。

多模态行业动态视频
5月25日
18:49
蚂蚁 inclusionAI:HuggingFace 新模型
同事件精选71
<中文标题>SingGuard: 策略自适应多模态护栏模型族开源</中文标题>

<中文摘要>SingGuard 是一个策略自适应的多模态护栏模型族,包含 Sing-Guard-4b 和 Sing-Guard-8b 两个版本。它将安全策略作为运行时输入而非固定分类,部署团队可自定义自然语言规则而无需重训练模型。支持文本、图像、图文、多语言以及查询端与响应端的安全评估,提供快速和快慢结合两种推理模式。在涵盖多模态安全、纯图像安全、文本查询/响应安全、多语言查询/响应安全六大类基准上取得平均 SOTA 表现。模型已开源至 HuggingFace 和 ModelScope。</中文摘要>

Hugging Face多模态安全/对齐模型发布
同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》
推荐理由:蚂蚁的 SingGuard 把安全策略变成了运行时输入,意味着审核规则可以随时改而不必重训模型,这对做内容安全的产品人是真省事,值得跟进。
18:48
蚂蚁 inclusionAI:HuggingFace 新模型
同事件精选69
蚂蚁 inclusionAI 发布策略自适应多模态安全护栏模型 Sing-Guard-8b

SingGuard 是蚂蚁 inclusionAI 推出的策略自适应多模态大语言模型安全护栏模型族(版本 Sing-Guard-8b),支持纯文本、纯图像、图文混合、多语言查询与回复的安全评估。其核心设计将安全策略作为运行时输入,部署团队可基于默认分类或自定义自然语言规则评估内容,无需重新训练模型。模型内置 fast-slow 动态推理流程:首 token 路由快速输出安全信号,需深度推理时继续生成更精确的最终判断。在涵盖多模态安全、纯图像安全、文本查询与回复安全、多语言查询与回复安全的六大基准测试上取得平均 SOTA 性能,并已开源至 HuggingFace 与 ModelScope。

Hugging Face多模态安全/对齐开源/仓库
同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》
推荐理由:蚂蚁集团开源的多模态内容审核模型,最大亮点是运行时动态注入安全策略而不需重训,对需要灵活定制审核规则的团队是低门槛的高分工程实现。
18:48
蚂蚁 inclusionAI:HuggingFace 新模型
同事件精选68
inclusionAI 发布 Sing-Guard-2b:策略自适应多模态大模型安全护栏

inclusionAI 开源了 Sing-Guard 模型家族,版本包括 Sing-Guard-2b 和 Sing-Guard-8b。该模型将安全策略作为运行时输入,支持文本、图像、图文及多语言场景的查询侧

Hugging Face多模态安全/对齐模型发布
同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》
推荐理由:SingGuard把安全策略变成运行时输入,不用再为新规则重新训练模型,这对需要频繁调整审核标准的团队来说是个实用的发布。
15:25
蚂蚁 inclusionAI:GitHub 新仓库
精选67
蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard

SingGuard 是蚂蚁 inclusionAI 开源的多模态安全护栏模型族,提供 2B、4B、8B 三个参数版本。它将安全策略作为运行时输入,支持文本、图像、图文、多语言及查询/回复侧的安全评估,无需重新训练即可适配不同规则。采用快慢动态推理机制,在低延迟场景下输出紧凑判断,对模糊或高风险内容进行策略引导的推理。在多模态安全、图像安全、文本查询与回复安全、多语言查询与回复安全等基准上达到 SOTA 平均性能。模型已上架 HuggingFace 和 ModelScope。

多模态安全/对齐模型发布

推荐理由:蚂蚁 inclusionAI 把安全护栏做成了“运行时可配置”的模型,换审核规则不用重训,对需要快速适配法规的团队是个真需求。不过生态刚起步,暂时还是小众工具。
5月23日
08:16
Hugging Face:Blog(RSS)
精选63
NVIDIA 发布 Nemotron-Labs Diffusion 系列模型,支持三种生成模式

NVIDIA 发布 Nemotron-Labs Diffusion 系列,含 3B、8B、14B 文本模型和 8B 视觉-语言模型(VLM),均采用商用友好的 NVIDIA Nemotron Open Model License 或 NVIDIA Source Code License。模型支持自回归、扩散(逐块并行生成后逐步精炼)和自推测(扩散草拟候选 token 再自回归验证)三种模式。8B 模型平均准确率比 Qwen3 8B 提升 1.2%,扩散模式每次前向传递的 token 数(TPF)达自回归的 2.6 倍,自推测达 6–6.4 倍。模型在 1.3T tokens 上预训练、45B tokens 上微调,代码与模型已发布于 HuggingFace 和 GitHub,推理将获 SGLang 支持。

多模态推理模型发布

推荐理由:自推测模式让文本生成速度飙到AR模型的4倍,而且输出质量无损。NVIDIA这次开源的不仅是个新模型,更是一套能直接用在现有流程里的加速方案。
‹ 上一页
1234…8
下一页 ›