AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 281 条
全部一手资讯X论文
标签「多模态」清除
今天7月3日 周五
01:08Apple Machine Learning Research(RSS)62精选RL微调VLM的鲁棒性与思维链一致性研究
7月2日周四
22:00公众号:可灵AI(快手·视频)49可灵AI广告斩获戛纳金狮:两部作品获1银2铜
02:32Google Blog:AI(RSS)43Google 2026年6月AI更新汇总
7月1日周三
22:10Runway:News(网页)48Runway 宣布与 Bertelsmann 达成创意合作
00:08Google DeepMind:Blog(RSS)70精选Google DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni Flash
6月25日周四
19:20公众号:生数科技(Vidu·视频)38生数科技与极豆科技达成战略合作,共建汽车行业AIGC解决方案
01:07Google DeepMind:Blog(RSS)70精选Gemini 3.5 Flash 引入 computer use 功能
6月24日周三
19:31OpenRouter:Announcements(RSS)73精选OpenRouter推出统一图像API
09:10公众号:豆包(字节)77精选今天,豆包正式推出专业版
6月23日周二
22:24Mistral AI:News(网页)68精选Mistral OCR 4
14:50公众号:火山引擎83火山引擎FORCE大会发布豆包大模型2.1 Pro及多款多模态模型
14:10公众号:京东JoyAI73精选京东全栈开源JoyAI-VL-Interaction,从"一问一答"走向"边看边说"
13:50公众号:火山引擎71精选豆包音频生成模型1.0发布,重新定义AI音频创作
12:39字节 Seed:Research Feed(网页内嵌数据)64精选Seed2.1 正式发布,深入 AI 生产力
6月22日周一
22:11Hugging Face:Blog(RSS)69精选PP-OCRv6 on Hugging Face:50 语言 OCR,参数规模 1.5M 至 34.5M
6月18日周四
18:30公众号:百度智能云(文心)42百度智能云联合十家伙伴,推动AI能力落地手机、PC、玩具、眼镜等硬件
07:17Claude:Blog(网页)51Claude Opus 4.8 Build Day黑客马拉松获奖项目揭晓
6月17日周三
23:43Hugging Face:Blog(RSS)69精选MolmoMotion:语言引导的3D运动预测模型
12:05xAI:News(网页)73同事件精选xAI 发布 Grok Imagine Video 1.5同一事件,精选展示《xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)》
11:41公众号:昆仑万维(天工)55天工3.1发布:Skywork Design与Dynamic Workflows上线
6月16日周二
14:30公众号:通义实验室(千问)73Qwen-Robot 发布:打通大模型到物理世界的最后一公里
12:39Qwen:Blog Retrieval(API)72精选Qwen-RobotWorld:具身智能体的无界世界
6月15日周一
23:01公众号:MiniMax(稀宇科技)76同事件精选MiniMax 开源 M3 模型权重及 MSA 技术论文同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
13:10公众号:昆仑万维(天工)28智源大会|Skywork首席科学家成宇:SkyReels V4与Mureka V9技术演进
6月14日周日
22:00公众号:昆仑万维(天工)43昆仑万维公布Matrix-Game 3.5技术突破:状态与动作联合训练
6月13日周六
17:54公众号:通义实验室(千问)79精选MNN 适配 SME2 使 Qwen3-VL-4B 在端侧实时推理
17:54公众号:火山引擎47TVB×火山引擎达成深度合作,以Seedance 2.0共探华语影视AI新路径
13:17蚂蚁 inclusionAI:HuggingFace 新模型62精选inclusionAI 发布 VISTA-4B GUI 定位视觉语言模型
13:17蚂蚁 inclusionAI:HuggingFace 新模型71inclusionAI/VISTA-9B:基于VISTA训练的GUI定位视觉语言模型
6月11日周四
00:00Suno:Blog(网页)68精选Suno 重构音轨分离功能,推出三种拆分方式
6月10日周三
01:04xAI:News(网页)65精选Gopuff与SpaceXAI推出Go AI购物助手
01:04Anthropic:Newsroom(网页)90精选Claude Fable 5 和 Claude Mythos 5
6月9日周二
22:34Google DeepMind:Blog(RSS)80同事件精选Google DeepMind 发布 Gemma 4 12B:统一的无编码器多模态模型同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
19:55Hugging Face:Blog(RSS)76精选一个Agent如何通过链式调用两个HuggingFace Space构建3D巴黎画廊
05:15Apple Machine Learning Research(RSS)79同事件精选苹果发布第三代 Apple Foundation Models(AFM)同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》
03:14Apple:Newsroom(RSS)69精选受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线
03:14Apple:Newsroom(RSS)66同事件精选Apple 推出 Siri AI:由 Apple Intelligence 驱动的更强大、更个性化的个人助理同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》
03:14Apple:Newsroom(RSS)63同事件精选Apple Intelligence 将强大 AI 能力融入日常体验同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》
6月8日周一
19:50Hugging Face:Blog(RSS)74精选Pakistan Notice Helper:一款面向本地安全问题的轻量 AI 工具
19:12公众号:火山引擎28火山方舟Coding Plan与Agent Plan升级,限时2.5折
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月3日
01:08
Apple Machine Learning Research(RSS)
精选62
RL微调VLM的鲁棒性与思维链一致性研究

强化学习(RL)微调被扩展至视觉语言模型(VLM)。研究发现,简单的文本扰动——误导性标题或错误思维链(CoT)——会显著降低模型鲁棒性和置信度,且开源模型衰退更明显。闭源模型呈现类似失败模式,但鲁棒性和推理一致性更强。进一步分析揭示准确性与忠实性的权衡:微调提升基准准确率,但同时侵蚀CoT的可靠性及对上下文变化的鲁棒性;对抗性增强可改善鲁棒性,却无法阻止忠实性漂移。引入忠实性感知奖励能恢复答案与推理的对齐,但与增强结合时训练易崩溃到捷径策略。这些发现强调需联合关注正确性、鲁棒性与视觉推理的忠实性。

多模态推理论文/研究

推荐理由:RL微调让VLM基准分变好看,却可能让它的推理链变得靠不住,这个反直觉的诊断对正在用RL打磨多模态模型的团队是个警醒。
7月2日
22:00
公众号:可灵AI(快手·视频)
49
可灵AI广告斩获戛纳金狮:两部作品获1银2铜

戛纳国际创意节今年首设AI Craft子赛道,两部使用可灵AI生成的广告获奖:《L'Ultimo Uomo Reale》获Classic单元Film银奖及Craft单元Film铜奖,《Lorem Ipsum》获Classic单元Film铜奖。前者为二手奢侈品平台The RealReal的愚人节广告,几乎全由AI生成,仅手提包为实拍,展现人物一致性和复杂视觉奇观;后者由Purga Films制作,全片角色用拉丁文假文对话,风格迥异但情绪推进精准。两部作品标志可灵已产出商业交付级广告,获全球最高级别广告创意殿堂认可。

多模态行业动态视频
02:32
Google Blog:AI(RSS)
43
Google 2026年6月AI更新汇总

Google在6月发布多项AI更新:推出Gemini 3.5 Live Translate实时语音翻译;

Google多模态模型发布端侧
7月1日
22:10
Runway:News(网页)
48
Runway 宣布与 Bertelsmann 达成创意合作

Runway 宣布与 Bertelsmann 建立创意合作伙伴关系。双方将在创意内容领域展开合作,具体合作细节尚未披露。

多模态行业动态
00:08
Google DeepMind:Blog(RSS)
精选70
Google DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni Flash

Google DeepMind 推出 Nano Banana 2 Lite(gemini-3.1-flash-lite-image),为 Nano Banana 系列速度最快、成本最低的图像模型,文本到图像输出仅需 4 秒,每 1K 分辨率图像成本 $0.034,已上线 Google AI Studio、Gemini API 及消费者产品(AI Mode in Search、Gemini app 等)。同时推出 Gemini Omni Flash(gemini-omni-flash-preview),支持高画质视频生成与对话式编辑,视频输出定价 $0.10/秒,面向开发者开放 API。

Google图像生成多模态模型发布
关联讨论 3 条X:Google DeepMind (@GoogleDeepMind)X:Logan Kilpatrick (@OfficialLoganK)X:Google AI (@GoogleAI)
推荐理由:Nano Banana 2 Lite 把图像生成拉到 4 秒延迟和 0.034 美元单价,很适合高频草稿流,Omni Flash 首次对开发者开放视频生成和对话编辑,两个模型串起来的快速迭代工作流是这次最实用的更新。
6月25日
19:20
公众号:生数科技(Vidu·视频)
38
生数科技与极豆科技达成战略合作,共建汽车行业AIGC解决方案

6月24日,生数科技与极豆科技签署战略合作协议。双方将整合生数科技多模态大模型(Vidu等)与极豆科技汽车AI解决方案、AI中台及车规级研发能力,围绕座舱内容、车主服务等场景打造汽车行业AIGC解决方案。重点探索个性化欢迎、亲子互动、旅途影像等场景,通过模型接入与场景编排将内容生成从预置供给升级为实时动态生成。同时将AIGC延伸至通勤、补能、车辆服务等环节,探索API、SDK及私有化部署等交付方式。极豆科技已与30余家车企合作,累计量产装车超1400万辆。

图像生成多模态行业动态视频
01:07
Google DeepMind:Blog(RSS)
精选70
Gemini 3.5 Flash 引入 computer use 功能

Google DeepMind 宣布,computer use 现作为内置工具集成于 Gemini 3.5 Flash,开发者可构建跨浏览器、移动端和桌面的智能体,实现视觉感知、推理与操作。此前该功能仅以独立模型形式存在于 Gemini 2.5。3.5 Flash 已支持函数调用及 Search、Maps 等内置工具,新增的 computer use 可提升持续软件测试和跨专业应用知识工作等长周期企业自动化任务的性能。安全方面采用针对性对抗训练,并可选配两项企业防护系统:要求用户确认敏感操作,以及在检测到间接 prompt 注入时自动停止任务。可通过 Gemini API 和 Gemini Enterprise Agent Platform 使用。

智能体DeepMindGoogle产品更新
关联讨论 2 条Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)
推荐理由:把 computer use 能力塞进轻量级的 Flash 模型,意味着在浏览器里跑视觉 agent 的成本会大幅降低,做企业自动化的团队可以立即试起来,安全措施也给了落地信心。
6月24日
19:31
OpenRouter:Announcements(RSS)
精选73
OpenRouter推出统一图像API

OpenRouter推出统一图像API,整合Google、OpenAI、Black Forest Labs、Recraft、ByteDance、Sourceful、Microsoft、xAI等30+模型。新API提供标准化请求格式,通过/api/v1/images/models端点返回每个模型的分辨率、宽高比、输出数量、输入参考图数量、种子等能力描述;通过/api/v1/images/models/{id}/endpoints端点获取具体服务商的定价与参数支持(如Seedream 4.5每张$0.04、FLUX.2 Pro每百万像素$0.03、GPT-5.4 Image 2按token计费)。OpenAI的GPT 5系列图像模型支持SSE流式预览,启用"stream": true即可边生成边返回预览。新图像模型将仅添加至专用API,建议现有用户切换。

智能体产品更新图像生成多模态
关联讨论 1 条X:OpenRouter (@OpenRouter)
推荐理由:OpenRouter 把 30+ 图像模型收进一个 API,参数自动发现和流式预览让频繁切换模型的开发者省去不少适配麻烦,尤其对 Agent 工作流很友好。
09:10
公众号:豆包(字节)
精选77
今天,豆包正式推出专业版

豆包专业版基于豆包2.1系列大模型上线,面向复杂办公与生产力场景。办公任务模式接入可执行Agent任务的豆包2.1模型,支持操作本地电脑、浏览器、调用Skills技能、定时任务,内置Office办公套件,并可生成带后端数据库的在线应用。免费用户可体验豆包2.1 Turbo版办公任务模式,专业版接入豆包2.1 Pro模型。定价:标准套餐68元/月(连续包月),加强套餐200元/月,高级套餐500元/月。大学生认证后标准套餐38元/月,持续6个月。

智能体产品更新多模态

推荐理由:豆包专业版不是简单的会员升级,而是把Agent能力装进办公场景,操作本地电脑、生成应用这些功能,让AI从对话工具变成了真正的生产力帮手。
6月23日
22:24
Mistral AI:News(网页)
精选68
Mistral OCR 4

Mistral AI 发布 OCR 4,新增边界框、块分类(标题、表格、方程式、签名等)及逐页逐词置信度分数。支持 170 种语言、10 个语系,可单容器全自托管部署。在 OlmOCRBench 上得分 85.20,独立标注者偏好率平均 72%。定价每 1000 页 $4,Batch API 享 50% 折扣。可通过 API 或 Mistral Studio 的 Document AI 调用。

多模态搜索模型发布
关联讨论 2 条Hacker News 热门(buzzing.cc 中文翻译)MarkTechPost(RSS)
推荐理由:Mistral OCR 4 把 bounding box 和置信度输出做进了产品,自托管部署和多语言能力很务实,做文档 RAG 和智能体的团队可以认真看看。
14:50
公众号:火山引擎
83
火山引擎FORCE大会发布豆包大模型2.1 Pro及多款多模态模型

火山引擎在FORCE原动力大会上发布豆包大模型2.1 Pro、Seedance 2.5、Seedance 2.0 4K版、Seedream 5.0 Pro及豆包音频生成模型1.0。豆包大模型2.1 Pro在Coding、Agent、VLM方向升级,多Coding评测比肩全球顶尖,Agent国内第一,VLM全球领先。Seedance 2.5支持30秒单段原生直出、50个全模态素材联合输入;Seedream 5.0 Pro支持交互式编辑、多图层分离;豆包音频生成模型1.0可一次直出影视级音频。截至今年6月,豆包大模型日均Token调用量180万亿,同比增长超10倍;火山引擎在中国公有云MaaS市场份额占49.5%第一。同时发布方舟CLI、AgentKit、HiAgent 3.0及AI Trust安全体系。

多模态推理模型发布
关联讨论 4 条X:Vista (@vista8)公众号:数字生命卡兹克公众号:火山引擎X:卡兹克 (@Khazix0918)
14:10
公众号:京东JoyAI
精选73
京东全栈开源JoyAI-VL-Interaction,从"一问一答"走向"边看边说"

京东近日开源全球首个全栈交互模型JoyAI-VL-Interaction,获vLLM-Omni原生支持。该模型能持续观察视频流、主动判断关键事件并实时响应,支持将复杂任务委托后台Agent处理。在58个真人盲评中,对比豆包视频通话助手胜率77.6%,对比Gemini视频通话助手胜率87.9%,监控预警场景达100%胜率。开源内容包括模型权重、交互数据集、训练方案及完整可部署系统,支持摄像头、直播流等视频输入及语音交互、长期记忆、vLLM部署,适用于安防监控、老人看护、直播讲解等实时场景。

多模态开源生态模型发布部署/工程
关联讨论 2 条HuggingFace Daily Papers(社区热门论文)IT之家(RSS)
推荐理由:京东这个实时交互模型不是又一个刷榜模型,它把「什么时候该说话」变成了模型自己的判断。全栈开源且对比豆包、Gemini 胜率惊人,做安防、看护、直播的开发者可以直接试了。
13:50
公众号:火山引擎
精选71
豆包音频生成模型1.0发布,重新定义AI音频创作

火山引擎正式发布豆包音频生成模型1.0(Doubao-Seed-Audio 1.0),支持文本与音频参考生成,端到端输出目标音频。单条Prompt可编排多角色对白、情绪语气、背景音乐及环境氛围,长时生成中保持多角色音色一致性,无需后期多轨混音。模型支持0样本多模态输入,无需额外训练即可生成;实现音色与风格解耦控制及“一声多角”能力。一次支持2分钟音频创作,多次延长保持音色统一。已开启火山方舟API邀测,个人用户享30分钟创作额度,即将上线剪映、即梦、番茄等产品。

多模态模型发布语音

推荐理由:豆包音频生成模型把多角色配音、音效、配乐压缩进一条 Prompt,长时一致性解决了一直以来‘串戏’的痛点,音频创作者的生产流程可能会被改写。
12:39
字节 Seed:Research Feed(网页内嵌数据)
精选64
Seed2.1 正式发布,深入 AI 生产力

字节Seed发布Seed2.1系列,面向真实生产力场景的智能体,强化通用Agent能力、代码工程交付与多模态理解。Seed2.1 Pro在GDPval基准获最高分,Agents' Last Exam位列参评模型第一梯队;MobileWorld手机GUI任务最高分,CreativeWork多环境任务表现突出。多模态在CharXiv-RQ等多项基准取得SOTA。代码能力上,Seed2.1 Pro在NL2Repo-Bench表现良好,开发者评测相比Claude Opus 4.6获59.1%胜率。模型已在豆包、TRAE上线,API通过火山方舟提供。

智能体多模态模型发布编码
关联讨论 4 条X:Vista (@vista8)公众号:数字生命卡兹克公众号:火山引擎X:卡兹克 (@Khazix0918)
推荐理由:字节 Seed2.1 这次更新把 Agent 和代码交付稳定性提到新高度,官方测评在多个硬核基准上不输 Claude Opus。虽然技术细节少,但豆包和 TRAE 直接可用,做 Agent 和开发的值得上手试试。
6月22日
22:11
Hugging Face:Blog(RSS)
精选69
PP-OCRv6 on Hugging Face:50 语言 OCR,参数规模 1.5M 至 34.5M

PP-OCRv6 是 PaddleOCR 最新一代通用 OCR 模型族,提供 tiny(1.5M)、small(7.7M)和 medium(34.5M)三级。medium 和 small 支持 50 种语言(简体/繁体中文、英文、日文及 46 种拉丁语系)。在官方多场景基准上,medium 检测 Hmean 86.2%,识别准确率 83.2%,较 PP-OCRv5_server 分别提升 +4.6 和 +5.1 个百分点。模型采用 PPLCNetV4 统一骨干、RepLKFPN 检测模块和 EncoderWithLightSVTR 识别模块,可通过 PaddleOCR、Transformers、ONNX Runtime 等后端灵活部署。

Hugging Face多模态模型发布部署/工程

推荐理由:OCR模型并没有因为VLM的兴起而消失,PP-OCRv6用1.5M到34.5M参数覆盖50种语言,对需要轻量、准确OCR的产品来说,这是一个务实的选择。
6月18日
18:30
公众号:百度智能云(文心)
42
百度智能云联合十家伙伴,推动AI能力落地手机、PC、玩具、眼镜等硬件

百度智能云宣布与荣耀、vivo、OPPO、灵优智学、利尔达等十家伙伴合作,在手机、AI PC、芯片模组、AI玩具、AI眼镜等场景接入文心大模型、千帆及DuMate等能力。荣耀YOYO智能体接入文心大模型实现端云协同;vivo基于千帆7天搭建高考智能体,高峰日支撑10万次交互;OPPO用千帆搭建售后客服智能体,高频问题处理效率提升一倍;利尔达将AI集成至模组,端到端响应低于2秒;灵优智学实现1.3秒首响延迟。百度智能云已支持超1000款AI硬件爆品。

多模态端侧行业动态
07:17
Claude:Blog(网页)
51
Claude Opus 4.8 Build Day黑客马拉松获奖项目揭晓

6月13日,Anthropic在旧金山举办12小时黑客马拉松,310名参与者使用Opus 4.8和$500 credits完成原型。第一名Tekton:输入历史建筑照片后,Claude自动搜集图纸等资料,跨339个施工步骤重建3D模型,每个构件附带证据链;自纠循环反复检查直至20项测试全部通过。第二名Sim Francisco:基于美国人口普查数据生成10,000名合成市民,各具独立世界观,实时对新闻投票,精准预测选举结果。第三名Custom Universe:用手机拍摄物件照片,Opus 4.8将其转为可拖放、实时渲染的3D物体,支持文本指令重设风格。

智能体Anthropic多模态行业动态
6月17日
23:43
Hugging Face:Blog(RSS)
精选69
MolmoMotion:语言引导的3D运动预测模型

MolmoMotion基于Molmo 2骨干网络,输入视频帧、物体上的3D点标记及文字动作指令(如“移动并旋转桌上放水果的木碗”),预测未来数秒内这些点的3D轨迹。提供两个变体:自回归的MolmoMotion-AR逐步预测坐标,流匹配的MolmoMotion-FM通过连续空间变换处理多可能性运动。同时发布MolmoMotion-1M数据集(含116万视频的3D点轨迹及动作描述)和PointMotionBench基准测试(2700个人工验证视频片段)。模型权重、数据集和基准测试均已开源。

Hugging Face具身智能多模态模型发布

推荐理由:MolmoMotion把3D运动预测从模板化推到任意物体,百万级数据集和基准让研究门槛大降,做机器人和视频生成的值得认真看,但目前仍是研究阶段,离落地还有距离。
12:05
xAI:News(网页)
同事件精选73
xAI 发布 Grok Imagine Video 1.5

xAI 将 Grok Imagine Video 1.5 从预览转为全面可用,在 Imagine API 上提供 grok-imagine-video-1.5,并在 grok.com/imagine 及 iOS/Android 应用上推出 Video 1.5 Fast 版。相比前代,模型在音频与语音(更清晰、嘴型同步更好)、运动与物理(更连贯、重量感更真实)、生成速度(6 秒 720p 视频约 25 秒,此前超 40 秒)上全面提升。同时逐步推出 Projects、Multiple agents(并行运行多个生成任务)、Search 等新功能,以优化创作流程。

xAI多模态模型发布视频
同一事件,精选展示《xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)》
推荐理由:Grok Imagine 1.5 把视频生成速度砍半,音效同步和项目功能让创作者工作流更顺畅,xAI 在视频方向上站住了脚。
11:41
公众号:昆仑万维(天工)
55
天工3.1发布:Skywork Design与Dynamic Workflows上线

天工超级智能体推出3.1版本,上线Skywork Design和Dynamic Workflows两项能力。Skywork Design将UI设计从对话式改为无限画布,支持多页面迭代、品牌规范统一与历史沉淀,可导出为网页、PPT、Figma分图层文件或zip包。Dynamic Workflows动态拆解任务,调度数十至上百个并行Agent,具备交叉验证与断点续跑能力,适用于批量页面生成、代码库排查等规模化场景。两项能力与天工主站账号、积分、知识库打通,国内海外同步上线。此前深度用户在单个project上平均交互超40轮,天工超级智能体收入月增三倍。

智能体产品更新多模态
6月16日
14:30
公众号:通义实验室(千问)
73
Qwen-Robot 发布:打通大模型到物理世界的最后一公里

通义实验室推出 Qwen-Robot,包含三个基础模型:Qwen-RobotNav 以单套权重统一五类导航任务,五项基准达 SOTA,零样本部署于宇树 Go2 机器人(推理延迟 196ms);Qwen-RobotManip 基于 Qwen3.5-4B VL,采用 80 维状态-动作统一表示,利用超 38,100 小时开源数据训练,在多个操作基准超越 π0.5;Qwen-RobotWorld 以 860 万视频-文本对训练,通过自然语言动作接口统一 20 余种本体,多项世界模型评测第一。三个模型通过语言优先接口可被通用 Qwen 模型组合调用,实现物理智能体闭环。

具身智能多模态模型发布
关联讨论 4 条Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:通义千问 / Qwen (@Alibaba_Qwen)MarkTechPost(RSS)
12:39
Qwen:Blog Retrieval(API)
精选72
Qwen-RobotWorld:具身智能体的无界世界

Qwen-RobotWorld以语言为统一动作接口,采用双流Multimodal Diffusion Transformer(MMDiT)架构,将Qwen2.5-VL作为动作编码器。在4个基准测试中取得顶尖成绩,统一20余种机器人形态,基于860万跨场景训练对和1300多项操作技能。语言接口标准化500多种动作类别,支持操作、自动驾驶、室内导航的联合训练。还支持Scene2Robot人类到机器人转移及2–4路多视角几何一致视频生成。

具身智能多模态模型发布
关联讨论 4 条Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:通义千问 / Qwen (@Alibaba_Qwen)MarkTechPost(RSS)
推荐理由:具身智能的世界模型长期受限于单一形态,Qwen-RobotWorld用语言统一动作接口,把操作、驾驶、导航合训,多视角几何一致性和人类演示迁移是过去一年最扎实的落地信号,做机器人的别错过。
6月15日
23:01
公众号:MiniMax(稀宇科技)
同事件精选76
MiniMax 开源 M3 模型权重及 MSA 技术论文

MiniMax 上周五开源了 428B 总参数、23B 激活参数的 M3 模型权重,同步发布 MSA(MiniMax Sparse Attention)技术论文,该架构显著降低长上下文计算成本。M3 是首个从预训练阶段就进行文本、图像等多模态交错混合训练的开源模型。发布两周后,M3 在 Artificial Analysis 综合智能指数、GDPval-AA 排行榜均获开源模型第一,Code Arena WebDev 跻身帕累托最优序列,Vals.AI 榜单居国产模型首位。输出速度已从约 30 TPS 提升至约 80 TPS,计划再提速 30–40%;Token Plan 后台新增调用量看板。

多模态数据/训练模型发布
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
推荐理由:M3 是第一个从预训练阶段就深度融合多模态的开源模型,MSA 架构让长上下文成本大幅降低,它的开源会给做多模态应用的团队一个高性价比的选择,国产开源又多了一个能打的基座。
13:10
公众号:昆仑万维(天工)
28
智源大会|Skywork首席科学家成宇:SkyReels V4与Mureka V9技术演进

昆仑万维Skywork首席科学家成宇在智源大会上介绍SkyReels V4与Mureka V9。SkyReels V4在Artificial Analysis全球视频生成评测中夺得Text to Video(With Audio)与Image to Video(With Audio)双赛道第一,超越Veo 3.1和Sora 2。其四大突破包括双流MMDiT架构实现毫秒级音画同步、全模态强化学习提升视频逻辑连贯性,以及1080p/32FPS/15秒电影级画质联合生成策略。Mureka V9引入MusiCoT音乐思维链技术,实现段落级文本控制与母带级混音,在旋律性(7.25)、表现力(6.89)等维度排名第一。此外,昆仑万维以“4+3”AGI战略支撑AI短剧、AI音乐、AI游戏三大AI原生娱乐经济体。

多模态大佬观点开源生态视频
6月14日
22:00
公众号:昆仑万维(天工)
43
昆仑万维公布Matrix-Game 3.5技术突破:状态与动作联合训练

昆仑万维Skywork首席科学家刘扬在智源大会上提出“状态与动作联合训练”框架,并首次公布Matrix-Game 3.5核心技术:从游戏场景向真实场景扩展,支持多风格动态切换、指令控制及NPC交互,记忆机制采用三维空间块匹配替代历史帧拼接,并用PRoPE机制替代额外参数注入。Matrix-Game 3.0已实现5B参数蒸馏模型在720P分辨率下40FPS实时生成。团队构建了包含500万+视频切片、1万+训练小时的数据引擎。3.5计划于2026年7月发布。

产品更新多模态
6月13日
17:54
公众号:通义实验室(千问)
精选79
MNN 适配 SME2 使 Qwen3-VL-4B 在端侧实时推理

MNN 推理引擎深度适配 Arm SME2 指令集,使 Qwen3-VL-4B-Instruct 在支持 SME2 的 vivo X300 上实现实时多模态推理。Prefill 阶段性能提升 81%,Decode 阶段提升 13%。MNN 采用编译时内建 + 运行时自动检测设计,默认开启 SME2 加速。该模型为 4B 参数视觉语言模型,支持图文理解和对话,通过 MNN 官方已转换量化的模型可直接下载部署,开发者可通过编译开关一键开启硬件加速。

多模态教程/实践端侧

推荐理由:这是一份硬核的端侧部署指南,实测数据让 Qwen3-VL 在 SME2 手机上 Prefill 提速超过 80%,做移动端 AI 的团队可以直接抄作业。
17:54
公众号:火山引擎
47
TVB×火山引擎达成深度合作,以Seedance 2.0共探华语影视AI新路径

6月12日,TVB与火山引擎达成合作,围绕豆包视频生成模型Seedance 2.0,在影视内容智能化生产、短剧制作、IP商业化及云基础设施等领域展开探索。双方将协同TVB旗下FF工作室,以AI短剧为契机,利用Seedance 2.0的视频生成能力,通过输入提示词快速生成动画分镜、场景参考等素材,辅助编剧与导演在剧本开发、后期制作中验证创意。火山引擎将为TVB提供虚拟机、对象存储、视频云、CDN等云产品,支持其构建混合云架构,推动媒体内容生产、存储、分发环节的云化升级。

多模态行业动态视频
13:17
蚂蚁 inclusionAI:HuggingFace 新模型
精选62
inclusionAI 发布 VISTA-4B GUI 定位视觉语言模型

VISTA-4B 是基于 Qwen3.5-4B 骨干的 GUI 定位模型,输入截图与自然语言指令,输出归一化 0-1000 坐标。训练采用视图一致 GRPO 和自验证交叉视图锚定。在 GUI 定位基准上,SSPro 得分 64.2(相比 GRPO-4B 提升 2.0),SSV2 得分 93.8(下降 0.4),OSWorld-G 得分 61.2(提升 1.3),OSWorld-G-R 得分 69.7(提升 0.5)。模型已开源在 HuggingFace,推荐使用提示词并返回 [x,y] 格式坐标。

智能体Hugging Face多模态模型发布

推荐理由:蚂蚁 inclusionAI 开源了一款 GUI 定位模型,基于 Qwen3.5 微调,在接地基准上小幅提升,关键是提供了自验证训练方法,做桌面自动化的可以直接下载用。
13:17
蚂蚁 inclusionAI:HuggingFace 新模型
71
inclusionAI/VISTA-9B:基于VISTA训练的GUI定位视觉语言模型

VISTA-9B是基于Qwen3.5 9B骨干训练的GUI定位模型,输入截图与自然语言指令,输出0-1000归一化坐标。采用VISTA(视图一致自验证)方法,含view-consistent GRPO与self-verified cross-view anchoring。在SSPro、SSV2、OSWorld-G、OSWorld-G-R上分别取得69.2、95.8、68.1、75.5分,超越Qwen3.5-9B与GRPO-9B基线。模型已开源,可通过HuggingFace加载使用。

智能体Hugging Face多模态模型发布
6月11日
00:00
Suno:Blog(网页)
精选68
Suno 重构音轨分离功能,推出三种拆分方式

Suno 对音轨分离功能进行重构,推出三种拆分方式:Auto Split 将歌曲自动拆分为最多 12 个音轨(鼓、贝斯、吉他等);Split from Mix 可隔离或移除特定乐器/人声并生成伴奏轨道;Advanced Split(仅 Premier 订阅)支持从近 100 种乐器中精确提取目标音轨。与常规切割算法不同,Suno 使用最新模型从零重新生成每个音轨,而非从混音中切割,以消除串音和音质损失。该功能适用于 Pro 和 Premier 订阅用户,可用于 Suno 创作或上传的音乐。

产品更新多模态

推荐理由:Suno 重写了 stem separation,不再是旧路子切音频,而是用模型重新生成干净的干声,鼓点有劲、人声没杂音,还能拆上百种乐器,做混音的人可以试试。
6月10日
01:04
xAI:News(网页)
精选65
Gopuff与SpaceXAI推出Go AI购物助手

Gopuff与SpaceXAI合作推出Go智能购物助手,内置于Gopuff应用,由Grok文本、音频和图像模型驱动。Go结合Grok的推理、语音和图像生成能力与Gopuff的13年需求智能,利用X和网络实时信号。它可在用户打开应用前根据历史偏好和天气等信号构建个性化购物车,并包含基于Grok Imagine的超逼真视觉购物信息流。Go目前在美国iOS和Android端可用,随后在英国推出。

智能体xAI产品更新多模态

推荐理由:Gopuff加SpaceXAI的组合给即时零售塞了个挺实在的AI购物助手,预判需求比我自己翻分类流畅,本地生活类工具团队该把它当个落地样本。
01:04
Anthropic:Newsroom(网页)
精选90
Claude Fable 5 和 Claude Mythos 5

Anthropic 今日推出 Claude Fable 5(通用安全版)和 Claude Mythos 5(受限安全版)。Fable 5 在软件工程、知识工作、视觉、科研等几乎所有测试基准上达到 SOTA,Stripe 称其将数月工程压缩至数天,FrontierCode 评分居前沿模型之首,可仅凭截图重建网页应用源码。Mythos 5 在药物设计中实现约 10 倍加速,其分子生物学假说盲测获科学家偏好的概率约 80%。两模型售价均为 $10/百万输入 tokens、$50/百万输出 tokens,较 Claude Mythos Preview 降价过半。Fable 5 在部分敏感主题上回退至 Claude Opus 4.8,安全触发率低于 5% 的会话。Mythos 5 通过 Project Glasswing 向网络安全防御者开放。

Anthropic多模态安全/对齐模型发布
关联讨论 31 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)X:Berry Xia (@berryxia)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克
推荐理由:Anthropic把最危险的模型安全地放出来了,Fable 5在编码、科研上不是小数点级别的提升,价格还砍半,95%的请求直接跑满血版,必读。
6月9日
22:34
Google DeepMind:Blog(RSS)
同事件精选80
Google DeepMind 发布 Gemma 4 12B:统一的无编码器多模态模型

Gemma 4 12B 是 Google DeepMind 最新推出的中等规模多模态模型,采用无编码器统一架构,原生支持音频输入。其基准测试性能接近 26B MoE 模型,但内存占用不到一半,仅需 16GB 显存或统一内存即可在消费级笔记本上本地运行。模型内置多 token 预测(MTP)drafter 以降低延迟,基于 Apache 2.0 开源许可发布,已累计超过 1.5 亿次下载。

Google多模态开源/仓库推理
同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
推荐理由:统一无编码器架构让 12B 模型在消费级笔记本上跑出接近 26B 的多模态 Agent 体验,开源 + Apache 2.0,本地部署门槛又压低了。
19:55
Hugging Face:Blog(RSS)
精选76
一个Agent如何通过链式调用两个HuggingFace Space构建3D巴黎画廊

一个编码Agent调用HuggingFace上的两个Space,从零构建了展示巴黎地标3D高斯散点图的交互式画廊。Agent先用ideogram-ai/ideogram4生成每个纪念碑的黑色背景图像,再通过VAST-AI/TripoSplat从单张图像重建3D高斯散点(.ply),自动完成坐标系校正、取景、压缩为.ksplat(体积缩小约3倍),并构建基于Three.js的滚动切换、拖拽旋转查看器,最终部署为静态Space。整个过程无需客户端库,每个Space通过agents.md暴露可调用API。

智能体Hugging FaceMCP/工具多模态

推荐理由:Hugging Face 把 agents.md 做成每个 Space 的标准说明书,agent 能直接读懂并链式调用图像和 3D 模型,这篇用 3D 巴黎画廊 demo 告诉你这事儿已经跑通了,做 AI 工具链的可以立刻照着试。
05:15
Apple Machine Learning Research(RSS)
同事件精选79
苹果发布第三代 Apple Foundation Models(AFM)

苹果推出第三代 Apple Foundation Models(AFM)基础模型家族,与 Google 合作定制,包含五个模型,覆盖从设备端到基于 Private Cloud Compute 的服务器端模型。这些模型旨在驱动 Apple Intelligence 功能,包括全新 Siri 和智能工具,以用户为中心深度融合操作系统,隐私为核心设计原则。

Google多模态模型发布端侧
同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》
推荐理由:Apple与Google罕见联手推出的第三代基础模型,直接为下一代Siri和系统级AI功能铺路,标志着消费级AI的深度整合,产品经理和iOS开发者必须关注。
03:14
Apple:Newsroom(RSS)
精选69
受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线

由于欧盟《数字市场法案》(DMA),Apple 无法在 iOS 27 和 iPadOS 27 发布时于欧盟地区推出 Siri AI。该功能在欧盟的上线时间将晚于其他地区,具体时间未公布。

多模态政策/监管语音
关联讨论 7 条TechCrunch:AI(RSS)X:Kim (@kimmonismus)Apple:Newsroom(RSS)IT之家(RSS)公众号:数字生命卡兹克The Verge:AI(RSS)X:Testing Catalog (@testingcatalog)
推荐理由:苹果首次将 DMA 作为 AI 功能地区延迟的直接理由,并详细披露了与欧盟监管者的分歧,这个案例可能定义了 AI 助手在监管下的权限边界。
03:14
Apple:Newsroom(RSS)
同事件精选66
Apple 推出 Siri AI:由 Apple Intelligence 驱动的更强大、更个性化的个人助理

Apple 发布了 Siri AI,一款由 Apple Intelligence 驱动的个人助理,具备个人上下文、世界知识和屏幕感知能力,能提供更强大、更个性化的交互体验。

智能体产品更新多模态端侧
同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》
推荐理由:苹果对 Siri 的这次重构不是简单地换个模型,它把个人上下文、屏幕感知和视觉智能实际嵌进了系统,对普通用户来说日常交互方式可能要变。
03:14
Apple:Newsroom(RSS)
同事件精选63
Apple Intelligence 将强大 AI 能力融入日常体验

Apple 发布下一代 Apple Intelligence,将 AI 能力集成到 iPhone、iPad 和 Mac 中,带来更个性化和有帮助的日常体验。

产品更新图像生成多模态
同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》
推荐理由:苹果这次把 AI 深度植入常用 app,从空间重构图到自动修密码,方向很务实,但秋季才上线,目前只有开发者能尝鲜。
6月8日
19:50
Hugging Face:Blog(RSS)
精选74
Pakistan Notice Helper:一款面向本地安全问题的轻量 AI 工具

Pakistan Notice Helper 是一款安全工具,帮助巴基斯坦用户在点击链接、拨打电话、分享 OTP 或支付前识别可疑消息。它接受文本或截图输入,返回风险等级、简短解释、可见警示标志和安全下一步建议。工具支持英文和乌尔都语,乌尔都模式采用从右向左布局并全界面翻译。最终部署选用 Qwen3.5 4B Q8 模型(通过 llama.cpp + CUDA),在 10 个测试用例中通过了所有高风险诈骗和截图场景。此前曾测试 Qwen3.6 27B(质量高但成本高)和 MiniCPM-V 4.6 Q8(速度慢且不稳定),最终选择了精度、速度和成本平衡的 4B 模型。项目受限于 hackathon 的 32B 模型上限规则。

Hugging Face多模态教程/实践

推荐理由:一个只有4B的小模型,把巴基斯坦本地诈骗文案分析得明明白白,比那些参数大但看不懂乌尔都语的通用模型实用得多。做给特定地区特定问题的小工具,这才是AI落地的真节奏。
19:12
公众号:火山引擎
28
火山方舟Coding Plan与Agent Plan升级,限时2.5折

火山方舟Coding Plan与Agent Plan升级,集成MiniMax M3、DeepSeek V4系列、GLM-5.1等多款三方模型。即日起至2026年8月7日,新购/升级/续费40元、200元档位可享首两月2.5折(9.9元/月、49.9元/月)。MiniMax M3为新一代旗舰,支持100万token上下文窗口及原生多模态理解。Agent Plan为业界首个Agent套餐包,整合字节自研Seed系列模型与Harness工具,免费提供联网搜索和Embedding记忆能力,可配合Claude Code、OpenClaw、TRAE等工具使用。

智能体DeepSeek产品更新多模态
‹ 上一页
123…8
下一页 ›