AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「多模态」清除
6月5日周五
01:34fofr54Omni 为视频选 Vivienne Westwood 和 Burberry
01:05Google Gemini60Gemini Omni 轻松将创想变视频
6月4日周四
23:16SenseTime69商汤SenseNova U1开源统一文本图像模型
23:15SiliconFlow72精选Nex-N2-Pro 发布:基于 Qwen3.5 的 397B MoE 推理模型,性能达 GPT-5.5 水平
22:46SenseTime69同事件精选SenseNova U1 开源统一模型:原生图文生成同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
21:52Rohan Paul58Fei-Fei Li 谈世界模型 vs 大语言模型
21:18StepFun77同事件精选阶跃星辰 Step 3.7 Flash 在 Fireworks AI 上架同一事件,精选展示《在 NVIDIA GPU 上运行面向企业级就绪的多模态 AI——Step 3.7 Flash》
21:07公众号:百度智能云(文心)53全灵(SEELE AI)联合百度智能云推出MoT大模型,一句话生成可玩世界
20:53Google AI Developers47Google DeepMind与HeyGen六月洛杉矶活动开放注册
20:52Rohan Paul65Anuma:跨模型统一记忆的私人AI工作空间
18:25公众号:面壁智能(MiniCPM)42智能座舱卷到头了?这份白皮书给出了答案
12:37Elon Musk43Grok Imagine 1.5 视频榜登顶
12:17StepFun73阶跃星辰开源 Step 3.7 Flash:MoE 架构、400+ tokens/s、Apache 2.0
12:11IT之家(RSS)59谷歌 AI Edge Gallery 登陆 Mac,16GB 内存可运行 Gemma 4 12B 模型
12:00DogeDesigner65Grok Imagine Video 1.5 登顶视频排行
11:52Artificial Analysis67StepFun 开源 Step 3.7 Flash 模型,性能与速度并进
11:42HuggingFace Daily Papers(社区热门论文)74精选MapAgent:面向城市级车道级地图生成的工业级智能体框架
11:42HuggingFace Daily Papers(社区热门论文)69M^3Eval:基于认知任务的视频多模态记忆评估基准
11:42HuggingFace Daily Papers(社区热门论文)64WebRISE:面向MLLM生成Web工件的需求诱导状态评估基准
11:00公众号:火山引擎48中国美术学院×火山引擎:高质量数据集赋能普通人专业作画
10:42HuggingFace Daily Papers(社区热门论文)60Audio-Interaction:统一流式音频交互模型
10:23Jeff Dean75Gemma 4 12B 开源模型,可在笔记本运行
09:42HuggingFace Daily Papers(社区热门论文)55Stateful Visual Encoder:为视觉-语言模型引入有状态视觉编码器
09:36Elon Musk71同事件精选Grok 登陆 Cloudflare AI Gateway同一事件,精选展示《Grok模型登陆Cloudflare AI Gateway》
09:28xAI:News(网页)75精选xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)
09:06Elon Musk73同事件精选Grok Imagine 1.5制作《伊利亚特》预告片同一事件,精选展示《xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)》
08:51Berryxia.AI67MOSS-Audio:开源统一语音、环境音、音乐的音频-语言模型登顶HF Trending第一
08:40小互71Google 发布 Gemma 4 12B 开源模型
08:00HuggingFace Daily Papers(社区热门论文)44DRIFT:用于视觉语言模型连续输出解码的残差流适配器
08:00HuggingFace Daily Papers(社区热门论文)66PRISM诊断揭示余弦误导:辅助损失重塑VLM而非潜变量
08:00HuggingFace Daily Papers(社区热门论文)54BloomBench: 基于认知的英-阿双语多模态基准
08:00HuggingFace Daily Papers(社区热门论文)56PhaseLock:两步推理锁定运动先验,避免视觉细化阶段擦除物理一致性
08:00HuggingFace Daily Papers(社区热门论文)43Astra:借助世界模拟器实现智能体视觉空间推理
08:00HuggingFace Daily Papers(社区热门论文)57WorldBench:一个挑战性强且视觉多样化的多模态推理基准
07:51Berryxia.AI69Gemma 4 12B 发布,16G内存即可运行
06:59DogeDesigner70Grok Imagine Video 1.5 预览版上线 API
04:17The Decoder:AI News(RSS)72Google DeepMind 发布 Gemma 4 12B:开源多模态模型,16GB 内存笔记本即可运行
03:31fofr69Ideogram v4开源权重,图像清晰出色
03:22Ars Technica:AI(RSS)60Google 新发布的 Gemma 4 12B 模型可在任何 16GB 内存笔记本电脑上运行
03:20Chubby♨️71Google 开源 Gemma 4 12B:无编码器架构,本地 16GB VRAM 运行
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月5日
01:34
fofr@fofrAI
54
我喜欢 Omni 为此选择了一条 Vivienne Westwood 项链和 Burberry 风衣。

fofr: True story. > Say Paella like a British woman

多模态教程/实践
01:05
Google Gemini@GeminiApp
60
看看用 Gemini Omni 将最疯狂的创想变为现实有多简单。 只需在 Gemini 中选择"Create videos",添加文字、视频或多达五张图片,然后尽情释放你的想象力。
Google产品更新多模态视频
6月4日
23:16
SenseTime@SenseTime_AI
69
商汤SenseNova U1开源统一文本图像模型

商汤SenseTime发布SenseNova U1,一个原生理解和生成文本与图像的统一模型。该模型已开源,用户可自行运行。被@gurru_tech称赞“令人印象深刻”。提供在线演示平台SenseNova Studio、HuggingFace模型、GitHub代码及Discord社区。

Hugging Face图像生成多模态模型发布
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)
23:15
SiliconFlow@SiliconFlowAI
精选72
Nex-N2-Pro 发布:基于 Qwen3.5 的 397B MoE 推理模型,性能达 GPT-5.5 水平

neolab 推出 Nex-N2-Pro,基于 Qwen3.5-397B-A17B,总参数 397B 的 MoE 推理模型,支持 262K 上下文与多模态(VLM),性能达到 GPT-5.5 和 Claude Opus 4.7 级别。模型可自动调节推理深度,减少 30-50% 思考 token 且无性能折损,在 Terminal Bench 2.1、GDPVal、SWE-Verified 上取得 SOTA。擅长智能体编码、深度搜索和工具使用,兼容 Claude Code、Cursor 等工具。硅基流动已提供 T+0 支持,前两周免费使用。

多模态推理模型发布编码

推荐理由:后训练模型能直追 GPT-5.5 和 Claude 4.7,免费两周,对做 agent 和 deep search 的人来说是难得的低成本试错机会。
22:46
SenseTime@SenseTime_AI
同事件精选69
SenseNova U1 开源统一模型:原生图文生成

商汤 SenseTime 推出 SenseNova U1 开源多模态模型,实现原生理解与生成文本和图像,可一键将提示词转化为专业信息图。该模型被开发者 @gurru_tech 评价为“非常令人印象深刻”。项目已开源,提供 SenseNova Studio 在线试用,并公开 HuggingFace 模型集合、GitHub 源码仓库及 Discord 社区入口。

图像生成多模态开源生态模型发布
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
推荐理由:商汤这回把图文统一模型开源了,SenseNova U1的infographic功能比市面上大多数文生图工具更懂文字和布局,做内容的朋友可以上手试试。
21:52
Rohan Paul@rohanpaul_ai
58
Fei-Fei Li 谈世界模型 vs 大语言模型

李飞飞(Fei-Fei Li)指出,大语言模型(LLM)仅学习文本模式,能描述房间但无法理解椅子移动、玻璃破碎、阳光变化或机器人推杯子等物理变化。世界模型则试图学习视觉背后隐藏的结构,能预测相机未捕捉的视角、建模物体行为、支持真实或虚拟环境中行动的智能体。理解新视角、预测推动结果、决定下一步行动,都需要一个共同的内在模型,涵盖空间、因果与后果。

Fei-Fei Li: http://x.com/i/article/2062244283940544512

具身智能多模态大佬观点
21:18
StepFun@StepFun_ai
同事件精选77
阶跃星辰的 Step 3.7 Flash 已上架 Fireworks AI。该模型为 198B 稀疏 MoE 多模态大模型(VLM),含 196B 语言骨干和 1.8B 视觉编码器,从设计之初优化推理效率,采用硬件友好架构与 MTP 辅助解码,速度达 400 tokens/s。具备原生多模态理解与行动、可靠工具使用、增强搜索能力,面向真实智能体工作负载,采用 Apache 2.0 开源许可。

Fireworks AI: Many research labs only consider inference efficiency after the fact. Step 3.7 Flash is a 198B sparse MoE VLM designed b...

多模态推理模型发布
同一事件,精选展示《在 NVIDIA GPU 上运行面向企业级就绪的多模态 AI--Step 3.7 Flash》
推荐理由:198B稀疏MoE加MTP解码把速度推到400 tok/s,还开源Apache 2.0,这规格做agent的大脑正合适,做实时应用的可以试试手。
21:07
公众号:百度智能云(文心)
53
全灵(SEELE AI)联合百度智能云推出MoT大模型,一句话生成可玩世界

全灵(SEELE AI)推出自研MoT(Mixture-of-Transformers)多模态大模型,围绕游戏世界训练,模型内部同步学习“看懂世界”与“生成世界”。数据层构建3000万+独家空间语义数据对,标注空间关系、物体属性和交互规则。百度百舸AI计算平台提供训练调度、GPU管理、故障诊断及推理加速等底层支撑。全灵已上线“都市射击”“CS重制版”“城市冒险”等可玩Demo,玩家可在AI生成的城市中移动、跳跃、瞄准、换弹,与NPC互动;内测中的3A Open-World由4D World Model驱动,目标实现真正可玩的开放世界。

智能体多模态行业动态
20:53
Google AI Developers@googleaidevs
47
加入 @GoogleDeepmind 和 @HeyGen,6月11日!我们面向AI智能体、创意工具和多模态应用开发者的洛杉矶活动现已开放注册 👇 https://x.com/HeyGen/status/2062256762867388748

HeyGen: HeyGen + Google DeepMind in LA on June 11 A night of demos, conversations, and people building with agents, multimodal a...

智能体Google多模态行业动态
20:52
Rohan Paul@rohanpaul_ai
65
Anuma:跨模型统一记忆的私人AI工作空间

Rohan Paul 介绍 Anuma,一个私人 AI 工作空间,核心功能是跨模型统一记忆——用户在 ChatGPT、Claude、Gemini、Grok、DeepSeek、Kimi 等模型间切换时,上下文、偏好、目标和历史工作自动跟随。额外功能包括设备端加密记忆、默认隐私模式、无日志无训练、支持完整记忆导出、Council Mode(多模型并列回复对比)、单聊内模型切换,以及通过 iMessage 或 SMS 的 AI 文本能力。Paul 分享研究论文分析用例:上传多篇论文,利用多模态和多模型并行工作流,对比不同模型对同一主题的阅读、总结和关联能力,避免重复解释上下文。

MCP/工具多模态教程/实践
18:25
公众号:面壁智能(MiniCPM)
42
智能座舱卷到头了?这份白皮书给出了答案
多模态现象/趋势端侧
12:37
Elon Musk@elonmusk
43
Grok Imagine Video 1.5 在视频竞技场排行榜上位列第一。 主推文:Grok Imagine 1.5 排名第一。

DogeDesigner: Grok Imagine Video 1.5 is now ranked #1 on the Video Arena Leaderboard. 🥇

xAI多模态行业动态视频
12:17
StepFun@StepFun_ai
73
阶跃星辰发布开源 Step 3.7 Flash(Apache 2.0),采用 MoE 架构(198B 总参/11B 活跃参),配备 MTP 辅助解码(3 个预测头),输出速度超 400 tokens/s,是同类两倍多。Artificial Analysis Intelligence Index 得分 42.6,较 Step 3.5 Flash 提升 4 分。智能体能力明显增强:GDPval-AA Elo 升至 1298,TerminalBench Hard 升至 35.6%。新增 1.8B 视觉编码器,MMMU-Pro 得分 75.3%。上下文窗口 256K tokens,提供 BF16、FP8、NVFP4 版本。缺点:AA-Omniscience 准确率仅 25.4%,幻觉率 84.4%。

Artificial Analysis: StepFun's Step 3.7 Flash sits on the Intelligence vs Output Speed Pareto frontier, scoring 43 on the Artificial Analysis...

智能体多模态推理模型发布
12:11
IT之家(RSS)
59
谷歌 AI Edge Gallery 登陆 Mac,16GB 内存可运行 Gemma 4 12B 模型

谷歌 AI Edge Gallery 现已登陆 macOS,Mac 用户可在本地离线运行 Gemma AI 模型。该应用提供 5 个谷歌指令调优模型,其中 Gemma-4-12B-it 可在 16GB 内存 Mac 上处理文本、视觉和音频,具备代码能力,实现设备端智能体和多模态分析。AI Edge Gallery 完全离线、私密性高且速度快。同时,谷歌推出免费听写应用 Google AI Edge Eloquent,支持语音转文字、去除口误和轻度润色,全部在设备端完成,并支持不同写作风格和自定义词汇。

Google产品更新多模态端侧
12:00
DogeDesigner@cb_doge
65
Grok Imagine Video 1.5 现在在 Video Arena 排行榜上排名第一。🥇

Elon Musk: Iliad (Troy) trailer made by Grok Imagine 1.5, which was just released

多模态模型发布视频
11:52
Artificial Analysis@ArtificialAnlys
67
StepFun 开源 Step 3.7 Flash 模型,性能与速度并进

StepFun 开源 Step 3.7 Flash(Apache 2.0),总参数 198B、激活 11B(MoE),上下文 256K。在 Artificial Analysis 智能指数上得分 42.6,较 Step 3.5 Flash 提升 4 分,输出速度超 400 tokens/s,通过 Multi-Token Prediction(3 个 token)加速。新增 1.8B 视觉编码器支持原生多模态,MMMU-Pro 得分 75.3%。代理能力提升:GDPval-AA Elo 从 1070 升至 1298,TerminalBench Hard 达 35.6%,AA-LCR 63.7%。知识/幻觉仍弱:AA-Omniscience 准确率 25.4%,幻觉率 84.4%。提供 BF16、FP8、NVFP4 精度权重以降低部署成本。

多模态开源生态推理模型发布
11:42
HuggingFace Daily Papers(社区热门论文)
精选74
MapAgent:面向城市级车道级地图生成的工业级智能体框架

MapAgent是一种工业级智能体架构,用于生成符合规范的车道级地图。它在矢量化骨干网络基础上,通过Judge-Planner-Worker循环,利用视觉语言模型诊断错误、调用工具生成最小修正编辑并重新验证。系统仅在骨干网络置信度低的瓦片区域选择性触发,保持高吞吐量。MapAgent已集成至百度地图,支撑全国360多个城市的车道级地图生成,整体生产自动化率超95%。

智能体多模态论文/研究

推荐理由:百度地图团队把Agent验证循环接入车道级地图生成,360+城市落地且自动化率超95%,复杂路口和长尾场景提升明显,做自动驾驶和在线地图的可以直接看结论。
11:42
HuggingFace Daily Papers(社区热门论文)
69
M^3Eval:基于认知任务的视频多模态记忆评估基准

M^3Eval是首个系统评估多模态模型记忆能力的基准框架,基于认知心理学设计任务以隔离不同记忆维度。对代表性多模态模型的实验发现:模型难以在并行视频流中保持分离表示,干扰模式与人类记忆差异显著,空间域的记忆溯源比时间域更可靠,符号记忆能力有限。代码与数据集已公开。

多模态论文/研究评测/基准
11:42
HuggingFace Daily Papers(社区热门论文)
64
WebRISE:面向MLLM生成Web工件的需求诱导状态评估基准

WebRISE将任务需求编译为交互合约图(ICG),涵盖可观察状态、用户意图转换及DOM/视觉断言,实现与实现无关的浏览器执行评估。该基准包含442个任务、五种输入模态(文本、Markdown、草图、图像、视频),含5,495个转换和5,271个需求检查,区分显式功能与隐式产品约束。评估14个MLLM显示,最强模型仅达65.6%转换有效性和66.3%需求覆盖率;视觉质量不反映行为(Qwen3.6-35B-A3B在Markdown上视觉评分80.8但转换仅15.5)。视频提供最强交互信号(隐式覆盖率比文本高10.6个百分点);缺陷注入表明基于ICG的评分检测状态错误速率是checkpoint式评估的2-16倍。

arXiv多模态论文/研究评测/基准
11:00
公众号:火山引擎
48
中国美术学院×火山引擎:高质量数据集赋能普通人专业作画

中国美术学院与火山引擎联合开发「中国画创作平台」,通过6个月数据治理,将约3000张国画梳理为7维度结构化标签数据集,一次性标注通过率约95%。采用模型后训练技术,将国画鉴赏逻辑、创作理论注入豆包大模型和Seedream图像创作模型,封装为低门槛智能体。用户通过基础生成、修改调整、氛围添加三步操作,几分钟即可完成国画创作。智能体支持文生图、图生图,可集成至小程序、交互大屏,应用于教学、文创开发等场景。

产品更新图像生成多模态
10:42
HuggingFace Daily Papers(社区热门论文)
60
Audio-Interaction:统一流式音频交互模型

Audio-Interaction是一种统一流式音频模型,通过始终在线的感知-决策-回应循环实时聆听声音、环境与指令并即时反应。它基于SoundFlow框架实现端到端数据、训练与部署,包含流式原生数据构建、理解感知训练和异步低延迟推理。配套StreamAudio-2M数据集含260万样本,覆盖7项基本能力、28个子任务;Proactive-Sound-Bench用于评估主动音频干预。在8个基准测试中,Audio-Interaction保持主流音频任务竞争力,同时解锁实时ASR、流式音频指令跟随和主动帮助等离线LALM无法实现的能力。

智能体多模态论文/研究语音
10:23
Jeff Dean@JeffDean
75
来看看我们的 Gemma 4 12B 模型:它是一个功能非常强大的开源权重模型,可以直接在你的笔记本电脑上运行。

Google Gemma: Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to y...

Google多模态开源生态模型发布
关联讨论 6 条X:Demis Hassabis (@demishassabis)X:Sundar Pichai (@sundarpichai)X:Google AI for Developers (@googleaidevs)Google Developers Blog(RSS)Google DeepMind:Blog(RSS)Hacker News 热门(buzzing.cc 中文翻译)
09:42
HuggingFace Daily Papers(社区热门论文)
55
Stateful Visual Encoder:为视觉-语言模型引入有状态视觉编码器

现有开放权重视觉-语言模型(VLM)在多图像、多轮智能体场景中,视觉编码器是无状态的,每张图像独立编码,无法访问先前视觉上下文,导致任务关键的小变化被弱化。本文提出 Stateful Visual Encoder,将每个视觉表示基于先前视觉特征进行条件化。通过监督微调,配备该编码器的 VLM 在跨图像空间聚合、多对象视觉差异和轨迹行为克隆等任务上取得一致改进,且适用于不同分辨率、语言模型规模和 VLM 主干。在纵向放射学、精细图像比较和遥感等真实任务中,有状态编码器持续提升通用 VLM 基线,在特定领域匹配或超越专用模型。

智能体多模态论文/研究
09:36
Elon Musk@elonmusk
同事件精选71
xAI 与 Cloudflare 合作,将 Grok 的 LLM、音频、图像和视频模型接入 Cloudflare AI Gateway,用户可直接通过 Cloudflare 计费,无需额外认证或 API 密钥。Elon Musk 发推称 "Grok on Cloudflare"。

Cloudflare Developers: We're partnering with @xai to bring Grok to @Cloudflare AI Gateway. • Grok LLMs, audio, image, and video models are now ...

xAI产品更新多模态
同一事件,精选展示《Grok模型登陆Cloudflare AI Gateway》
推荐理由:开发者现在可以在Cloudflare上零配置调用Grok全家桶了,从LLM到视频生成,对已经用Cloudflare生态的人来说,这比单独接入xAI API省事太多。
09:28
xAI:News(网页)
精选75
xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)

xAI 通过 API 发布了图像转视频模型 grok-imagine-video-1.5-preview(Grok Imagine 1.5 预览版)。该模型能将单张静态图片转为流畅的电影感视频,用户提供起始帧和描述运动的提示词后,模型可生成包含相机移动、氛围和物理效果的动画,并保持对源图像的忠实。支持生成 720p 片段,可使用自然语言指令控制镜头、节奏和音效,并支持逐帧拼接成长场景。模型目前通过 xAI API 提供预览使用。

xAI多模态模型发布视频
关联讨论 4 条X:Elon Musk (@elonmusk, xAI)X:阿易 AI Notes (@AYi_AInotes)X:cb_doge (@cb_doge)xAI:News(网页)
推荐理由:xAI的新视频模型从单张图像生成电影级短片,支持自然语言控制运镜和氛围,对视频创作者和开发者是个值得一试的工具。
09:06
Elon Musk@elonmusk
同事件精选73
伊利亚特(特洛伊)预告片由刚刚发布的 Grok Imagine 1.5 制作
xAI多模态模型发布视频
同一事件,精选展示《xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)》
推荐理由:Elon 亲自演示 Grok Imagine 1.5,生成的《伊利亚特》预告片质感让我觉得视频生成赛道又要卷一轮,做短片的可以盯一下。
08:51
Berryxia.AI@berryxia
67
MOSS-Audio:开源统一语音、环境音、音乐的音频-语言模型登顶HF Trending第一

OpenMOSS团队发布MOSS-Audio,一个融合语音(Speech)、环境音(Sound)、音乐(Music)的开源音频-语言模型,已冲上Hugging Face Trending第一。该模型从架构上打通三大音频域,可同时转录对话、识别背景音、理解音乐情绪并生成文本或执行下游任务。模型完全开源可商用,代码和权重已在Hugging Face及GitHub公布,开发者可本地运行。

MOSI: MOSS-Audio just hit #1 on @huggingface Trending. Speech. Sound. Music. One open audio-language model. Try it: Hugging Fa...

多模态模型发布语音
08:40
小互@xiaohu
71
Google 发布 Gemma 4 12B 开源模型

Google 发布 Gemma 4 12B 开源模型,采用无编码器 Unified 架构,可直接处理文本、图像、音频、视频,无需独立编码器。16GB 显存可运行,4-bit 量化后低至 8GB。支持 256K token 上下文、140+ 语言,内置 Thinking 模式和 Function Calling。

Google多模态开源生态模型发布
08:00
HuggingFace Daily Papers(社区热门论文)
44
DRIFT:用于视觉语言模型连续输出解码的残差流适配器

针对视觉语言模型(VLM)难以处理连续值输出(如事件时间边界定位、机器人控制动作生成)的问题,研究者提出DRIFT框架。该框架通过基础预测器提供粗略估计,并结合基于流匹配的生成式精化模块迭代优化预测结果。残差公式将生成建模从学习全局输出分布简化为在强先验附近拟合局部残差分布,显著降低优化难度。在视觉定位和机器人控制等任务上,DRIFT在多种架构(MLLM、VLA、WAM)中均持续优于强回归与生成基线方法。

具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
66
PRISM诊断揭示余弦误导:辅助损失重塑VLM而非潜变量

对五种LVR变体的测试发现,余弦对齐度与准确率呈强负相关(r=-0.94)。研究提出诊断工具PRISM(线性探针+破坏性测试)发现:有监督潜token大部分被绕过,破坏后准确率变化最多4%;答案在潜token下游可解码、在潜token处不可解码,解码能力差距可预测各变体对潜变量的依赖。辅助目标通过共享参数重塑语言模型,而非通过名义上优化的潜变量。

arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
BloomBench: 基于认知的英-阿双语多模态基准

研究团队提出 BloomBench(Almieyar 基准系列的一部分),首个基于人类认知的英-阿双语多模态基准。以布鲁姆分类学为框架,系统评估视觉语言模型在记忆、理解、应用、分析、评价、创造六个认知层级的表现。采用半自动化流程构建和分层混合质量保证协议,确保可扩展性与文化包容性。对现有 SOTA 模型的测试揭示:语义理解能力强,但事实回忆和创造性合成严重不足;阿拉伯语与英语之间存在显著性能差距。基准框架与数据集已开源。

GitHub多模态开源生态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
PhaseLock:两步推理锁定运动先验,避免视觉细化阶段擦除物理一致性

图像到视频扩散模型常生成违反物理定律的运动。研究发现,同一模型的两步生成比50步生成物理一致性更好。频谱分析表明,去噪过程中相位退化约18%,幅度保持稳定。基于此,提出无需训练的PhaseLock框架,从仅两步推理提取运动先验,通过Latent Delta Guidance施加到高保真生成。PhaseLock有效缓解相位退化,在多种模型上平均提升物理一致性6.2点,同时保持视觉保真度,额外开销仅1.06倍时间和1.02倍内存,并减少对外部昂贵引导方法的依赖(约5倍时间)。

多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
43
Astra:借助世界模拟器实现智能体视觉空间推理

视觉-语言模型(VLM)在空间推理中受限于观测图像和文本链式推理。Astra框架将Astra-VL(基于强化学习的VLM策略)与Astra-WM(基于Bagel的世界模拟器)耦合,后者从上下文图像和自然语言相机运动生成新视角观测。Astra-WM通过视角一致性训练提升跨视角一致性。RL阶段采用包含世界模拟器的两阶段课程学习,训练模型仅在想象观测优于直接回答时调用模拟器。实验显示,Astra-WM使Gemini-3-Flash在MMSI-Bench上从45.1提升至49.5;Astra-VL将Qwen3-VL在MMSI-Bench上从29.8提升至38.8,在MindCube上从36.8提升至42.7。

具身智能多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
WorldBench:一个挑战性强且视觉多样化的多模态推理基准

WorldBench是一个用于评估多模态大语言模型(MLLM)的推理基准,通过构建涵盖多个领域(如生物)的数千个视觉概念分类体系,从搜索引擎和现有数据集中广泛收集图片,并采用结构化试错方法手动设计前沿MLLM难以回答的挑战性问题。在15个MLLM上的评估显示,最强模型准确率仅达64.0%,部分模型性能略高于随机水平,揭示了现有模型在视觉理解上的不足。该基准在视觉多样性上优于现有任何多样化基准。

多模态推理论文/研究
07:51
Berryxia.AI@berryxia
69
Google 昨晚发布Gemma 4 12B 多模态的大模型,至少需要16G 内存就可以运行。 应该和Qwen 的模型进行对比其效果如何~

Google Gemma: Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to y...

Google多模态模型发布端侧
06:59
DogeDesigner@cb_doge
70
SpaceXAI 不断刷新标准。🔥 Grok Imagine Video 1.5 预览版现已上线 API,效果看起来极为电影感。📽️ 去亲自试试吧。💻 祝 SpaceXAI 好运。🚀
多模态模型发布视频
04:17
The Decoder:AI News(RSS)
72
Google DeepMind 发布 Gemma 4 12B:开源多模态模型,16GB 内存笔记本即可运行

Gemma 4 12B 是 Google DeepMind 推出的开源模型,原生支持处理文本、图像和音频,仅需 16GB RAM 即可在笔记本上运行。在基准测试中几乎追平两倍参数规模的 26B 模型,采用 Apache 2.0 许可证,可用于商业用途。

Google多模态开源生态模型发布
关联讨论 6 条X:Demis Hassabis (@demishassabis)X:Sundar Pichai (@sundarpichai)X:Google AI for Developers (@googleaidevs)Google Developers Blog(RSS)Google DeepMind:Blog(RSS)Hacker News 热门(buzzing.cc 中文翻译)
03:31
fofr@fofrAI
69
Ideogram v4 真的很好,而且开源权重。图像清新锐利,令人耳目一新。

Ideogram: Introducing Ideogram 4.0: the best open image model in the world. Think it. Make it. Own it. Download the weights, fine-...

图像生成多模态开源/仓库模型发布
03:22
Ars Technica:AI(RSS)
60
Google 新发布的 Gemma 4 12B 模型可在任何 16GB 内存笔记本电脑上运行

Gemma 4 12B 采用新的编码方案与 token 预测,实现了超越自身参数规模的性能表现。该模型专为在 16GB RAM 的笔记本电脑上本地运行而设计。

Google多模态模型发布端侧
03:20
Chubby♨️@kimmonismus
71
Google 开源 Gemma 4 12B:无编码器架构,本地 16GB VRAM 运行

Google 开源 Gemma 4 12B(密集参数,Apache 2.0 许可),采用全新无编码器架构:移除独立的视觉(550M 参数、27 层 Transformer)和音频(300M 参数、12 层 Conformer)编码器。视觉改为 35M 嵌入层(约缩小 15 倍),音频以 40ms 帧直接投影到大语言模型。模型在 16GB VRAM 笔记本上即可运行智能体推理、视觉和音频任务,性能接近 26B 参数模型。共享权重支持一次 LoRA 调优覆盖视觉、音频和文本。

Google: Today we're introducing Gemma 4 12B - our latest open model that brings advanced agentic reasoning, vision and audio dir...

Google多模态开源生态模型发布
‹ 上一页
1…1516171819…50
下一页 ›