AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「多模态」清除
5月12日周二
04:55Lilian Weng68团队协作优化人机协作,AI模型训练日志揭示新路径
04:03🚨 AI News | TestingCatalog52谷歌Gemini Omni模型即将发布
03:35阿绎 AYi71Karpathy提出AI交互新范式:以HTML输出提升人机沟通效率
00:20Andrej Karpathy73人机交互界面的演进:从文本到交互式神经视频
5月11日周一
23:33🚨 AI News | TestingCatalog55谷歌Gemini Omni视频模型将具备高级编辑能力
23:32凡人小北49Tesla FSD跳过ISP,用原始光子计数重建清晰视觉
22:20向阳乔木56MACE模型登顶Huggingface:MoE架构驱动音乐生成舞蹈视频
21:34IT之家(RSS)375499 元起,大疆发布全新 AI 超幅扫拖机器人 ROMO 2 系列
18:55Alibaba Cloud30巴黎VivaTech峰会探讨AI商业应用
17:57AK58MACE-Dance:音乐驱动舞蹈视频生成新模型
17:34IT之家(RSS)64阿里发布全新 AI 店小蜜,"AI+ 人"转化率首次超越纯人工
14:32🚨 AI News | TestingCatalog61Google I/O曝光Gemini Omni视频模型新证据
11:48Berryxia.AI68AI助力AR 3D拆解教学,低成本方案推动科普变革
10:00公众号:昆仑万维(天工)26当企业开始用Mureka替换Suno--一场正在发生的AI音乐迁移,以及它背后的理由
09:34IT之家(RSS)39特斯拉用 AI 视觉系统预测碰撞:提前 70 毫秒弹出安全气囊,未来车型标配
08:00Thinking Machines Lab:官方博客(RSS)59精选Thinking Machines Lab发布Interaction Models研究预览
08:00HuggingFace Daily Papers(社区热门论文)49审计多模态LLM评估者:临床序数评分中的趋中倾向偏差
08:00HuggingFace Daily Papers(社区热门论文)67BEACON:一个从游戏数据中学习行为指纹的多模态数据集
08:00HuggingFace Daily Papers(社区热门论文)47M2Retinexformer:用于低光图像增强的多模态Retinexformer
08:00HuggingFace Daily Papers(社区热门论文)56MulTaBench:面向文本与图像的跨模态表格学习基准测试
08:00HuggingFace Daily Papers(社区热门论文)62SleepWalk:一个用于压力测试指令引导视觉语言导航的三级基准
08:00HuggingFace Daily Papers(社区热门论文)66Urban-ImageNet:一个用于城市空间感知的大规模多模态数据集与评估框架
08:00HuggingFace Daily Papers(社区热门论文)61面向视觉原生多模态深度搜索代理的策略上数据演化
05:47StepFun29谷歌I/O周AI开发者聚会硅谷举行
04:58elvis66AI工具栈快速生成交互式3D生物结构
5月10日周日
19:22Hacker News 热门(buzzing.cc 中文翻译)66Gemini API 文件搜索现已支持多模态
18:33IT之家(RSS)64央视调查:AI"买家秀"误导消费者,未标注 AI 生成
10:13小互58兄弟们 这个创意牛P啊 3D 趣味互动科学应用 用GPT生成图像,然后使用Gemini 3.1 Pro生成,可以将任何知识的内容制作成3D可交互的效果展示! 效果炸裂!
10:13小互53GPT结合Tripo 3D优化机器人销售网站
09:13向阳乔木60GPT-Image-2为段落生成视觉解释,提升阅读体验
08:00HuggingFace Daily Papers(社区热门论文)49利用强化微调克服视觉持续学习中的灾难性遗忘
08:00HuggingFace Daily Papers(社区热门论文)63Forcing-KV:用于高效自回归视频扩散模型的混合KV缓存压缩
08:00HuggingFace Daily Papers(社区热门论文)61从像素到概念:分割模型真的理解它们分割的内容吗?
08:00HuggingFace Daily Papers(社区热门论文)52SeePhys Pro:诊断物理推理多模态RLVR中的模态迁移与盲训练效应
08:00HuggingFace Daily Papers(社区热门论文)55让每个Token都算数:通过KV缓存淘汰提升长上下文性能
08:00HuggingFace Daily Papers(社区热门论文)62DeltaRubric:通过联合规划与验证生成多模态奖励模型
08:00HuggingFace Daily Papers(社区热门论文)57强化多模态模型在视觉退化下的推理鲁棒性
07:44Berryxia.AI40Grok iOS应用抢先上线Imagine Agent模式
07:44Berryxia.AI48从此告别无聊的课堂教学! 自己开发趣味互动科学应用创意 ~ 现在使用GPT-image-2 + Gemini 尝试生成3D生物结构,并开发了一款能交互探索这些结构的应用!
07:32IT之家(RSS)55IT早报 0510:SK海力士回应人均高额奖金传闻;多家车企辟谣锁电约谈;DeepSeek开放识图功能
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月12日
04:55
Lilian Weng@lilianweng
68
团队通过数月高强度工作,完成了12个主要版本及137页的训练运行日志。这一过程揭示,有效的人与人协作是提升人-AI协作质量的关键。受此启发,团队借鉴人类实时交谈、倾听、观察、思考与协作的并行模式,设计了一种能以此方式与人协同工作的新型AI。相关博客文章分享了该方法、早期成果及模型的实际运行演示。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

多模态推理论文/研究
04:03
🚨 AI News | TestingCatalog@testingcatalog
52
谷歌持续为其即将推出的Gemini Omni模型做发布准备。 > Gemini Omni模型也将通过API提供 > 该模型将被视为智能体,类似于AI Studio上的深度研究功能 快了吗?👀 附:提醒一下,Nano Banana 1并未优于Imagen v4
Google多模态模型发布
03:35
阿绎 AYi@AYi_AInotes
71
Karpathy提出AI交互新范式:以HTML输出提升人机沟通效率

Andrej Karpathy指出,当前AI发展的核心瓶颈并非模型能力,而是低带宽的文本交互方式。他建议在向大模型提问时要求“以HTML格式构建回答”,并在浏览器中查看结果。由于人类大脑约三分之一皮层专司视觉处理,HTML提供的丰富视觉呈现能带来远超Markdown的阅读效率与理解深度。他认为人机交互正从Markdown向HTML演进,虽然后者消耗更多token,但用少量成本换取人类时间效率是值得的交易。最终,给人消费的内容应优先采用HTML格式,而AI代理间则可用Markdown或JSON沟通。

Andrej Karpathy: This works really well btw, at the end of your query ask your LLM to "structure your response as HTML", then view the ge...

多模态大佬观点语音
00:20
Andrej Karpathy@karpathy
73
人机交互界面的演进:从文本到交互式神经视频

作者认为,AI的人机交互界面正从当前的Markdown默认输出向更丰富的HTML格式演进,后者能提供更好的图形、布局和交互性。长远看,由扩散神经网络直接生成的交互式神经视频或模拟将是终极输出形式,但其如何与精确的传统软件结合仍是开放问题。在输入侧,仅靠音频、文本或视频并不足够,需整合如手势指点等更自然的交互方式。总体而言,在迈向脑机接口之前,人机输入输出的融合仍有大量工作要做。现阶段的一个实用建议是尝试让大语言模型以HTML格式结构化其回复。

Thariq: http://x.com/i/article/2052796100608974848

多模态大佬观点
5月11日
23:33
🚨 AI News | TestingCatalog@testingcatalog
55
谷歌即将推出的Gemini Omni视频模型在视频编辑方面预计将显著进步,能够完成去除水印、替换视频中物体等复杂任务。该模型可能发布两个版本,包括一个Pro变体。引用推文展示了该模型的实际编辑效果,对比了原始视频与编辑后的视频,并证实其在去除水印方面表现优异。

Just a dragon: 🫨Google is creating a new Omni model with good video editing. Veo4? The original is on the left. Edited right. The new ...

Google多模态模型发布视频
23:32
凡人小北@frxiaobei
49
Tesla FSD跳过ISP,用原始光子计数重建清晰视觉

Tesla FSD通过跳过图像信号处理器,直接处理传感器记录的原始光子计数数据,而非传统相机处理后的人眼可见RGB图像。光子计数保留了完整的光强信息,神经网络据此重建出细节清晰的场景。这使得FSD在夜间或强眩光等极端视觉条件下,能超越人眼感知,从一片白茫茫中识别出路、树、车辆等关键信息,实现更优的视觉感知能力。

Elon Musk: The human-perceived RGB is image 1 and the Tesla AI photon count reconstruction is image 2. This is why Tesla FSD can se...

图像生成多模态教程/实践
22:20
向阳乔木@vista8
56
MACE模型登顶Huggingface:MoE架构驱动音乐生成舞蹈视频

本周Huggingface排行榜上,MACE论文暂时位列第一。该研究采用混合专家(MoE)架构,实现了根据音乐生成舞蹈视频的任务。这一技术进展被认为将显著提升类似抖音平台上AI舞蹈视频的真实感与表现力。

Hugging Face多模态视频论文/研究
21:34
IT之家(RSS)
37
5499 元起,大疆发布全新 AI 超幅扫拖机器人 ROMO 2 系列

大疆发布全新AI超幅扫拖机器人ROMO 2系列,包含ROMO P2和ROMO A2两款型号,起售价5499元。该系列搭载36000Pa聚能吸力系统,并采用雷达自适应超幅外摆机械臂,单次外摆较上代多覆盖4.5厘米边角。其智能避障2.0系统融合多类传感器,可识别并规避细至2毫米的线缆及透明障碍物。机器人具备8.5厘米双层越障能力,基站支持进阶高温自清洁与十重抑菌除臭系统。产品即日起开启预约,将于6月11日正式发售。

产品更新多模态
18:55
Alibaba Cloud@alibaba_cloud
30
加入VivaTech的AInnovation峰会!探索AI如何通过Qwen、Wan、HappyHorse与HappyOyster驱动实际商业影响。 📅 6月17日 中欧夏令时15:00 📍 巴黎凡尔赛门展览中心 #VivaTech #AlibabaCloud #AInnovationSummit
多模态行业动态
17:57
AK@_akhaliq
58
MACE-Dance 用于音乐驱动舞蹈视频生成的运动-外观级联专家模型
多模态视频论文/研究
17:34
IT之家(RSS)
64
阿里发布全新 AI 店小蜜,"AI+ 人"转化率首次超越纯人工

阿里发布基于千问大模型构建的全新AI店小蜜,这是电商行业首个具备售前售后全链路服务能力的客服agent。接入后,商家平均转人工率下降45%,“AI+人”协同转化效果首次超越纯人工客服超10%。其日均对话量近千万,服务商家超百万。核心升级包括:AI能回答超80%问题并主动导购,提升平均询单转化率至10%;覆盖超30个场景,回复速度提升50%,准确率超90%;可自动处理复杂售后流程,平均退款挽单成功率超20%。

智能体产品更新多模态
14:32
🚨 AI News | TestingCatalog@testingcatalog
61
Google I/O曝光Gemini Omni视频模型新证据

在Google I/O期间,Gemini移动应用中发现了即将推出的Gemini Omni视频模型的新证据。该模型被描述为“我们的新视频模型”,功能包括混剪视频、在聊天中直接编辑以及使用模板等。分析指出,这可能是基于Gemini的真正“Omni”模型,而非Veo。早期测试显示,该模型会快速消耗使用额度,且网络和移动端应用都将新增一个“使用情况”标签页来追踪用量。

Google多模态模型发布视频
11:48
Berryxia.AI@berryxia
68
AI助力AR 3D拆解教学,低成本方案推动科普变革

AI技术正重新激活AR 3D拆解教学领域。利用Cursor中的Claude opus模型,可快速生成手表、冰箱等物体的AR拆解教学演示,实现部件3D可视化与步骤标注,流程已跑通且成本低。该方案未来可广泛应用于硬核设备拆解及生物细胞等科普教学。对于精度要求不高的展示,可直接利用Apple官方免费3D模型库或KhronosGroup等开源资源快速搭建,JigSpace则是成熟的教学互动应用范例。这预示着科普教学方式将迎来新的变革。

Berryxia.AI: 看大家昨天都因为这个项目卧槽了一天! 朋友们都开始整活儿,其实对于精度要求不高只是展示3D的就是可以直接使用开源的一些3D库就可以拿来使用。 我最早接触和了解这玩意还是Apple的 Reality Composer,官方也提供了对应的3D ...

多模态开源生态教程/实践
10:00
公众号:昆仑万维(天工)
26
当企业开始用Mureka替换Suno--一场正在发生的AI音乐迁移,以及它背后的理由

Mureka正被企业用以替换Suno,一场AI音乐领域的迁移正在发生。背后涉及功能、成本或合规等方面的理由。

多模态现象/趋势语音
09:34
IT之家(RSS)
39
特斯拉用 AI 视觉系统预测碰撞:提前 70 毫秒弹出安全气囊,未来车型标配

特斯拉利用AI视觉系统预测碰撞,可在检测到不可避免的碰撞时提前70毫秒弹出安全气囊,以降低乘员受伤风险。公司CEO埃隆·马斯克表示,该功能由特斯拉视觉系统驱动,能大幅减少伤亡概率,并将在所有新车型上作为免费标配功能提供。

产品更新多模态
08:00
Thinking Machines Lab:官方博客(RSS)
精选59
Thinking Machines Lab发布Interaction Models研究预览

Thinking Machines Lab发布interaction models研究预览。该模型从零训练,原生处理音频、视频和文本,采用多流微回合设计实现实时响应,无需外部脚手架。研究预览展示了全新的交互能力,并在智能性与响应性上取得综合SOTA表现。

智能体多模态模型发布视频

推荐理由:Thinking Machines 把实时交互训进了模型本身,不再是外挂脚手架,微轮次架构和 benchmark 数据很硬,做语音/视频助手的可以认真看看,虽然还是研究预览,但方向值得盯着。
08:00
HuggingFace Daily Papers(社区热门论文)
49
审计多模态LLM评估者:临床序数评分中的趋中倾向偏差

本研究评估多模态大语言模型(LLM)作为临床评分自动评估器的表现,以画钟测试(CDT)图像评分任务为例。在两个公开数据集上,使用Shulman评分标准,比较三大前沿LLM家族(如GPT-5)与监督深度学习模型。零样本LLM在容差一致性上具有竞争力,但全微调视觉变换器在绝对校准上更优。所有LLM均表现出显著“趋中倾向偏差”:预测分数系统性向量表中间压缩,高估低分、低估高分,严重影响认知障碍筛查的关键极端分数。消融实验证明,提供全量表示例或去除临床术语均无法消除该偏差。研究将LLM评估者偏见研究扩展至临床领域,强调在高风险筛查工作流中部署前需进行校准意识评估和事后校准。

arXiv多模态安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
67
BEACON:一个从游戏数据中学习行为指纹的多模态数据集

本文发布BEACON大规模多模态数据集,旨在通过竞技游戏《Valorant》的高认知与操作负荷场景,为连续身份验证提供细粒度行为信号。该数据集包含约430GB同步多模态数据,涵盖28名玩家79次会话、总计102.51小时的实战记录,采集了高频鼠标动态、击键事件、网络数据包、屏幕录像、硬件元数据及游戏配置上下文。BEACON利用战术射击游戏固有的高精度操作与认知压力,为行为生物识别的鲁棒性提供了严格测试环境,支持连续认证、行为画像、用户漂移及多模态表征学习的研究。数据集与代码已开源。

多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
M2Retinexformer:用于低光图像增强的多模态Retinexformer

低光图像增强面临噪声、伪影和颜色失真等挑战。现有基于Retinex的深度学习方法主要依赖单模态RGB信息,性能有限。本文提出M2Retinexformer,一个新型多模态框架,在Retinexformer基础上扩展,融合深度线索、亮度先验和语义特征,采用渐进式细化流程。深度提供光照不变的几何上下文,亮度特征显式指导亮度分布,语义特征增强场景理解。多模态信息在多尺度提取,通过交叉注意力机制融合,自适应门控根据辅助线索可靠性动态平衡光照引导的自注意力和交叉注意力。在LOL、SID、SMID和SDSD基准测试上的评估表明,其性能整体优于Retinexformer及近期其他先进方法。代码与预训练权重已开源。

多模态开源生态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
MulTaBench:面向文本与图像的跨模态表格学习基准测试

针对现有表格基础模型依赖冻结预训练嵌入处理文本、图像等非结构化模态导致信息丢失的问题,研究团队推出了包含40个数据集的MulTaBench基准。该基准专注于模态间提供互补预测信息的任务,避免以往基准中模态简单共现带来的高方差问题。实验表明,针对具体任务调整嵌入能显著提升模型性能,且这一收益在文本与图像模态、多种表格学习器及不同模型规模上均具普适性。作为迄今规模最大的图像-表格基准,MulTaBench覆盖医疗、电商等高影响领域,旨在推动融合联合建模与目标感知表征的新架构研究,为开发新一代多模态表格基础模型奠定基础。

arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
SleepWalk:一个用于压力测试指令引导视觉语言导航的三级基准

SleepWalk 是一个用于评估单场景3D世界中指令接地轨迹预测能力的基准。它基于文本描述生成可导航3D环境,要求模型根据视觉观察和语言指令,预测符合场景几何、避免碰撞且能终止于可操作位置的轨迹。该基准涵盖多样环境,并将任务按时空难度分为三级,以分析组合复杂性增加时的接地能力。在2,472个场景上对三个前沿视觉语言模型的测试显示,它们在遮挡、交互约束及多步指令下存在系统性空间推理缺陷,任务难度增加时性能显著下降。SleepWalk为推进接地的多模态推理与具身智能体研究提供了关键基准。

具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
66
Urban-ImageNet:一个用于城市空间感知的大规模多模态数据集与评估框架

Urban-ImageNet是一个用于城市空间感知的大规模多模态数据集与评估基准,包含从2019年至2025年间在中国24个城市的61个地点从微博收集的超过200万张图像及配对文本。它提供1K、10K和100K规模的受控子集及完整语料库,基于HUSIC层次分类框架定义了10个类别,以区分激活与非激活公共空间、内外环境、住宿、消费、人像及非空间内容。基准支持城市场景语义分类、跨模态图文检索和实例分割三项任务。实验显示,模型在有监督场景分类上表现良好,但在跨模态检索和实例分割上更具挑战性;多尺度研究探讨了训练数据从1K增至100K时性能的变化,为AI系统感知城市空间提供了统一评估工具。

多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
面向视觉原生多模态深度搜索代理的策略上数据演化

本文针对多模态深度搜索代理提出两项改进。首先,设计了一个以图像库引用协议为核心的视觉原生代理框架,将工具返回的图像注册为可寻址引用,使中间视觉证据能被后续工具复用。其次,在此基础上构建了策略上数据演化框架,通过运行闭环数据生成器,依据被训练策略的推演结果进行多轮自我优化,使每轮数据都针对当前策略的待学习需求。该框架能同时生成多样化的监督微调数据和策略感知的强化学习数据。在8个基准测试中,该方法显著提升了不同规模代理模型的性能,分析证实图像库重用对需迭代视觉细化的复杂任务尤其有效。

智能体多模态论文/研究
05:47
StepFun@StepFun_ai
29
谷歌I/O周将AI构建者聚集至湾区。 我们为SEAMATE x Linkloud的Front Row聚会提供支持,这场仅限构建者参与的活动将于5月16日举行,约500名专注于智能体、多模态和AI原生基础设施的创始人及开发者将齐聚一堂。 我们的团队将参与"智能体实际应用"专题讨论,与Principle和谷歌同台交流。 地点:Plug and Play,桑尼维尔。5月16日下午3点。 若您身在当地,欢迎前来交流! http://luma.com/ai-native-developers-io-week?tk=fpHHGw
智能体Google多模态行业动态
04:58
elvis@omarsar0
66
作者受启发复现了一个利用AI工具栈快速生成3D生物结构的工作流。该流程整合了Gemini Nano Pro生成概念、Tripo进行3D生成、Codex组装代码,并通过HTML构件实现交互式查看。作者认为,此类AI应用将指数级加速学习过程,并推动高质量教育的民主化。其灵感来源于@DilumSanjaya展示的利用GPT生成UI、Gemini编写代码来创建交互式科学探索应用的概念。

Dilum Sanjaya: Fun interactive science app ideas | Part 3 Played around with generating 3D biological structures and made an app to exp...

MCP/工具图像生成多模态教程/实践
5月10日
19:22
Hacker News 热门(buzzing.cc 中文翻译)
66
Gemini API 文件搜索现已支持多模态

Gemini API 的文件搜索功能现已升级为多模态版本。此次更新允许开发者上传并搜索图像、PDF、PPT 和 Word 等多种格式的文件,突破了此前仅支持文本文件的限制。该功能基于检索增强生成技术,能同时处理文本和视觉信息,从上传的文档中提取关键内容以生成更准确的回答。这一变化旨在帮助开发者更高效地构建能理解和分析复杂多模态数据的应用程序。

Google检索增强产品更新多模态
18:33
IT之家(RSS)
64
央视调查:AI"买家秀"误导消费者,未标注 AI 生成

央视调查发现,部分电商平台评论区出现未标注的AI生成“买家秀”图片。这些图片效果精美,但与实物相差甚远,误导消费者判断商品质量。商家利用AI工具快速生成模特穿搭图,用于商品详情页和评论区,而平台审核机制不完善,未能有效识别和标注此类AI生成内容。此举涉嫌违反《电子商务法》和《消费者权益保护法》中关于真实披露信息、禁止虚假宣传的规定,侵犯了消费者的知情权和选择权。

多模态政策/监管
10:13
小互@xiaohu
58
兄弟们 这个创意牛P啊 3D 趣味互动科学应用 用GPT生成图像,然后使用Gemini 3.1 Pro生成,可以将任何知识的内容制作成3D可交互的效果展示! 效果炸裂!
GoogleOpenAI图像生成多模态
10:13
小互@xiaohu
53
创建一个售卖机器人的未来网站效果也不错 GPT 生成图像 → Tripo 3D
图像生成多模态教程/实践
09:13
向阳乔木@vista8
60
GPT-Image-2为段落生成视觉解释,提升阅读体验

GPT-Image-2能够根据选中的文章段落直接生成视觉化的解释,极大地改善了阅读体验,使其不再枯燥。这一功能展示了AI在将文本内容转化为直观图像方面的应用潜力,为理解和消化复杂信息提供了新的辅助工具。

OpenAI图像生成多模态教程/实践
08:00
HuggingFace Daily Papers(社区热门论文)
49
利用强化微调克服视觉持续学习中的灾难性遗忘

强化微调(RFT)相比监督微调更抗遗忘,但在视觉持续学习任务中仍有显著遗忘。通过分析发现,瓶颈在于“轨迹级漂移无意识”:即相同任务奖励下,不同轨迹的KL散度差异大,与遗忘强相关。为此,提出保留感知策略优化(RaPO)方法,通过轨迹级奖励塑形来缓解遗忘。该方法包含保留奖励和跨任务优势归一化(CTAN)两个核心组件,分别将漂移转化为奖励信号和跨任务稳定优化。实验证明,RaPO在五种视觉持续学习场景中显著减少了遗忘,同时保持了模型可塑性,性能领先。

多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
Forcing-KV:用于高效自回归视频扩散模型的混合KV缓存压缩

自回归视频扩散模型因历史帧键值缓存冗余,面临注意力复杂度高、内存开销大的问题。本文提出Forcing-KV混合压缩方法,基于注意力头功能分化的实证研究,将头划分为静态头(关注块间过渡与帧内保真度)和动态头(控制帧间运动一致性),并分别采用结构化静态剪枝和基于分段相似性的动态剪枝。在保持输出质量的同时,该方法在单张NVIDIA H200 GPU上实现超过29帧/秒的生成速度,缓存内存降低30%,在480P分辨率下对LongLive和Self Forcing分别加速1.35倍和1.50倍,在1080P分辨率下更可达2.82倍加速。

多模态论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
61
从像素到概念:分割模型真的理解它们分割的内容吗?

研究团队推出CAFE基准,专门评估提示型分割模型的概念忠实性。该基准通过属性级反事实操作,构建了包含2,146个测试样本的数据集,涵盖表面模仿、上下文冲突和本体冲突三类误导性语义线索。对多种模型的评估揭示了一个系统性差距:模型即使面对误导性提示也常能生成精确掩码,这表明强大的掩码预测能力并不等同于忠实的概念语义基础。CAFE为诊断模型是否基于概念而非视觉捷径进行分割提供了受控的评估标准。

arXiv多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
52
SeePhys Pro:诊断物理推理多模态RLVR中的模态迁移与盲训练效应

研究团队推出细粒度模态迁移基准SeePhys Pro,通过为每个问题提供四种视觉元素递增的变体,评估模型在关键信息从文本转向图像时推理能力的保持情况。评估发现,前沿模型的性能随视觉化程度增加而下降,视觉变量定位是主要瓶颈。基于此,研究构建多模态RLVR训练语料库并采用盲训练诊断,发现即使掩码所有训练图像,强化学习仍能提升验证集性能。控制实验表明,此类提升可能源于残留的文本与分布线索,而非有效的视觉证据。研究强调,评估多模态推理需关注模态迁移下的鲁棒性,并诊断改进是否依赖于关键视觉证据。

多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
让每个Token都算数:通过KV缓存淘汰提升长上下文性能

研究提出一种基于全局保留的KV缓存淘汰方法,以应对长上下文推理中的内存与计算瓶颈。该方法通过轻量级保留门为缓存条目分配效用分数,并利用共享的最终评分投影在所有层和注意力头间校准分数,使不同层、头和模态的token能在统一缓存容量下直接竞争。理论分析表明,优先保留有用token能减少注意力稀释。在多种长上下文语言、视觉-语言推理及多轮对话基准测试中,该方法在显著减少KV内存的同时,性能达到甚至超越了全缓存推理水平,表明学习型全局KV淘汰可成为一种提升推理能力的机制。

多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
DeltaRubric:通过联合规划与验证生成多模态奖励模型

针对多模态大语言模型对齐中奖励模型不可靠的问题,本研究提出DeltaRubric方法。它将偏好评估重构为“规划-执行”流程:模型先作为“分歧规划器”生成针对具体实例的中立验证检查表,再转为“检查表验证器”依据图像和问题执行检查,输出基于事实的判断。该方法被构建为多角色强化学习问题,以联合优化规划与验证能力。在Qwen3-VL模型上的实验表明,DeltaRubric在VL-RewardBench上将基础模型的整体准确率显著提升了超过18分,大幅优于无检查表基线,证明结构化、可验证的评估步骤能产生更可靠、泛化性更强的多模态奖励模型。

多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
强化多模态模型在视觉退化下的推理鲁棒性

针对多模态大语言模型在图像模糊、压缩伪影等现实视觉退化下推理性能下降的问题,研究团队提出ROMA强化学习微调框架。该框架通过双前向传播、令牌级代理KL惩罚、基于干净图像优势的辅助策略梯度损失及正确性条件正则化四项核心技术,在避免损害清晰图像性能的前提下,有效提升了模型对视觉退化的鲁棒性。在Qwen3-VL模型上的实验表明,该方法在多个基准测试中对已见和未见退化的鲁棒性均显著优于GRPO方法。

多模态推理数据/训练论文/研究
07:44
Berryxia.AI@berryxia
40
Grok iOS应用抢先上线Imagine Agent模式

Grok iOS应用推出Imagine Agent模式,用户可通过移动端优化的原生界面,执行复杂工作流以生成图像和视频。SpaceXAI在此领域被认为领先于其他竞争者。同时,移动端的Skills功能也即将上线。推文还提及了对下一代Imagine v2版本的期待。

🚨 AI News | TestingCatalog: Early look at Imagine Agent Mode on Grok app for iOS! Users will be able to use Imagine Agent via a mobile optimised nat...

智能体xAI产品更新多模态
07:44
Berryxia.AI@berryxia
48
从此告别无聊的课堂教学! 自己开发趣味互动科学应用创意 ~ 现在使用GPT-image-2 + Gemini 尝试生成3D生物结构,并开发了一款能交互探索这些结构的应用!
GoogleOpenAI图像生成多模态
07:32
IT之家(RSS)
55
IT早报 0510:SK海力士回应人均高额奖金传闻;多家车企辟谣锁电约谈;DeepSeek开放识图功能

SK海力士回应“员工人均奖金610万元”传闻,称今明年度业绩未定,奖金规模无法预测。中国汽车工业协会辟谣“8家新能源车企因锁电被约谈”为不实信息。DeepSeek大范围开放“识图模式”,具备文物识别、逻辑题解答、截图转代码等多模态能力。此外,iPhone 18 Pro系列被曝灵动岛将缩小25%;张汝京指出全球超80%半导体需求来自成熟制程;比亚迪腾势N9闪充版等新车公布预售及发布信息。

DeepSeek多模态行业动态
‹ 上一页
1…3637383940…50
下一页 ›