AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「多模态」清除
5月19日周二
22:27The Decoder:AI News(RSS)57Agora-1 将 N64 经典游戏《GoldenEye》转变为可供四人游玩的 AI 模拟
21:56Hacker News 热门(buzzing.cc 中文翻译)58由 Apple Intelligence 驱动的全新辅助功能
21:53IT之家(RSS)48苹果依托 Apple Intelligence 推出一批无障碍新功能,年内上线
21:01Berryxia.AI47正畸医生出品:AI几秒搞定头影测量,颠覆传统流程
20:07Apple:Newsroom(RSS)57精选苹果发布全新辅助功能,并引入Apple Intelligence进行更新
20:01HuggingFace Daily Papers(社区热门论文)60MementoGUI:面向长时程GUI代理的学习型多模态记忆控制
19:52IT之家(RSS)60联想发布天禧 AI 4.0 版本:引入 Claw"养虾"能力、个人知识库、Skills 技能广场…
19:01Berryxia.AI6710分钟训出AI健身教练,黄仁勋的预言正在照进现实
16:00Berryxia.AI67腾讯开源Chronicles-OCR基准:评估视觉语言模型的古汉字感知能力
13:56HuggingFace Daily Papers(社区热门论文)59Code-as-Room:通过智能体代码合成从俯视图生成3D房间
13:50AYi66葡萄3D模型在X平台爆火:4800赞背后的3DGS技术突破
12:55HuggingFace Daily Papers(社区热门论文)64Incantation:自然语言作为多实体视频世界模型的动作接口
12:55HuggingFace Daily Papers(社区热门论文)73精选StableVLA:无需额外数据的鲁棒视觉-语言-动作模型
12:44Alibaba Cloud45阿里云冠名2026年蒙特卡洛人工智能电影节
11:59歸藏(guizang.ai)56CodePilot学习用户风格并自动调整UI生成样式
11:51HuggingFace Daily Papers(社区热门论文)59Lance: 基于多任务协同的统一多模态建模
11:10Alibaba Cloud60Qwen3.7预览版登陆竞技场,阿里视觉排名升至第五
11:10Alibaba Cloud55阿里通义千问Qwen3.7系列亮相Arena平台
11:04Tencent Hy72精选开源古代汉字视觉感知评估基准Chronicles-OCR
10:59歸藏(guizang.ai)46谷歌新视频模型演示引关注,I/O 2026会议在即
10:56Berryxia.AI33眼球追踪技术新应用:控制显示器
09:56Berryxia.AI76精选首个实时多agent世界模型发布,人类可与AI同屏互动
09:26meng shao47Veo 4视频生成能力疑似曝光
08:56Berryxia.AI62Odyssey推出首个实时多模态世界模型Starchild-1
08:49🚨 AI News | TestingCatalog68谷歌I/O大会展示Gemini新模型能力
08:00HuggingFace Daily Papers(社区热门论文)55从感知到推理:解耦感知与推理以改进视觉-语言模型的后训练
08:00HuggingFace Daily Papers(社区热门论文)64人脑中的柏拉图表征:通用几何结构的无监督恢复
08:00HuggingFace Daily Papers(社区热门论文)54ClinSeekAgent:实现多模态证据主动检索的临床推理代理框架
08:00HuggingFace Daily Papers(社区热门论文)63CutVerse:面向媒体后期编辑的组合式GUI智能体基准测试
08:00HuggingFace Daily Papers(社区热门论文)61大型视觉语言模型胸部X光推理视觉归因的再思考
07:25karminski-牙医59字节跳动开源全模态模型Lance:轻量高效的"拼好模"
06:45IT之家(RSS)65阿里云千问大模型 Qwen3.7-Max-Preview 首发亮相 Arena AI
05:42OpenAI Developers38OpenAI赋能科学智能:多模态数据处理与透明研发
03:55karminski-牙医54Qwen3.7内测跑分出炉,空间理解与指令遵循大幅提升
03:50Claude75精选Claude Design 全面升级创作能力
03:34Hacker News 热门(buzzing.cc 中文翻译)78精选Qwen 3.7 预览版
03:12OpenRouter65精选xAI Grok创意套件三款新模型上线OpenRouter
02:55karminski-牙医53Qwen3.7! 就在今天!
00:56Berryxia.AI63阿里Qwen3.7预览版在Arena排行榜取得显著成绩
00:02Qwen57Qwen3.7预览版登陆AI评测平台,排名显著提升
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月19日
22:27
The Decoder:AI News(RSS)
57
Agora-1 将 N64 经典游戏《GoldenEye》转变为可供四人游玩的 AI 模拟

Odyssey 公司发布了世界模型 Agora-1,该模型允许最多四名玩家同时在 AI 生成的虚拟世界中进行行动。该技术已在经典游戏《GoldenEye》上得到验证,其核心是使用两个独立的模型分别实时处理游戏状态模拟与画面渲染。开发团队认为,这项技术未来在协作机器人和 AI 智能体训练领域具有应用潜力。

智能体多模态模型发布
21:56
Hacker News 热门(buzzing.cc 中文翻译)
58
由 Apple Intelligence 驱动的全新辅助功能

Apple于2026年5月19日发布由Apple Intelligence支持的一系列新辅助功能。这些特性旨在通过机器学习技术,为残障用户提供更智能的语音导航、视觉辅助以及个性化交互体验。该消息在Hacker News平台获得119点热度,显示出科技界对人工智能在无障碍技术中应用的关注。此次更新进一步展现了Apple在提升设备可访问性与包容性设计方面的持续投入。

产品更新多模态
21:53
IT之家(RSS)
48
苹果依托 Apple Intelligence 推出一批无障碍新功能,年内上线

5月19日,苹果宣布将于今年晚些时候推出一系列基于Apple Intelligence技术的无障碍功能。核心更新包括:为旁白、放大器、语音控制和无障碍阅读器新增AI图像描述、自然语言操作及复杂文档处理能力;新增可离线生成视频实时字幕的功能(初期限美加地区英文)。同时,将利用Vision Pro的眼动追踪技术为残障人士新增操控电动轮椅的方式。此外,还公布了一系列轻量化新功能,如Vision Pro的车辆防晕眩模式、面部控制等。上述所有功能预计随今年秋季的iOS 27等全新系统一同推送。

产品更新多模态端侧
21:01
Berryxia.AI@berryxia
47
正畸医生出品:AI几秒搞定头影测量,颠覆传统流程

正畸医生兼开发者@SwiftyAlbert打造的OrthoKit应用,利用AI技术实现了头影测量的全自动化。传统上医生需手动标注数十个标志点、耗时且易错,而AI接管后,几秒内即可完成自动识别、描迹并生成报告。该应用已上架全平台,提供超过30项分析(如Steiner、McNamara),其中半数以上由AI驱动。这标志着高专业门槛的医疗诊断正转化为智能工具,使更多正畸医生能轻松获得精准分析能力。

Alberto: Por favor mirad qué maravilla el trazado cefalométrico asistido por IA, aunque no entendáis de ortodoncia:

产品更新多模态
20:07
Apple:Newsroom(RSS)
精选57
苹果发布全新辅助功能,并引入Apple Intelligence进行更新

苹果公司宣布推出由Apple Intelligence驱动的重大辅助功能更新。此次更新为VoiceOver、放大镜(Magnifier)和语音控制(Voice Control)功能引入了新的能力,旨在提升残障用户设备的可用性。这是苹果首次将Apple Intelligence应用于其辅助功能技术组合。

产品更新多模态端侧

推荐理由:Apple Intelligence为无障碍功能带来自然语言交互和更智能的视觉辅助,是不错的方向,但全是远期承诺,现在还不能上手。
20:01
HuggingFace Daily Papers(社区热门论文)
60
MementoGUI:面向长时程GUI代理的学习型多模态记忆控制

针对现有GUI代理在长期任务中因记忆机制不足而表现脆弱的问题,本文提出了MementoGUI框架。它是一个插件式智能体记忆框架,为基于MLLM的GUI代理配备了学习型控制器MementoCore,无需微调主干模型即可在线进行记忆选择、压缩与检索。该框架将长期交互建模为在线记忆控制问题,通过工作记忆保存文本摘要与视觉证据,并通过情节记忆检索可复用的历史轨迹。MementoCore将记忆控制模块化为四个专用算子,并开发了相应的数据构建流程与评估基准。实验表明,该框架能稳定提升代理在多个基准上的性能。

智能体多模态论文/研究
19:52
IT之家(RSS)
60
联想发布天禧 AI 4.0 版本:引入 Claw"养虾"能力、个人知识库、Skills 技能广场…

联想发布天禧 AI 4.0 版本,该系统从“被动调用”转向“自主执行”。新版本推出天禧 Claw,其搭载 1.7B 多模态记忆模型,支持本地化部署的“仿生记忆”功能,可实现情景、语义及程序记忆。同时,新增个人知识库功能,可整合 PDF、音视频等多类型原始文档,结合知识图谱构建高效知识系统。此外,联想还推出了模型广场、智能体广场及 Skills 技能广场,支持用户上传与共享技能。

产品更新多模态端侧
19:01
Berryxia.AI@berryxia
67
10分钟训出AI健身教练,黄仁勋的预言正在照进现实

NVIDIA CEO 黄仁勋指出,AI已成为每份工作的基本工具。推文作者以自身实践为例,为应对健康与效率焦虑,利用360“龙虾教练”平台在10分钟内训练出个性化AI健身助手“小B”。该AI能记录训练数据、生成专业日报周报,甚至调用其他AI绘制动作示意图,无需用户编写代码或配置复杂工作流。案例展示了AI工具正从概念讨论快速落地为普通人可用的日常助手,也提醒在追赶技术浪潮时,不应牺牲身心健康。

智能体多模态教程/实践
16:00
Berryxia.AI@berryxia
67
腾讯开源Chronicles-OCR基准:评估视觉语言模型的古汉字感知能力

腾讯开源了Chronicles-OCR基准,旨在专门评估视觉语言模型对古汉字的感知能力。该数据集横跨3000年演变,涵盖从甲骨文到草书的7种历史字体,包含2800张来自多样材质的真实图像。研究设置了字符定位、细粒度识别、古文字解析和字体分类四项核心任务。测试结果揭示,面对历史字体带来的视觉分布漂移,大部分模型的感知能力会急剧下降。该研究为古文字研究提供了重要的AI评测工具。

Tencent Hy: 🎉 🎉 🎉 We're open-sourcing Chronicles-OCR, a visual perception benchmark evaluating VLLMs on ancient Chinese character...

多模态论文/研究
13:56
HuggingFace Daily Papers(社区热门论文)
59
Code-as-Room:通过智能体代码合成从俯视图生成3D房间

本文提出Code-as-Room,一个基于多模态大语言模型的智能体框架,旨在从俯视图参考图像生成精确且稳定的3D室内场景。该框架将房间表示为可执行的Blender代码,通过多阶段流程解析图像中的空间关系,并合成为几何、材质与光照代码。为克服现有多智能体框架的上下文遗忘问题,引入了跨阶段记忆模块。此外,研究还建立了专用的代码式3D房间合成基准测试,实验结果证明了所提执行框架的有效性。

具身智能多模态论文/研究
13:50
AYi@AYi_AInotes
66
葡萄3D模型在X平台爆火:4800赞背后的3DGS技术突破

一颗葡萄的3D模型在社交平台X上引发热议,一天内获4800赞和280万浏览。其核心在于利用3DGS技术成功攻克了半透明物体重建的公认难题。项目使用6660张宏观照片训练,生成仅43万高斯点,压缩后模型小于50MB,实现了在手机端实时360度旋转和光影还原。这一突破验证了“最难案例跑通,则更简单物体皆可数字化”的逻辑,展示了从专业扫描仪和建模团队降维到个人相机加自动训练的低成本、高效率新流程,为手办、珠宝、文物等领域的数字资产化指明了方向,开发者正通过工具miqula将此流程产品化。

AYi: Damn,有点炸裂啊,一颗葡萄用了6660张宏观照片训练3DGS, 模型只有43万个高斯点, 压缩完不到50MB, 但你可以在手机上看它360度旋转, 连果肉里透出来的光都还原了, 更炸的是老哥回复里那句话,有人问底部怎么拍到的,他甩了张g...

多模态现象/趋势端侧
12:55
HuggingFace Daily Papers(社区热门论文)
64
Incantation:自然语言作为多实体视频世界模型的动作接口

Incantation是首个交互式视频世界模型,采用自然语言作为动作接口,实现每潜变量帧(0.25秒)的精细控制。它支持同时多实体操控与概念级跨实体迁移,突破传统固定渲染管线的限制。模型结合预训练双向视频骨干网络与帧局部文本交叉注意力机制,并通过ODE初始化的Self-Forcing蒸馏和RoPE解耦滑动KV缓存实现实时长视频生成。在跨实体迁移任务中,准确率达89%,大幅超越Action-Index基线的43%;词表外提示准确率为9

多模态视频论文/研究
12:55
HuggingFace Daily Papers(社区热门论文)
精选73
StableVLA:无需额外数据的鲁棒视觉-语言-动作模型

视觉-语言-动作模型在面对训练数据未涵盖的视觉干扰时性能显著下降。为此,本文提出一种基于信息论的轻量级适配器模块(IB-Adapter),能从视觉输入中选择性过滤噪声,且无需额外数据或增强策略。该适配器以少于1000万的额外参数,平均提升性能30%。实验表明,即使骨干网络参数仅为0.5B(较现有7B模型小14倍),StableVLA在合成与真实视觉损坏场景下的长时程任务中,仍能达到与大模型相当的鲁棒性,并超越OpenPi基线。

具身智能多模态论文/研究

推荐理由:VLA 模型在真实世界一遇到光照遮挡就崩,这篇用信息瓶颈原理做的轻量适配器,不加数据就拉回 30% 性能,还用 0.5B 小模型打平 7B,做机器人落地的团队值得看看。
12:44
Alibaba Cloud@alibaba_cloud
45
阿里云冠名2026年蒙特卡洛人工智能电影节

阿里巴巴云宣布成为2026年蒙特卡洛人工智能电影节的冠名赞助商。该电影节旨在探索电影与人工智能技术的融合。作为全球云计算和AI基础设施领导者,阿里云将为创作者提供大模型训练、沉浸式视频内容生成及大规模高性能渲染等支持,构建AI原生创作所需的弹性、安全与智能云平台,助力新一代创作者加速创新。

多模态行业动态视频
11:59
歸藏(guizang.ai)@op7418
56
CodePilot学习用户风格并自动调整UI生成样式

CodePilot展示了强大的个性化能力,能通过用户频繁使用PPT功能的行为,学习并记录其视觉风格偏好。系统随后将这一风格应用于生成式UI组件的视觉样式中,使生成的可视化内容自动适配用户喜好,提升了内容的个性化与美观度。

智能体产品更新多模态
11:51
HuggingFace Daily Papers(社区热门论文)
59
Lance: 基于多任务协同的统一多模态建模

本文介绍了轻量级原生统一模型Lance,支持图像与视频的理解、生成与编辑。该模型摒弃了对模型规模扩张或文本-图像主导设计的依赖,探索通过多任务协同训练实现统一多模态建模的实用范式。其核心在于两个原则:统一上下文建模与解耦能力路径。Lance从头训练,采用共享交织多模态序列的双流专家混合架构,并引入模态感知旋转位置编码以减少异构视觉标记间的干扰,增强跨任务对齐。训练采用分阶段多任务范式,结合能力导向的目标与自适应数据调度。实验表明,Lance在图像与视频生成任务上显著优于现有开源统一模型,同时保持了强大的多模态理解能力。

图像生成多模态视频论文/研究
11:10
Alibaba Cloud@alibaba_cloud
60
🚀🚀Qwen3.7预览版登陆竞技场! ⚡️⚡️Qwen3.7-Plus-Preview来了。阿里巴巴现在在视觉领域排名第五。🎨 迫不及待要发布Qwen3.7系列模型了!敬请期待!@arena

Arena.ai: In the Vision Arena, Qwen3.7 Plus Preview makes @Alibaba_Qwen the #5 lab, ranking #16 overall.

多模态模型发布评测/基准
11:10
Alibaba Cloud@alibaba_cloud
55
阿里巴巴旗下通义千问的Qwen3.7系列模型在AI评测平台Arena首次公开。其中,Qwen3.7 Max Preview在文本竞技场总排名第13,使阿里在该平台位列第六;在数学、专业知识、软件与IT、编程等多个细分领域排名进入前十。此外,Qwen3.7 Plus Preview在视觉竞技场排名第16,阿里在该领域位列第五。官方表示即将正式发布Qwen3.7系列完整模型。

Arena.ai: Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...

多模态模型发布
11:04
Tencent Hy@TencentHunyuan
精选72
开源古代汉字视觉感知评估基准Chronicles-OCR

开源了评估视觉大语言模型(VLLM)对古代汉字视觉感知能力的基准测试Chronicles-OCR。该数据集覆盖了从甲骨文到草书的3000年演变历程,包含7种历史书体与2800张均衡图像。评估涵盖字形定位、细粒度识别、古代文本解析和字体分类四项核心任务,旨在探究视觉分布随时间的变化如何影响模型感知。相关论文与代码已开源。

多模态开源生态论文/研究

推荐理由:腾讯混元开源的视觉感知基准,专攻古汉字识别,覆盖从甲骨文到草书的三千年演变,做 OCR 和视觉模型的可以拿来测测自家模型在历史文本上的感知退化。
10:59
歸藏(guizang.ai)@op7418
46
谷歌新视频模型的演示表明其可能具备视频编辑功能,引发了关于模型架构是否统一或分开生成与编辑的讨论。此演示与Google I/O 2026会议相关,Sundar Pichai推文预告会议将于明天10am PT举行,预示着更多技术细节可能在此次活动中披露。

Sundar Pichai: On our way to I/O 2026. See you at 10am PT tomorrow!

Google产品更新多模态视频
10:56
Berryxia.AI@berryxia
33
卧槽~这个可以啊! 其实Apple Vision Pro就是通过追踪眼球来控制,类似你的眼球就像移动的鼠标指针,你的手部捏合的动作就是鼠标点击的动作。 这个直接搞到显示器上有点意思!
多模态现象/趋势
09:56
Berryxia.AI@berryxia
精选76
首个实时多agent世界模型发布,人类可与AI同屏互动

奥德赛实验室推出Agora-1,这是全球首个实时多agent世界模型,允许多人与AI同时在同一个模拟世界中实时互动并相互影响。该模型以经典游戏GoldenEye死亡竞赛为演示场景,提供可玩研究预览,用户现在即可体验与AI共同参与动态生成的模拟世界。这标志着从单人生成视频向多人共享“活世界”的转变,长期来看可能重塑游戏、模拟、教育、机器人及AI协作等领域,使人类从旁观者变为与AI共同生活的参与者。

Odyssey: Introducing Agora-1, a multi-agent world model. Multiple participants-human or AI-can now interact inside the same world...

智能体多模态模型发布

推荐理由:Odyssey把世界模型推进到了多人实时交互,可玩的GoldenEye死亡竞赛预览比任何PPT都有说服力,做游戏和模拟的人得上去打两把。
09:26
meng shao@shao__meng
47
推文疑似展示或讨论了Veo 4的视频生成能力,重点提及了视频续写、不同特效切换等效果,以及视频时长增加至10秒的新特性。该推文引用了Google CEO Sundar Pichai的预告,暗示这些展示可能与即将举行的Google I/O 2026大会相关。

Sundar Pichai: On our way to I/O 2026. See you at 10am PT tomorrow!

Google多模态行业动态视频
08:56
Berryxia.AI@berryxia
62
Odyssey推出首个实时多模态世界模型Starchild-1

Odyssey AI实验室发布了Starchild-1,这是全球首个实时多模态世界模型。该模型不仅能生成视频画面,还能同步生成与之匹配的声音,实现了视觉与听觉的真正融合,模拟出完整、鲜活的世界动态。与以往只能“看”世界的世界模型不同,Starchild-1实现了“听”的能力。这被视为向通用世界模型迈出的关键一步,旨在重新定义AI对现实世界的认知与模拟方式。

Odyssey: Meet our new friend, Starchild-1 ❤️ Starchild-1 is the first ever real-time multimodal world model. A world model unders...

多模态模型发布语音
08:49
🚨 AI News | TestingCatalog@testingcatalog
68
谷歌I/O 🔥:这些传奇人物是通过即将推出的Gemini Omni模型生成的AI图像。 > 两段视频均为8秒高清样本。 > 与Sundar和Demis相关的视频很可能是使用Omni进行风格编辑的图像转视频生成。 > Logan的视频则可能是"相似度"虚拟形象与Omni视频的结合。 而"GEMINI"意味着新模型的发布!🤯

Logan Kilpatrick: Gemini

Google图像生成多模态模型发布
08:00
HuggingFace Daily Papers(社区热门论文)
55
从感知到推理:解耦感知与推理以改进视觉-语言模型的后训练

本研究发现,视觉-语言模型在视觉任务上的性能瓶颈主要源于其视觉感知能力的不足,而非推理能力。为此,研究提出将模型能力解耦为视觉感知、视觉推理和文本推理三个独立的训练阶段,并使用专门数据进行分阶段训练。实验证明,视觉感知需要针对性优化,应优先通过分阶段训练加以巩固,且使用强化学习比基于描述的监督微调更有效。该方法在多个模型上实现了持续性能提升,使模型推理准确率提高了1.5%,推理过程缩短了20.8%。在开放权重的视觉-语言模型中,该方法在WeMath和RealWorldQA等基准上取得了领先成绩,相比基础模型分别取得了5.2%和3.7%的性能提升。

arXiv多模态推理数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
64
人脑中的柏拉图表征:通用几何结构的无监督恢复

本研究基于强柏拉图表征假说,旨在探究人类大脑中是否存在类似人工神经网络的共享表征几何结构。团队利用自然场景数据集的fMRI数据,提出一种自监督编码器,从每个被试自身的脑数据中学习其专属的嵌入空间。研究发现,这些独立学习的空间可以通过无监督的正交旋转,在不同被试间实现直接转换,无需配对数据或中间模型。进一步将旋转同步到一个统一的共享空间后,跨被试的检索性能得到提升。结果为人类视觉皮层存在共享神经几何结构提供了证据,表明个体的fMRI表征在不同人之间近似等距,并可通过纯几何变换进行转换。

多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
ClinSeekAgent:实现多模态证据主动检索的临床推理代理框架

ClinSeekAgent 是一个自动化代理框架,旨在将临床推理范式从被动接收预设证据转变为主动从异构源中检索与整合多模态证据。该框架仅需临床查询和原始数据源访问权限,即可通过查询知识库、导航电子病历及调用影像工具动态收集证据,并随着新信息不断精炼假设以支持临床决策。研究通过构建ClinSeek-Bench基准测试验证其有效性,在多模态任务中将Claude Opus 4.6的F1值从47.5显著提升至62.6。此外,ClinSeekAgent 作为训练管道,可将高质量代理轨迹蒸馏为开源模型ClinSeek-35B-A3B,使其在基准测试中F1平均达到34.0,较基线提升11.9分,性能接近Claude Opus 4.6。

多模态搜索论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
CutVerse:面向媒体后期编辑的组合式GUI智能体基准测试

研究团队发布了CutVerse基准测试,用于系统评估自主GUI智能体在真实媒体后期制作环境中的能力。该基准基于专业编辑工作流,涵盖Premiere Pro、Photoshop等7款专业应用中的186项复杂长程任务。为支持规模化评估,团队开发了一个轻量级解析器,可将原始屏幕录制和底层交互日志转化为结构化的组合式GUI动作轨迹。评估结果显示,现有智能体在此类任务上的成功率仅为36.0%,凸显了复杂、长程媒体后期制作流程带来的挑战。当前模型在空间定位、多模态对齐和协同动作执行方面表现出潜力,但在长程可靠性与领域特定规划上仍存在局限。

智能体arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
大型视觉语言模型胸部X光推理视觉归因的再思考

本研究针对大型视觉语言模型在医疗应用中面临的可信度挑战,指出其视觉归因方法常未能反映模型真实依据的视觉证据。为此,团队开发了因果评估框架,筛选出归因区域对预测具有因果性的样本进行测试。通过对11种归因方法、6个模型及两种输出模式的系统评估,发现现有方法普遍存在识别失效问题。为解决此问题,提出了基于概念的归因方法MedFocus,该方法利用非平衡最优传输定位临床相关区域,并通过定向干预量化其因果效应。实验证明,MedFocus在空间、概念及词元层面均显著优于现有方法,推动了更可靠的医疗视觉归因发展。

arXiv多模态推理论文/研究
07:25
karminski-牙医@karminski3
59
字节跳动开源全模态模型Lance:轻量高效的"拼好模"

字节跳动开源了全模态模型Lance,其激活参数量仅为3B,却能同时处理文本、图片和视频的输入与输出,完成理解、生成与编辑等多种任务。该模型通过模块化拼接构建了Lance_3B与Lance_3B_Video两个版本,其创新在于采用共享交错序列统一语义空间,并引入专用专家模块协调理解与生成的互斥关系,使得小参数模型性能接近更大规模模型。训练仅需128张A100,对端侧部署和多模态Agent应用具有重要价值。

多模态开源生态模型发布
06:45
IT之家(RSS)
65
阿里云千问大模型 Qwen3.7-Max-Preview 首发亮相 Arena AI

阿里云通义千问最新模型 Qwen3.7-Max-Preview 与 Qwen3.7-Plus-Preview 已登陆 Qwen Chat 和 Arena AI 平台,预计于 5 月 20 日阿里云峰会正式发布。在 Arena AI 评测中,Max-Preview 在文本领域综合排名第 13,细分领域数学排名第 7,专家级应用与软件 IT 均位列第 9;Plus-Preview 在视觉领域综合排名第 16。据此,阿里通义千问在文本实验室榜单中排名第 6,视觉榜单中位列第 5。

多模态模型发布
05:42
OpenAI Developers@OpenAIDevs
38
Altaratech公司正利用OpenAI模型解决科学数据多模态且复杂的核心挑战,旨在帮助科学家和工程师在复杂的研发流程中更高效、透明地工作。其应用关键点在于:协助科研人员跨复杂多模态数据进行推理、实现长流程研发任务的并行化处理,并通过提升过程透明度来建立信任。该公司在OpenAI开发者日上分享了这些实践,并表示正积极招募相关人才。

Catherine Yeo: At the recent @OpenAIDevs Founder Day, I had fun chatting about how we use OpenAI's capabilities to scale scientific int...

OpenAI多模态行业动态
03:55
karminski-牙医@karminski3
54
Qwen3.7内测跑分出炉,空间理解与指令遵循大幅提升

Qwen3.7-Max-Preview在ArenaAI内测中排名第13,为当前版本国产模型最佳。其数学能力(第7)与编程能力(第10)提升显著。实测显示,在前端代码生成任务中,Qwen3.7在空间理解和指令遵循上较前代(Qwen3.6)有巨大进步,能更准确地维持元素轴向与标记。文章同时指出,ArenaAI评分仅供参考,其为Meta新模型Muse Spark给出的高排名(第5)与社区现状不符。

多模态推理评测/基准
03:50
Claude@claudeai
精选75
现在你可以用 Claude Design 创作更多内容了。 我们已将所有套餐的 token 限制翻倍。
Anthropic产品更新图像生成多模态

推荐理由:Claude Design 令牌加倍,做图做设计的人现在可以更放肆地挥霍上下文了,Anthropic 这波更新把设计工具的可用性拉高了一个档次。
03:34
Hacker News 热门(buzzing.cc 中文翻译)
精选78
Qwen 3.7 预览版
多模态推理模型发布

推荐理由:阿里 Qwen 3.7 预览版来了,国产模型在推理和多模态上的推进速度令人侧目,虽然还是预览,但已经是一个值得开发者提前盯紧的信号。
03:12
OpenRouter@OpenRouter
精选65
@xai 的 Grok 创意套件中 3 款新模型现已在 OpenRouter 上线: • Grok Imagine Image Quality:照片级真实图像生成与编辑 • Grok Imagine Video:从文本、图像或参考生成短片 • Grok Voice TTS 1.0:支持 20 多种语言的 5 种语音 更多详情见下方 🧵
xAI产品更新多模态语音

推荐理由:如果你觉得官方 Grok API 麻烦,OpenRouter 现在一口气上线了 Imagine 图像、视频和 Voice TTS,做创意产品的开发者可以直接从这里调用了,省去多签一轮 API key 的功夫。
02:55
karminski-牙医@karminski3
53
Qwen3.7! 就在今天!

阿里千问今日推出Qwen3.7-Max-Preview,在ArenAI(原LMArena)内测中排名第13,为国内模型最高水平。模型数学能力显著提升,位列总榜第7;编程能力排名第10;视觉能力测试升至第16。作者实测显示,在前端代码生成场景中,Qwen3.7的空间理解与指令遵循能力进步明显,元素轴向一致性优于DeepSeek-V4-Pro等模型。此外,ArenaAI给Meta新模型Muse Spark的异常高评分引发关注,但该评分仅供参考。

多模态推理编码评测/基准
00:56
Berryxia.AI@berryxia
63
阿里Qwen3.7预览版在Arena排行榜取得显著成绩

阿里巴巴最新发布的Qwen3.7预览版在Arena社区排行榜上表现突出。在基于百万真实用户投票的Text Arena中,Qwen3.7 Max Preview总榜排名第13,使阿里巴巴位列实验室第6名,并在数学、专家咨询、软件与IT、编程等细分领域进入前十。同时,在Vision Arena中,Qwen3.7 Plus Preview总榜排名第16,助力阿里巴巴升至实验室第5名。此次排名并非实验室内部测试,而是社区实际交互的体现,标志着阿里在模型的文本与视觉综合能力上实现了重要进步。

Arena.ai: Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...

多模态评测/基准
00:02
Qwen@Alibaba_Qwen
57
阿里巴巴通义千问Qwen3.7-Max-Preview与Qwen3.7-Plus-Preview模型现已登陆AI评测平台Arena,分别参与文本与视觉评测。这一进展大幅提升了阿里巴巴在两大领域的实验室排名:在文本榜单跃升至全球第6位,在视觉榜单升至第5位。具体而言,Qwen3.7 Max Preview在文本总榜位列第13,并在数学、编程等多个子榜单中表现突出;Qwen3.7 Plus Preview在视觉总榜排名第16。官方对取得的进步表示祝贺,并透露Qwen3.7系列模型的正式版本即将发布。

Arena.ai: Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...

多模态模型发布评测/基准
‹ 上一页
1…3031323334…50
下一页 ›