AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1243 条
全部一手资讯X论文
标签「多模态」清除
5月20日周三
02:55IT之家(RSS)73谷歌搜索迎 25 年来最大改版,AI 重塑搜索体验与交互方式
02:55IT之家(RSS)64谷歌升级 Workspace:语音对话协作 AI 检索邮件、起草文档、整理笔记
02:55IT之家(RSS)54谷歌携手三星展示 2 款智能眼镜:整合 Gemini AI,支持语音导航、实时翻译
02:55IT之家(RSS)54谷歌展示街景版 Genie 世界 AI 模型,用真实街景创建想象世界
02:55IT之家(RSS)54谷歌升级 AI 创意平台 Flow:增强视频编辑,Agent 辅助头脑风暴等
02:55IT之家(RSS)56谷歌推出科研版 Gemini,能追踪论文、写实验代码
02:18Google Blog:AI(RSS)83精选Gemini 3.5:前沿智能与行动能力相结合
02:18Google Blog:AI(RSS)75精选Google Workspace 推出全新创建方式与高效工作功能
02:11VentureBeat:AI(RSS)69Google 25年来首次重塑搜索框:AI驱动对话时代来临
01:59The Decoder:AI News(RSS)63谷歌I/O开发者大会公告:新模型、永不休眠的云端代理与重新设计的Gemini应用
01:55IT之家(RSS)77谷歌 Gemini Omni 全能模型发布:可从任意输入生成任意输出,一句话让 AI 修改视频
01:48Google DeepMind:Blog(RSS)83同事件精选推出Gemini Omni多模态AI模型同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
5月19日周二
23:18Qwen:Blog Retrieval(API)77精选Qwen3.5-LiveTranslate:从声音到视觉,从词语到准确
22:27The Decoder:AI News(RSS)57Agora-1 将 N64 经典游戏《GoldenEye》转变为可供四人游玩的 AI 模拟
21:56Hacker News 热门(buzzing.cc 中文翻译)58由 Apple Intelligence 驱动的全新辅助功能
21:53IT之家(RSS)48苹果依托 Apple Intelligence 推出一批无障碍新功能,年内上线
20:07Apple:Newsroom(RSS)57精选苹果发布全新辅助功能,并引入Apple Intelligence进行更新
20:01HuggingFace Daily Papers(社区热门论文)60MementoGUI:面向长时程GUI代理的学习型多模态记忆控制
19:52IT之家(RSS)60联想发布天禧 AI 4.0 版本:引入 Claw"养虾"能力、个人知识库、Skills 技能广场…
13:56HuggingFace Daily Papers(社区热门论文)59Code-as-Room:通过智能体代码合成从俯视图生成3D房间
12:55HuggingFace Daily Papers(社区热门论文)64Incantation:自然语言作为多实体视频世界模型的动作接口
12:55HuggingFace Daily Papers(社区热门论文)73精选StableVLA:无需额外数据的鲁棒视觉-语言-动作模型
11:51HuggingFace Daily Papers(社区热门论文)59Lance: 基于多任务协同的统一多模态建模
08:00HuggingFace Daily Papers(社区热门论文)55从感知到推理:解耦感知与推理以改进视觉-语言模型的后训练
08:00HuggingFace Daily Papers(社区热门论文)64人脑中的柏拉图表征:通用几何结构的无监督恢复
08:00HuggingFace Daily Papers(社区热门论文)54ClinSeekAgent:实现多模态证据主动检索的临床推理代理框架
08:00HuggingFace Daily Papers(社区热门论文)63CutVerse:面向媒体后期编辑的组合式GUI智能体基准测试
08:00HuggingFace Daily Papers(社区热门论文)61大型视觉语言模型胸部X光推理视觉归因的再思考
06:45IT之家(RSS)65阿里云千问大模型 Qwen3.7-Max-Preview 首发亮相 Arena AI
03:34Hacker News 热门(buzzing.cc 中文翻译)78精选Qwen 3.7 预览版
5月18日周一
23:52Hugging Face:Blog(RSS)68精选PaddleOCR 3.5:使用Transformers后端运行OCR和文档解析任务
20:45IT之家(RSS)45理想 AI 眼镜 Livis OTA 推送 1.8.50 固件升级,全新 L9 首发指挥泊车
19:45IT之家(RSS)33群核科技和影石创新达成战略合作:人人都能创作 3D 内容
19:45IT之家(RSS)53Meta 雷朋 Display 智能眼镜获 Update 125 更新,正式上线肌电手环手写输入功能
18:45IT之家(RSS)57阿里 QoderWork 上线设计工作台:语音描述就能交付专业设计
18:45IT之家(RSS)56豆包 App 上线博物馆讲解功能
18:18公众号:腾讯混元33中国古文字识别评测基准 Chronicles-OCR 发布:业界首个覆盖"七体之变"
18:16公众号:豆包(字节)39豆包上线博物馆讲解功能,还有了新身份
16:07公众号:可灵AI(快手·视频)56可灵AI上线全球首个原生4K视频模型
13:45IT之家(RSS)46人民陆军英模系列 AI 微短剧《战魂》今起首播,5 段烽火传奇还原经典战役战斗
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月20日
02:55
IT之家(RSS)
73
谷歌搜索迎 25 年来最大改版,AI 重塑搜索体验与交互方式

谷歌在2026年I/O开发者大会上宣布,旗下搜索业务迎来25年来最大改版,核心是用AI重塑搜索入口与交互方式,由最新Gemini 3.5 Flash模型提供支撑。主要变化包括:用户交互从输入关键词转向描述完整需求,搜索框将动态扩展并支持文本、图片、视频等多模态输入。用户可从AI概览中连续追问,形成聊天式对话。新版引入搜索智能体,可在后台24小时运行并追踪用户设定的目标。此外,谷歌将生成式界面功能引入搜索,并将个人智能扩展至98种语言、近200个国家。据悉,AI Mode月活用户已突破10亿,查询量每季度翻倍。

智能体Google产品更新多模态
02:55
IT之家(RSS)
64
谷歌升级 Workspace:语音对话协作 AI 检索邮件、起草文档、整理笔记

谷歌在2026年I/O开发者大会上宣布升级Google Workspace,将Gmail、Docs、Keep等工具整合为支持自然语音交互的协作助手。核心新功能包括:可通过语音直接检索邮件内容的Gmail Live、支持口述起草与格式整理的Docs Live,以及能自动将零散想法整理成清单的Keep更新,旨在将办公流程从点击输入转向更自然的语音交互。此外,谷歌还推出了基于Nano Banana模型的独立图像编辑应用Google Pics,支持对图像进行精确的局部对象分割与修改。

Google产品更新多模态语音
02:55
IT之家(RSS)
54
谷歌携手三星展示 2 款智能眼镜:整合 Gemini AI,支持语音导航、实时翻译

谷歌在2026年I/O开发者大会上携手三星发布了2款智能眼镜,由Gentle Monster与Warby Parker参与设计。眼镜定位为手机伴侣设备,深度整合Gemini AI模型,核心功能包括语音导航、实时翻译(音频及视觉文字翻译)、基于路线的个性化推荐与订单下达,并能将通知压缩为摘要。外观提供时尚与经典两种风格。产品售价尚未公布,传闻无显示版本价格区间为379至499美元,预计今年秋季上市。

Google产品更新多模态端侧
02:55
IT之家(RSS)
54
谷歌展示街景版 Genie 世界 AI 模型,用真实街景创建想象世界

谷歌在2026年I/O开发者大会上宣布,将街景服务与Project Genie世界模型结合。Genie原本能生成可互动的虚拟环境,此次更新后可直接基于真实街景图像构建可探索的3D世界,用于AI智能体或机器人训练。用户可通过Google Maps选择美国地点并指定风格(如“石器时代”),生成定制化想象世界。该能力目前为实验性原型,仅支持美国地点,未来计划逐步扩展。

Google产品更新具身智能多模态
02:55
IT之家(RSS)
54
谷歌升级 AI 创意平台 Flow:增强视频编辑,Agent 辅助头脑风暴等

谷歌在2026年I/O大会上宣布升级AI创意平台Flow,重点整合Gemini Omni Flash模型,显著提升视频编辑精度和多镜头角色一致性。同时推出Flow Agent,能辅助头脑风暴、内容生成与批量编辑。此外还新增了自然语言定制工具的Flow Tools和支持分段编辑的Flow Music功能。目前Flow已覆盖全球140多个国家和地区。

Google产品更新多模态视频
02:55
IT之家(RSS)
56
谷歌推出科研版 Gemini,能追踪论文、写实验代码

在2026年谷歌I/O开发者大会上,谷歌宣布推出专用于科研领域的Gemini for Science模型。该模型能够实时追踪前沿论文、将研究目标转化为可执行的实验代码,并生成新的科学假设。谷歌同时透露,未来该技术有望模拟更复杂的生物系统,甚至包括虚拟细胞。目前,谷歌已有多个基于该技术的项目进入临床前阶段,聚焦免疫疾病与癌症等领域,旨在重新构想药物发现的流程。

Google产品更新多模态
02:18
Google Blog:AI(RSS)
精选83
Gemini 3.5:前沿智能与行动能力相结合

Google 在 I/O 大会上正式发布了最新的 Gemini 3.5 模型系列。该系列模型将前沿的人工智能能力与执行操作的功能相结合,旨在提供更强的综合性能。作为 Google 最新推出的模型,它代表了其在大模型技术上的最新进展。

智能体Google多模态推理

推荐理由:Google 在 I/O 上甩出 Gemini 3.5,这次不只拼多模态,更强调‘行动’,是所有做 Agent 的团队必须对标的新基座。
02:18
Google Blog:AI(RSS)
精选75
Google Workspace 推出全新创建方式与高效工作功能

Google 在最新更新中为 Gmail、Docs 和 Keep 增添了新的语音功能,并推出了一款名为 Google Pics 的全新设计工具。同时,其 AI Inbox 功能也得到了升级与优化。这些更新旨在进一步提升用户在工作场景中的协作效率与创作体验,通过集成更智能的工具和交互方式,帮助用户更便捷地完成多项任务。

Google产品更新多模态语音

推荐理由:Google Workspace 直接植入了语音操作和设计工具 Pics,这波更新对办公效率很实在,做产品和运营的可以关注一下实际落地效果。
02:11
VentureBeat:AI(RSS)
69
Google 25年来首次重塑搜索框:AI驱动对话时代来临

在2026年I/O大会上,Google宣布对其标志性搜索框进行25年来最大升级。搜索框从简单的关键词输入,演变为支持文本、图像、PDF、视频及网页标签等多模态输入的AI对话起点。同时,AI概览与AI模式合并为统一体验,用户无需在传统结果与AI生成答案间切换。此次升级标志着Google核心产品正从关键词检索工具,彻底转向以AI和全网知识为基础的开放式对话界面。

智能体Google产品更新多模态
01:59
The Decoder:AI News(RSS)
63
谷歌I/O开发者大会公告:新模型、永不休眠的云端代理与重新设计的Gemini应用

谷歌在I/O开发者大会上发布了一系列新AI产品,包括轻量级模型Gemini 3.5 Flash和多模态模型Gemini Omni。同时推出名为Gemini Spark的个人代理,该代理可在云端24/7全天候运行。此外,Gemini应用程序也进行了重大重新设计。

智能体Google产品更新多模态
01:55
IT之家(RSS)
77
谷歌 Gemini Omni 全能模型发布:可从任意输入生成任意输出,一句话让 AI 修改视频

在2026年谷歌I/O开发者大会上,谷歌正式推出Gemini Omni模型。该模型代表了Gemini家族迄今最全面的能力,“Omni”意为全能,能够无缝处理文本、图像、音频和视频等多种信息模态,实现“从任何输入生成任何输出”。其核心亮点在于支持对话式编辑,用户可通过自然语言指令轻松修改视频元素。同时,谷歌发布了首款衍生模型Gemini Omni Flash,现已在Gemini App、Google Flow和YouTube Shorts中可用,后续将提供API服务。

Google多模态模型发布视频
01:48
Google DeepMind:Blog(RSS)
同事件精选83
推出Gemini Omni多模态AI模型

谷歌推出原生多模态AI模型Gemini Omni,能够整合视频、图像、音频和文本等多种输入,生成高质量视频内容。其核心能力是通过自然语言对话进行视频编辑,并能保持角色一致性、物理规律与场景连贯性。首个模型Gemini Omni Flash已上线,未来将支持图像和音频输出。Gemini Omni结合了对物理世界的直觉理解与丰富的知识库,支持从写实到叙事的创意生成,并可通过多轮对话持续编辑视频,而不丢失原始场景上下文。

DeepMindGoogle多模态模型发布
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Gemini Omni 把视频生成从画面堆砌推到了物理世界叙事,多轮自然语言编辑和世界知识融合是真正的代际升级,做视频内容的该重新理解工具的定义了。
5月19日
23:18
Qwen:Blog Retrieval(API)
精选77
Qwen3.5-LiveTranslate:从声音到视觉,从词语到准确

Qwen3.5-LiveTranslate-Flash 是 Qwen 家族最新的同声传译模型,基于 Qwen3.5-Omni 架构,支持实时多模态翻译(音频、视频及视觉上下文)。语言覆盖大幅扩展:输入音频与输出文本从18种增至60种,输出音频从10种增至29种。采用 Readable Unit 技术,平均端到端每 token 延迟降至2.8秒,相比前代首 token 延迟降低3.45秒、每 token 延迟降低1.88秒。支持一句话启动的实时语音克隆和可动态配置的热词增强。在 FLEURS 和 CoVoST2 基准上翻译准确率超越主流商用大语音模型。

多模态模型发布语音

推荐理由:这个版本让同声传译从“能用”变成了“好用”,语言覆盖从 18 跃升 60,延迟压到 2.8 秒,加上视觉消除歧义,做国际业务和直播的人值得跟进。
22:27
The Decoder:AI News(RSS)
57
Agora-1 将 N64 经典游戏《GoldenEye》转变为可供四人游玩的 AI 模拟

Odyssey 公司发布了世界模型 Agora-1,该模型允许最多四名玩家同时在 AI 生成的虚拟世界中进行行动。该技术已在经典游戏《GoldenEye》上得到验证,其核心是使用两个独立的模型分别实时处理游戏状态模拟与画面渲染。开发团队认为,这项技术未来在协作机器人和 AI 智能体训练领域具有应用潜力。

智能体多模态模型发布
21:56
Hacker News 热门(buzzing.cc 中文翻译)
58
由 Apple Intelligence 驱动的全新辅助功能

Apple于2026年5月19日发布由Apple Intelligence支持的一系列新辅助功能。这些特性旨在通过机器学习技术,为残障用户提供更智能的语音导航、视觉辅助以及个性化交互体验。该消息在Hacker News平台获得119点热度,显示出科技界对人工智能在无障碍技术中应用的关注。此次更新进一步展现了Apple在提升设备可访问性与包容性设计方面的持续投入。

产品更新多模态
21:53
IT之家(RSS)
48
苹果依托 Apple Intelligence 推出一批无障碍新功能,年内上线

5月19日,苹果宣布将于今年晚些时候推出一系列基于Apple Intelligence技术的无障碍功能。核心更新包括:为旁白、放大器、语音控制和无障碍阅读器新增AI图像描述、自然语言操作及复杂文档处理能力;新增可离线生成视频实时字幕的功能(初期限美加地区英文)。同时,将利用Vision Pro的眼动追踪技术为残障人士新增操控电动轮椅的方式。此外,还公布了一系列轻量化新功能,如Vision Pro的车辆防晕眩模式、面部控制等。上述所有功能预计随今年秋季的iOS 27等全新系统一同推送。

产品更新多模态端侧
20:07
Apple:Newsroom(RSS)
精选57
苹果发布全新辅助功能,并引入Apple Intelligence进行更新

苹果公司宣布推出由Apple Intelligence驱动的重大辅助功能更新。此次更新为VoiceOver、放大镜(Magnifier)和语音控制(Voice Control)功能引入了新的能力,旨在提升残障用户设备的可用性。这是苹果首次将Apple Intelligence应用于其辅助功能技术组合。

产品更新多模态端侧

推荐理由:Apple Intelligence为无障碍功能带来自然语言交互和更智能的视觉辅助,是不错的方向,但全是远期承诺,现在还不能上手。
20:01
HuggingFace Daily Papers(社区热门论文)
60
MementoGUI:面向长时程GUI代理的学习型多模态记忆控制

针对现有GUI代理在长期任务中因记忆机制不足而表现脆弱的问题,本文提出了MementoGUI框架。它是一个插件式智能体记忆框架,为基于MLLM的GUI代理配备了学习型控制器MementoCore,无需微调主干模型即可在线进行记忆选择、压缩与检索。该框架将长期交互建模为在线记忆控制问题,通过工作记忆保存文本摘要与视觉证据,并通过情节记忆检索可复用的历史轨迹。MementoCore将记忆控制模块化为四个专用算子,并开发了相应的数据构建流程与评估基准。实验表明,该框架能稳定提升代理在多个基准上的性能。

智能体多模态论文/研究
19:52
IT之家(RSS)
60
联想发布天禧 AI 4.0 版本:引入 Claw"养虾"能力、个人知识库、Skills 技能广场…

联想发布天禧 AI 4.0 版本,该系统从“被动调用”转向“自主执行”。新版本推出天禧 Claw,其搭载 1.7B 多模态记忆模型,支持本地化部署的“仿生记忆”功能,可实现情景、语义及程序记忆。同时,新增个人知识库功能,可整合 PDF、音视频等多类型原始文档,结合知识图谱构建高效知识系统。此外,联想还推出了模型广场、智能体广场及 Skills 技能广场,支持用户上传与共享技能。

产品更新多模态端侧
13:56
HuggingFace Daily Papers(社区热门论文)
59
Code-as-Room:通过智能体代码合成从俯视图生成3D房间

本文提出Code-as-Room,一个基于多模态大语言模型的智能体框架,旨在从俯视图参考图像生成精确且稳定的3D室内场景。该框架将房间表示为可执行的Blender代码,通过多阶段流程解析图像中的空间关系,并合成为几何、材质与光照代码。为克服现有多智能体框架的上下文遗忘问题,引入了跨阶段记忆模块。此外,研究还建立了专用的代码式3D房间合成基准测试,实验结果证明了所提执行框架的有效性。

具身智能多模态论文/研究
12:55
HuggingFace Daily Papers(社区热门论文)
64
Incantation:自然语言作为多实体视频世界模型的动作接口

Incantation是首个交互式视频世界模型,采用自然语言作为动作接口,实现每潜变量帧(0.25秒)的精细控制。它支持同时多实体操控与概念级跨实体迁移,突破传统固定渲染管线的限制。模型结合预训练双向视频骨干网络与帧局部文本交叉注意力机制,并通过ODE初始化的Self-Forcing蒸馏和RoPE解耦滑动KV缓存实现实时长视频生成。在跨实体迁移任务中,准确率达89%,大幅超越Action-Index基线的43%;词表外提示准确率为9

多模态视频论文/研究
12:55
HuggingFace Daily Papers(社区热门论文)
精选73
StableVLA:无需额外数据的鲁棒视觉-语言-动作模型

视觉-语言-动作模型在面对训练数据未涵盖的视觉干扰时性能显著下降。为此,本文提出一种基于信息论的轻量级适配器模块(IB-Adapter),能从视觉输入中选择性过滤噪声,且无需额外数据或增强策略。该适配器以少于1000万的额外参数,平均提升性能30%。实验表明,即使骨干网络参数仅为0.5B(较现有7B模型小14倍),StableVLA在合成与真实视觉损坏场景下的长时程任务中,仍能达到与大模型相当的鲁棒性,并超越OpenPi基线。

具身智能多模态论文/研究

推荐理由:VLA 模型在真实世界一遇到光照遮挡就崩,这篇用信息瓶颈原理做的轻量适配器,不加数据就拉回 30% 性能,还用 0.5B 小模型打平 7B,做机器人落地的团队值得看看。
11:51
HuggingFace Daily Papers(社区热门论文)
59
Lance: 基于多任务协同的统一多模态建模

本文介绍了轻量级原生统一模型Lance,支持图像与视频的理解、生成与编辑。该模型摒弃了对模型规模扩张或文本-图像主导设计的依赖,探索通过多任务协同训练实现统一多模态建模的实用范式。其核心在于两个原则:统一上下文建模与解耦能力路径。Lance从头训练,采用共享交织多模态序列的双流专家混合架构,并引入模态感知旋转位置编码以减少异构视觉标记间的干扰,增强跨任务对齐。训练采用分阶段多任务范式,结合能力导向的目标与自适应数据调度。实验表明,Lance在图像与视频生成任务上显著优于现有开源统一模型,同时保持了强大的多模态理解能力。

图像生成多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
从感知到推理:解耦感知与推理以改进视觉-语言模型的后训练

本研究发现,视觉-语言模型在视觉任务上的性能瓶颈主要源于其视觉感知能力的不足,而非推理能力。为此,研究提出将模型能力解耦为视觉感知、视觉推理和文本推理三个独立的训练阶段,并使用专门数据进行分阶段训练。实验证明,视觉感知需要针对性优化,应优先通过分阶段训练加以巩固,且使用强化学习比基于描述的监督微调更有效。该方法在多个模型上实现了持续性能提升,使模型推理准确率提高了1.5%,推理过程缩短了20.8%。在开放权重的视觉-语言模型中,该方法在WeMath和RealWorldQA等基准上取得了领先成绩,相比基础模型分别取得了5.2%和3.7%的性能提升。

arXiv多模态推理数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
64
人脑中的柏拉图表征:通用几何结构的无监督恢复

本研究基于强柏拉图表征假说,旨在探究人类大脑中是否存在类似人工神经网络的共享表征几何结构。团队利用自然场景数据集的fMRI数据,提出一种自监督编码器,从每个被试自身的脑数据中学习其专属的嵌入空间。研究发现,这些独立学习的空间可以通过无监督的正交旋转,在不同被试间实现直接转换,无需配对数据或中间模型。进一步将旋转同步到一个统一的共享空间后,跨被试的检索性能得到提升。结果为人类视觉皮层存在共享神经几何结构提供了证据,表明个体的fMRI表征在不同人之间近似等距,并可通过纯几何变换进行转换。

多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
ClinSeekAgent:实现多模态证据主动检索的临床推理代理框架

ClinSeekAgent 是一个自动化代理框架,旨在将临床推理范式从被动接收预设证据转变为主动从异构源中检索与整合多模态证据。该框架仅需临床查询和原始数据源访问权限,即可通过查询知识库、导航电子病历及调用影像工具动态收集证据,并随着新信息不断精炼假设以支持临床决策。研究通过构建ClinSeek-Bench基准测试验证其有效性,在多模态任务中将Claude Opus 4.6的F1值从47.5显著提升至62.6。此外,ClinSeekAgent 作为训练管道,可将高质量代理轨迹蒸馏为开源模型ClinSeek-35B-A3B,使其在基准测试中F1平均达到34.0,较基线提升11.9分,性能接近Claude Opus 4.6。

多模态搜索论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
CutVerse:面向媒体后期编辑的组合式GUI智能体基准测试

研究团队发布了CutVerse基准测试,用于系统评估自主GUI智能体在真实媒体后期制作环境中的能力。该基准基于专业编辑工作流,涵盖Premiere Pro、Photoshop等7款专业应用中的186项复杂长程任务。为支持规模化评估,团队开发了一个轻量级解析器,可将原始屏幕录制和底层交互日志转化为结构化的组合式GUI动作轨迹。评估结果显示,现有智能体在此类任务上的成功率仅为36.0%,凸显了复杂、长程媒体后期制作流程带来的挑战。当前模型在空间定位、多模态对齐和协同动作执行方面表现出潜力,但在长程可靠性与领域特定规划上仍存在局限。

智能体arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
大型视觉语言模型胸部X光推理视觉归因的再思考

本研究针对大型视觉语言模型在医疗应用中面临的可信度挑战,指出其视觉归因方法常未能反映模型真实依据的视觉证据。为此,团队开发了因果评估框架,筛选出归因区域对预测具有因果性的样本进行测试。通过对11种归因方法、6个模型及两种输出模式的系统评估,发现现有方法普遍存在识别失效问题。为解决此问题,提出了基于概念的归因方法MedFocus,该方法利用非平衡最优传输定位临床相关区域,并通过定向干预量化其因果效应。实验证明,MedFocus在空间、概念及词元层面均显著优于现有方法,推动了更可靠的医疗视觉归因发展。

arXiv多模态推理论文/研究
06:45
IT之家(RSS)
65
阿里云千问大模型 Qwen3.7-Max-Preview 首发亮相 Arena AI

阿里云通义千问最新模型 Qwen3.7-Max-Preview 与 Qwen3.7-Plus-Preview 已登陆 Qwen Chat 和 Arena AI 平台,预计于 5 月 20 日阿里云峰会正式发布。在 Arena AI 评测中,Max-Preview 在文本领域综合排名第 13,细分领域数学排名第 7,专家级应用与软件 IT 均位列第 9;Plus-Preview 在视觉领域综合排名第 16。据此,阿里通义千问在文本实验室榜单中排名第 6,视觉榜单中位列第 5。

多模态模型发布
03:34
Hacker News 热门(buzzing.cc 中文翻译)
精选78
Qwen 3.7 预览版
多模态推理模型发布

推荐理由:阿里 Qwen 3.7 预览版来了,国产模型在推理和多模态上的推进速度令人侧目,虽然还是预览,但已经是一个值得开发者提前盯紧的信号。
5月18日
23:52
Hugging Face:Blog(RSS)
精选68
PaddleOCR 3.5:使用Transformers后端运行OCR和文档解析任务

PaddleOCR 发布 3.5 版本,正式将 Transformers 确立为运行 PP-OCRv5 及 PaddleOCR-VL 1.5 模型的可选推理后端之一。此次更新引入了更灵活的 engine 与 engine_config 参数,允许开发者自主选择后端并配置数据类型、设备等选项。其核心价值在于,显著降低了将文档处理能力集成至以 Transformers 为中心的主流开发栈(如 RAG、智能体、文档AI)的门槛,使开发者能更便捷地利用现有生态,减少集成阻力,从而专注于下游应用构建。

Hugging Face检索增强产品更新多模态

推荐理由:PaddleOCR 3.5 最大的变化不是新模型,而是终于能跑在 Transformers 上了,做 RAG 和文档智能的开发者可以少写一堆胶水代码。
20:45
IT之家(RSS)
45
理想 AI 眼镜 Livis OTA 推送 1.8.50 固件升级,全新 L9 首发指挥泊车

理想汽车为AI眼镜Livis推送1.8.50固件升级,理想同学App同步升级至2.5.0。本次OTA更新新增5项功能,优化11项功能。全新理想L9首发支持通过AI眼镜语音指挥泊车,新增哨兵模式高风险提醒、英文唤醒词、语音唤醒开关及三种唤醒反馈选择。同时优化了蓝牙电话拨打体验、运动中视觉问答清晰度和视频颜色饱和度。

产品更新多模态端侧语音
19:45
IT之家(RSS)
33
群核科技和影石创新达成战略合作:人人都能创作 3D 内容

群核科技与影石创新于5月18日达成战略合作,共同发布新一代空间重建解决方案。双方融合影石创新的高性能影像硬件与群核科技的3DGS空间重建技术,旨在降低3D内容创作门槛。用户通过影石设备采集影像后,上传至群核科技的Aholo空间智能平台,即可在几分钟内生成可交互的3D数字空间。该技术已在文旅文保、影视制作、游戏开发及空间设计等领域形成应用探索,目标是让空间智能更快融入日常生活。

产品更新多模态
19:45
IT之家(RSS)
53
Meta 雷朋 Display 智能眼镜获 Update 125 更新,正式上线肌电手环手写输入功能

Meta为旗下雷朋Display智能眼镜推送了Update 125更新,正式全球上线肌电手环手写输入功能。用户通过配套的Meta Neural Band肌电手环,无需接触实体键盘,仅在空中做出书写动作即可实时输入文字,该功能已支持WhatsApp、Messenger等主流应用。本次更新还新增了可录制第一人称视角画面的显示录制功能,并升级了地图导航。

Meta产品更新多模态端侧
18:45
IT之家(RSS)
57
阿里 QoderWork 上线设计工作台:语音描述就能交付专业设计
产品更新多模态编码
18:45
IT之家(RSS)
56
豆包 App 上线博物馆讲解功能

5月18日,豆包 App 在国际博物馆日上线“博物馆讲解”功能,用户点击对话框内按钮即可通过视频通话获得展品自动识别与个性化讲解。该功能支持轻声提问和“边走边听”模式,无需逐次交互。目前,豆包已合作覆盖中国国家博物馆、浦东美术馆等20余家博物馆和美术馆,并与其中5家机构达成深度合作,成为其重磅展览的官方AI讲解员。

产品更新多模态语音
18:18
公众号:腾讯混元
33
中国古文字识别评测基准 Chronicles-OCR 发布:业界首个覆盖"七体之变"

Chronicles-OCR 是业界首个覆盖“七体之变”的中国古文字识别评测基准,用于评估大模型对三千年汉字的识别能力。

多模态评测/基准
18:16
公众号:豆包(字节)
39
豆包上线博物馆讲解功能,还有了新身份
产品更新多模态
16:07
公众号:可灵AI(快手·视频)
56
可灵AI上线全球首个原生4K视频模型

可灵AI推出全球首个原生4K视频模型,旨在利用原生4K技术重塑创作流程,加速AI赋能影视工业级内容创作。

产品更新多模态视频
13:45
IT之家(RSS)
46
人民陆军英模系列 AI 微短剧《战魂》今起首播,5 段烽火传奇还原经典战役战斗

陆军英模系列AI微短剧《战魂》于5月18日首播。该剧由陆军政治工作部宣传局联合中央广播电视总台军事节目中心,首次运用AI技术制作推出。内容聚焦5支英模连队的5段烽火传奇,以全新视听形式还原经典战役战斗,并展示新时代陆军官兵风貌。该剧将在CCTV-7国防军事频道及“央视军事”渠道,连续5天每日播出一集。

多模态行业动态视频
‹ 上一页
1…1617181920…32
下一页 ›