AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「多模态」清除
5月21日周四
12:10HuggingFace Daily Papers(社区热门论文)62iTryOn:基于空语义引导的交互式视频虚拟试穿技术
11:18Kling AI67首部100%AI生成电影亮相戛纳,剑指2026院线
11:09HuggingFace Daily Papers(社区热门论文)63Uni-Edit:智能编辑作为统一模型微调的通用任务
11:09HuggingFace Daily Papers(社区热门论文)61DrawMotion:通过手绘生成3D人体动作
10:58IT之家(RSS)38绿联推出 NAS 新品 DXP4800 GT:双万兆网口,起价 2681.1 元
10:52SenseTime64商汤连续十年领跑中国计算机视觉市场
10:34向阳乔木75精选开源Suno技能:一键生成任意风格AI音乐
10:09HuggingFace Daily Papers(社区热门论文)55UniT:基于群自回归Transformer的统一几何学习
08:58IT之家(RSS)60苹果 Apple Music 称 AI 音乐播放占比不到 1%,不封杀但要求清晰标注
08:00HuggingFace Daily Papers(社区热门论文)51EMMA:从多模态数据中提取多个物理参数
08:00HuggingFace Daily Papers(社区热门论文)49感知的代价:在整体框架内实现可信的多模态推理
08:00HuggingFace Daily Papers(社区热门论文)60VGenST-Bench:一个基于主动视频合成的时空推理基准
07:56IT之家(RSS)41微信鸿蒙版 App 8.0.17.39 正式版更新发布
07:56IT之家(RSS)78精选腾讯张军官宣操作系统层级 AI 助手"马维斯"正式上工,Windows、Mac、安卓端同步上线
07:15Google Gemini66Gemini 3.5 Flash 可视化复杂主题与图表
05:35Google AI Developers74同事件精选Google Stitch更新:AI设计助手实现全流程构建同一事件,精选展示《谷歌发布多款AI创意工具新功能》
04:17Google DeepMind84同事件精选Gemini 3.5 Flash 正式发布同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
03:53小互39Gemma 4驱动的Open Duck机器人亮相
03:50Google Blog:AI(RSS)68同事件精选我们在 I/O 2026 发布的 100 件事同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
02:14Google Gemini72同事件精选Gemini Omni让视频创作编辑更轻松同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
00:41The Verge:AI(RSS)60你现在可以用AI混剪别人的YouTube Shorts了
00:36Rohan Paul63商汤开源统一多模态模型SenseNova U1
00:14Google AI69精选谷歌发布多款AI创意工具新功能
00:08HuggingFace Daily Papers(社区热门论文)63基于时空注意力链的快速4D网格生成
5月20日周三
23:56IT之家(RSS)71精选Stability AI 推出音频模型 Stability Audio 3.0,可生成最长 6 分钟专业级歌曲
23:03The Decoder:AI News(RSS)61Stability AI 发布 Stable Audio 3.0,支持长达六分钟音轨并开放权重
23:00TechCrunch:AI(RSS)63Stability AI发布可生成6分钟音频的新模型
22:08Berryxia.AI72性能飞跃但成本激增,Gemini 3.5 Flash重新定义"轻量"?
22:08HuggingFace Daily Papers(社区热门论文)65用于高效全能模态大语言模型的阶段自适应Token选择
22:02向阳乔木73AI生成3D资产模型Rodin Gen-2.5发布:宣称千万级面数,助产业提效
21:00TechCrunch:AI(RSS)60Figma为其协作画布添加AI助手
19:56IT之家(RSS)53谷歌高管从Google Glass失败中总结:时尚比技术更重要
19:33The Decoder:AI News(RSS)49Google 将 Genie 世界模型与街景结合,基于真实地点创建可探索的 AI 世界
18:46SenseTime68同事件精选SenseNova U1:同时思考文本与图像的AI同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
18:41MarkTechPost(RSS)63英伟达AI发布Nemotron-Labs-Diffusion:单次前向传播生成Token数较Qwen3-8B提升6倍的三模式语言模型
18:07Berryxia.AI73兄弟们!今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了!
16:09MarkTechPost(RSS)63阿里巴巴 Qwen 团队推出 Qwen3.5-LiveTranslate-Flash:实时多模态翻译模型支持60种语言
16:05Rohan Paul49谷歌Android XR眼镜实时视觉捕捉演示
15:56IT之家(RSS)67AI 同传 2.8 秒延迟,阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate
15:05Rohan Paul51OpenClaw结合Meta Ray-Ban眼镜实现语音购物
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月21日
12:10
HuggingFace Daily Papers(社区热门论文)
62
iTryOn:基于空语义引导的交互式视频虚拟试穿技术

本文提出交互式视频虚拟试穿新任务,针对现有方法仅限于非交互展示的局限。新任务要求主体在视频中主动与服装互动,面临从标准姿势解析语义模糊性,以及从稀疏互动视频中学习复杂形变两大挑战。为此,我们推出iTryOn框架,基于大规模视频扩散Transformer,设计多级交互注入机制:空间层面引入服装无关的3D手部先验,精确引导手-服装接触;语义层面通过全局描述与时间戳动作描述协同,并借助动作感知旋转位置嵌入进行时序同步。实验表明,该方法在传统基准达到最优性能,并在交互场景中取得显著优势。

多模态视频论文/研究
11:18
Kling AI@Kling_ai
67
首部100%AI生成电影亮相戛纳,剑指2026院线

AI电影项目RAPHAEL在戛纳亮相。该片由Mateo AI Studio与韩国MBC C&I的AI内容实验室联合开发,全程使用Kling AI视频模型进行制作,旨在实现独特的视觉效果与差异化的观影体验。项目计划于2026年登陆院线,其大规模制作旨在证明纯AI电影制作的工业可行性,标志着AI原生院线电影新趋势的开端。

多模态行业动态
11:09
HuggingFace Daily Papers(社区热门论文)
63
Uni-Edit:智能编辑作为统一模型微调的通用任务

当前,统一多模态模型通过混合多任务训练来提升图像理解、生成和编辑能力,但任务冲突导致需要复杂多阶段流程和大量数据平衡,仅实现性能折衷而非协同增强。为此,研究提出Uni-Edit,一种智能图像编辑任务,作为统一模型微调的首个通用任务。Uni-Edit只需单一任务、单一训练阶段和单一数据集,就能同步提升模型的三种核心能力。研究团队开发了首个自动化、可扩展的智能编辑数据合成流程,将多样化的VQA数据转化为嵌入问题与嵌套逻辑的复杂编辑指令,生成包含14.8万条数据的Uni-Edit-148k数据集。在BAGEL和Janus-Pro模型上的实验证实,仅基于Uni-Edit进行微调,即可全面增强模型的图像理解、生成和编辑能力,无需任何辅助操作。

arXiv图像生成多模态数据/训练
11:09
HuggingFace Daily Papers(社区热门论文)
61
DrawMotion:通过手绘生成3D人体动作

该研究提出了DrawMotion,一个基于扩散的多条件动作生成框架,旨在解决传统文本到动作生成中用户意图表达不精确的问题。该框架支持文本与手绘两种控制条件,分别提供语义和空间引导。技术上,它通过算法自动生成手绘火柴人草图、设计多条件融合模块以降低计算复杂度,并利用无训练引导方法将生成动作与用户意图对齐。实验表明,手绘方式能将用户生成符合想象的动作所需时间缩短约46.7%。相关代码与演示已开源。

GitHub多模态论文/研究
10:58
IT之家(RSS)
38
绿联推出 NAS 新品 DXP4800 GT:双万兆网口,起价 2681.1 元

绿联今日正式发布NAS新品DXP4800 GT。该设备搭载AMD锐龙嵌入式R2514四核处理器,提供4个3.5英寸盘位(其中2个支持U.2)与2个M.2 NVMe插槽。其突出特点是配备双10GbE万兆网口,支持聚合或桥接。内存最高可选16GB DDR4(支持ECC),并集成64GB闪存。软件方面支持Docker与虚拟机,搭载相册2.0应用,并首次内嵌MiniMax大模型。产品售价2681.1元起。

产品更新多模态端侧
10:52
SenseTime@SenseTime_AI
64
商汤连续十年领跑中国计算机视觉市场

商汤科技被IDC连续十年评为中国计算机视觉市场第一。其关键驱动因素包括:主导推进CV 2.0架构演进,原生嵌入生成式AI能力;海外市场扩展至12个国际区域,服务超500家企业客户并保持高留存率;以年度经常性收入增长为锚点实现盈利性增长;并从项目制交付转型为高度可扩展的AI平台。这一十年市场领导地位为其引领计算机视觉与生成式AI的融合浪潮奠定了基础。

多模态行业动态
10:34
向阳乔木@vista8
精选75
开源Suno技能:一键生成任意风格AI音乐

这是基于Suno AI音乐生成工具的技能实现,可通过简单指令按用户需求生成不同风格的歌曲(例如德语空灵风格)。该技能订阅费用为每月10美元,支持高度自定义的风格生成。技术层面已优化,新增近6000个音乐风格检索以提升准确性,并可通过谷歌CDP免登录直接调用。项目已开源,提供GitHub仓库地址与安装指令,降低了创作门槛。目前AI生成音乐在艺术性上仍与人工制作存在差距,但实现了快速、灵活的创作可能。

向阳乔木: Suno 生成 Skill 做了优化,增加了近6000个音乐风格检索,让生成的音乐更准确。 用谷歌CDP刷新获取登录Token,完全不用打开网站就能创作歌曲了。 开源地址:https://github.com/joeseesun/qiaom...

GitHub多模态教程/实践

推荐理由:乔木这个 Suno Skill 把音乐生成从“抽卡”变成“精准点唱”,6000 种风格检索让普通人也能玩出花样,虽然比不上专业制作,但做短视频配乐绝对够用,看完就能装。
10:09
HuggingFace Daily Papers(社区热门论文)
55
UniT:基于群自回归Transformer的统一几何学习

UniT是一个统一几何感知模型,旨在将在线感知、离线重建、多模态整合等分散能力整合到单一框架。其核心是群自回归Transformer,将传感器观测组作为基本单元,通过改变组大小,在同一过程中自然统一在线(多步单帧组)与离线(单步多帧组)模式。为处理长序列,模型采用队列式KV缓存机制,并利用无锚点关系建模来丢弃过时记忆。此外,模型引入尺度自适应几何损失以增强跨场景的尺度泛化能力。在多个任务的基准测试中,UniT实现了统一几何感知的最先进性能。

具身智能多模态论文/研究
08:58
IT之家(RSS)
60
苹果 Apple Music 称 AI 音乐播放占比不到 1%,不封杀但要求清晰标注

苹果 Apple Music 发布公开信,明确表示不会封杀 AI 生成音乐,但要求相关内容必须清晰标注,且不得误导用户或冒充真人创作者。苹果指出,AI 音乐在平台总播放量中的占比“明显低于 1%”,但已进入治理范围。为此,Apple Music 于今年 3 月上线了 AI 内容标签功能,并计划未来将其作为所有内容提供方的硬性要求。同时,苹果已开发内部工具识别 AI 内容,重点防范欺诈、垃圾信息及冒充行为,若发现播放量存在流量操纵等滥用行为,将自动下架相关歌曲。

多模态行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
51
EMMA:从多模态数据中提取多个物理参数

EMMA是一个物理信息多模态框架,能从原始视频、音频和图像时间序列中直接恢复系统所有可识别的动力学参数。它利用Liquid Time-Constant网络从异质模态学习潜在动力学,并通过物理约束损失确保与微分方程一致。在超过100个场景(包括五个标准动力学基准、75段Delfys视频、真实世界轮式机器人和四旋翼系统)中,EMMA实现了稳健的多参数恢复,显著优于现有单模态和方程发现基线。代码与数据已开源。

arXiv具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
感知的代价:在整体框架内实现可信的多模态推理

当前视觉语言模型常出现“功能性失明”,即利用强大的语言先验绕过视觉表征瓶颈,而非真正融合多模态信息。本研究挑战了依赖数据消融的传统评估方法,提出了信息论框架下的“模态翻译协议”来量化“感知的代价”。该方法定义了三个新指标(Toll, Curse, Fallacy)与语义充分性准则。研究还假设存在多模态缩放的“分歧定律”:随着语言模型推理能力增强,视觉知识瓶颈带来的性能惩罚可能不降反升。这为构建更可信的多模态推理系统提供了新的评估工具与设计思路。

arXiv多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
60
VGenST-Bench:一个基于主动视频合成的时空推理基准

VGenST-Bench 是一个用于评估多模态大语言模型时空推理能力的新基准,采用生成模型主动合成高度可控的多样化评估场景,克服了现有基准依赖静态图像或被动视频数据的局限。该基准通过包含人类质检阶段的多智能体流水线构建,建立了涵盖空间尺度、视角和场景动态性的 3x2x2 视频分类体系。其设计的层级任务套件,解耦了低级视觉感知与高级时空推理,实现了对模型能力的细粒度诊断。

多模态视频论文/研究评测/基准
07:56
IT之家(RSS)
41
微信鸿蒙版 App 8.0.17.39 正式版更新发布

微信鸿蒙版App发布了8.0.17.39正式版更新,当前安装量已超5565万次。本次更新主要增强了视频号功能,包括资料修改、新注册支持、播放旋转及直播选项增加等。同时优化了“听一听”模块,新增AI写歌与灰度测试的会员卡、跨平台文件传输等功能,并改进了聊天界面交互与朋友圈评论体验。

智能体产品更新多模态语音
07:56
IT之家(RSS)
精选78
腾讯张军官宣操作系统层级 AI 助手"马维斯"正式上工,Windows、Mac、安卓端同步上线

腾讯于5月21日发布了操作系统层级AI助手“马维斯”,支持Windows、Mac和安卓平台同步上线。该助手具备文档归类解析、图片智能识别处理、系统维护等功能,并强调与操作系统深度集成,可调度不同模型处理任务,部分功能可在离线状态下使用。腾讯表示“马维斯”能完成市面主流Agent的大部分工作,并具备桌面操控手机应用等能力。这是继3月WorkBuddy和“龙虾”产品矩阵后,腾讯推出的又一AI助手产品。

智能体产品更新多模态端侧

推荐理由:腾讯把 AI 助手压到系统层,预装本地模型、拔网线也能跑,不是又一个套壳工具,而是真正冲着‘电脑变成可对话对象’去的,值得装上看看实操体验。
07:15
Google Gemini@GeminiApp
66
Gemini 3.5 Flash 能理解复杂主题和图表,满足您的特定需求,以最适合您的方式可视化结果。 观看 Gemini 处理一篇高等数学论文,进行可视化探索,并生成最重要的元素。
Google产品更新多模态
关联讨论 19 条X:Google AI (@GoogleAI)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google DeepMind (@GoogleDeepMind)X:Google AI for Developers (@googleaidevs)X:Rohan Paul (@rohanpaul_ai)X:Logan Kilpatrick (@OfficialLoganK)Google Blog:AI(RSS)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)
05:35
Google AI Developers@googleaidevs
同事件精选74
Google Stitch更新:AI设计助手实现全流程构建

Google推出了其AI设计伙伴Stitch的多项重要更新。新功能支持实时流式构建设计,允许用户在不中断流程的情况下直接进行编辑和互动反馈。Stitch现已能够导入现有代码库或Design.md文件,基于实际生产组件进行设计以保持品牌一致性。同时,工具新增了动态界面生成功能,并可将设计项目直接导出为可分享的线上URL,简化了从原型到生产的部署流程。该工具现已面向全球用户开放。

智能体Google产品更新多模态
同一事件,精选展示《谷歌发布多款AI创意工具新功能》
推荐理由:Stitch 这次更新把设计到生产流水线打通了,实时流加运动 UI 让原型更接近真产品,做移动端和 Web 的可以直接试试,比自己搭环境快太多。
04:17
Google DeepMind@GoogleDeepMind
同事件精选84
Gemini 3.5 Flash 已正式发布。
Google多模态模型发布
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Google 在 Gemini 3.5 上继续扩展 Flash 线,这种轻量模型对成本和延迟敏感场景很关键,如果你在等一个便宜的 Gemini API,该看了。
03:53
小互@xiaohu
39
由Gemma 4驱动的Open Duck机器人 具备视觉能力,还能对话
Google产品更新具身智能多模态
03:50
Google Blog:AI(RSS)
同事件精选68
我们在 I/O 2026 发布的 100 件事

在 Google I/O 2026 开发者大会上,公司共发布了 100 项内容,重点介绍了 Gemini Omni、Google Antigravity 和 Universal Cart 等新产品的核心亮点。

Google产品更新多模态
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:I/O 今年还是全场景轰炸,Gemini Omni 加一堆新产品,花十分钟扫一眼,未来半年 AI 要替你做哪块活就清楚了。
02:14
Google Gemini@GeminiApp
同事件精选72
使用Gemini Omni创建、混剪和编辑视频比以往任何时候都更容易。 它提供了一种流畅的对话式创作和编辑方式。只需从相册上传视频,并让Gemini进行修改即可。
Google产品更新多模态视频
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Gemini Omni把视频编辑做成了对话,虽然不算革命性更新,但对随手剪片的普通人来说,不用学剪辑软件就是最大的可用性。
00:41
The Verge:AI(RSS)
60
你现在可以用AI混剪别人的YouTube Shorts了

Google为YouTube Shorts推出了一项基于Gemini Omni的AI混剪功能。用户可在短视频界面点击“Remix”并选择“reimagine”选项,通过输入文字提示,将原视频转换为像素艺术、动漫或恐怖片风格,还能通过AI调整内容,例如替换服装、插入背景人物甚至将自己合成进视频。该功能允许创作者自主选择开启或关闭其视频的混剪权限。

Google产品更新多模态视频
00:36
Rohan Paul@rohanpaul_ai
63
商汤开源统一多模态模型SenseNova U1

商汤科技近日开源了SenseNova U1,其核心创新在于架构设计。该模型摒弃了传统的视觉编码器与变分自编码器分离结构,采用单一共享表示空间原生处理图像与文本,极大减少了模块间转换导致的信息损耗。这一设计使模型能够连贯地同时生成图文内容,在信息图、海报、漫画等需要高一致性的密集视觉内容创作上优势显著。性能方面,其信息图生成速度在同等质量下约为Qwen-Image-2.0/Seedream-4.5的两倍。

图像生成多模态开源/仓库模型发布
00:14
Google AI@GoogleAI
精选69
谷歌发布多款AI创意工具新功能

谷歌与创作者合作推出系列AI工具更新。Google Workspace新增图像创作编辑工具Pics;Google Flow支持Gemini Omni Flash模型,并推出Flow Agent作为多步骤创作伙伴;设计工具StitchbyGoogle支持实时文字或语音编辑布局并导出代码;音乐工具Google FlowMusic增加分段编辑、风格混音及视频生成功能。

智能体Google产品更新图像生成

推荐理由:Google这次更新的不是单点工具,而是把AI能力像乐高一样嵌入到创意工作流的每一步,Flow Agent的多步骤推理尤其值得做设计的人试试看。
00:08
HuggingFace Daily Papers(社区热门论文)
63
基于时空注意力链的快速4D网格生成

该研究提出一种无需训练的4D网格生成新方法,通过“时空注意力链”框架实现动态三维结构的快速重建。方法从锚定网格顶点出发,在潜在空间中追踪时间对应关系,避免了显式匹配的高计算成本。实验显示,新方法仅需9秒即可生成4D网格,速度比现有最优方法提升13倍且质量更优,还能处理长达16倍的视频序列而不降低质量。改进的对应关系使其在2D物体跟踪和4D跟踪任务中达到有竞争力的零样本性能,并首次在4D网格生成中实现了可靠的相机参数估计。

多模态视频论文/研究
5月20日
23:56
IT之家(RSS)
精选71
Stability AI 推出音频模型 Stability Audio 3.0,可生成最长 6 分钟专业级歌曲

Stability AI 推出 Stability Audio 3.0 音频生成模型家族,包含四款不同规格模型,参数从45900万到27亿。小型模型专注设备端运行,可本地生成两分钟以内的音频;中型和大型模型支持创作超过6分20秒的完整音乐,

多模态开源/仓库模型发布

推荐理由:Stability Audio 3.0 把AI音乐从几十秒的demo拉到了六分钟的完整歌曲,而且中小模型直接开源,任何一个能跑模型的设备都能玩,音乐创作的门槛继续被踩低。
23:03
The Decoder:AI News(RSS)
61
Stability AI 发布 Stable Audio 3.0,支持长达六分钟音轨并开放权重

Stability AI正式推出Stable Audio 3.0音频生成模型套件。该系列包含三个已开放模型权重的版本,能够生成最长六分钟的连贯音乐音轨。公司强调,所有模型均完全基于授权音乐数据集进行训练,确保了生成内容的合规性。此次发布标志着在AI音乐生成领域的技术进步,为音乐创作者和开发者提供了更长时长、更开放可用的工具。

多模态模型发布
23:00
TechCrunch:AI(RSS)
63
Stability AI发布可生成6分钟音频的新模型

Stability AI正式推出Stability Audio 3.0 small模型,该模型可在用户设备本地运行,生成时长最高达两分钟的音乐音轨。与此前云端生成较长音频的方案不同,此次更新强调了模型的轻量化与端侧部署能力,降低了对云计算资源的依赖。

多模态开源生态模型发布
22:08
Berryxia.AI@berryxia
72
性能飞跃但成本激增,Gemini 3.5 Flash重新定义"轻量"?

Google发布的Gemini 3.5 Flash在性能上实现飞跃,智能指数达55分,超越Grok 4.3等竞品,幻觉率大幅下降,输出速度超280 tokens/s。然而,其运行成本是前代的5.5倍,定价显著提高,引发对“Flash”是否仍代表“便宜”的讨论。该模型已在ZenMux平台开放免费体验,实际测试显示效果惊艳,在多项Agent和多模态榜单中表现顶尖,标志着顶级智能与极致速度的新结合。

Berryxia.AI: 兄弟们! 今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了! 我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 Prompt ,不同模型画出的树形态完全不一样。(见视频-Prompt见评论区) G...

Google多模态推理评测/基准
22:08
HuggingFace Daily Papers(社区热门论文)
65
用于高效全能模态大语言模型的阶段自适应Token选择

全能模态大语言模型在处理交织的视频与音频token时,固定比例的剪枝方法无法适应跨模态重要性随网络深度的动态变化。为此,本文提出无需训练的阶段自适应token选择方法SEATS。该方法在模型输入前通过注意力加权进行去冗余,在模型内部逐层动态分配模态保留配额,并在跨模态融合完成后移除所有剩余非文本token。实验在Qwen2.5-Omni和Qwen3-Omni模型上验证,仅保留10%的视觉和音频token,即可实现9.3倍FLOPs削减与4.8倍预填充加速,同时保持96.3%的原始性能。

arXivHugging Face多模态推理
22:02
向阳乔木@vista8
73
AI生成3D资产模型Rodin Gen-2.5发布:宣称千万级面数,助产业提效

AI 3D生成模型Rodin Gen-2.5发布,号称全球首款能实现千万级面数的同类产品,材质纹理精细。该模型可从单张图片生成高质量3D资产,快速输出obj等通用格式文件供进一步编辑,极大地简化了传统建模、绑骨、贴图的复杂流程。其技术亮点包括原生3D贴图算法,旨在为游戏、动画、影视等产业提供真正的生产力工具。

Hyper3D by Deemos: Introducing #Rodin Gen-2.5🚀 🔥World's 1st 10 MILLION polygon #3D GenAI - down to skin microstructures. 1️⃣1M-poly in 4s...

产品更新图像生成多模态
21:00
TechCrunch:AI(RSS)
60
Figma为其协作画布添加AI助手

Figma推出一款新的AI助手,用户可通过自然语言文本提示与之交互。该助手能够根据指令生成全新设计、编辑现有设计,并实现诸如为现有设计生成迭代版本等任务的自动化处理。

智能体产品更新多模态
19:56
IT之家(RSS)
53
谷歌高管从Google Glass失败中总结:时尚比技术更重要

在2026年谷歌开发者大会上,谷歌发布了新一代Android XR智能眼镜。谷歌安卓生态系统总裁萨米尔·萨马特总结认为,早期Google Glass项目未能普及的最大教训是外观时尚远比技术吸引力更重要。他指出,Meta与时尚品牌合作的智能眼镜自2023年面世以来销量已突破700万台,印证了这一观点。为此,谷歌此次携手Warby Parker和Gentle Monster等知名眼镜品牌,推出注重实用与颜值的纯语音版智能眼镜,预计今年秋季上市。搭载显示屏的版本则计划于明年推出,并将借助Gemini大模型承担核心功能。

Google多模态大佬观点端侧
19:33
The Decoder:AI News(RSS)
49
Google 将 Genie 世界模型与街景结合,基于真实地点创建可探索的 AI 世界

Google DeepMind 将其 Genie 3 世界模型与多年积累的街景图像数据相结合,推出了一项新功能。用户现在可以在地图上指定一个真实地点,系统便能生成一个基于该地点的、可供行走和探索的 AI 生成世界。这一整合不仅为创意演示提供了强大工具,更重要的是,海量的街景数据成为了训练 AI 代理和机器人的重要战略资源,为人工智能在模拟现实环境中的交互与导航能力开辟了新路径。

DeepMindGoogle产品更新具身智能
18:46
SenseTime@SenseTime_AI
同事件精选68
将你的想法转化为激发故事的视觉画面 🧨 【引用 @Adamaestr0_】:大多数AI工具可以写作或生成图像。 但这个能同时做这两件事。 向你介绍 SenseNova U1。 一个能同时思考文本和图像的AI。 这改变了一切 🧵

Adam: La mayoría de las herramientas de IA pueden escribir o generar imágenes. Pero esta hace AMBAS cosas a la vez. Te present...

多模态模型发布
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
推荐理由:商汤发了 SenseNova U1,主打文本和图像同时生成的「全模态」,但宣传语太简略,没给任何性能数据或技术细节,暂时看不出是真突破还是常规迭代,先标记关注。
18:41
MarkTechPost(RSS)
63
英伟达AI发布Nemotron-Labs-Diffusion:单次前向传播生成Token数较Qwen3-8B提升6倍的三模式语言模型

英伟达发布了Nemotron-Labs-Diffusion语言模型家族,其核心创新在于将自回归、基于扩散的并行解码以及自推测解码三种解码模式统一于单一架构。该模型提供3B、8B和14B三种参数规模,并包含基础版、指令微调版和视觉语言版本。相较于Qwen3-8B,其8B参数版本在单次前向传播中能够生成多达6倍的Token数量,显著提升了吞吐效率。

多模态推理模型发布
18:07
Berryxia.AI@berryxia
73
兄弟们!今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了!

Gemini 3.5 Flash现已在ZenMux平台免费开放试用。该模型在经典的递归二叉树生长测试中表现惊艳,仅用77.56秒便生成了完整的HTML动画网页,展现了顶级的响应速度与生成质量。其在MCP Atlas、Toolathlon等多项Agent榜单中位列第一,多模态理解能力(如MMMU-Pro得分83.6%)也全面超越上一代模型。模型完全兼容主流API格式,并提供按量计费和Builder套餐选择。

智能体Google多模态评测/基准
16:09
MarkTechPost(RSS)
63
阿里巴巴 Qwen 团队推出 Qwen3.5-LiveTranslate-Flash:实时多模态翻译模型支持60种语言

阿里巴巴 Qwen 团队发布了实时多模态翻译模型 Qwen3.5-LiveTranslate-Flash。该模型能同时处理音视频输入,支持60种语言的输入和29种语言的语音输出,端到端延迟低至2.8秒。相比前代,新增了实时说话人声音克隆、通过唇语和屏幕文字增强视觉理解,以及动态配置领域专业术语等能力。在 FLEURS 和 CoVoST2 基准测试中,性能超越主流商业模型。目前仅以 API 形式通过阿里云百炼平台提供服务,采用 WebSocket 协议通信。

多模态模型发布语音
16:05
Rohan Paul@rohanpaul_ai
49
谷歌的Android XR眼镜演示展示了通过眼镜摄像头进行实时视觉捕捉,并将画面输入Gemini。AI根据语音指令编辑图像,结果直接推送到配对的智能手表上查看。
Google产品更新多模态端侧
15:56
IT之家(RSS)
67
AI 同传 2.8 秒延迟,阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate

阿里通义千问团队发布了Qwen3.5-LiveTranslate-Flash实时语音翻译模型。该模型将支持的音频输入与文字输出语种从18种大幅提升至60种,输出音频语种从10种增加至29种。通过采用新的流式翻译技术,端到端字均延迟降低至2.8秒,同时支持实时音色克隆以保留说话人原声特征,并内置动态热词引擎以提升专业术语翻译准确性。模型在多个公开基准测试中表现优于前代及主流模型。

多模态模型发布语音
15:05
Rohan Paul@rohanpaul_ai
51
OpenClaw + Meta Ray-Ban眼镜。 该设置利用Ray-Ban眼镜的内置摄像头实现第一人称视角。语音输入触发Gemini Live解读佩戴者所见,随后将任务路由至OpenClaw,最终完成购买。
智能体GoogleMeta多模态
‹ 上一页
1…2728293031…50
下一页 ›