AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「多模态」清除
6月18日周四
08:00HuggingFace Daily Papers(社区热门论文)53Robusto-2:在利马与纽约市自动驾驶场景中的人类与VLM基准测试
07:17Claude:Blog(网页)51Claude Opus 4.8 Build Day黑客马拉松获奖项目揭晓
07:14MiniMax (official)51MiniMax M3 视觉能力:截图即生成黑洞模拟器
04:42Hacker News 热门(buzzing.cc 中文翻译)69Launch HN: Adam(YC W25)--开源人工智能CAD
01:16Ethan Mollick60港口小镇3D模拟AI基准测试
00:33Odyssey58Odyssey 获 3.1 亿美元 B 轮加速世界模型
00:28Chubby♨️30Tavus联合Cerebras推出AI助手Dom,实现苹果1987年Knowledge Navigator构想
6月17日周三
23:43Hugging Face:Blog(RSS)69精选MolmoMotion:语言引导的3D运动预测模型
21:07IT之家(RSS)74精选阿里云发布HappyOyster 1.0:一句话生成可实时交互的数字世界
20:42HuggingFace Daily Papers(社区热门论文)51EgoCS-400K:面向世界模型的第一人称游戏数据集
19:19Alibaba Cloud40阿里升级实时交互模型HappyOyster 1.0
18:50Chubby♨️46MaineCoon:实时感知交互的音视频AI模型
16:07IT之家(RSS)35未来 Galaxy 手机可拍照检测宠物健康,三星和初创公司 Lifet 合作
13:05IT之家(RSS)50依视路陆逊梯卡与应用材料合作开发下一代智能眼镜 AR 光学系统
12:23Greg Brockman74GPT-Realtime-2:用语音控制操作系统
12:05xAI:News(网页)73同事件精选xAI 发布 Grok Imagine Video 1.5同一事件,精选展示《xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)》
11:56Hacker News 热门(buzzing.cc 中文翻译)76精选Wolfram 语言和 Mathematica 15 版发布:内置 AI 助手、符号音乐等新功能
11:41公众号:昆仑万维(天工)55天工3.1发布:Skywork Design与Dynamic Workflows上线
11:35Berryxia.AI65Berry Xia 开源 PP-OCRv6 本地工作台,支持 CoreML 加速及三模型切换
11:03IT之家(RSS)45Viture 发布工业安全眼镜 Helix:搭载英伟达 XR 人工智能技术,起售价 600 美元
10:33HuggingFace Daily Papers(社区热门论文)50UniAR:共享语境-视觉分词器是实现统一的关键
10:33HuggingFace Daily Papers(社区热门论文)52ActWorld:通过动作感知记忆从可探索走向可交互的世界模型
08:27宝玉75精选baoyu-design 本地动画视频导出功能更新
08:03IT之家(RSS)62谷歌推送 Android 17 正式版,深度集成 AI 功能
08:03IT之家(RSS)55XREAL 发布 Aura XR 眼镜,搭载 Android XR 与 Gemini 大模型
08:00HuggingFace Daily Papers(社区热门论文)49PerceptionDLM:基于多模态扩散语言模型的并行区域感知
08:00HuggingFace Daily Papers(社区热门论文)48LooseControlVideo:利用空间阻挡实现导演级视频控制
07:02IT之家(RSS)55Snap 旗下首款面向普通消费者的 AR 眼镜 Specs 发布:电致变色镜片、无需外接计算单元,2195 美元
05:35AK26数据记者智能体:转化数据为多模态故事
04:35Rohan Paul65Catnip推出MaineCoon:22B实时音频-视觉流式基础模型
03:35Ethan Mollick32GLM-5.2 Deep Think Max 对比 GPT-5.2
02:23TechCrunch:AI(RSS)57Android 17 正式版发布,新增多任务工具并扩展 Gemini 功能
01:23The Verge:AI(RSS)58高通发布 Snapdragon Reality Elite 芯片,强化智能眼镜性能
01:00AK24JoyAI-VL-Interaction 实时视觉语言交互
00:53MarkTechPost(RSS)76同事件精选Qwen团队发布三个具身AI模型套件 Qwen-RobotSuite同一事件,精选展示《Qwen-RobotWorld:具身智能体的无界世界》
00:23DogeDesigner69Grok新增屏幕共享语音模式
00:01StepFun51阶跃星辰 Step 3.7 Flash 登陆 Novita 与 OpenRouter
6月16日周二
23:48fofr24Omni同样擅长文本处理
22:48fofr60Omni 技巧:去原音后自动生成新音频
22:18SiliconFlow65同事件精选Kimi K2.7 Code发布:专注编码的智能体模型,接近GPT5.5同一事件,精选展示《6倍速!Kimi K2.7 Code 高速版已上线》
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月18日
08:00
HuggingFace Daily Papers(社区热门论文)
53
Robusto-2:在利马与纽约市自动驾驶场景中的人类与VLM基准测试

研究对比视觉语言模型(VLM)与来自利马和纽约的人类驾驶员在两地行车记录仪视频上的表现。使用VQA范式提出事实、评级、反事实和推理四类问题,测试泛化能力。结果发现人类与VLM的回答存在差异,但地理来源对双方回答均无显著影响。数据集已公开。

具身智能多模态论文/研究
07:17
Claude:Blog(网页)
51
Claude Opus 4.8 Build Day黑客马拉松获奖项目揭晓

6月13日,Anthropic在旧金山举办12小时黑客马拉松,310名参与者使用Opus 4.8和$500 credits完成原型。第一名Tekton:输入历史建筑照片后,Claude自动搜集图纸等资料,跨339个施工步骤重建3D模型,每个构件附带证据链;自纠循环反复检查直至20项测试全部通过。第二名Sim Francisco:基于美国人口普查数据生成10,000名合成市民,各具独立世界观,实时对新闻投票,精准预测选举结果。第三名Custom Universe:用手机拍摄物件照片,Opus 4.8将其转为可拖放、实时渲染的3D物体,支持文本指令重设风格。

智能体Anthropic多模态行业动态
07:14
MiniMax (official)@MiniMax_AI
51
MiniMax 官方转发用户 @coldopn 的体验:前沿模型已不再仅限于 Anthropic 和 OpenAI。通过将一张插图截图输入 Kilo Code,切换至 MiniMax M3 模型,仅凭一句"将此截图动画化为可工作的黑洞模拟器"的提示词,M3 即生成了完整的黑洞模拟器。整个推理过程仅花费 0.53 美元,展现了 M3 强大的视觉理解与生成能力。

Brian Turcotte: Frontier doesn't only mean Anthropic and OpenAI anymore. I built this black hole simulator by simply dropping an illustr...

GitHub多模态编码评测/基准
04:42
Hacker News 热门(buzzing.cc 中文翻译)
69
Launch HN: Adam(YC W25)--开源人工智能CAD

Adam 是一个开源 AI CAD 工具,可将自然语言和图像输入转化为 3D 模型。它完全在浏览器中运行(基于 WebAssembly),提供参数化滑块调节和实时预览(Three.js),支持导出 .STL、.SCAD、.DXF 格式,内置 BOSL、BOSL2 和 MCAD 库。基准测试显示,从单一提示词即可生成全参数化 OpenSCAD 模型,包括 V8 发动机、9 缸径向航空发动机、高旁通比涡轮风扇发动机等复杂多部件机器,以及六角扭曲花瓶、M12 螺栓与螺母等参数化零件,每个模型附带可调节维度和颜色数量。

GitHub产品更新多模态开源生态
01:16
Ethan Mollick@emollick
60
我有一个有趣且出奇有用的AI基准测试:"为我构建一个程序化生成的3D模拟,展示一个港口小镇从公元前3000年到公元3000年的演变,它应该看起来很漂亮,并允许我对其进行一些控制。" 查看20个模型的画廊:https://ai-harbor-town-gallery.netlify.app/
多模态评测/基准
00:33
Odyssey@odysseyml
58
我们已筹集 3.1 亿美元 B 轮融资,以加速世界模型! 我们相信,能够理解和模拟世界的 AI 将成为我们时代最重要的技术之一。 我们很高兴与 Natural Capital、Amazon、GV、AMD、IQT 等合作,将这一愿景变为现实。
多模态行业动态视频
00:28
Chubby♨️@kimmonismus
30
1987年苹果展示的Knowledge Navigator--能看见用户、控制电脑、外观和声音都像人类的AI助手,近40年后被Tavus在Cerebras支持下变为现实。新推出的Dom具备computer use、语音模型和数字人形象,用户可与之在PC上协作操作。推文作者称这如同科幻成真,像《星际迷航》中的未来。

Hassaan Raza: Last week Apple previewed the future of Siri. In 1987 though, Apple showcased a far more advanced AI assistant that woul...

智能体产品更新多模态
6月17日
23:43
Hugging Face:Blog(RSS)
精选69
MolmoMotion:语言引导的3D运动预测模型

MolmoMotion基于Molmo 2骨干网络,输入视频帧、物体上的3D点标记及文字动作指令(如“移动并旋转桌上放水果的木碗”),预测未来数秒内这些点的3D轨迹。提供两个变体:自回归的MolmoMotion-AR逐步预测坐标,流匹配的MolmoMotion-FM通过连续空间变换处理多可能性运动。同时发布MolmoMotion-1M数据集(含116万视频的3D点轨迹及动作描述)和PointMotionBench基准测试(2700个人工验证视频片段)。模型权重、数据集和基准测试均已开源。

Hugging Face具身智能多模态模型发布

推荐理由:MolmoMotion把3D运动预测从模板化推到任意物体,百万级数据集和基准让研究门槛大降,做机器人和视频生成的值得认真看,但目前仍是研究阶段,离落地还有距离。
21:07
IT之家(RSS)
精选74
阿里云发布HappyOyster 1.0:一句话生成可实时交互的数字世界

6月17日,阿里云发布开放式世界模型HappyOyster 1.0(快乐生蚝)。该产品基于原生多模态架构,支持多模态输入与音视频联合生成,可在生成过程中持续接收用户指令并实时响应画面。它深度学习物理世界状态转移规律,保持人物和环境长程一致性。官网开放“实时导演”与“世界探索”两种玩法:前者可随时叫停改写故事、与虚拟男友实时互动等;后者支持自由漫游、滑板冲刺、翼装滑翔、骑马奔驰、攻击打怪等交互。该产品已于今年4月16日开放内测,即日起至7月17日官网不定期掉落体验积分。

产品更新多模态视频

推荐理由:阿里把世界模型做成了可玩的交互产品,一句话生成能探索能互动的数字世界,实时导演模式直接替代了一部分短剧和互动内容创作,虽然还像噱头但至少是能玩的尝试。
20:42
HuggingFace Daily Papers(社区热门论文)
51
EgoCS-400K:面向世界模型的第一人称游戏数据集

EgoCS-400K是基于CS/CS2职业比赛demo构建的大规模第一人称数据集,保留了人类游戏轨迹并支持解析、回放、渲染和时间对齐。包含超过40万段第一人称视频、1万小时游戏内容,来自1000多场比赛和4万回合,覆盖13张地图、每回合10个玩家视角。数据集提取了玩家状态、视角方向、移动、键盘/按键输入、视角变化、武器使用、游戏事件和回合上下文,并渲染出干净的第一人称视频。支持动作条件未来预测、状态与事件场景展开、回放字幕生成及智能体第一人称动作理解等任务,连接了被动网络视频、可控游戏仿真和昂贵的真实世界具身数据。

多模态数据/训练论文/研究
19:19
Alibaba Cloud@alibaba_cloud
40
阿里升级实时交互模型HappyOyster 1.0

阿里云升级HappyOyster 1.0实时交互模型,新增冒险与导演模式,支持更丰富的环境交互、扩展的玩家控制及可倒回故事线。该升级旨在为游戏、互动剧、直播、文化旅游等场景带来新机遇。

产品更新多模态
18:50
Chubby♨️@kimmonismus
46
MaineCoon 是首个不限时长(unlimited-duration)的交互式音视频模型,摒弃了传统AI"等待输入→回复→静默"的轮次模式。它在回答过程中持续实时读取用户的表情、声音和时机,实现边说话边感知的对话体验,将AI视频从被动观看转向主动实时互动,被认为是实时交互AI的前沿信号。

Catnip: 🥇MaineCoon: From Passive Video to Real-Time AI Presence The first unlimited-duration interactive audio-visual model. Mo...

多模态大佬观点视频
16:07
IT之家(RSS)
35
未来 Galaxy 手机可拍照检测宠物健康,三星和初创公司 Lifet 合作

三星电子在 VivaTech 大会上宣布与初创公司 Lifet 合作,未来将为 Galaxy 手机推出 AI 宠物护理解决方案。用户用手机拍摄宠物照片,AI 即可分析图像检测牙齿健康问题、白内障和髌骨脱位等。Galaxy 用户可安装 SmartThings 应用和 Pet Care 服务直接使用该功能。Lifet 官网现有类似服务,检测准确率号称达 97%。

多模态行业动态
13:05
IT之家(RSS)
50
依视路陆逊梯卡与应用材料合作开发下一代智能眼镜 AR 光学系统

镜业巨头依视路陆逊梯卡与半导体设备供应商应用材料宣布合作,共同开发下一代智能眼镜 AR 光学系统。双方将结合依视路陆逊梯卡在镜片、镜框和智能眼镜领域的领先地位,以及应用材料在材料工程、波导技术方面的专业知识。合作将在应用材料位于美国硅谷的专门实验室进行,重点研发光波导、自适应透镜和新材料。光波导是 AR 内容显示的基础,自适应透镜可动态调节颜色,先进透镜封装技术有助于保持光学性能。

多模态行业动态
12:23
Greg Brockman@gdb
74
Greg Brockman 称 GPT-Realtime-2 是全新事物。@per_simmons_ 体验数周后表示,GPT-Realtime-2 是操作系统的未来,仅用语音即可打开应用、搜索网页、编辑 Premiere Pro,设置只需几个提示词且无需编码。视频演示了通过 MCP 连接 Obsidian 以及利用无障碍树控制 Premiere Pro 等功能。

Pat Simmons: GPT-Realtime 2 is the future of the operating system. I've been experimenting with it for a couple weeks now, and I gott...

OpenAI多模态教程/实践语音
12:05
xAI:News(网页)
同事件精选73
xAI 发布 Grok Imagine Video 1.5

xAI 将 Grok Imagine Video 1.5 从预览转为全面可用,在 Imagine API 上提供 grok-imagine-video-1.5,并在 grok.com/imagine 及 iOS/Android 应用上推出 Video 1.5 Fast 版。相比前代,模型在音频与语音(更清晰、嘴型同步更好)、运动与物理(更连贯、重量感更真实)、生成速度(6 秒 720p 视频约 25 秒,此前超 40 秒)上全面提升。同时逐步推出 Projects、Multiple agents(并行运行多个生成任务)、Search 等新功能,以优化创作流程。

xAI多模态模型发布视频
同一事件,精选展示《xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)》
推荐理由:Grok Imagine 1.5 把视频生成速度砍半,音效同步和项目功能让创作者工作流更顺畅,xAI 在视频方向上站住了脚。
11:56
Hacker News 热门(buzzing.cc 中文翻译)
精选76
Wolfram 语言和 Mathematica 15 版发布:内置 AI 助手、符号音乐等新功能

在 Mathematica 诞生近 38 年后,Wolfram 语言与 Mathematica 发布 Version 15。每个笔记本内置 AI 助手,支持从 AI 环境中直接调用 Wolfram 技术。新增符号音乐系统、大规模时间序列与事件序列处理、分类数据计算、模型拟合超函数 ModelFit。笔记本支持千兆字节级大小与实时查找,首次引入侧边栏、视觉主题及弃用功能样式。强化了表格连接、多点可视化、图形刻度绘制与轨道运行计算等功能。DSolve 拐角处获得 AI 方法辅助,支持偏微分方程曲线坐标求解。扩充了矩阵分解、多元 zeta 函数与调和数、流线型部分分式分解。强化了 WebSocket 实时连接、Python 交互改进,支持 CUDA 内核作为外部函数,Wolfram Compute Services 新增 GPU 支持。

产品更新多模态数据/训练

推荐理由:Wolfram Language 15 把 AI 助手直接内嵌进笔记本,加上符号音乐和 ModelFit 超级函数,对用代码思考的人来说,这是今年最扎实的版本升级。
11:41
公众号:昆仑万维(天工)
55
天工3.1发布:Skywork Design与Dynamic Workflows上线

天工超级智能体推出3.1版本,上线Skywork Design和Dynamic Workflows两项能力。Skywork Design将UI设计从对话式改为无限画布,支持多页面迭代、品牌规范统一与历史沉淀,可导出为网页、PPT、Figma分图层文件或zip包。Dynamic Workflows动态拆解任务,调度数十至上百个并行Agent,具备交叉验证与断点续跑能力,适用于批量页面生成、代码库排查等规模化场景。两项能力与天工主站账号、积分、知识库打通,国内海外同步上线。此前深度用户在单个project上平均交互超40轮,天工超级智能体收入月增三倍。

智能体产品更新多模态
11:35
Berryxia.AI@berryxia
65
Berry Xia 开源 PP-OCRv6 本地工作台,支持 CoreML 加速及三模型切换

Berry Xia 开源了基于 PP-OCRv6 的本地工作台,在 Mac 上使用 CoreML 加速,提供 Tiny(1.5MB)、Small、Medium(34.5MB)三个模型大小,支持一键切换。支持图片上传、批量处理、结果导出 CSV/Markdown/Excel,历史记录自动保存。全部本地运行,隐私安全;苹果硅自动开启 CoreML 加速,Intel Mac 和 Linux 也能用 CPU 跑。另提供浏览器版 Tiny 模型,零依赖即可在网页端使用。附带评测脚本可对比 OmniDocBench 和 macOS 自带 Apple Vision,在弯曲表面、点阵字体、低对比度等场景表现良好。

Berryxia.AI: http://x.com/i/article/2066906413935611904

产品更新多模态端侧
11:03
IT之家(RSS)
45
Viture 发布工业安全眼镜 Helix:搭载英伟达 XR 人工智能技术,起售价 600 美元

Viture 在 2026 年 AWE 推出工业安全眼镜 Helix,搭载英伟达 XR 人工智能。配备 1200 万像素第一视角摄像头与四麦克风阵列,可实时传输画面至多模态 AI 系统,为操作提供实时指导。支持边用边充,续航超 60 分钟,内置无线网络与蓝牙 5.3,可独立运行。已在临床与生命科学研究场景测试,预计 2027 年 Q1 上市,起售价 600 美元。

产品更新多模态
10:33
HuggingFace Daily Papers(社区热门论文)
50
UniAR:共享语境-视觉分词器是实现统一的关键

UniAR 提出统一多模态自回归框架,用单个离散视觉分词器作为理解与生成的共享桥梁,使模型直接解释自身生成的视觉 token。该框架融合预训练视觉编码器、多级特征融合与无查找按位量化,保留高层语义与低层细节。并行按位预测联合输出空间分组的多级视觉编码,缩短视觉序列长度并加速生成;扩散解码器从离散 token 重建高保真图像。经预训练、监督微调与强化学习,UniAR 在图像生成和编辑上达最优,在多模态理解基准上也有竞争力。

arXivHugging Face图像生成多模态
10:33
HuggingFace Daily Papers(社区热门论文)
52
ActWorld:通过动作感知记忆从可探索走向可交互的世界模型

现有交互式世界模型的动作词汇局限于导航(行走、转向、环顾),缺乏物体交互。ActWorld 在分块自回归框架中扩展导航生成器,支持 rollout 过程中的物体交互。它解决数据瓶颈(缺乏带密集标签的人-物交互数据)和记忆瓶颈(历史压缩丢弃因果决定物体状态的帧)。团队构建 100K 交互视频数据集,每条视频通过链式推理生成每块描述;引入分层动作感知记忆设计,按交互重要性路由历史压缩,辅以持久记忆库维护事件更新和物体身份 token。实验表明,单个模型同时支持灵活导航与丰富物体交互,在不牺牲视点控制的前提下显著提升交互逼真度。

具身智能多模态数据/训练论文/研究
08:27
宝玉@dotey
精选75
baoyu-design 本地动画视频导出功能更新

baoyu-design(本地运行 Claude Design 的 Skill)新增动画视频导出功能。其声明式动画引擎基于 f(t) 设计:任意时间点 t 可绝对确定画面状态。导出采用无头 Chromium 逐帧截图 + ffmpeg 编码,每帧等待两帧 requestAnimationFrame 确保渲染完成。截图以 2 倍 DPR(3840×2160)再缩回 1080p,保证细节清晰。95 秒 30fps 动画需 2850 次截图循环,帧帧精确。项目已开源(MIT),获 1.2K star。此前 baoyu-design 已支持 PPT 本地生成和导出可编辑 PPTX。

宝玉: baoyu-design skill(让你本地运行 Claude Design 的 Skill)更新,本地生成 PPT 的效果,可以借助 Cursor、Codex 内置的浏览器预览 PPT,也可以直接用它们的标记工具修改 PPT 细节。按 ...

GitHub多模态开源/仓库视频

推荐理由:宝玉把 Claude Design 动画导出能力做成了本地 skill,原理讲得很透,声明式引擎加 f(t) 直接抽帧的思路让开发者能零成本复现,想要高质量 AI 动画输出的创作者可以立即用起来。
08:03
IT之家(RSS)
62
谷歌推送 Android 17 正式版,深度集成 AI 功能

6 月 17 日,谷歌正式推送 Android 17 正式版及 Wear OS 7,首发搭载 Pixel 设备。新系统集成音乐生成模型 Lyria 3、多模态大模型 Gemini Omni 及基于 AudioLM 的语音翻译工具(适配 Pixel 10a)。Pixel 专属更新:Gemini Omni 支持对话中剪辑视频,Lyria 3 可输入文字或图片生成曲目;老款 Pixel 8a、9a 快速分享兼容苹果 AirDrop。系统新增“气泡任务栏”多任务控件、同屏录摄、家长管控及折叠屏 50/50 游戏模式。手表新增车祸、摔倒、无脉搏自动呼救,续航提升 10%,夏季将上线 Gemini 桌面小组件。

Google产品更新多模态语音
08:03
IT之家(RSS)
55
XREAL 发布 Aura XR 眼镜,搭载 Android XR 与 Gemini 大模型

XREAL 正式发布 Aura XR 眼镜,搭载谷歌 Android XR 系统并集成 Gemini 大模型,核心算力由骁龙 Reality Elite 平台提供,内置 X1S 协处理器处理空间内容。眼镜通过额外屏幕投射画面,70 度视场角,前置摄像头支持三维手部追踪。同步上线交互内容库,首发包括《Project Hail Mary》《Fallout: Factions》等原生游戏及沉浸式影像。Aura 现已在美国、英国、日本官网开启预售,定金 99 美元,高端“创始优先通行证”299 美元限量 2000 名,最终售价与上市日期未公布。

产品更新多模态端侧
08:00
HuggingFace Daily Papers(社区热门论文)
49
PerceptionDLM:基于多模态扩散语言模型的并行区域感知

针对现有多模态大语言模型自回归生成导致多区域感知效率低下的问题,提出PerceptionDLM多模态扩散语言模型。该架构利用扩散语言模型的并行解码特性,通过高效提示和结构化注意力掩码,在序列和token两个层次上同时感知多个掩码区域,显著提升推理效率。为系统评估扩散语言模型的并行性,构建了ParaDLC-Bench基准。实验表明,PerceptionDLM在保持区域描述竞争力的同时,大幅提升了多区域感知任务的速度。这是首次利用扩散语言模型实现并行区域标注和感知。

arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
LooseControlVideo:利用空间阻挡实现导演级视频控制

LooseControlVideo通过稀疏定向3D盒子作为“阻挡”代理,使用户能创作高层级布局和轨迹,同时由视频生成模型生成真实的遮挡、动态与交互。该方法微调Wan 2.2骨干网络,并采用DNOCS编码处理3D尺寸、方向和深度顺序遮挡。在nuScenes、HO-3D和BEHAVE基准测试中,轨迹误差提升1.2倍到3倍,刚性运动一致性提升2倍,遮挡准确率提升1.5倍到2倍,显著优于现有2D盒子和流基线方法。

多模态视频论文/研究
07:02
IT之家(RSS)
55
Snap 旗下首款面向普通消费者的 AR 眼镜 Specs 发布:电致变色镜片、无需外接计算单元,2195 美元

Snap 今日发布首款面向消费者的独立式 AR 眼镜 Snap Specs,售价 2195 美元。镜身采用瑞士 TR90 材料,重 132g/136g,支持近视镜片插片及多种鼻托。配备自研 LCoS 显示,51 度视场角、1600 万色,电致变色镜片 10 秒可切换至墨镜模式。无需外接计算单元,搭载两颗高通骁龙处理器(分别负责计算机视觉与 AR 界面),内置 AI 实时监测用户所见并提供情境化帮助。混合使用续航约 4 小时,充电盒可扩展至约 20 小时。

产品更新多模态端侧
05:35
AK@_akhaliq
26
数据记者智能体 将数据转化为可验证的多模态故事
智能体多模态论文/研究
04:35
Rohan Paul@rohanpaul_ai
65
Catnip推出MaineCoon:22B实时音频-视觉流式基础模型

Catnip推出MaineCoon,一个22B参数的实时音频-视觉基础模型,能将文本提示词转化为带同步语音、动作和表情的实时角色流,支持无限时长交互。作为首个流式原生模型,MaineCoon实现亚秒级首帧,单张H100上达47.5FPS,单张RTX Pro 6000上达30FPS,内部测试吞吐量比同类音频-视觉系统快约7倍。与被动视频生成不同,它能因果性地实时响应,记住自身不完美的过去,并保持角色身份、声音和节奏的连贯一致,让AI从轮次式应答变为“与你同在”的实时存在。

Catnip: 🥇MaineCoon: From Passive Video to Real-Time AI Presence The first unlimited-duration interactive audio-visual model. Mo...

多模态模型发布视频语音
03:35
Ethan Mollick@emollick
32
Ethan Mollick 将 7 个月前的 GPT-5.2 与新款 GLM-5.2 Deep Think Max 进行对比,用同一提示词要求生成可运行于 Twigl 的着色器(描绘哥特塔楼无限城市半淹于风暴海洋)。GLM-5.2 出现了若干错误。此前 Ethan 曾提前体验 GPT-5.2,并展示了 GPT-5.2 Pro 单次生成的该着色器版本。

Ethan Mollick: Had early access to GPT-5.2. Its an impressive model. Here is GPT 5.2 Pro's version of "create a visually interesting sh...

多模态评测/基准
02:23
TechCrunch:AI(RSS)
57
Android 17 正式版发布,新增多任务工具并扩展 Gemini 功能

Google 近日发布 Android 17 正式版及 Wear OS 7,率先登陆 Pixel 设备。Pixel Drop 新增 AI 模型支持:音乐生成模型 Lyria 3、多模态 Gemini Omni 及基于 AudioLM 的语音翻译工具(Pixel 10a)。Quick Share 文件分享兼容 Apple AirDrop。Android 17 引入“气泡栏”多任务界面、自拍屏幕录制、折叠游戏模式(50/50 布局与动态手柄)以及“标记为丢失”等安全与家长控制功能。Pixel Watch 新增车祸/跌落/无脉搏自动紧急呼叫。Wear OS 电池续航提升最高 10%,并将在夏季推出更多 Gemini 智能功能。

Google产品更新多模态语音
01:23
The Verge:AI(RSS)
58
高通发布 Snapdragon Reality Elite 芯片,强化智能眼镜性能

高通向下一代 XR 设备推出 Snapdragon Reality Elite 芯片,GPU 性能提升 60%,CPU 提升 30%,NPU 最高提升 160%,支持每眼 4.4K @ 90fps 分辨率及更低延迟。电池续航提升最高 20%,高负载下芯片温度比上代低 12°C。该芯片将率先搭载于 Xreal 的 Project Aura Android XR 眼镜,今年秋季上市。高通此前在 MWC 发布的 Snapdragon Wear Elite 芯片同样用于智能眼镜,两款芯片均增强 AI 性能,预示可穿戴设备将融入更多大语言模型及 AI 功能。

多模态端侧行业动态
01:00
AK@_akhaliq
24
JoyAI-VL-Interaction 实时视觉语言交互智能
多模态论文/研究
00:53
MarkTechPost(RSS)
同事件精选76
Qwen团队发布三个具身AI模型套件 Qwen-RobotSuite

Qwen团队发布三个具身AI模型组成的套件Qwen-RobotSuite:Qwen-RobotManip(基于Qwen3.5-4B的VLA模型,通过统一对齐框架和3800小时开源数据(含24708小时合成)实现跨本体操作,在LIBERO-Plus OOD基准上达91.4%,跨本体迁移性能为π0.5的3.2倍)、Qwen-RobotWorld(60层MMDiT+冻结Qwen2.5-VL编码器的语言条件视频世界模型,以自然语言为统一动作接口预测未来视频)和Qwen-RobotNav(基于Qwen3-VL的导航模型,2B/4B/8B,输出航点轨迹)。RobotManip与RobotNav已开源GitHub。

具身智能多模态开源/仓库模型发布
同一事件,精选展示《Qwen-RobotWorld:具身智能体的无界世界》
推荐理由:Qwen-RobotSuite 一次性放出三个具身模型,用统一对齐策略解决了机器人数据碎片化问题,多个 SOTA 结果加上两个开源仓库,做具身智能的值得认真看一下。
00:23
DogeDesigner@cb_doge
69
🚨 Grok 更新 🚨 现在你可以与 Grok 共享屏幕,并在语音模式下获得实时帮助。 只需点击窗口图标,选择共享屏幕,然后开始广播。
xAI产品更新多模态语音
00:01
StepFun@StepFun_ai
51
阶跃星辰的 Step 3.7 Flash 已通过 Novita 在 OpenRouter 上线。该模型专为高效智能体工作负载设计,具备原生多模态理解、强智能体编码能力、可靠工具使用,以及网页与视觉搜索工作流。引用信息强调其高效多模态推理和多步工具使用能力,主要面向编码与智能体应用场景。

Novita AI: 🚀 Step 3.7 Flash from @StepFun_ai is now available via Novita on @OpenRouter. High-efficiency multimodal reasoning. Mul...

智能体多模态推理模型发布
6月16日
23:48
fofr@fofrAI
24
你知道吗,Omni 也擅长文本处理。
OpenAI多模态评测/基准
22:48
fofr@fofrAI
60
提醒:如果你先移除视频中现有的音轨,Omni 可以为你生成全新音频。 ffmpeg -i input.mp4 -c:v copy -an input_without_audio.mp4

fofr: Omni tip: If you remove any audio from the video you're editing, Omni will fully regenerate the audio for you, which mig...

多模态教程/实践
22:18
SiliconFlow@SiliconFlowAI
同事件精选65
Kimi K2.7 Code发布:专注编码的智能体模型,接近GPT5.5

硅基流动上线月之暗面Kimi K2.7 Code模型。基于K2.6改进,专注编码与智能体任务。32B激活/1T总参,VLM多模态,支持交错思考与多步工具调用。相比K2.6,推理token使用减少30%,减少过度思考;长程编码任务指令遵循和完成率提升。性能接近GPT5.5与Opus 4.8。价格:缓存输入0.19/输入0.94/输出4.00每百万token。

多模态模型发布编码
同一事件,精选展示《6倍速!Kimi K2.7 Code 高速版已上线》
推荐理由:K2.7 Code 在编码上逼近 GPT-5.5 和 Opus 4.8,同时推理 token 用量降低 30%,对追求前沿编码能力又在意成本的技术团队是个实用选择,硅基流动上的定价也给了明确预期。
‹ 上一页
1…678910…50
下一页 ›