研究对比视觉语言模型(VLM)与来自利马和纽约的人类驾驶员在两地行车记录仪视频上的表现。使用VQA范式提出事实、评级、反事实和推理四类问题,测试泛化能力。结果发现人类与VLM的回答存在差异,但地理来源对双方回答均无显著影响。数据集已公开。
研究对比视觉语言模型(VLM)与来自利马和纽约的人类驾驶员在两地行车记录仪视频上的表现。使用VQA范式提出事实、评级、反事实和推理四类问题,测试泛化能力。结果发现人类与VLM的回答存在差异,但地理来源对双方回答均无显著影响。数据集已公开。
6月13日,Anthropic在旧金山举办12小时黑客马拉松,310名参与者使用Opus 4.8和$500 credits完成原型。第一名Tekton:输入历史建筑照片后,Claude自动搜集图纸等资料,跨339个施工步骤重建3D模型,每个构件附带证据链;自纠循环反复检查直至20项测试全部通过。第二名Sim Francisco:基于美国人口普查数据生成10,000名合成市民,各具独立世界观,实时对新闻投票,精准预测选举结果。第三名Custom Universe:用手机拍摄物件照片,Opus 4.8将其转为可拖放、实时渲染的3D物体,支持文本指令重设风格。
Frontier doesn't only mean Anthropic and OpenAI anymore. I built this black hole simulator by simply dropping an illustr...
Adam 是一个开源 AI CAD 工具,可将自然语言和图像输入转化为 3D 模型。它完全在浏览器中运行(基于 WebAssembly),提供参数化滑块调节和实时预览(Three.js),支持导出 .STL、.SCAD、.DXF 格式,内置 BOSL、BOSL2 和 MCAD 库。基准测试显示,从单一提示词即可生成全参数化 OpenSCAD 模型,包括 V8 发动机、9 缸径向航空发动机、高旁通比涡轮风扇发动机等复杂多部件机器,以及六角扭曲花瓶、M12 螺栓与螺母等参数化零件,每个模型附带可调节维度和颜色数量。
Last week Apple previewed the future of Siri. In 1987 though, Apple showcased a far more advanced AI assistant that woul...
MolmoMotion基于Molmo 2骨干网络,输入视频帧、物体上的3D点标记及文字动作指令(如“移动并旋转桌上放水果的木碗”),预测未来数秒内这些点的3D轨迹。提供两个变体:自回归的MolmoMotion-AR逐步预测坐标,流匹配的MolmoMotion-FM通过连续空间变换处理多可能性运动。同时发布MolmoMotion-1M数据集(含116万视频的3D点轨迹及动作描述)和PointMotionBench基准测试(2700个人工验证视频片段)。模型权重、数据集和基准测试均已开源。
6月17日,阿里云发布开放式世界模型HappyOyster 1.0(快乐生蚝)。该产品基于原生多模态架构,支持多模态输入与音视频联合生成,可在生成过程中持续接收用户指令并实时响应画面。它深度学习物理世界状态转移规律,保持人物和环境长程一致性。官网开放“实时导演”与“世界探索”两种玩法:前者可随时叫停改写故事、与虚拟男友实时互动等;后者支持自由漫游、滑板冲刺、翼装滑翔、骑马奔驰、攻击打怪等交互。该产品已于今年4月16日开放内测,即日起至7月17日官网不定期掉落体验积分。
EgoCS-400K是基于CS/CS2职业比赛demo构建的大规模第一人称数据集,保留了人类游戏轨迹并支持解析、回放、渲染和时间对齐。包含超过40万段第一人称视频、1万小时游戏内容,来自1000多场比赛和4万回合,覆盖13张地图、每回合10个玩家视角。数据集提取了玩家状态、视角方向、移动、键盘/按键输入、视角变化、武器使用、游戏事件和回合上下文,并渲染出干净的第一人称视频。支持动作条件未来预测、状态与事件场景展开、回放字幕生成及智能体第一人称动作理解等任务,连接了被动网络视频、可控游戏仿真和昂贵的真实世界具身数据。
阿里云升级HappyOyster 1.0实时交互模型,新增冒险与导演模式,支持更丰富的环境交互、扩展的玩家控制及可倒回故事线。该升级旨在为游戏、互动剧、直播、文化旅游等场景带来新机遇。
🥇MaineCoon: From Passive Video to Real-Time AI Presence The first unlimited-duration interactive audio-visual model. Mo...
三星电子在 VivaTech 大会上宣布与初创公司 Lifet 合作,未来将为 Galaxy 手机推出 AI 宠物护理解决方案。用户用手机拍摄宠物照片,AI 即可分析图像检测牙齿健康问题、白内障和髌骨脱位等。Galaxy 用户可安装 SmartThings 应用和 Pet Care 服务直接使用该功能。Lifet 官网现有类似服务,检测准确率号称达 97%。
镜业巨头依视路陆逊梯卡与半导体设备供应商应用材料宣布合作,共同开发下一代智能眼镜 AR 光学系统。双方将结合依视路陆逊梯卡在镜片、镜框和智能眼镜领域的领先地位,以及应用材料在材料工程、波导技术方面的专业知识。合作将在应用材料位于美国硅谷的专门实验室进行,重点研发光波导、自适应透镜和新材料。光波导是 AR 内容显示的基础,自适应透镜可动态调节颜色,先进透镜封装技术有助于保持光学性能。
GPT-Realtime 2 is the future of the operating system. I've been experimenting with it for a couple weeks now, and I gott...
xAI 将 Grok Imagine Video 1.5 从预览转为全面可用,在 Imagine API 上提供 grok-imagine-video-1.5,并在 grok.com/imagine 及 iOS/Android 应用上推出 Video 1.5 Fast 版。相比前代,模型在音频与语音(更清晰、嘴型同步更好)、运动与物理(更连贯、重量感更真实)、生成速度(6 秒 720p 视频约 25 秒,此前超 40 秒)上全面提升。同时逐步推出 Projects、Multiple agents(并行运行多个生成任务)、Search 等新功能,以优化创作流程。
在 Mathematica 诞生近 38 年后,Wolfram 语言与 Mathematica 发布 Version 15。每个笔记本内置 AI 助手,支持从 AI 环境中直接调用 Wolfram 技术。新增符号音乐系统、大规模时间序列与事件序列处理、分类数据计算、模型拟合超函数 ModelFit。笔记本支持千兆字节级大小与实时查找,首次引入侧边栏、视觉主题及弃用功能样式。强化了表格连接、多点可视化、图形刻度绘制与轨道运行计算等功能。DSolve 拐角处获得 AI 方法辅助,支持偏微分方程曲线坐标求解。扩充了矩阵分解、多元 zeta 函数与调和数、流线型部分分式分解。强化了 WebSocket 实时连接、Python 交互改进,支持 CUDA 内核作为外部函数,Wolfram Compute Services 新增 GPU 支持。
天工超级智能体推出3.1版本,上线Skywork Design和Dynamic Workflows两项能力。Skywork Design将UI设计从对话式改为无限画布,支持多页面迭代、品牌规范统一与历史沉淀,可导出为网页、PPT、Figma分图层文件或zip包。Dynamic Workflows动态拆解任务,调度数十至上百个并行Agent,具备交叉验证与断点续跑能力,适用于批量页面生成、代码库排查等规模化场景。两项能力与天工主站账号、积分、知识库打通,国内海外同步上线。此前深度用户在单个project上平均交互超40轮,天工超级智能体收入月增三倍。
Berry Xia 开源了基于 PP-OCRv6 的本地工作台,在 Mac 上使用 CoreML 加速,提供 Tiny(1.5MB)、Small、Medium(34.5MB)三个模型大小,支持一键切换。支持图片上传、批量处理、结果导出 CSV/Markdown/Excel,历史记录自动保存。全部本地运行,隐私安全;苹果硅自动开启 CoreML 加速,Intel Mac 和 Linux 也能用 CPU 跑。另提供浏览器版 Tiny 模型,零依赖即可在网页端使用。附带评测脚本可对比 OmniDocBench 和 macOS 自带 Apple Vision,在弯曲表面、点阵字体、低对比度等场景表现良好。
http://x.com/i/article/2066906413935611904
Viture 在 2026 年 AWE 推出工业安全眼镜 Helix,搭载英伟达 XR 人工智能。配备 1200 万像素第一视角摄像头与四麦克风阵列,可实时传输画面至多模态 AI 系统,为操作提供实时指导。支持边用边充,续航超 60 分钟,内置无线网络与蓝牙 5.3,可独立运行。已在临床与生命科学研究场景测试,预计 2027 年 Q1 上市,起售价 600 美元。
UniAR 提出统一多模态自回归框架,用单个离散视觉分词器作为理解与生成的共享桥梁,使模型直接解释自身生成的视觉 token。该框架融合预训练视觉编码器、多级特征融合与无查找按位量化,保留高层语义与低层细节。并行按位预测联合输出空间分组的多级视觉编码,缩短视觉序列长度并加速生成;扩散解码器从离散 token 重建高保真图像。经预训练、监督微调与强化学习,UniAR 在图像生成和编辑上达最优,在多模态理解基准上也有竞争力。
现有交互式世界模型的动作词汇局限于导航(行走、转向、环顾),缺乏物体交互。ActWorld 在分块自回归框架中扩展导航生成器,支持 rollout 过程中的物体交互。它解决数据瓶颈(缺乏带密集标签的人-物交互数据)和记忆瓶颈(历史压缩丢弃因果决定物体状态的帧)。团队构建 100K 交互视频数据集,每条视频通过链式推理生成每块描述;引入分层动作感知记忆设计,按交互重要性路由历史压缩,辅以持久记忆库维护事件更新和物体身份 token。实验表明,单个模型同时支持灵活导航与丰富物体交互,在不牺牲视点控制的前提下显著提升交互逼真度。
baoyu-design(本地运行 Claude Design 的 Skill)新增动画视频导出功能。其声明式动画引擎基于 f(t) 设计:任意时间点 t 可绝对确定画面状态。导出采用无头 Chromium 逐帧截图 + ffmpeg 编码,每帧等待两帧 requestAnimationFrame 确保渲染完成。截图以 2 倍 DPR(3840×2160)再缩回 1080p,保证细节清晰。95 秒 30fps 动画需 2850 次截图循环,帧帧精确。项目已开源(MIT),获 1.2K star。此前 baoyu-design 已支持 PPT 本地生成和导出可编辑 PPTX。
baoyu-design skill(让你本地运行 Claude Design 的 Skill)更新,本地生成 PPT 的效果,可以借助 Cursor、Codex 内置的浏览器预览 PPT,也可以直接用它们的标记工具修改 PPT 细节。按 ...
6 月 17 日,谷歌正式推送 Android 17 正式版及 Wear OS 7,首发搭载 Pixel 设备。新系统集成音乐生成模型 Lyria 3、多模态大模型 Gemini Omni 及基于 AudioLM 的语音翻译工具(适配 Pixel 10a)。Pixel 专属更新:Gemini Omni 支持对话中剪辑视频,Lyria 3 可输入文字或图片生成曲目;老款 Pixel 8a、9a 快速分享兼容苹果 AirDrop。系统新增“气泡任务栏”多任务控件、同屏录摄、家长管控及折叠屏 50/50 游戏模式。手表新增车祸、摔倒、无脉搏自动呼救,续航提升 10%,夏季将上线 Gemini 桌面小组件。
XREAL 正式发布 Aura XR 眼镜,搭载谷歌 Android XR 系统并集成 Gemini 大模型,核心算力由骁龙 Reality Elite 平台提供,内置 X1S 协处理器处理空间内容。眼镜通过额外屏幕投射画面,70 度视场角,前置摄像头支持三维手部追踪。同步上线交互内容库,首发包括《Project Hail Mary》《Fallout: Factions》等原生游戏及沉浸式影像。Aura 现已在美国、英国、日本官网开启预售,定金 99 美元,高端“创始优先通行证”299 美元限量 2000 名,最终售价与上市日期未公布。
针对现有多模态大语言模型自回归生成导致多区域感知效率低下的问题,提出PerceptionDLM多模态扩散语言模型。该架构利用扩散语言模型的并行解码特性,通过高效提示和结构化注意力掩码,在序列和token两个层次上同时感知多个掩码区域,显著提升推理效率。为系统评估扩散语言模型的并行性,构建了ParaDLC-Bench基准。实验表明,PerceptionDLM在保持区域描述竞争力的同时,大幅提升了多区域感知任务的速度。这是首次利用扩散语言模型实现并行区域标注和感知。
LooseControlVideo通过稀疏定向3D盒子作为“阻挡”代理,使用户能创作高层级布局和轨迹,同时由视频生成模型生成真实的遮挡、动态与交互。该方法微调Wan 2.2骨干网络,并采用DNOCS编码处理3D尺寸、方向和深度顺序遮挡。在nuScenes、HO-3D和BEHAVE基准测试中,轨迹误差提升1.2倍到3倍,刚性运动一致性提升2倍,遮挡准确率提升1.5倍到2倍,显著优于现有2D盒子和流基线方法。
Snap 今日发布首款面向消费者的独立式 AR 眼镜 Snap Specs,售价 2195 美元。镜身采用瑞士 TR90 材料,重 132g/136g,支持近视镜片插片及多种鼻托。配备自研 LCoS 显示,51 度视场角、1600 万色,电致变色镜片 10 秒可切换至墨镜模式。无需外接计算单元,搭载两颗高通骁龙处理器(分别负责计算机视觉与 AR 界面),内置 AI 实时监测用户所见并提供情境化帮助。混合使用续航约 4 小时,充电盒可扩展至约 20 小时。
Catnip推出MaineCoon,一个22B参数的实时音频-视觉基础模型,能将文本提示词转化为带同步语音、动作和表情的实时角色流,支持无限时长交互。作为首个流式原生模型,MaineCoon实现亚秒级首帧,单张H100上达47.5FPS,单张RTX Pro 6000上达30FPS,内部测试吞吐量比同类音频-视觉系统快约7倍。与被动视频生成不同,它能因果性地实时响应,记住自身不完美的过去,并保持角色身份、声音和节奏的连贯一致,让AI从轮次式应答变为“与你同在”的实时存在。
🥇MaineCoon: From Passive Video to Real-Time AI Presence The first unlimited-duration interactive audio-visual model. Mo...
Had early access to GPT-5.2. Its an impressive model. Here is GPT 5.2 Pro's version of "create a visually interesting sh...
Google 近日发布 Android 17 正式版及 Wear OS 7,率先登陆 Pixel 设备。Pixel Drop 新增 AI 模型支持:音乐生成模型 Lyria 3、多模态 Gemini Omni 及基于 AudioLM 的语音翻译工具(Pixel 10a)。Quick Share 文件分享兼容 Apple AirDrop。Android 17 引入“气泡栏”多任务界面、自拍屏幕录制、折叠游戏模式(50/50 布局与动态手柄)以及“标记为丢失”等安全与家长控制功能。Pixel Watch 新增车祸/跌落/无脉搏自动紧急呼叫。Wear OS 电池续航提升最高 10%,并将在夏季推出更多 Gemini 智能功能。
高通向下一代 XR 设备推出 Snapdragon Reality Elite 芯片,GPU 性能提升 60%,CPU 提升 30%,NPU 最高提升 160%,支持每眼 4.4K @ 90fps 分辨率及更低延迟。电池续航提升最高 20%,高负载下芯片温度比上代低 12°C。该芯片将率先搭载于 Xreal 的 Project Aura Android XR 眼镜,今年秋季上市。高通此前在 MWC 发布的 Snapdragon Wear Elite 芯片同样用于智能眼镜,两款芯片均增强 AI 性能,预示可穿戴设备将融入更多大语言模型及 AI 功能。
Qwen团队发布三个具身AI模型组成的套件Qwen-RobotSuite:Qwen-RobotManip(基于Qwen3.5-4B的VLA模型,通过统一对齐框架和3800小时开源数据(含24708小时合成)实现跨本体操作,在LIBERO-Plus OOD基准上达91.4%,跨本体迁移性能为π0.5的3.2倍)、Qwen-RobotWorld(60层MMDiT+冻结Qwen2.5-VL编码器的语言条件视频世界模型,以自然语言为统一动作接口预测未来视频)和Qwen-RobotNav(基于Qwen3-VL的导航模型,2B/4B/8B,输出航点轨迹)。RobotManip与RobotNav已开源GitHub。
同一事件,精选展示《Qwen-RobotWorld:具身智能体的无界世界》🚀 Step 3.7 Flash from @StepFun_ai is now available via Novita on @OpenRouter. High-efficiency multimodal reasoning. Mul...
Omni tip: If you remove any audio from the video you're editing, Omni will fully regenerate the audio for you, which mig...
硅基流动上线月之暗面Kimi K2.7 Code模型。基于K2.6改进,专注编码与智能体任务。32B激活/1T总参,VLM多模态,支持交错思考与多步工具调用。相比K2.6,推理token使用减少30%,减少过度思考;长程编码任务指令遵循和完成率提升。性能接近GPT5.5与Opus 4.8。价格:缓存输入0.19/输入0.94/输出4.00每百万token。
同一事件,精选展示《6倍速!Kimi K2.7 Code 高速版已上线》