WIKO发布情感陪伴AI电子宠物“智能憨憨”蜂窝版,售价499元。新品支持Wi-Fi和4G蜂窝网络,可携带至户外使用。其核心搭载华为小艺大模型,具备多模态互动能力,能响应摸头、摇晃、语音等指令,并支持碰一碰加好友功能。该设备兼容鸿蒙、安卓、iOS系统,提供MBTI性格养成和专属日记记忆系统。相比2025年11月上市的普通版(定价399元),蜂窝版新增了移动网络连接能力。
WIKO发布情感陪伴AI电子宠物“智能憨憨”蜂窝版,售价499元。新品支持Wi-Fi和4G蜂窝网络,可携带至户外使用。其核心搭载华为小艺大模型,具备多模态互动能力,能响应摸头、摇晃、语音等指令,并支持碰一碰加好友功能。该设备兼容鸿蒙、安卓、iOS系统,提供MBTI性格养成和专属日记记忆系统。相比2025年11月上市的普通版(定价399元),蜂窝版新增了移动网络连接能力。
小鹏汽车CEO何小鹏在北京车展宣布,其VLA智驾系统已在城市支路、乡村道路及复杂穿行路段等特定场景下超越特斯拉FSD,通行效率和纵向控制如跟车、应对加塞表现更优。他设定明确目标,计划在2026年8月于中国市场实现VLA综合能力全面反超FSD。何小鹏指出,VLA在横向路径规划和极端掉头场景仍有优化空间,但中国高密度道路环境是权威验证场域,若成功超越将标志技术领先。
一款名为“小耳”的开发者制作的macOS右键工具,利用AI多模态模型(如Gemini)智能识别文件内容,并自动将其重命名为“内容+日期”的格式,解决了系统自带批量重命名功能不够智能的问题。该工具以Quick Action形式集成,无需安装新应用或后台进程,支持图片、视频、PDF、Word等多种文件类型的批量处理。其关键优势包括处理在本地完成、可使用Gemini Flash免费额度、支持撤销操作,并建议用户也可考虑使用Gemma或Qwen等本地小模型以降低成本。
我是一个 AI Builder & Learn in Publish 👇 🔥一键让AI帮你改文件名🔥 你是不是有这种情况: 📁 截图全叫 Screenshot 2026-04-23 at 14.32.48 📁 下载图清一色 IMG...
蚂蚁灵光App推出“体验世界模型”新功能,用户上传图片后,可在几秒到几十秒内生成一个可供探索的3D世界。该功能疑似主要依赖云端算力完成生成,尽管手机本地算力有限,但其生成速度仍被评价为“牛P”。目前生成效果虽未达到“惊艳”程度,但已具备可玩性,用户实测可成功进入多个由图片生成的3D场景。
开发者在测试多个Chatbot客户端时,发现普遍不支持上传音视频文件进行对话,这给全模态大模型的测试带来了不便。因此,他选择了一个开源Chatbot UI项目,并计划用Codex对其进行改造以适配需求。该开源项目参考了ChatGPT、Grok、Gemini和Perplexity等主流产品的界面,设计了多个不同的机器人对话界面,目前在GitHub上已获得近1万颗星。
蚂蚁集团全模态AI助手灵光App今日正式上线“体验世界模型”功能,首次将世界模型应用于手机端。用户上传一张图片,即可在几秒钟内生成对应的3D世界,并能通过摇杆控制以第一人称视角自由漫步探索,体验类似游戏。该功能基于蚂蚁灵波LingBot-World-Fast世界模型,该模型已对外开源。
研究提出DiGSeg框架,将预训练扩散模型转化为通用分割器。该方法将输入图像与真实掩码编码为潜变量,作为扩散U-Net的条件输入,并通过并行CLIP文本通路注入多尺度语言特征,实现文本与视觉表征的对齐。实验表明,该框架在标准语义分割基准上取得领先性能,并在开放词汇泛化及跨域迁移(医疗、遥感、农业)中表现优异,且无需针对特定领域调整模型架构。这证明扩散模型不仅能用于图像生成,也可作为强大的通用视觉理解模型,缩小了生成与理解任务间的差距。
X2SAM是一个统一的分割多模态大语言模型,它将图像中的任意分割能力扩展至视频。该模型结合大语言模型与存储引导视觉特征的掩码记忆模块,能依据对话指令和视觉提示生成时间一致的视频掩码,并支持图像与视频输入下的通用、开放词汇、指代、推理及交互式分割。研究团队提出了视频视觉基础分割基准V-VGD,用于评估模型根据交互式视觉提示分割视频物体轨迹的能力。通过跨异构数据集的统一联合训练,X2SAM在视频分割上表现优异,在图像分割基准上保持竞争力,同时保留了通用的图像与视频对话能力。
Nemotron 3 Nano Omni是该系列最新模型,首次原生支持音频、文本、图像和视频输入。通过架构、训练数据及方法的改进,其在所有模态上的准确性均超越前代Nemotron Nano V2 VL,尤其在真实文档理解、长音视频理解和智能体计算机使用方面表现领先。该模型基于高效的Nemotron 3 Nano 30B-A3B骨干网络,并融入创新的多模态令牌缩减技术,实现了比同类规模模型更低的推理延迟和更高的吞吐量。为促进后续研发,团队发布了BF16、FP8和FP4格式的模型检查点,以及部分训练数据和代码库。
为实现真正的数字自主性,研究团队推出了AutoGUI-v2基准,旨在评估智能体对图形用户界面(GUI)的深度功能理解与交互结果预测能力。该基准通过一种新颖的视觉-语言模型与人类协作流程构建,递归解析多平台截图,生成了涵盖六个操作系统的2,753项任务,严格测试区域与元素级语义理解、功能定位及动态状态预测。评估结果显示,基于智能体数据微调的开源模型在功能定位上表现优异,而商业模型则在功能描述上领先。关键发现是,所有模型在面对非常见操作的复杂交互逻辑时均表现不佳,表明深度功能理解仍是当前面临的核心挑战。
Meta-CoT提出一种新的图像编辑范式,通过两级分解提升模型的理解细粒度和任务泛化能力。该方法首先将任意编辑操作分解为(任务、目标、所需理解能力)三元组,以增强对编辑意图的细粒度理解;其次将编辑任务拆解为五个基础元任务,使训练仅需在这些元任务上进行,结合新引入的“思维链-编辑一致性奖励”机制,促使模型更准确地利用推理信息进行编辑。实验表明,该方法在21项编辑任务上实现了15.8%的整体性能提升,并能有效泛化到未见过的编辑任务。相关代码、基准测试和模型已开源。
微软开源了40亿参数的TRELLIS.2模型,可将单张图片在3秒内转换为具备完整PBR材质(粗糙度、金属度、不透明度)的专业级3D资产。该模型生成的并非粗糙网格,而是直接可用于生产流程的高质量模型,能够准确处理开放表面、空心结构以及复杂几何体,显著提升了图像到3D内容的生成效率与实用性。
Talker-T2AV提出了一种自回归扩散框架,用于联合生成语音和视频。其核心设计是将高级语义建模与低级细节渲染解耦:一个共享的自回归语言模型在统一的块级标记空间中对音视频进行联合推理,而两个轻量级的扩散Transformer头则分别解码出帧级的音频和视频潜在表示。该方法避免了现有模型在去噪过程中全程强制跨模态纠缠的弊端,更符合语音驱动面部合成任务的特点。在语音肖像基准测试中,该模型在唇部同步准确性、视频质量和音频质量上均优于双分支基线,实现了比级联方法更强的跨模态一致性。
ChatGPT Images 2.0 explains "Tenet" in a simple way!
“华为眼镜”App鸿蒙版推送1.0.1.356更新,新增多项功能。主要更新包括:在应用首页新增“小艺看世界”功能入口;应用设置中增加定制开关机功能,支持眼镜清晨自动唤醒;相机设置新增4:3视频比例选项,以扩大纵向录像视野;新增手表协同功能,可通过手表遥控眼镜拍照。该App配套的华为AI眼镜已于近日发布,起售价为2499元。
一款新的开源OCR模型在olmocr基准测试中达到85.9%的SOTA性能。该模型参数量为40亿,由90亿参数精简而来,支持超过90种语言并附带基准测试。其核心能力包括保留完整的文档布局信息,能从图像和图表中提取并生成说明文字,同时对手写文本、数学公式、表单及表格具备强大的识别与解析支持。
为突破海洋人工智能面临的数据瓶颈,研究团队发布了大规模多模态海洋语料库OceanPile。该语料库整合了声纳、水下图像、科学图文等多源异构数据,构建了统一集合OceanCorpus;通过分层海洋知识图谱引导,生成了高质量指令数据集OceanInstruction;并建立了人工标注评估基准OceanBenchmark。研究采用多阶段质量控制流程确保数据的科学性与跨模态对齐。实验表明,基于该数据训练的模型性能显著提升。全部数据集已开源,旨在推动海洋专用多模态大模型的发展。
本文提出结构化运动描述(SMD)方法,通过基于规则的确定性转换,将人体关节位置序列转化为描述关节角度、部位运动及整体轨迹的结构化文本。该表示使大型语言模型(LLM)能直接运用其预训练知识进行运动推理,无需学习专用的运动编码器或对齐模块。SMD在运动问答(BABEL-QA达66.7%,HuMMan-QA达90.1%)和运动描述(HumanML3D上R@1为0.584)任务上均超越现有最佳方法。其实用优势包括:同一文本输入经轻量级LoRA适配即可跨多种LLM使用,且其人类可读的表示支持可解释的注意力分析。
本研究将时间作为可学习的视觉概念,开发了用于推理与操控视频时序的模型。通过自监督学习,模型能利用视频的多模态线索检测速度变化并估计播放速率。基于此,我们从真实世界视频中构建了最大的慢动作数据集。利用该数据,我们进一步开发了具备时序控制能力的模型,包括按指定速度生成运动的“速度条件视频生成”,以及将低帧率模糊视频转换为高帧率清晰序列的“时间超分辨率”。这项研究将时间确立为视频学习中一个可操控的感知维度,为时序可控的视频生成、时间取证检测及理解事件演变的世界模型开辟了新途径。
研究团队发布了原生统一多模态模型Omni,其训练数据涵盖文本、图像、视频、3D几何及隐藏表征。该训练过程催生了“上下文展开”机制,模型在生成预测前会显式地对多种模态表征进行跨模态推理。这一机制使模型能够聚合异构模态间的互补信息,从而更忠实地逼近共享的多模态知识流形,并提升下游推理的保真度。因此,Omni在多模态生成与理解基准测试中均表现出色,同时展示了先进的多模态上下文内生成能力。
研究针对创意人脸风格化中身份保持的评估难题,提出了StyleID数据集与评估框架。该框架包含两个部分:StyleBench-H基准集收集了人类对基于扩散与流匹配生成的不同风格强度图像的异同判断;StyleBench-S监督集则通过受控二选一强制选择实验获取心理测量识别强度曲线。基于StyleBench-S对现有语义编码器进行微调,使其相似度排序与人类跨风格、跨强度的感知保持一致。实验表明,校准后的模型与人类判断的相关性显著提升,并对域外艺术家绘制肖像表现出更强的鲁棒性。所有数据集、代码与预训练模型均已公开。
研究提出了一种通过长时运动嵌入来高效生成运动学的方法,直接对从追踪器模型获取的大规模轨迹中学习到的嵌入进行操作,将场景动态建模效率提升了数个数量级。该方法能够根据文本提示或空间戳指定的目标,高效生成长而真实的运动序列,避免了传统全视频合成在探索多种可能未来时效率低下的问题。
研究团队提出FlowAnchor,一个无需训练、基于光流的免反演视频编辑框架。现有免反演方法在视频编辑中面临挑战,多物体或长视频场景下易失败,其根源在于高维潜在空间中编辑信号不稳定,存在空间定位不准和强度衰减问题。FlowAnchor通过空间感知注意力优化确保文本引导与空间区域精确对齐,并采用自适应强度调制维持足够编辑强度,从而稳定编辑信号,引导光流向目标分布演化。实验表明,该方法在多物体和快速运动场景中能实现更忠实、时序一致且高效的视频编辑。
研究提出“编辑即推理”(EAR)新范式,将视觉规划重构为单步图像转换任务,以提升计算效率。为分离推理与识别能力,团队创建了抽象谜题数据集AMAZE,包含迷宫和皇后两类任务,支持对自回归与扩散模型进行像素与逻辑的自动评估。测试发现,主流编辑模型在零样本设置下表现不佳,但经基础尺度微调后,能良好泛化至更大尺度及域外几何形状。然而,最佳模型在零样本效率上仍不及人类,揭示了神经视觉推理领域的持续差距。
研究系统评估了用于评估其他模型输出的视觉-语言模型(VLMs)的可靠性。通过引入超过40个扰动维度、涵盖4000多个扰动实例的基准测试,对4个主流VLMs在图像到文本和文本到图像任务中的表现进行了检验。结果显示,当前评估型VLMs存在显著盲点:它们时常无法检测出质量已下降的输出,在某些情况下漏检率超过50%;尤其难以识别细粒度的组合性与空间错误;对于与输入图像相矛盾的幻觉内容也常不敏感。尽管成对比较范式相对更可靠,但失误率依然存在。这些发现凸显了当前评估型VLMs的不可靠性,警示在将其用于基准测试和开发决策时需保持谨慎。相关代码与数据已公开。
Sapiens2是一个专注于以人为中心的视觉任务的高分辨率Transformer模型家族,旨在实现泛化性、多功能性和高保真输出。模型参数量从4亿到50亿不等,原生支持1K分辨率,其分层变体可支持4K。相比前代,Sapiens2在预训练和后训练阶段均有显著改进:结合了掩码图像重建与自蒸馏对比目标以学习兼顾低级细节和高级语义的特征;在10亿张高质量人体图像数据集上进行预训练,并提升了任务标注的质量与数量;架构上吸收了前沿模型的进展,支持更长的稳定训练。其4K模型采用窗口注意力机制处理更长空间上下文,并以2K输出分辨率进行预训练。该模型在姿态估计、身体部位分割、法线估计等任务上刷新了最佳性能,并扩展了点云图和反照率估计等新任务。
SketchVLM 是一个无需训练、模型无关的框架,能让 Gemini-3-Pro、GPT-5 等视觉语言模型在输入图像上生成非破坏性、可编辑的 SVG 标注层,以视觉化方式解释其答案。该框架在涵盖视觉推理与绘图的七项基准测试中,将视觉推理任务准确率最高提升 28.5 个百分点,标注质量最高提升 1.48 倍,且生成的标注更忠实于模型给出的答案。单轮生成已能实现较高的准确率与标注质量,多轮生成为人机协作提供了更多可能。
(注:提供的正文内容仅有一句话,缺乏必要的具体信息,如研究数据、性能指标、模型版本或测试结果等,无法撰写符合 100-200 字要求且包含关键数字/指标的摘要。请提供完整正文以便提取关键信息点。)
AI/ML API 携手 MiniMax 推出为期七天的模型促销活动。MiniMax Music 及最新 music-2.6 版本免费开放,Text-to-Speech 五折,视频生成七折,LLMs 享九折优惠。平台同步上线 MiniMax 2.7 等最新模型,并在 Playground 中优先展示全部模型便于测试。此次限时优惠是开发者体验 MiniMax 最新 AI 能力的最佳窗口。
Minimax week on AI/ML API: - Music-2.6 is free - Video & TTS models 30% off - LLMs 10% off If you haven't tried @MiniMax...
The power to create anything is now in your pocket. Runable is now live on the App Store. Try it, tell us what sucks.