Every one of these dots is an actual crash from the fleet. Real world speeds, collisions, and people. Not just the regul...
I just added real-time AI translation into Chormex using GPT-Realtime-2... and this feels absolutely surreal. It works a...
光帆科技宣布将于5月15日发售“光帆全感AI耳机”,该产品被称作行业首款带摄像头的AI耳机。耳机主打“全感知、主动式、个性化”,能通过环境感知主动提供提醒与服务,用户还可为AI选择不同人设,使其成为具有陪伴感的随身助理。硬件方面,单耳重11克,采用开放式耳挂设计,双侧配备200万像素双目摄像头用于实时识别物体与场景。耳机盒集成4G网络,支持脱离手机独立使用。续航上,耳机通话可达9小时,音乐播放15小时,配合充电盒总续航最高为90小时。
亚马逊旗下Blink推出两款2K+智能门铃:Blink Wired Doorbell 2K+(有线供电)和Blink Battery Doorbell 2K+(电池供电)。两款均具备更广动态范围与更清晰细节,电池款还比上代拥有更大视野。起步价均为49.99美元(约合340.7元人民币)。美国用户可通过付费订阅解锁云端智能视频描述功能,以文本摘要快速了解门前动态。
索尼互动娱乐获批一项PlayStation相关AI专利,旨在自动生成玩家游戏中的个性化高光时刻集锦。该系统利用AI和机器学习,实时分析游戏事件(如击杀、击败Boss、逆转取胜等),并参考玩家技术水平与习惯进行筛选。它能自动将精彩瞬间制作成风格化卡片、短视频或3D收藏等内容,省去了手动录制、剪辑和后期制作的繁琐流程,方便玩家在社交平台分享专属高光时刻。
本文介绍一个用于生成水墨风格幻灯片画图提示词的模板。该模板结构清晰,包含标题、关键要点、视觉元素、布局偏好、文字层级和延续性说明,旨在指导AI(如Codex)生成具有统一美学风格的幻灯片图像。视觉元素强调宣纸背景、水墨山水等东方元素,整体风格追求静谧、克制、侘寂或当代东亚奢华。通过应用此模板,用户可以简化AI驱动的设计流程,快速获得视觉一致且富有美感的水墨风格PPT素材。文末提供了一个简短的应用示例。
阶跃星辰发布新一代实时语音大模型StepAudio 2.5 Realtime,现已全量上线。该模型能感知语调、语速等“副语言”信息以识别用户情绪,动态调整回应以提升对话真实感。开发者可通过API精细定制AI角色的性格、背景等,其能力基于超万个原生人设生成的百万级特征矩阵训练,并针对角色一致性进行了强化。模型在对话能力上强调智商与情商的双重提升,可应对从闲聊到专业面试等多种场景。据2026年4月评测,其主观对话体验与语音问答基准得分均领先于同期竞品。
DeepSeek已广泛开放其“识图模式”供用户体验。该功能具备深度图片理解能力,不仅能识别文物、解答空间推理题、理解网络梗图,还能将截图中的代码或UI界面还原为可交互的HTML代码。其核心技术“以视觉原语思考”框架,通过融入点、边界框等视觉元素提升逻辑准确性,且处理效率高,单图token消耗远低于主流模型。目前该模式仍处内测,存在知识库更新滞后、处理反直觉图形不稳定等不足,且暂不支持图像生成或视频理解。
Tesla Vision allows us to deploy airbags up to 70 milliseconds earlier if your Tesla detects an unavoidable collision Th...
StepFun 推出的 StepAudio 2.5 TTS 模型在 Artificial Analysis 语音竞技场排行榜中位列第三,仅次于 Inworld Realtime TTS 1.5 Max 和 Google Gemini 3.1 Flash TTS。该模型语音自然度显著提升,以 1187 的 Elo 评分超越 Eleven v3。其定价为每百万字符 85 美元,高于领先模型;生成速度为每秒 37.6 字符,介于竞品之间。模型提供全局上下文提示和行内情感标签两种控制语音表现的方式。
Geoffrey Hinton指出语言只是思考的工具之一,AI推理可以是真正的思考,因为语言本身就是一种思考形式。人类和AI能用文字建模,但真正思考超越文字,涵盖图像、空间感和物理运动等多模态。最聪明的系统是能整合所有模态的AI,这代表下一个大突破方向:让AI像人类一样通过多感官、多维度理解世界,从而打破智能边界。多模态是最终出路,但文本基础仍需巩固以确保发展效果。
Geoffrey Hinton says AI reasoning can be real thought because language itself is a form of thinking Words let humans and...
RewardHarness 将奖励建模重构为上下文进化问题,而非传统的权重优化。该框架仅需约100条人类偏好示例,通过协调器与冻结子智能体的协作,利用自进化的工具与技能库进行推理判断。其核心在于通过对比预测结果与真实偏好,自动优化工具库,无需额外人工标注。实验表明,仅使用 EditReward 数据集中 0.05% 的数据,该框架在图像编辑评估基准上平均准确率达 47.4%,超越 GPT-5 达 5.3 个百分点。作为 GRPO 微调的奖励信号时,其能使模型在 ImgEdit-Bench 上取得 3.52 的评分。
针对高分辨率图像输入导致视觉编码成为多模态大语言模型主要计算瓶颈的问题,本研究提出了两项关键改进。在编码策略上,基于切片的编码优于全局编码,能通过局部视图更好地保留细节。在压缩方法上,引入了视觉Transformer内部的早期压缩,在浅层减少令牌数量以大幅降低计算量。结合这两项技术构建的LLaVA-UHD v4方案,在涵盖文档理解、OCR和通用视觉问答的多样化基准测试中,视觉编码计算量降低了55.8%,同时达到甚至超越了基线模型性能,为高效高分辨率多模态大语言模型提供了实用的设计方向。
研究团队发布了MuSS,一个专为多镜头视频及主体视频生成设计的大规模双轨数据集。该数据集源自3000多部电影,明确支持复杂的蒙太奇转场和以主体为核心的叙事。其构建采用了一种渐进式标注流程,先确保局部镜头级准确性,再强化全局叙事连贯性,以消除时空文本-视频对齐冲突。数据集还引入了跨镜头匹配机制,从根本上解决了S2V生成中常见的“复制-粘贴”难题。同时提出的电影叙事基准包含视觉-逻辑驱动的评估范式和一个新颖的抗复制-粘贴方差指标,用于严格评估连续叙事能力和3D结构一致性。实验表明,当前基线模型难以处理连续叙事逻辑或退化为简单的2D贴图生成器,而基于MuSS增强的模型在叙事效果和跨镜头身份保持上达到了最先进水平。
CollabVR提出一种闭环协作框架,在步骤级别将视觉语言模型(VLM)与视频生成模型(VGM)耦合,以解决VGM在多步任务中的长视野漂移和中间片段错误累积问题。该框架中,VLM负责规划即时动作并检查VGM生成的视频片段,再将验证诊断直接融入后续提示以修正错误。在Gen-ViRe和VBVR-Bench基准测试中,该方法在同等计算条件下显著提升了开源与闭源VGM的性能,尤其在困难任务上增益最大,且能与推理微调的VGM进一步结合,实现性能叠加。
Step Out. StepFun In. 🍕🍺 We're hosting a Founder mixer during SaaStr week in San Mateo with SEAMATE! AI founders, SaaS...
Velox提出一个学习4D对象潜在表示的框架,该表示具备描述性、压缩性与易获取性。它仅需非结构化动态点云作为输入,通过编码器将时空彩色点云压缩为动态形状标记,并利用两个互补解码器进行监督:4D表面解码器建模随时间变化的表面分布以捕捉几何信息,高斯解码器则负责外观重建。该方法在保持高保真度的同时提升了下游任务的效率。
GeoStack是一个模块化框架,旨在解决视觉语言模型中多领域知识组合导致的灾难性遗忘问题。该框架允许将独立训练的领域专家模型组合成一个统一模型,通过对适配器流形施加几何与结构约束,确保基础模型的原有知识得以保留。研究从数学上证明了其权重折叠特性,使得无论集成多少专家模型,推理复杂度均保持恒定。在多领域适应和类增量学习任务上的实验表明,GeoStack能有效实现长期知识组合,并显著缓解灾难性遗忘。相关代码已开源。
阿里云发布Smart Studio平台,旨在整合AI模型测试与服务的全流程,终结用户在不同平台间切换的繁琐。该平台提供即时访问最新SOTA模型(如Qwen3.6-Max、DeepSeek-v4)的能力,支持多模态及图像视频生成模型。其核心功能包括可视化模型实验室,用于并排比较开源与闭源模型的输出效果,并能快速将Hugging Face上的模型转化为实时API,简化部署流程。
近年来,视频编辑在自然语言指令引导下发展迅速,但背景替换任务因需合成全新、时间一致场景并保持前景-背景交互,面临高质量数据匮乏的挑战,导致现有模型生成静态、不自然背景。为此,研究团队设计可扩展数据生成流程,以解耦方式分别生成前景与背景引导,并实施严格质量过滤,构建了Sparkle数据集(包含约14万视频对,覆盖五种常见背景更换主题)及迄今最大的专项评估基准Sparkle-Bench。实验表明,基于该数据训练的模型在OpenVE-Bench和Sparkle-Bench上均显著优于现有基线。数据集、基准与模型已全部开源。
阿里千问AI眼镜S1迎来重要升级,核心是引入主动服务能力。眼镜能结合时间、地点和环境,主动提供如“出门带伞”、“抬头活动”等提醒。本月将上线打车、闪购、规划行程、购票等生活AI服务,减少对手机的依赖。同时,产品新增“空间3D显示”能力,通过双光机与双目立体成像技术,使信息通知、导航等内容呈现具有纵深感的立体视觉效果,显示更自然真实。
针对多模态领域泛化评估标准不统一的问题,研究团队推出了首个统一基准MMDG-Bench。该基准涵盖动作识别、故障诊断和情感分析三大任务的六个数据集,系统评估了六种模态组合和九种方法在多种场景下的性能。基于大规模实验得出关键结论:现有专用方法相比基线提升有限;无单一方法能持续领先;当前性能与理论上限差距显著;三模态融合未稳定优于双模态;所有方法在数据损坏和模态缺失时性能均大幅下降,部分还损害了模型可信度。
据科技媒体挖掘三星One UI 9早期固件代码,发现其正在开发一款名为Driving Insights的AI驾驶助手应用。该应用利用手机传感器和AI算法,精准追踪用户的加速、转弯、刹车等驾驶行为数据,旨在帮助用户了解并改善驾驶习惯。应用支持连接车载蓝牙后自动记录行程,并可生成个性化驾驶周报,通过三星Now Brief推送。周报会基于数据分析提供反馈,如评价驾驶风格保守或动态,并在长途驾驶后提醒用户注意休息,防止疲劳驾驶。
商汤科技在新加坡MTX-Millipol TechX展览中展示了其前沿的视觉AI创新,旨在提升城市安全与智能化水平。其解决方案基于SenseFoundry单体算法模型生产平台和由SenseNova驱动的多模态视频理解智能体,涵盖从火灾检测到交通事故监测等公共安全领域。公司表示将与新加坡合作伙伴紧密协作,共同加速数字化转型,构建开放、包容且繁荣的本地AI生态系统。
针对扩散模型基于人类偏好进行强化学习微调时多奖励难以协同优化的问题,研究团队提出MARBLE框架。该框架摒弃了传统加权求和方法,为每个奖励维护独立优势估计器,并通过求解二次规划问题,在梯度空间将各奖励策略梯度协调为单一更新方向,无需手动调整权重。结合摊销化计算与平滑技术,其单步计算成本降至接近单奖励基线水平。实验表明,MARBLE能同时提升所有奖励维度,显著改善最差对齐奖励的优化方向,且训练速度接近基线方法。
针对自回归范式在文本生成中的限制,研究团队提出Cola DLM,一种分层连续潜在扩散语言模型。该模型通过文本VAE学习文本到潜在映射,在连续潜在空间中用块因果DiT建模全局语义先验,再通过条件解码生成文本。其扩散过程执行潜在先验传输,而非词元级观测恢复,从而分离全局语义组织与局部文本实现,支持更灵活的非自回归生成。实验在严格匹配约20亿参数自回归基线和扩展到约2000 EFLOPs下进行,显示Cola DLM具有强大扩展性能,确立了分层连续潜在先验建模作为严格词元级语言建模的原则性替代方案。
商汤科技推出新一代轻量化多模态模型“日日新 SenseNova 6.7 Flash-Lite”。该模型采用原生多模态架构,能直接理解网页、文档和图表,提升复杂任务处理效率。它取消了视觉转文本中间层,以更小参数量实现能力跨越,在权威测试中取得多项同级别SOTA,并在信息搜索等场景中比纯文本智能体降低60%的Token消耗。同时,商汤推出限时免费的SenseNova Token Plan,为开发者提供首月无门槛调用额度,并将其全线办公技能SenseNova-Skills在GitHub开源。
针对野外环境中多动物三维重建面临的物种多样、遮挡频繁等挑战,研究团队提出了SAM 3D Animal,这是首个支持从单张图像进行多动物可提示三维重建的框架。该方法基于SMAL+参数化动物模型,能够联合重建多个实例,并支持通过关键点和掩码进行灵活提示,以有效解决复杂场景中的歧义与遮挡问题。为训练此模型,研究引入了包含超过5000张图像的Herd3D多动物三维数据集,显著提升了物种、互动与遮挡模式的多样性。在多个基准数据集上的实验表明,该框架在基于模型和免模型的方法中均达到了最先进的性能,为野外动物三维重建提供了可扩展的有效解决方案。
本研究提出冻结编码器模型组合的新方法,基于VLM架构构建多模态嵌入模型。我们发布了jina-embeddings-v5-omni套件,包含两个模型,能将文本、图像、音频和视频输入编码到统一语义嵌入空间。该方法通过扩展Jina Embeddings v5文本模型,添加图像和音频编码器,但保持骨干文本模型和非文本编码器冻结,仅训练占总权重0.35%的连接组件,训练效率远高于全参数重训练。这确保了文本输入的嵌入结果与原始文本模型完全一致。评估显示,其性能与当前领先的大型多模态嵌入模型竞争,实现了高效且有效的多模态嵌入。
研究提出Auto-Rubric as Reward框架,将多模态模型对齐问题从隐式权重优化转为基于显式准则的分解。该方法先将视觉语言模型内化的偏好知识外化为针对特定提示的结构化评估准则,将整体意图分解为可独立验证的质量维度,有效抑制位置偏差等评估偏见。为实现生成训练,进一步提出Rubric Policy Optimization方法,将多维评估提炼为稳健的二元奖励,用基于准则的偏好决策替代不透明的标量回归以稳定策略梯度。在文生图和图像编辑任务上的实验表明,该框架优于主流奖励模型,证明将隐式偏好显式化为结构化准则能实现更可靠、高效的多模态对齐。
针对现有基于强化学习的图像描述方法在追求细节时易在核心维度产生权衡的问题,研究团队提出了BalCapRL平衡框架。该框架联合优化实用性正确性、参考覆盖度和语言质量,通过采用GDPO风格的奖励解耦归一化处理连续值奖励,并引入长度条件奖励掩码以施加更合适的长度惩罚。在多个基础模型上的实验表明,该方法能一致提升描述质量,不同模型的峰值提升分别达到DCScore +13.6、CaptionQA +9.0和CapArena +29.0。
开源生态拥有数十万个预训练模型,但为新数据集选择最佳模型极为困难。现有方法或局限于小型预选池,或需昂贵的逐模型计算。ModelLens框架创新性地利用公开排行榜上分散的交互记录,通过学习模型-数据集-指标三元组的性能感知潜在空间,可直接为未见过的数据集推荐未见过的模型,无需在目标数据集上运行候选模型。在一个包含162万条记录、覆盖4.7万个模型和9600个数据集的新基准测试中,其性能超越了依赖元数据或需运行每个候选模型的基线方法,并能将多种路由方法的性能提升高达81%,在文本和视觉-语言任务上展现了泛化能力。
针对视觉-语言模型(VLM)易受对抗攻击的安全问题,本研究提出了一种轻量级检测框架SAEgis。该方法将稀疏自编码器(SAE)作为即插即用模块插入预训练VLM,通过标准重建目标训练,使稀疏潜在特征自然捕获攻击信号,从而可靠识别图像是否遭受对抗扰动。实验表明,SAEgis在域内、跨域及跨攻击场景中均表现强劲,其跨域泛化能力显著优于现有基线。该方法无需对抗训练,开销极小,为实际VLM系统提供了一种实用的安全增强方案。