本月发布聚焦视频生成、工作空间、智能体SDK与重排序模型。多家公司推出前沿大模型,包括GPT、Claude和LLaMA系列的新版本。核心变化体现在模型多模态能力增强,特别是视频生成功能成为竞争焦点。部分新模型在标准基准测试中性能提升超过15%,同时上下文窗口扩展至百万token级别。开发者工具方面,新的智能体SDK支持更复杂的任务编排,而重排序模型显著提升了检索精度。
本月发布聚焦视频生成、工作空间、智能体SDK与重排序模型。多家公司推出前沿大模型,包括GPT、Claude和LLaMA系列的新版本。核心变化体现在模型多模态能力增强,特别是视频生成功能成为竞争焦点。部分新模型在标准基准测试中性能提升超过15%,同时上下文窗口扩展至百万token级别。开发者工具方面,新的智能体SDK支持更复杂的任务编排,而重排序模型显著提升了检索精度。
Moonlake发布3D Agent,这是一个AI驱动的工具,能像专业技术艺术家一样从单张图片生成带关节、可编辑的3D资产和大型场景(包含数百物体)。它支持从零建模,自动处理独立部件和关节绑定,无需预设规则,并能重建完整可编辑的室内或室外场景。通过原生集成Blender,该工具实现了真实工作流的自动化,简化3D创作过程。
据报道,苹果正加速研发其首款智能眼镜,预计与Meta Ray-Bans等产品竞争。该产品定位并非完整AR设备,核心聚焦于拍摄、语音助手和手势控制。硬件上配备两颗摄像头:高分辨率主摄用于拍照录像,低分辨率广角镜头则用于手势识别并为Siri提供环境视觉。为保障续航与轻薄,眼镜不内置显示屏及LiDAR等模块,并采用醋酸纤维材料提升佩戴舒适度。系统将搭载更智能的Siri,支持拍照、通话及环境交互。产品可能于2026年晚些时候预览,2027年正式上市。
微信朋友圈正进行灰度改版,将文字描述移至配图上方,并新增“时间轴相册”入口。追觅正式回应造车质疑,宣布其高端新能源品牌“星空计划”首款概念车零百加速0.9秒,采用“华为模式”合作造车,量产车计划于2027年上市。小米下一代自研芯片“玄戒O3”信息曝光,主频突破4GHz。DeepSeek大模型正灰度测试具备多模态识别能力的“识图模式”。此外,比亚迪方程豹钛7 EV闪充版上市,福特改装版Mustang创下全美400米加速最快电车纪录。
GPT-5.5 + GPT-Image-2 is becoming one of the best combos for building apps! @dkundel breaks down why it works so well. W...
🚨 Excited To Launch Abacus AI Studio Use 100+ Top AI Video And Image Models on Abacus AI Studio Use an agentic loop alo...
Ready to unlock your creativity with Gemini Canvas? 🪄 Don't miss our next Discord event to see Gemini Creative Technolo...
AI推理市场正快速分化,各模态如文本、图像、视频和音频发展出独立推理技术栈。自ChatGPT发布后,NVIDIA数据中心收入三年内增长17倍,凸显市场爆发。分化根本原因在于工作负载差异:图像视频生成需高计算力,长上下文消耗更多内存,边缘设备则受功耗限制。市场按延迟分为实时、近实时和批量三层;按模态分为文本、图像视频音频;按部署分为云端和边缘。Hugging Face上已有超9万个图像生成模型,整个AI推理市场规模预计约1000亿美元,这种专业化趋势正为各细分领域创造领导者机会。
Deepseek Vision 👀
Today we are launching ElevenMusic, a new platform to discover, remix, create, and earn from music, built on the ElevenL...
商汤开源的 SenseNova-U1 模型在架构上实现关键突破。传统多模态模型多采用“语言模型 + 视觉编码器 + VAE”的拼接方式,视觉信息需先翻译再输入 LLM。U1 基于 NEO-Unify 架构,直接移除翻译层,使语言和视觉在同一表征空间中运行。因此,模型能在单次推理中同步完成图像理解、推理和生成等任务,而非分步处理,提升了多模态交互的效率和连贯性。
SenseNova U1 Lite Series is now open source! Built on the NEO-unify architecture, it natively unifies multimodal underst...
Nvidia 发布了开源多模态模型 Nemotron 3 Nano Omni,该模型能够处理文本、图像、视频和音频。其引人关注之处不仅在于性能表现,更在于其训练数据的构成。模型的部分训练数据来源于 Qwen、GPT-OSS、Kimi 和 DeepSeek OCR 等多个知名项目,这揭示了构建现代多模态模型所需数据集的多样性与复杂性。
DeepSeek已灰度测试“识图模式”,新增多模态图片理解功能,用户可上传图片并获取描述。该模式与“快速模式”“专家模式”并列,并非简单OCR文字识别。部分测试用户反馈响应速度很快,类似flash;但亦有用户遇到“识图模式暂不可用”提示。网络响应内容显示该功能模型类型为“vision”,状态为“图片理解功能内测中”。
🔥Native Unified Multimodal Model Open Sourced🔥 🚀SenseNova U1🚀 is the first native multimodal model that unifies mult...
Now, we see you. 👀
SenseNova U1 is out on Hugging Face https://huggingface.co/collections/sensenova/sensenova-u1
Happy Horse 1.0 is live on fal, day 0 🐎 🎬 Best-in-class motion quality 🎧 Native 1080p with synced audio in one pass �...
Anthropic公司发布了Claude for Creative Work,这是其AI助手Claude的创意专用版本,专注于优化创意任务。该发布在Hacker News上获得102点社区评分,显示高度关注。新工具增强了创意能力,包括改进的文本生成、构思辅助和设计支持,旨在提升写作、艺术、营销等领域的效率和质量。
Adobe于4月29日更新了Photoshop和Lightroom。Photoshop引入了全新的AI“旋转对象”工具,用户可在3D空间中实时旋转、倾斜和翻转素材,点击“协调”按钮可自动调整光照和阴影以匹配背景。同时,Photoshop还推出了“图层清理”工具,能智能清理、组织并自动重命名图层,移除空图层。Lightroom的搜索功能现支持自然语言描述查找照片,新增多款胶片风格预设,且辅助筛选速度更快,交互式滑块性能提升最高达5倍。
一条推文分享了一个名为“Neon Sketch”的AI图像生成提示词模板。该模板旨在创造一种独特的混合媒介风格:背景采用带有柔光虚化效果的真实感摄影(如植物园小径),前景主体则由发光的白色霓虹线条勾勒(如手持粉色气球的兔子),并点缀草图涂鸦、星光等手绘元素。其核心创意在于让霓虹形象的发光部分与摄影背景的地面轻微接触,从而营造出梦幻般的虚实交融视觉效果。推文附上了详细的提示词结构示例,并鼓励用户尝试创作和分享成果。
Prompt share: Neon Sketch 💬Prompt: A realistic blurred photo of a [background scene], filled with bright sunlight, soft...
一款出色的个人AI助手应具备七大核心能力:跨平台无缝执行邮件、日历及各类API/MCP服务;能主动可靠地处理定时任务与自动跟进;拥有优秀的长期记忆以更懂用户;提供无需复杂指令的开箱即用多端体验;支持在文字、语音、视频和实时通话间自由切换;可通过任何第三方通讯软件触达;并具备有趣的个性。然而,目前包括OpenClaw、Claude Code和Codex在内的产品,均未能完全满足所有这些标准。
A great personal agent should: 1. Get work done across email, calendar, Google Workspace, or any API/MCP it's hooked up ...
作者认为Adobe与Claude的合作并非强强联合,而是其在AI时代的公开战略投降,承认自身AI能力不足,转而将三十年积累的创意工具库打包成Claude的后端工具箱。官方演示聚焦于低复杂度任务,未能激发创意专业人士兴趣,行业反馈普遍失望。核心担忧在于Adobe可能将功能再次塞入体验不佳的Firefly框架,导致用户未来或仅需通过Claude对话即可完成设计,无需打开专业软件。这标志着Adobe正从创意工具霸主降级为AI工作流中的一个普通调度插件。
Adobe for creativity + Claude 🤝 Now, Claude users can power their content with more than 50 Creative Cloud tools. Simpl...
研究团队提出了一种身份感知的人体运动生成框架IAM,旨在解决现有文本驱动运动生成模型忽略身体形态对运动动态影响的问题。该框架通过多模态信号(自然语言描述和视觉线索)表征身份,并引入运动与形状联合生成范式,能同时合成运动序列和身体形状参数。实验在运动捕捉数据集和大规模真实世界视频上进行,结果表明该方法在保持高运动质量的同时,显著提升了运动真实感及运动与身份的一致性。
针对当前统一多模态模型(UMMs)主要遵循的基于编辑(RvE)精修范式存在修改空间受限、指令描述粗略导致精修不完整的问题,本研究提出了一种基于再生(RvR)的新框架。RvR将精修任务重新定义为条件图像再生,其核心是依据目标提示词和初始图像的语义令牌进行整体图像再生,而非生成粗略的编辑指令并强制保留像素。这种方法突破了原有范式对修改空间的限制,实现了更完整的语义对齐。实验结果表明,RvR在多个基准测试上均取得显著性能提升:Geneval得分从0.78升至0.91,DPGBench从84.02提高到87.21,UniGenBench++则从61.53跃升至77.41。
本文提出Mutual Forcing框架,用于实现长时序音视频同步的快速自回归生成。该框架采用两阶段训练,先训练单模态生成器,再耦合为统一模型进行联合训练。其核心创新在于直接基于原生自回归模型,将少步与多步生成集成于单一权重共享模型中,通过自蒸馏提升训练-推理一致性。相比此前需要约50采样步的方法,本方法仅需4至8步即可达到或超越基线性能,在效率与质量上均具优势。该方法无需额外双向教师模型,支持更灵活的训练序列长度,并可直接从真实配对数据中学习。
NVIDIA发布了多模态模型Nemotron 3 Nano Omni,专为处理长上下文设计,能够同时理解文本、图像、音频和视频。该模型在文档分析、自动语音识别、音视频理解以及智能体计算机使用等实际应用场景中表现优异。在多项基准测试中,Nemotron 3 Nano Omni均展现出领先的准确性和效率。
🚀 🚀Excited to announce the technical report of MiniCPM-o 4.5! MiniCPM-o 4.5 transitions #AI interaction from tradition...
英伟达发布开源全模态推理模型Nemotron 3 Nano Omni,采用30B‑A3B混合MoE架构,集视频、音频、图像和文本处理于一体。该模型旨在替代多模型链,降低推理成本与编排复杂度。在多项基准测试中表现领先,尤其在视频推理任务中,其系统吞吐量相比其他开放式全模态模型最高提升约9.2倍,文档推理任务最高提升约7.4倍。模型权重、训练配方及数据集已完全开放,支持开发者在各类环境中定制部署。
本文针对扩散生成模型中未被充分研究的组合复杂性问题,指出现有训练方案可能难以充分覆盖高维数据样本及其附加属性所构成的空间,从而限制模型性能。为此,我们提出了ComboStoc方法,通过构建充分利用组合结构的随机过程,显著加速了图像和3D形状等多种数据模态的网络训练。此外,该方法还支持在测试时生成过程中,为不同维度和属性使用异步时间步,从而实现对它们不同程度的灵活控制。代码已开源。
研究团队提出DSO方法,旨在缓解视觉语言模型决策中的社会偏见。该方法允许用户在模型部署时,通过单一标量参数直接、实时地控制偏见缓解程度,实现无需重新训练的动态调整。实验表明,DSO能在偏见指标上实现高达90%的改善,同时将性能损失控制在10%以内,有效平衡了偏见缓解与任务性能。这一技术为需要根据具体场景权衡公平性与效用的应用提供了灵活解决方案。
研究提出协同进化策略蒸馏(CoPD),以解决混合RLVR的跨能力发散问题和传统OPD因行为模式差距导致的能力吸收不全问题。CoPD通过推动专家并行训练,并在每个专家的RLVR训练中引入双向OPD,使专家互为教师、协同进化,从而保持行为模式一致且知识互补。实验表明,CoPD能全面集成文本、图像和视频推理能力,性能显著优于混合RLVR和MOPD等基线,甚至超越领域专用专家。该方法可能启发新的训练扩展范式。
纽约眼科医生Eric Rosenberg于2025年10月使用Apple Vision Pro结合ScopeXR混合现实平台,完成了全球首例由该设备辅助的白内障手术,并已成功实施数百例。该应用提供了3D立体显微视野、实时数据叠加和远程专家协作功能,标志着空间计算技术正式进入手术室。主推文同时指出,国内沈阳和北大医院此前已有使用AVP进行手术的案例,因此此次并非严格意义上的“全球首例”。
Apple Vision Pro Used in World-First Cataract Surgery https://www.macrumors.com/2026/04/28/apple-vision-pro-cataract-sur...