xAI宣布,Grok订阅用户现可一键通过OAuth登录,将服务直接集成到开源个人代理Hermes Agent中使用,无需额外付费或复杂配置。xAI并未自建代理生态,而是将Grok作为“即插即用”大脑嵌入成熟的Hermes Agent中,此举大幅降低了开发与推广成本。集成后,Hermes Agent在原有长期记忆、多平台连接等功能基础上,增强了Grok的推理、生图、生视频与语音能力,用户体验显著提升。这意味着用户仅凭现有订阅,即可获得一个完全可控的本地AI代理。xAI表示更多开源代理集成即将到来,Grok正从X平台聊天工具转型为更广泛的AI生态通用大脑。
You can now use your @grok subscription inside @NousResearch Hermes Agent. http://x.ai/news/grok-hermes
伦敦警方在抗议活动中首次部署实时人脸识别技术。该系统通过监控车顶摄像头扫描人群,并与警方监视名单进行比对,名单包含因严重暴力犯罪被通缉或曾伤害警察的人员。一旦匹配,警方将进行拦截和身份核查。此举旨在预防犯罪,但引发了对隐私权、集会自由及技术准确性的担忧。批评者指出该技术存在偏见和误认风险,并可能对公众权利产生“寒蝉效应”。
本期早报通过三个深度案例,展现AI应用正从单点任务转向系统集成。Google工程师将AI作为“思考伙伴”,将复杂决策时间从数天压缩至数小时;医疗AI公司Abridge通过处理海量就诊,为医生每周节省10-20小时,并构建临床智能层;OpenAI则复盘了Imagen 2.0的巨大生成量及未来路线图。核心趋势在于利用AI重构工作流程与系统设计。
本期早报探讨了AI从编程助理向“思考伙伴”的演进。案例包括Google工程师在多语言客户端开发中与AI协同理解与设计系统;Abridge公司利用海量问诊数据构建医疗智能理解层;以及OpenAI复盘Imagen 2.0在文本渲染和多语言支持上的进展,并展望“创意智能体”的未来。这些实践展示了AI正以更深入、融合的方式参与专业协作。
论文提出EVA01框架,扩展多模态大语言模型以原生方式整合3D网格理解、生成和上下文感知编辑。它基于Mixture-of-Transformers架构,将模型解耦为预训练的理解专家和结构镜像的生成专家,通过共享的全局自注意力与硬模态路由进行耦合。结果显示,EVA01在文本到3D生成保真度上达到最先进水平,并解锁了具有身份保持能力的鲁棒长上下文多轮几何编辑功能,这是无状态重建流程无法实现的。
Google发布了Gemini 3.5模型,该模型专注于提升执行复杂任务的能力。其核心特点是支持“代理式工作流”,即能够像助手一样自主规划并执行一系列多步骤、复杂的操作,旨在将先进的语言理解与实际问题解决能力相结合。
关联讨论 19 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Rohan Paul (@rohanpaul_ai)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)Image-blaster是一款开源工具,能够仅凭单张输入图片自动生成对应的3D场景、特效和网格模型。该项目已在GitHub平台发布,获得了开发者社区的关注,在Hacker News上收获了102个投票。这一技术简化了3D内容创作流程,有望降低相关领域的制作门槛。
Grok 现已支持直接连接至开源、自我提升的个人代理 Hermes Agent。所有 Grok 订阅用户均可立即使用 Grok 4.3 进行高级推理与对话,享受 Grok Text-to-Speech 提供的自然语音响应,以及通过 Grok Imagine 在代理内生成图像和视频。用户只需通过 Grok OAuth 登录即可启用,无需复杂设置。这标志着向真正个性化、持续在线、能记忆用户并代表用户行事的 AI 代理迈出了关键一步。更多开源代理集成即将推出。
Stop turning prompting into magic spells (and yes, this includes random slash commands with obscure outcomes). Let this ...
2026年戛纳电影节Kling AI大会将汇聚三位世界级电影制作人,展示他们运用Kling AI技术创作的标杆作品。中国动画导演魏立将分享AI生成动画《Born of the Tide》;Jon Erwin将解析为Amazon Prime制作的剧集《House of David》;Eekjun Yang则将介绍院线电影《RAPHAEL》的创作过程。三位讲者将深入探讨Kling AI在电影制作中的幕后应用,共同探索AI为影视创作带来的新可能性。活动定于2026年5月18日15:30至17:30,在戛纳影节宫主舞台举行。
光帆科技发布行业首款搭载摄像头的AI耳机——光帆全感AI耳机。该产品单耳重11克,采用开放式耳挂设计,双侧配备200万像素双目摄像头,可实时识别环境并提供主动智能服务。其耳机盒集成指纹解锁与4G eSIM模块,支持脱离手机独立使用。续航方面,耳机通话可达9小时,音乐播放15小时,配合充电盒总续航至高90小时。产品提供多种套装,耳机本体首发价1799元起。
1/5 MiniCPM-V 4.6 (1.3B) is now live 🚀🚀 High-res visual processing, optimized for consumer-grade and mobile hardware. ...
研究团队推出了首个系统评估前沿模型视频潜文本理解能力的基准ViMU。该基准旨在测试视频理解模型能否超越对物体、动作等表层内容的识别,推断视频中蕴含的隐喻、讽刺与社会意义。ViMU要求模型基于多模态证据进行推理,回答开放式与选择题,且所有问题均设计为无提示类型,确保模型在作答前无法获取关键证据。这标志着视频理解评估从字面感知迈向深层语义解读的重要一步。
在鸿蒙智行智界V9发布会上,华为展示了乾崑896线双光路图像级激光雷达。这是全球量产线束规格最高的激光雷达,单帧点云量是128线雷达的7倍,使车辆感知迈入“图像级”。它能精准识别路面石块等异形障碍物并主动避让,对14厘米高度物体的远距离识别、低反射率目标识别距离提升190%,异型障碍物识别距离提升77%。余承东坦言该雷达成本高昂,曾考虑仅用摄像头实现类似功能,但发现摄像头能力有限,无法及早识别小物体。华为的目标是超越人类驾驶员的安全水平。
在鸿蒙智行首款旗舰 MPV 智界 V9 发布会上,华为余承东宣布该车型将首批升级华为乾崑智驾 ADS 5。智界 V9 全系标配 38 个传感器,可智能判断道路场景并自主操作,支持 60 EFLOPS 云端 AI 算力、WEWA 2.0 架构和 6 重冗余系统。自 4 月 22 日预售以来,车辆小定量已突破 40000 台,共推出四款配置,价格区间为 39.98 万至 52.98 万元。
中国信通院近日启动首轮人工智能终端智能化分级标准符合性检测,测试时间为2026年5月13日至6月30日。该测试依据新发布的《人工智能终端智能化分级》国家标准,该标准将终端智能化水平划分为L1至L4四个等级,智能化依次提高。测试覆盖手机、电脑、电视、眼镜、汽车座舱、音箱和耳机等七类产品。标准采用“2+N”架构,由小米、华为等企业参与起草,旨在推动人工智能终端生态安全有序发展。
针对文本到图像模型在复杂语义生成上的局限,研究团队提出了闭环视觉推理框架。该框架通过自动数据引擎进行步骤级视觉验证,合成可靠推理轨迹,并采用代理提示强化学习解决长上下文优化不稳定问题。为降低迭代去噪导致的高延迟,框架引入Δ-Space权重合并方法,将每步推理成本降至仅需4次噪声估计前向传播。实验表明,该框架在多项基准测试中超越现有开源模型,性能接近专有商业模型,实现了复杂视觉生成的通用测试时扩展能力。
SANA-WM是一个26亿参数的高效开源世界模型,专为生成一分钟720p高清视频设计,具备精确的6自由度相机控制能力。其核心创新包括:混合线性注意力机制实现高效长上下文建模;双分支相机控制确保轨迹精准跟随;两阶段生成流程提升视频质量与一致性;以及从公开视频中提取精确位姿的鲁棒标注流程。该模型仅使用约21.3万个视频片段训练,在单GPU上即可生成60秒视频,其量化蒸馏版本在RTX 5090上仅需34秒完成去噪。在基准测试中,其动作跟随准确性优于先前开源基线,并在保持相当画质的同时,吞吐量提升36倍。
本研究探讨纯合成数据对平面设计分层解构的效用。基于前沿的CLD框架,团队构建了合成数据集SynLayers,并利用视觉语言模型生成文本监督与自动化推断输入。关键发现包括:纯合成数据训练效果优于PrismLayersPro等非可扩展方案;性能随数据规模增加持续提升,在约5万样本处增益趋于饱和;合成数据能平衡控制图层数量分布,避免现实数据中的图层失衡问题。这项以数据为中心的研究为可扩展的分层设计编辑系统提供了实践基础。
DiffusionOPD 提出一种基于在线策略蒸馏的扩散模型多任务训练范式,以解决多任务强化学习中的交叉干扰与失衡问题。该方法先独立训练任务专属教师模型,再沿学生自身采样轨迹将能力蒸馏至统一学生,从而解耦单任务探索与多任务整合。理论层面,研究将 OPD 框架从离散标记推广至连续状态马尔可夫过程,推导出闭式逐步 KL 目标,通过均值匹配统一随机 SDE 与确定性 ODE 优化,其解析梯度相比传统 PPO 类策略梯度具有更低方差与更好泛化性。实验表明,DiffusionOPD 在训练效率和最终性能上均超越多奖励强化学习与级联强化学习基线,并在全部评估基准上取得领先结果。
研究团队推出MEMLENS基准,系统评估大型视觉语言模型在多模态多轮对话中的长时记忆能力。该基准包含789个问题,涵盖五大记忆能力,并在四种标准上下文长度下测试。评估27个长上下文模型和7个记忆增强代理后发现:长上下文模型在短对话中表现良好但随对话延长性能下降;记忆代理长度稳定性好但损失视觉保真度。多轮推理任务将多数系统性能限制在30%以下,表明需结合长上下文注意力与结构化多模态检索的混合架构。
蚂蚁集团推出 ARGenSeg-8B,一种将多模态理解与像素级感知统一的自回归图像生成分割框架。它利用多模态大语言模型(MLLM)输出视觉 token,并通过通用 VQ-VAE 解码为分割掩码,使分割完全依赖 MLLM 的像素级理解。采用 next-scale-prediction 策略并行生成视觉 token,降低推理延迟。在多个分割数据集上超越此前最优方法,推理速度显著提升。论文已被 NeurIPS 2025 接收,模型已发布在 HuggingFace。
针对视频生成中人体运动真实性评估的难题,本研究提出PhyMotion,一种结构化细粒度运动奖励机制。该方法从生成视频中恢复3D人体网格,并将其置于MuJoCo物理模拟器中,从运动学合理性、接触平衡一致性与动态可行性三个维度进行综合评估。实验表明,PhyMotion与人类判断的相关性优于现有奖励模型。在基于强化学习的后训练中,优化该奖励能显著提升自回归与双向视频生成器的运动真实感,在自动指标与人类盲测中均取得改进(Elo增益+68),且各评估维度提供互补信号,训练开销适度。
针对视觉推理中直接生成图像计算成本高、代理方法存在切换延迟、潜在方法泛化性差等问题,本研究提出ATLAS框架。其核心是引入“功能词元”这一离散单元,它同时作为智能体操作和潜在视觉推理单元。每个词元对应一个内化的视觉操作,无需视觉监督,仍作为标准词元存在于词表中,可通过下一词元预测生成。这避免了生成冗余的中间视觉内容,且与标准的可扩展SFT和RL训练兼容。为应对RL中功能词元的稀疏性问题,研究引入了潜在锚定GRPO(LA-GRPO)以稳定训练。实验表明,ATLAS在多项挑战性基准测试中取得了优异性能,并保持了良好的可解释性。
针对多模态智能体长期记忆评估中视觉证据留存与使用不足的问题,本文提出MemEye评估框架。该框架从视觉证据粒度(场景级至像素级)与证据使用方式(单一至演化合成)两个维度构建评估体系,并建立了涵盖8个生活场景任务的新基准。通过对13种记忆方法与4种视觉语言模型的评估,研究发现现有架构在保留细粒度视觉细节及对状态变化进行时序推理方面仍存在困难。结果表明,有效的长期多模态记忆依赖于证据路由、时序跟踪与细节提取能力。
Excited to have contributed to the spatial intelligence capabilities of SenseNova-U1, surpassing strong baselines such a...
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》牛津大学博士后Kevin Lin开源视频翻译工具Violin,旨在打破高质量视频内容的语言壁垒。该工具将语音识别、大语言模型翻译与语音合成整合为自动化流水线,支持多语言互译与个性化翻译风格调整,例如将学术报告转化为儿童易懂版本。用户还能直接与视频内容进行对话并获取相关答案。Violin提供Web应用、命令行界面和Agent Skill三种使用方式,所有功能基于MIT协议开源,由Together Compute提供技术支持,适用于内容创作、教育及多模态智能体开发等领域。
🌟Introducing🎻Violin - an Open-source Video Translation Skill. 📹Video is the dominant medium on the internet, yet most...
兄弟们,这个可以啊!赶紧装起来! Kevin Lin,牛津大学博士后,前Meta和Microsoft研究员,刚刚把Violin这个开源视频翻译Skill放了出来。 视频已经是互联网绝对主流的内容形式。 可绝大多数高质量讲座、演讲、播客却被单...
本周,AI音乐生成应用Suno与聚合电台应用Zeno Radio正式登陆苹果CarPlay平台。Suno允许用户通过文字提示生成完整音乐,其CarPlay界面分为“资料库”和“探索”两部分,便于播放个人作品及社区内容。Zeno Radio则聚合了传统电台与播客,涵盖音乐、新闻、儿童节目等多种分类。这两款新应用标志着CarPlay第三方生态持续扩展,为驾驶场景提供了更丰富的音频创作与收听选择。
开发者@neilsonks开源了一套专为Claude Code设计的完整3D生成工具包。该工具能将输入的单张图片自动拆解,生成包含环境、网格、物理、灯光和音频的全套可交互3D场景。其流程首先利用图像与3D生成技术提取物体并生成高质量网格,随后移除物体以得到静态背景,最后为整个场景添加物理模拟、实时灯光和环境音效。配套查看器支持对生成物体的点击编辑与一键导出。此工具将以往需数天的2D转3D工作流程缩短至几分钟,适用于游戏开发、世界构建和产品可视化等项目。项目已在GitHub开源。
open-sourcing a 3D gen toolkit for Claude Code input image → environment, meshes, physics, lighting, & audio
VideoSeeker是一种新范式,旨在解决大型视觉语言模型在视频实例级时空定位上精度不足、依赖文本提示且感知与推理割裂的问题。该范式通过视觉提示和代理推理,使模型能按需主动感知并检索相关视频片段。研究构建了四阶段全自动数据合成流水线以生成高质量数据,并通过冷启动监督和强化学习内化工具调用与主动感知能力。实验显示,模型在实例级视频理解任务上平均性能提升13.7%,超越GPT-4o等闭源模型,且在通用视频基准上展现可迁移性,相关数据集与代码将开源。
针对多模态大语言模型在多人视频中难以识别交互关系的问题,研究团队提出了GRASP数据集。该数据集包含29万个问答对,源自4.6万个视频共749小时,建立了涵盖注视、指示性手势及其组合推理的16类分类体系。同时发布配套评估基准GRASP-Bench,并提出社会情境奖励学习信号,利用这些细粒度事件引导模型推理交互参与者。实验表明,该方法提升了GRASP-Bench性能,并保持了在相关视频问答基准上的零样本能力。
针对CLIP在微调时易因分布偏移而鲁棒性下降的问题,本文提出SAE-FT方法。该方法仅作用于视觉表征,利用稀疏自编码器识别预训练模型中的语义特征,并在微调中约束这些特征的变化,从而在防止灾难性遗忘的同时提升可解释性。实验表明,SAE-FT计算高效且透明,在ImageNet及相关分布偏移基准上达到或超越现有最优性能,代码已公开。
DepthVLM框架通过为大型语言模型主干附加轻量级深度头,并采用统一视觉-文本监督范式与两阶段训练策略,将单一视觉语言模型转化为原生稠密几何预测器。该模型能在单次前向传播中生成全分辨率深度图与语言输出,推理效率更高。实验表明,其性能显著超越现有视觉语言模型和领先的纯视觉模型,并提升了复杂三维空间推理能力。所有代码与模型检查点将公开。
研究针对需要点级精度的几何图形界面控制任务,揭示了现有视觉-语言模型存在的语义-执行鸿沟:通用模型动作类型准确率高但任务成功率极低。为此,我们构建了包含4,906个问题、超过22.4万次像素级动作的PAGE Bench基准,并提出了拓扑感知智能体PAGER。该智能体通过依赖结构规划与像素级执行分解任务,结合像素接地监督调优与精度对齐强化学习,将任务成功率提升至最强通用基线的4.1倍,步骤成功率从GUI专用智能体的不足9%提高到62%以上,实现了点精确GUI控制的新突破。
针对Marble等生成式系统创建的3D世界存在静态、不可编辑且交互性有限的问题,本文提出WorldAct框架。该框架利用多模态智能体引导场景分解,识别可操作对象,并重建几何对齐的物体级网格以支持交互,同时通过3D修复技术还原背景环境。转化后的场景在保持全局连贯性的前提下,支持物体级编辑、碰撞感知操控以及具身任务执行。实验证明,WorldAct能比原始生成场景实现更丰富的交互,为构建可编辑、可交互的3D世界模型提供了可行方案。