Introducing Image-to-Replica. Any face that can exist as a single image, whether it's a brand mascot that has lived in a...
Introducing Image-to-Replica. Any face that can exist as a single image, whether it's a brand mascot that has lived in a...
Higgsfield的Supercomputer平台允许用户以自然语言描述任务,系统从61种生产技能中自动选取,并将子任务路由至GPT-4o、Claude Opus、Gemini及多种图像视频模型并行处理。它能生成长达60分钟的视频,原生集成Obsidian构建持久化知识库,并通过27个平台连接器连接各类工具。平台运行于云端GPU基础设施,支持品牌标识锁定和后台任务调度。其技能在使用中通过版本追踪和评估测试不断自我改进,用户可通过浏览器或Telegram直接访问,无需本地设置。
How Supercomputer works: 1. Access via browser or Telegram. No local setup 2. Describe your task 3. Orchestrates LLMs an...
在联发科天玑开发者大会 MDDC 2026 上,OPPO 发布了行业首个端侧 AIGC 光影处理引擎。该引擎基于自研 DiT 架构生成式大模型,用户无需联网即可在手机本地优化暗光、逆光等复杂光线下的照片,还原自然光影,效果接近云端模型水平。大会同期还展示了多项端侧 AI 技术:AI 翻译出词速率达每秒 300 个词元;端侧全模态 Omni 模型支持视频、语音、文本多模态输入与实时交互;手机超级助手“小布 Claw”能基于本地数据提供个性化 AI 内容生成与建议,确保数据隐私安全。
微软升级了 Edge 浏览器的 Copilot AI 助手,新增多项功能。Copilot 现在能一次性读取所有已打开的浏览器标签页内容,并基于这些信息进行产品比较或文章总结。此次更新还引入了长期记忆能力、将标签页内容转换为 AI 播客的工具,以及问答测验模式。这些增强功能旨在提升用户在多任务浏览和信息处理时的效率,并拓展了在 LinkedIn 等平台的内容创作辅助场景。
看到科技发布Meeting Pro 2视频会议一体机,定价9899元。该设备支持4K分辨率与HDR影像,具备360度实时人像采集功能,并利用AI人脸与语音算法追踪发言者。其内置智能导播可根据参会人数自动切换视窗,最多支持8人同屏显示。设备集成8麦克风阵列与AI降噪技术,能生成20多种语言的实时字幕、会议纪要和内容回溯。产品兼容全球主流会议平台。
PixVerse V6 is starting to blur the line between AI generation and real cinematography. Native Audio. Directional Cinema...
SenseNova U1 在 ComfyUI 上的实际测试获得了 Bijan Bowany 的强烈认可,证明了其处理复杂任务的能力。测试显示,模型能清晰呈现复杂概念的视觉内容,在交织文本图像中保持逻辑连贯和自我反思,并能轻松应对如人类变直升机等疯狂提示。视频演示和试用资源可通过 Hugging Face 和 GitHub 获取。
Get笔记的价值被严重低估,其会员年费仅99元,性价比极高。核心功能在于用户只需提供链接,即可解读来自小宇宙、B站、抖音、YouTube、TikTok等多个平台的内容,并能获取原始转写文本。此外,它还通过提供Skill和Cli工具,允许用户将Codex分析功能接入自己的网站,实现了服务的深度集成与扩展。
研究团队与百余名专业创作者历时一年,构建了一个视频描述生成流程,其核心在于扩展精细化的人类-AI协同监督,而非单纯扩大模型规模。该研究(入选CVPR 2026亮点论文)指出,当前主流视频生成模型在理解和生成具有电影感的专业运镜(如希区柯克式滑动变焦、精确的焦点转移或荷兰角镜头)时存在明显不足,常产出通用或焦点错误的画面。这项工作揭示了一条通过提升监督质量来增强模型“电影语言”表达能力的新路径。
本研究系统性地探索了长上下文视觉语言模型的持续预训练方法,成功将7B参数模型的上下文长度从32K扩展至128K。关键发现包括:长文档视觉问答数据优于OCR转录;均衡的序列长度分布数据比仅聚焦目标长度的数据更有效;检索能力是主要瓶颈,需搭配检索密集型数据。基于此,团队以仅50亿token的预算,从Qwen2.5-VL-7B训练出MMProLong模型。该模型将长文档视觉问答得分提升7.1%,并在未经额外训练的情况下,在256K和512K的上下文长度上保持强劲性能,同时能泛化应用于网页检索、长文本压缩及长视频理解等任务。
前段时间参与了 Doubao-Seed-2.0-lite 0428 内测。 这个版本升级,增加了音频理解,能同时支持图片、视频、音频、文本四种输入,成为豆包大模型家族首款全模态理解模型。 除了全模态理解,据说 Agent、Coding、GU...
针对现有图像编辑模型评估基准任务难度有限、评价方法粗糙,以及奖励模型基准脱离实际强化学习场景的问题,研究团队推出了统一评估套件Edit-Compass与EditReward-Compass。Edit-Compass包含2,388个精细标注实例,涵盖世界知识推理、视觉推理等六大渐进式挑战性任务,并采用基于结构化推理的细粒度多维评估框架。EditReward-Compass则提供2,251个偏好对,以模拟强化学习优化中的真实奖励建模场景。该套件旨在为两类模型提供更可靠、贴近实用的评估标准。
针对一致性蒸馏模型在测试时增加采样步数性能下降的问题,研究团队提出首个基于流图的任意步数视频扩散蒸馏框架AnyFlow。该框架将蒸馏目标从端点一致性映射转向任意时间间隔的流图转换学习,从而优化整个ODE采样轨迹。其核心创新“流图反向模拟”技术,通过将完整的欧拉展开分解为捷径流图转换,实现了高效的在线策略蒸馏,有效减少了测试时的离散化误差和因果生成中的曝光偏差。实验表明,在13亿至140亿参数规模的双向与因果架构上,AnyFlow在少步采样中性能匹配或超越基于一致性的模型,并能随采样步数增加持续提升效果。
Google Gemini 3.2 Pro 和Flash 已经蓄势待发了。 每次都是这几个Case 真的烦了,能不能整点炸裂一点的Case。 据说是就近期要发布, 但是看着样子也是赶鸭子上架,应该放鸽子啥的也是常有的事儿。
🚨 FIRST GEMINI 3.2 PRO OUTPUTS From yours truly. I'll share more today, I can test your prompts too if you guys want. I...
小米技术正式发布并开源一步式潜空间语言视觉推理框架Xiaomi OneVL。该框架在业内率先通过潜空间推理,将视觉语言动作模型与世界模型统一到同一套框架中。在推理、规划等多个主流基准上,该模型全面刷新了潜在推理方法的性能上限,在精度上超越显式思维链方案,在速度上对齐“仅答案”预测的潜空间思维链方案。小米已全面开源其模型权重及训练、推理代码。
Anthropic发布了Claude计算机操作官方指南,核心解决了截图发送至API时因静默压缩导致的点击坐标偏移问题。关键在于客户端预先将截图缩放至1280x720等标准分辨率,并将指令置于截图前发送以提高精度。模型方面,Sonnet 4.6机械点击精度更高,Opus 4.7则支持更高分辨率。安全上必须在隔离环境中运行并设置高风险操作人工确认。Browser Use适合结构化Web任务,Computer Use则适用于桌面应用等非结构化场景。
Video2GUI框架能从5亿互联网视频元数据中自动提取GUI交互轨迹,构建了包含1200万条轨迹的WildGUI数据集,覆盖1500多个应用和网站。在Qwen2.5-VL和Mimo-VL上预训练后,GUI定位和行动基准测试性能提升5-20%,达到或超越现有最优水平。该数据集与框架将开源以支持GUI智能体研究。
本研究针对图像编辑中抽象指令(如情绪)评估的空白,首次系统定义了抽象图像编辑的分类体系,并提出Entity-Rubrics评估框架。该框架将抽象编辑拆解为独立的实体级评估,其结果与人类判断高度一致。同时,发布了首个跨场景的抽象图像编辑基准AbstractEdit。对11个模型的测试显示,现有架构难以平衡编辑意图与原图保持,常出现编辑不足或过度编辑。研究表明,结合先进LLM文本编码器与迭代思考机制是提升性能的关键。该范式未来可拓展为奖励模型,助力模型理解抽象指令,推动更自然的多模态交互。
针对SAM2在音频模态整合上的不足,本文提出AuralSAM2。其核心模块AuralFuser融合音频与视觉特征,生成稀疏和密集提示,并基于SAM2的特征金字塔在视觉层间传播音频线索,以强化跨模态影响。同时,引入音频引导对比损失函数,进一步对齐音频与视觉特征。实验表明,该方法在公开基准上显著提升了准确率,同时将对SAM2可提示分割交互效率的影响降至最低。
针对机器人轨迹数据在构建物理常识上的局限性,PhysBrain 1.0 提出了一种互补方案。该研究构建了一个数据引擎,从大规模人类第一视角视频中提取结构化的物理常识,用于训练视觉语言模型。随后,通过一种保持能力且语言敏感的适配设计,将这些物理先验知识迁移到视觉语言-动作策略中。实验表明,在多项具身控制基准测试上,PhysBrain 1.0 均达到当前最优水平,尤其在跨域任务中展现出强大性能。
现有图像编辑模型在处理抽象、多步骤指令时存在不足。本研究提出一种长周期编辑框架,包含生成原子分解的规划器与选择工具、区域执行步骤的调度器。视觉语言评判器根据指令遵循度与视觉质量提供奖励信号,调度器通过最大化奖励进行训练,成功轨迹则用于优化规划器。该方法通过紧密耦合规划与奖励驱动执行,生成了比单步或规则基线更连贯可靠的编辑结果。
针对自回归图像生成中文本与人脸保真度不足的核心瓶颈,InsightTok提出了一种改进的离散视觉标记化框架。该框架通过引入局部化、内容感知的感知损失,专门强化文本可读性与面部特征保真度。在保持16k小型码本和16倍下采样率的紧凑设计下,InsightTok在文本和面部重建质量上显著超越先前方法,且未损害通用图像重建性能。其优势在自回归模型InsightAR中得到延续,生成的图像文本更清晰、面部细节更精准。这项工作凸显了在标记化训练中引入针对性监督对推进离散图像生成的重要性。
MMSkills框架旨在为视觉智能体提供可复用的多模态程序性知识。它将每个技能封装为包含文本程序、运行时状态卡片和多视角关键帧的紧凑技能包。该框架通过轨迹到技能的生成器,将公开交互轨迹转化为技能,过程包括工作流分组、程序归纳与视觉定位。使用时,采用分支加载架构:在临时分支中检视选定的状态卡片与关键帧,将其与实时环境对齐并提炼为结构化指导,供主智能体决策。在GUI和游戏基准测试中,该框架能持续提升不同规模多模态智能体的性能,证明外部多模态知识能有效补充模型内部先验。
Runway正式发布Runway Agent,这是一个能够通过单次对话将创意想法转化为完整、可发布视频的智能创作伙伴。用户只需用自然语言描述需求,Agent便能根据上下文和目标,自主完成概念提案、故事节奏设计、视觉方向规划,并最终生成包含多场景、旁白、对话和音乐的成片。它旨在为品牌团队、营销人员、创意机构和电影制作人快速生产各类视频内容,如品牌宣传、社交媒体素材和短片,将传统需要数天或数周的审核制作周期压缩至几分钟。该产品现已上线,新免费计划用户可获得1500积分用于制作首个视频。
测试Ethan_Yang_AI团队开发的Knowly,其解读YouTube视频和arXiv论文的效果令人惊艳。尽管存在免费额度略少、向量处理稍慢的不足,但其产品交互和解读效果均不逊色于NotebookLM。其配套的Chrome插件在用户数尚少时即被谷歌列入精选,彰显了产品实力。
Luma 正式开放其 Uni-1.1 图像模型的 API 服务。该模型在 Arena 排行榜上位列第三,紧随 Google 和 OpenAI 之后。API 定价为每张 2048 像素分辨率图像 0.04 美元起,与行业领先者价格相当。其功能包括网络搜索、内置推理能力,并支持最多 9 张参考图像输入。
谷歌在Android活动中为Gboard输入法推出由Gemini驱动的AI语音听写功能Rambler。它能自动删除“呃”“啊”等填充词,并理解即时修正。其核心亮点是支持“代码切换”,可在同一句话中无缝识别多种语言且保持上下文连贯。谷歌强调,该功能不存储语音录音,结合设备端与云端处理以保障隐私。Rambler初期将于夏季在三星Galaxy和谷歌Pixel手机上推出,未来将扩展至更多Android设备。
针对统一多模态模型中理解与生成能力的协调问题,研究团队提出UniPath框架。该框架的核心是识别并利用“协调路径多样性”,即针对不同输入动态选择最优推理路径,而非采用固定模式。路径选项包括直接回答、文本推理、视觉思维构建及假设探索。UniPath通过角色对齐轨迹训练路径条件执行器,并引入轻量级规划器实现输入依赖的路径选择。实验表明,该方法在性能上超越了固定协调策略,同时提供了可解释的中间行为。代码已开源。
小米汽车开始向第一代SU7推送OTA 1.16大版本更新,旨在对齐新款车型的功能体验。本次更新重点升级了辅助驾驶与智能座舱:辅助驾驶新增语音控车、收费站通行辅助、侧向避让辅助及针对异形障碍物的前向防碰撞辅助等功能;特别增加了疲劳分心下的应急停车辅助,触发后将自动减速停车并禁用辅助驾驶30分钟。智能座舱方面,超级小爱新增“小爱陪伴”和“AI智控”功能。此外,还引入了车主管理模式。多数新功能仅支持SU7 Pro和Max车型。
小米开源了Xiaomi OneVL一步式潜空间语言视觉推理框架。该模型在业内首次将VLA(视觉语言动作模型)与世界模型这两条技术路线统一于同一框架,通过潜空间推理同时提升推理速度与精度,在多项基准测试中达到先进水平。此外,它还能为决策提供语言和视觉双维度的可解释性。小米已全面开源其模型权重、训练及推理代码。
据韩媒报道,三星或将于2026年7月22日在伦敦的Galaxy Unpacked发布会上推出其首款智能眼镜。该产品旨在对标Meta Ray-Ban,研发已超一年,将推出两个版本:一款配备类似XREAL的内置显示屏,另一款则无AR显示屏。两者均采用墨镜式设计,集成摄像头、扬声器和麦克风,并有望成为首款出厂预装Android XR系统的智能眼镜。更多细节与售价预计在临近发布时公布。
谷歌DeepMind发布了名为Magic Pointer的AI光标交互功能,旨在重构桌面端安卓系统的鼠标使用体验。其核心理念是让AI无缝融入用户当前工作流,通过识别光标位置和语音指令理解上下文,无需复制内容或输入完整提示词。该功能遵循四项原则:保持工作连续性、支持“边指边说”交互、理解“这个/那个”等自然指代、将屏幕像素转化为可操作实体。目前,谷歌已在AI Studio上线演示,并正将相关能力逐步集成至Chrome浏览器的Gemini中。
SenseNova-U1 技术报告详尽披露了构建前沿原生多模态模型的方法,核心包括原生多模态统一建模、无损视觉接口、联合自回归与像素空间流匹配训练、以及原生混合专家骨干网络。报告提供了六阶段训练方案、强化学习后训练与蒸馏的完整实践指南。其开源版本 SenseNova-U1-A3B-MoT 基于混合专家架构,仅激活30亿参数,实现了高效快速的性能。相关资源已全面开放,涵盖技术报告、模型权重、代码和演示平台。
据韩媒报道,三星计划于7月22日在伦敦举办Galaxy Unpacked活动。届时除了发布Galaxy Z Fold8和Galaxy Z Flip8,还将推出新款宽折叠手机Galaxy Z Fold8 Wide,旨在细分市场并对标预计九月发布的苹果iPhone Ultra。同时,三星可能推出其首款智能眼镜Galaxy Glasses。该产品与Gentle Monster合作设计,搭载Android XR系统并集成Gemini AI,强调通过摄像头和语音进行实时交互。三星希望将其打造为AI生态核心设备,并与SmartThings智能家居平台及汽车服务联动,拓展连接场景。