True story. > Say Paella like a British woman
True story. > Say Paella like a British woman
商汤SenseTime发布SenseNova U1,一个原生理解和生成文本与图像的统一模型。该模型已开源,用户可自行运行。被@gurru_tech称赞“令人印象深刻”。提供在线演示平台SenseNova Studio、HuggingFace模型、GitHub代码及Discord社区。
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)neolab 推出 Nex-N2-Pro,基于 Qwen3.5-397B-A17B,总参数 397B 的 MoE 推理模型,支持 262K 上下文与多模态(VLM),性能达到 GPT-5.5 和 Claude Opus 4.7 级别。模型可自动调节推理深度,减少 30-50% 思考 token 且无性能折损,在 Terminal Bench 2.1、GDPVal、SWE-Verified 上取得 SOTA。擅长智能体编码、深度搜索和工具使用,兼容 Claude Code、Cursor 等工具。硅基流动已提供 T+0 支持,前两周免费使用。
商汤 SenseTime 推出 SenseNova U1 开源多模态模型,实现原生理解与生成文本和图像,可一键将提示词转化为专业信息图。该模型被开发者 @gurru_tech 评价为“非常令人印象深刻”。项目已开源,提供 SenseNova Studio 在线试用,并公开 HuggingFace 模型集合、GitHub 源码仓库及 Discord 社区入口。
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》李飞飞(Fei-Fei Li)指出,大语言模型(LLM)仅学习文本模式,能描述房间但无法理解椅子移动、玻璃破碎、阳光变化或机器人推杯子等物理变化。世界模型则试图学习视觉背后隐藏的结构,能预测相机未捕捉的视角、建模物体行为、支持真实或虚拟环境中行动的智能体。理解新视角、预测推动结果、决定下一步行动,都需要一个共同的内在模型,涵盖空间、因果与后果。
http://x.com/i/article/2062244283940544512
Many research labs only consider inference efficiency after the fact. Step 3.7 Flash is a 198B sparse MoE VLM designed b...
同一事件,精选展示《在 NVIDIA GPU 上运行面向企业级就绪的多模态 AI--Step 3.7 Flash》全灵(SEELE AI)推出自研MoT(Mixture-of-Transformers)多模态大模型,围绕游戏世界训练,模型内部同步学习“看懂世界”与“生成世界”。数据层构建3000万+独家空间语义数据对,标注空间关系、物体属性和交互规则。百度百舸AI计算平台提供训练调度、GPU管理、故障诊断及推理加速等底层支撑。全灵已上线“都市射击”“CS重制版”“城市冒险”等可玩Demo,玩家可在AI生成的城市中移动、跳跃、瞄准、换弹,与NPC互动;内测中的3A Open-World由4D World Model驱动,目标实现真正可玩的开放世界。
HeyGen + Google DeepMind in LA on June 11 A night of demos, conversations, and people building with agents, multimodal a...
Rohan Paul 介绍 Anuma,一个私人 AI 工作空间,核心功能是跨模型统一记忆——用户在 ChatGPT、Claude、Gemini、Grok、DeepSeek、Kimi 等模型间切换时,上下文、偏好、目标和历史工作自动跟随。额外功能包括设备端加密记忆、默认隐私模式、无日志无训练、支持完整记忆导出、Council Mode(多模型并列回复对比)、单聊内模型切换,以及通过 iMessage 或 SMS 的 AI 文本能力。Paul 分享研究论文分析用例:上传多篇论文,利用多模态和多模型并行工作流,对比不同模型对同一主题的阅读、总结和关联能力,避免重复解释上下文。
Grok Imagine Video 1.5 is now ranked #1 on the Video Arena Leaderboard. 🥇
StepFun's Step 3.7 Flash sits on the Intelligence vs Output Speed Pareto frontier, scoring 43 on the Artificial Analysis...
谷歌 AI Edge Gallery 现已登陆 macOS,Mac 用户可在本地离线运行 Gemma AI 模型。该应用提供 5 个谷歌指令调优模型,其中 Gemma-4-12B-it 可在 16GB 内存 Mac 上处理文本、视觉和音频,具备代码能力,实现设备端智能体和多模态分析。AI Edge Gallery 完全离线、私密性高且速度快。同时,谷歌推出免费听写应用 Google AI Edge Eloquent,支持语音转文字、去除口误和轻度润色,全部在设备端完成,并支持不同写作风格和自定义词汇。
Iliad (Troy) trailer made by Grok Imagine 1.5, which was just released
StepFun 开源 Step 3.7 Flash(Apache 2.0),总参数 198B、激活 11B(MoE),上下文 256K。在 Artificial Analysis 智能指数上得分 42.6,较 Step 3.5 Flash 提升 4 分,输出速度超 400 tokens/s,通过 Multi-Token Prediction(3 个 token)加速。新增 1.8B 视觉编码器支持原生多模态,MMMU-Pro 得分 75.3%。代理能力提升:GDPval-AA Elo 从 1070 升至 1298,TerminalBench Hard 达 35.6%,AA-LCR 63.7%。知识/幻觉仍弱:AA-Omniscience 准确率 25.4%,幻觉率 84.4%。提供 BF16、FP8、NVFP4 精度权重以降低部署成本。
MapAgent是一种工业级智能体架构,用于生成符合规范的车道级地图。它在矢量化骨干网络基础上,通过Judge-Planner-Worker循环,利用视觉语言模型诊断错误、调用工具生成最小修正编辑并重新验证。系统仅在骨干网络置信度低的瓦片区域选择性触发,保持高吞吐量。MapAgent已集成至百度地图,支撑全国360多个城市的车道级地图生成,整体生产自动化率超95%。
M^3Eval是首个系统评估多模态模型记忆能力的基准框架,基于认知心理学设计任务以隔离不同记忆维度。对代表性多模态模型的实验发现:模型难以在并行视频流中保持分离表示,干扰模式与人类记忆差异显著,空间域的记忆溯源比时间域更可靠,符号记忆能力有限。代码与数据集已公开。
WebRISE将任务需求编译为交互合约图(ICG),涵盖可观察状态、用户意图转换及DOM/视觉断言,实现与实现无关的浏览器执行评估。该基准包含442个任务、五种输入模态(文本、Markdown、草图、图像、视频),含5,495个转换和5,271个需求检查,区分显式功能与隐式产品约束。评估14个MLLM显示,最强模型仅达65.6%转换有效性和66.3%需求覆盖率;视觉质量不反映行为(Qwen3.6-35B-A3B在Markdown上视觉评分80.8但转换仅15.5)。视频提供最强交互信号(隐式覆盖率比文本高10.6个百分点);缺陷注入表明基于ICG的评分检测状态错误速率是checkpoint式评估的2-16倍。
中国美术学院与火山引擎联合开发「中国画创作平台」,通过6个月数据治理,将约3000张国画梳理为7维度结构化标签数据集,一次性标注通过率约95%。采用模型后训练技术,将国画鉴赏逻辑、创作理论注入豆包大模型和Seedream图像创作模型,封装为低门槛智能体。用户通过基础生成、修改调整、氛围添加三步操作,几分钟即可完成国画创作。智能体支持文生图、图生图,可集成至小程序、交互大屏,应用于教学、文创开发等场景。
Audio-Interaction是一种统一流式音频模型,通过始终在线的感知-决策-回应循环实时聆听声音、环境与指令并即时反应。它基于SoundFlow框架实现端到端数据、训练与部署,包含流式原生数据构建、理解感知训练和异步低延迟推理。配套StreamAudio-2M数据集含260万样本,覆盖7项基本能力、28个子任务;Proactive-Sound-Bench用于评估主动音频干预。在8个基准测试中,Audio-Interaction保持主流音频任务竞争力,同时解锁实时ASR、流式音频指令跟随和主动帮助等离线LALM无法实现的能力。
Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to y...
关联讨论 6 条X:Demis Hassabis (@demishassabis)X:Sundar Pichai (@sundarpichai)X:Google AI for Developers (@googleaidevs)Google Developers Blog(RSS)Google DeepMind:Blog(RSS)Hacker News 热门(buzzing.cc 中文翻译)现有开放权重视觉-语言模型(VLM)在多图像、多轮智能体场景中,视觉编码器是无状态的,每张图像独立编码,无法访问先前视觉上下文,导致任务关键的小变化被弱化。本文提出 Stateful Visual Encoder,将每个视觉表示基于先前视觉特征进行条件化。通过监督微调,配备该编码器的 VLM 在跨图像空间聚合、多对象视觉差异和轨迹行为克隆等任务上取得一致改进,且适用于不同分辨率、语言模型规模和 VLM 主干。在纵向放射学、精细图像比较和遥感等真实任务中,有状态编码器持续提升通用 VLM 基线,在特定领域匹配或超越专用模型。
We're partnering with @xai to bring Grok to @Cloudflare AI Gateway. • Grok LLMs, audio, image, and video models are now ...
同一事件,精选展示《Grok模型登陆Cloudflare AI Gateway》xAI 通过 API 发布了图像转视频模型 grok-imagine-video-1.5-preview(Grok Imagine 1.5 预览版)。该模型能将单张静态图片转为流畅的电影感视频,用户提供起始帧和描述运动的提示词后,模型可生成包含相机移动、氛围和物理效果的动画,并保持对源图像的忠实。支持生成 720p 片段,可使用自然语言指令控制镜头、节奏和音效,并支持逐帧拼接成长场景。模型目前通过 xAI API 提供预览使用。
OpenMOSS团队发布MOSS-Audio,一个融合语音(Speech)、环境音(Sound)、音乐(Music)的开源音频-语言模型,已冲上Hugging Face Trending第一。该模型从架构上打通三大音频域,可同时转录对话、识别背景音、理解音乐情绪并生成文本或执行下游任务。模型完全开源可商用,代码和权重已在Hugging Face及GitHub公布,开发者可本地运行。
MOSS-Audio just hit #1 on @huggingface Trending. Speech. Sound. Music. One open audio-language model. Try it: Hugging Fa...
Google 发布 Gemma 4 12B 开源模型,采用无编码器 Unified 架构,可直接处理文本、图像、音频、视频,无需独立编码器。16GB 显存可运行,4-bit 量化后低至 8GB。支持 256K token 上下文、140+ 语言,内置 Thinking 模式和 Function Calling。
针对视觉语言模型(VLM)难以处理连续值输出(如事件时间边界定位、机器人控制动作生成)的问题,研究者提出DRIFT框架。该框架通过基础预测器提供粗略估计,并结合基于流匹配的生成式精化模块迭代优化预测结果。残差公式将生成建模从学习全局输出分布简化为在强先验附近拟合局部残差分布,显著降低优化难度。在视觉定位和机器人控制等任务上,DRIFT在多种架构(MLLM、VLA、WAM)中均持续优于强回归与生成基线方法。
对五种LVR变体的测试发现,余弦对齐度与准确率呈强负相关(r=-0.94)。研究提出诊断工具PRISM(线性探针+破坏性测试)发现:有监督潜token大部分被绕过,破坏后准确率变化最多4%;答案在潜token下游可解码、在潜token处不可解码,解码能力差距可预测各变体对潜变量的依赖。辅助目标通过共享参数重塑语言模型,而非通过名义上优化的潜变量。
研究团队提出 BloomBench(Almieyar 基准系列的一部分),首个基于人类认知的英-阿双语多模态基准。以布鲁姆分类学为框架,系统评估视觉语言模型在记忆、理解、应用、分析、评价、创造六个认知层级的表现。采用半自动化流程构建和分层混合质量保证协议,确保可扩展性与文化包容性。对现有 SOTA 模型的测试揭示:语义理解能力强,但事实回忆和创造性合成严重不足;阿拉伯语与英语之间存在显著性能差距。基准框架与数据集已开源。
图像到视频扩散模型常生成违反物理定律的运动。研究发现,同一模型的两步生成比50步生成物理一致性更好。频谱分析表明,去噪过程中相位退化约18%,幅度保持稳定。基于此,提出无需训练的PhaseLock框架,从仅两步推理提取运动先验,通过Latent Delta Guidance施加到高保真生成。PhaseLock有效缓解相位退化,在多种模型上平均提升物理一致性6.2点,同时保持视觉保真度,额外开销仅1.06倍时间和1.02倍内存,并减少对外部昂贵引导方法的依赖(约5倍时间)。
视觉-语言模型(VLM)在空间推理中受限于观测图像和文本链式推理。Astra框架将Astra-VL(基于强化学习的VLM策略)与Astra-WM(基于Bagel的世界模拟器)耦合,后者从上下文图像和自然语言相机运动生成新视角观测。Astra-WM通过视角一致性训练提升跨视角一致性。RL阶段采用包含世界模拟器的两阶段课程学习,训练模型仅在想象观测优于直接回答时调用模拟器。实验显示,Astra-WM使Gemini-3-Flash在MMSI-Bench上从45.1提升至49.5;Astra-VL将Qwen3-VL在MMSI-Bench上从29.8提升至38.8,在MindCube上从36.8提升至42.7。
WorldBench是一个用于评估多模态大语言模型(MLLM)的推理基准,通过构建涵盖多个领域(如生物)的数千个视觉概念分类体系,从搜索引擎和现有数据集中广泛收集图片,并采用结构化试错方法手动设计前沿MLLM难以回答的挑战性问题。在15个MLLM上的评估显示,最强模型准确率仅达64.0%,部分模型性能略高于随机水平,揭示了现有模型在视觉理解上的不足。该基准在视觉多样性上优于现有任何多样化基准。
Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to y...
Gemma 4 12B 是 Google DeepMind 推出的开源模型,原生支持处理文本、图像和音频,仅需 16GB RAM 即可在笔记本上运行。在基准测试中几乎追平两倍参数规模的 26B 模型,采用 Apache 2.0 许可证,可用于商业用途。
关联讨论 6 条X:Demis Hassabis (@demishassabis)X:Sundar Pichai (@sundarpichai)X:Google AI for Developers (@googleaidevs)Google Developers Blog(RSS)Google DeepMind:Blog(RSS)Hacker News 热门(buzzing.cc 中文翻译)Introducing Ideogram 4.0: the best open image model in the world. Think it. Make it. Own it. Download the weights, fine-...
Gemma 4 12B 采用新的编码方案与 token 预测,实现了超越自身参数规模的性能表现。该模型专为在 16GB RAM 的笔记本电脑上本地运行而设计。
Google 开源 Gemma 4 12B(密集参数,Apache 2.0 许可),采用全新无编码器架构:移除独立的视觉(550M 参数、27 层 Transformer)和音频(300M 参数、12 层 Conformer)编码器。视觉改为 35M 嵌入层(约缩小 15 倍),音频以 40ms 帧直接投影到大语言模型。模型在 16GB VRAM 笔记本上即可运行智能体推理、视觉和音频任务,性能接近 26B 参数模型。共享权重支持一次 LoRA 调优覆盖视觉、音频和文本。
Today we're introducing Gemma 4 12B - our latest open model that brings advanced agentic reasoning, vision and audio dir...