Google 向美国 AI Ultra 订阅用户开放实验性原型 Project Genie 试用,支持实时创建并探索无限生成的交互式世界。
Google 向美国 AI Ultra 订阅用户开放实验性原型 Project Genie 试用,支持实时创建并探索无限生成的交互式世界。
Qwen Studio 提供聊天机器人、图像与视频理解、图像生成、文档处理、网络搜索、工具调用及 Artifacts 等全面功能,支持多模态 AI 应用。
蚂蚁百灵推出Ling Studio,这是用户与百灵大模型交互的全新官方Web平台。目前可体验Ling-1T(高速首字响应与快速回答)、Ring-1T(高效稳定的复杂推理)以及Ming-flash-omni-Preview(图片识别与音频识别等多模态能力)。平台支持灵活配置模型参数与系统提示词、原生工具调用(含联网搜索)及API即用即接。即将上线文件对话、图片生成和一系列模型Skills。
SGLang推出EPD(Encoder-Prefill-Decode)分离架构,将视觉编码与语言处理解耦,支持编码器独立横向扩展以替代低效的张量并行。该方案兼容现有PD分离,支持ZMQ、Mooncake等传输后端及视觉嵌入缓存。测试表明,在图像密集型场景(如多图输入)且1 QPS负载下,首token生成时间(TTFT)较同机部署降低约6–8倍;但在图像轻量场景中,网络开销可能导致性能下降。
Qwen Studio 发布新一代多模态检索模型 Qwen3-VL-Embedding 与 Qwen3-VL-Reranker,平台集成聊天机器人、图像视频理解、图像生成、文档处理、联网搜索、工具调用及 Artifacts 等全栈多模态能力。
xAI 完成 200 亿美元 E 轮融资,投资方包括 NVIDIA、Cisco 等。目前拥有约 6 亿月活用户,运营超 100 万 H100 GPU 等效算力的 Colossus 超算,正在训练 Grok 5。资金将用于基础设施建设和 AI 产品开发。
Qwen Studio 集成聊天机器人、图像与视频理解、图像生成、文档处理、联网搜索、工具调用及 artifacts 等全栈 AI 功能。
Qwen3-TTS 新增语音克隆与语音设计能力,Qwen Studio 集成聊天机器人、图像视频理解、图像生成、文档处理、联网搜索、工具调用及 artifacts 等综合服务。
小红书AIGC团队在NeurIPS2025上提出全新布局可控生成框架InstanceAssemble,专用于复杂场景下的Layout-to-Image任务。该框架通过从布局条件中引导图像生成,实现了对多对象位置、大小及空间关系的精确控制,解决了现有模型在密集布局下对象漏生、重叠等难题。
Mistral AI 发布 Mistral OCR 3,这是一款专为从各类文档中高保真提取文本与嵌入图像而设计的 OCR 模型。在表单、扫描文档、复杂表格和手写体处理等基准测试中,该模型的整体胜率达到 74%,超越了 Mistral OCR 2 以及企业级与 AI 原生 OCR 方案。作为一款体积更小的模型,其定价为行业领先的每 1,000 页 2 美元(通过 Batch API 可享 50% 折扣,即 1 美元)。开发者可通过 API(模型标识符 mistral-ocr-2512)进行集成,其输出为包含 HTML 表格标签的 markdown 格式,便于下游系统理解文档结构。该模型适用于高量级企业文档处理流水线。
Ming-Flash-Omni 在视觉、语音、图像、文本四种模态上同时实现了领先的理解与生成能力,覆盖音视图文全模态场景。该模型无需拆分为独立子模型即可统一处理多模态输入与输出,标志着全模态 AI 的重要进展。
智谱开源GLM-4.6V系列多模态模型,含106B-A12B基础版与9B轻量版Flash,支持128k tokens上下文。首次原生集成Function Call能力,支持图像、截图直接作为工具参数,并能理解工具返回的视觉内容。具备复杂文档理解、视觉网页搜索、前端代码生成及交互式编辑能力,适用于构建多模态Agent。已上架GitHub、Hugging Face及魔搭社区。
CrossVid 是首个系统性涵盖 4 个维度、10 个任务的跨视频推理测评基准,用于评估多模态大模型在跨视频场景下的综合推理能力,已被 AAAI 2026 收录。
Mistral AI 发布下一代 Mistral 3 系列模型。旗舰 Mistral Large 3 是稀疏 MoE 模型,拥有 41B 活跃参数和 675B 总参数,在 LMArena 开源非推理模型榜单排名第二。系列包含三款密集模型(Ministral 14B/8B/3B),在各自类别中提供最佳性价比,其中 14B 推理变体在 AIME '25 上达到 85% 准确率。所有模型以 Apache 2.0 协议开源,具备图像理解能力,现已在 Mistral AI Studio、Amazon Bedrock、Hugging Face 等多个平台上线。
Google DeepMind 发布 Nano Banana Pro 图像生成模型,基于 Gemini 3 Pro 构建,支持多语言可读文本直接渲染,可结合 Google Search 实时信息生成信息图表。该模型支持 14 张图像融合,保持 5 个人物形象一致性,输出 4K 分辨率。现已集成至 Gemini 应用、Google Ads、Google AI Studio 等产品,所有生成内容均嵌入 SynthID 水印以确保透明度。
关联讨论 2 条Google DeepMind:Blog(RSS)Ethan Mollick:One Useful Thing(RSS)AudioMCQ数据集包含57.1万个音频多选题,专为大型音频语言模型的后训练设计。该数据集创新性地提供了双重思维链注释,并引入音频贡献过滤机制以提升数据质量。在DCASE 2025挑战赛中,基于此数据集训练的模型获得第一名,展现了其在音频理解与推理任务上的显著效果。该资源已公开,旨在推动音频语言模型的研究与发展。
新论文分析了 AI 系统组织视觉世界的方式与人类的重大差异,旨在通过理解这些差异,让 AI 学会像人类一样观察和理解视觉信息。
北爱尔兰教育管理局 C2k initiative 完成六个月试点,发现将 Gemini 等生成式 AI 工具融入教学,可为参与教师平均每周节省 10 小时工作时间。
谷歌 MedGemma 系列新增多模态模型,专为健康 AI 开发设计。作为该系列迄今最强的开源版本,新模型具备更强大的医疗场景理解能力,为开发者提供先进的医疗人工智能技术支持,助力构建更精准的健康医疗解决方案。
Gemini 2.5 Flash-Lite 结束预览,达到生产级可用状态。这款高性价比模型在轻量体积下提供高质量输出,支持 100 万 token 超长上下文和多模态能力。
关联讨论 1 条Google DeepMind:Blog(RSS)与导演 Darren Aronofsky、Eliza McNitt 及超 200 人团队合作,采用 Veo AI 视频生成与真人实景拍摄结合的方式制作电影《ANCESTRA》。
AlphaEarth Foundations 新AI模型整合PB级地球观测数据,生成统一数据表示,以前所未有的精度革新全球测绘与监测。
利用人工智能技术,科学家能够从海量宇宙数据中提取深层信息,突破传统观测局限,揭示隐藏规律,从而以前所未有的深度感知和理解宇宙,持续拓展人类认知边界。
美团开源全模态模型LongCat-Flash-Omni,采用5600亿参数MoE架构(激活270亿),支持128K上下文与实时音视频交互。模型基于快捷连接MoE与零计算专家,配备轻量级编解码器及分块特征交错机制,通过课程式渐进训练提升效率。在OmniBench、WorldSense等基准测试中超越Qwen3-Omni与Gemini-2.5-Pro,在文档理解、语音识别及GUI控制等任务中达到领先水平。
关联讨论 1 条美团 LongCat:HuggingFace 新模型Gemini 应用原生图像编辑功能迎来重大升级,用户现可通过更新后的工具以全新方式变换图像,获得更强大的创意编辑能力。
Gemini 2.5 Computer Use 模型基于 Gemini 2.5 Pro 构建,专门用于驱动能与用户界面交互的 agent,现已通过 API 以预览版形式提供。
美团 LongCat 团队发布 LongCat-Flash-Omni 开源项目,致力于通过开源和开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 技术应用门槛,打破技术壁垒,但目前尚未披露具体模型架构、性能基准、参数规模及应用场景等详细技术规格。
Seed3D 1.0 基础模型支持从单张图像直接生成具备准确几何、对齐纹理与真实物理材质的 3D 资产,可直接集成至物理引擎用于机器人操作与仿真训练,无需复杂配置。该系统解决了现有世界仿真器在内容多样性与物理准确性之间的权衡难题,并支持将物体组合为连贯场景,实现可扩展的仿真就绪内容创作。
Anthropic可解释性团队分享了多项研究进展。研究发现,从Haiku 3.5到Sonnet 4.5等模型中存在跨模态视觉特征,能够识别ASCII艺术和SVG代码中编码的语义概念,如眼睛、嘴巴、狗、猫等。这些特征依赖于视觉描绘的上下文环境,例如,SVG圆形元素只有在位于激活“面部”特征的更大结构中时才会激活“眼睛”特征。在生成过程中对部分特征进行引导,可以对应修改文本艺术的语义,例如将ASCII表情从皱眉转为微笑,或为SVG面部添加皱纹。研究还发现模型存在类似“人脸幻想”的倾向,会将形状解释为动物绘图的组成部分。这些特征对人类手绘的SVG同样有效。
inclusionAI 发布了 Ming-UniVision 的代码。该项目提出了一种创新的连续统一分词器,旨在联合处理图像理解与生成任务。该技术试图将视觉识别和图像合成整合进一个统一的框架内,通过连续化的表示来桥接两类不同性质的视觉任务,有望提升多模态模型的效率和协同能力。此次代码开源意味着相关方法将可供社区研究、复现与应用。
Suno 推出全球首款生成式音频工作站 Suno Studio,将 AI 生成能力融入音乐创作核心。支持即时生成无限 stem 变体(人声、鼓点、合成器等),提供多轨时间线编辑、BPM 和音高调整等专业控制,可导出音频与 MIDI 文件至其他 DAW。兼容从业余爱好者到专业作曲家的各类创作者,桌面版现已向 Premier 用户开放。
小米开源其首个原生端到端语音大模型 Xiaomi-MiMo-Audio,被定位为语音开源领域的“LLaMA 时刻”,对标此前语音闭源领域的“GPT-3 时刻”。该模型具体参数、评测分数及开源协议尚未披露。
OpenRouter 现已上线 Gemini 2.5 Flash Image Preview,这是该平台首个图像生成模型,支持 SOTA 图像生成、角色一致性以及多图像输出。
UI-Venus 是一款本地 UI 智能体,仅以屏幕截图作为输入,即可执行精确的图形用户界面元素定位与高效导航。该代理无需依赖系统底层代码或辅助功能接口,直接通过视觉信息理解界面结构,实现自动化操作。其核心能力在于对任意应用或网页中的按钮、菜单、文本框等元素进行准确识别与交互,提升了跨平台任务执行的通用性与可靠性。