AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 906 条
全部一手资讯X论文
标签「多模态」清除
Artificial Analysis@ArtificialAnlys · 5月1日64

Alibaba's Qwen3.6 27B is the new open weights leader under 150B parameters scoring 46 on the Artificial Analysis Intelligence Index, but uses ~3.7x the output tokens and costs ~21x more than Gemma 4 31B (39) to run the full Intelligence Index @Alibaba_Qwen has released two open weights models in the Qwen3.6 family: Qwen3.6 27B (Dense, 46 on the Intelligence Index) and Qwen3.6 35B A3B (MoE, 43). The MoE variant has 36B total parameters but only activates 3B per forward pass. Both are Apache 2.0 licensed, support 262K context, include native multimodal input, and use the unified thinking/non-thinking hybrid architecture. Unlike Qwen3.5, Alibaba has not released larger Qwen3.6 models as open weights - Qwen3.6 Plus and Qwen3.6 Max Preview remain proprietary, so the Qwen3.6 open weights family is currently all under 50B models. All scores below are for reasoning mode. The Intelligence Index is our synthesis metric incorporating 10 evaluations covering agentic tasks, coding, and scientific reasoning. Key takeaways: ➤ Qwen3.6 27B is the most intelligent open weights model under 150B parameters. At 46 on the Intelligence Index, Qwen3.6 27B is ahead of Qwen3.6 35B A3B (43), Qwen3.5 27B (42), and Gemma 4 31B (39). It is also ahead of larger open weights models including NVIDIA Nemotron 3 Super 120B A12B (Reasoning, 36), Qwen3.5 122B A10B (42) and gpt-oss-120b (high, 33). In native BF16 precision, the 27B takes ~56GB to store the weights, fitting on a single H100, and in 4-bit quantization the weights fit on consumer hardware with 16GB+ of RAM ➤ Qwen3.6 35B A3B is the most intelligent open weights model with ~3B active parameters, 6 points ahead of Qwen3.5 35B A3B (37) and 13 points ahead of GLM-4.7-Flash (30). Other ~3B active peers include Gemma 4 26B A4B (31), Qwen3 Coder Next (80B total, 28), and NVIDIA Nemotron Cascade 2 30B A3B (28) ➤ AA-Omniscience improvement is driven entirely by abstention rather than accuracy. Qwen3.6 27B's hallucination rate falls from 80% to 48% versus Qwen3.5 27B, while accuracy is roughly flat - consistent with our finding that AA-Omniscience accuracy typically correlates with total parameter count and Qwen3.6 27B retains the same 27B parameter count as its predecessor. The 35B A3B shows the same pattern whereby hallucination drops from 84% to 50% while accuracy remains equivalent ➤ Token usage is up across both models versus Qwen3.5 and significantly higher than Gemma 4 31B. Qwen3.6 27B used ~144M output tokens to run the Intelligence Index (~1.5x Qwen3.5 27B at 98M, ~3.7x Gemma 4 31B at 39M). Qwen3.6 35B A3B used ~143M (~1.4x Qwen3.5 35B A3B at 100M, ~3.7x Gemma 4 31B) ➤ The 27B got materially more expensive while the 35B A3B is roughly flat versus predecessor. Per-token pricing on Alibaba Cloud moved differently, with the 27B going from $0.30/$2.40 to $0.60/$3.60 while the 35B A3B (Reasoning) remains nearly flat at $0.248/$1.485 (vs $0.25/$2.00 for Qwen3.5 35B A3B). Qwen3.6 27B costs ~$659 to run the Intelligence Index, ~2.2x Qwen3.5 27B (~$299) and ~21x Gemma 4 31B (~$31 at median third-party pricing of $0.14/$0.40 per 1M input/output tokens). Qwen3.6 35B A3B costs ~$280, roughly tied with Qwen3.5 35B A3B (~$302) and ~9x Gemma 4 31B ➤ Qwen3.6 27B is competitive with leading models on agentic real-world work tasks despite its size. At 1414 Elo on GDPval-AA, Qwen3.6 27B is ahead of recent open weights peers Qwen3.6 35B A3B (1297), Qwen3.5 27B (1157) and Gemma 4 31B (1115), but trails larger open weights leaders including DeepSeek V4 Pro (Reasoning, Max Effort, 1554) and GLM-5.1 (Reasoning, 1535). It matches DeepSeek V4 Flash (Reasoning, High Effort, 1414) at 284B total parameters, and sits roughly in line with GPT-5.4 mini (xhigh, 1436) and Muse Spark (1421). ➤ Non-reasoning variants remain equivalent versus Qwen3.5. Qwen3.6 27B (Non-reasoning, 37) is effectively tied with Qwen3.5 27B (Non-reasoning, 37); Qwen3.6 35B A3B (Non-reasoning, 32) is equivalent to Qwen3.5 35B A3B (Non-reasoning, 31). The Qwen3.6 generation gains are concentrated in reasoning mode Other information: ➤ Context window: 262K tokens (equivalent to Qwen3.5) ➤ License: Apache 2.0 ➤ Multimodality: Native vision input (text and image), text output ➤ API pricing (Alibaba Cloud): Qwen3.6 27B: $0.60/$3.60, Qwen3.6 35B A3B (Reasoning): $0.248/$1.485 ➤ Availability: Available on Alibaba Cloud first-party API. Qwen3.6 35B A3B is available on several third-party APIs such as @DeepInfra, @parasail_io, @clarifai and @novita_labs

译阿里巴巴开源了Qwen3.6系列两款模型:27B密集模型和35B A3B混合专家模型。其中,Qwen3.6 27B在Artificial Analysis智能指数上得分46,成为150B参数以下最智能的开源模型,领先于Gemma 4 31B等。但其运行完整测试消耗的输出token约为后者的3.7倍,成本高出约21倍。两款模型均采用Apache 2.0许可,支持262K上下文,具备多模态能力。值得注意的是,其幻觉率较前代大幅下降,但准确率基本持平。更大的Plus和Max Preview版本未开源。

Google DeepMind@GoogleDeepMind · 4月30日47

AI co-clinician is our new research initiative to help explore how multimodal agents could better support healthcare workers and patients. 🩺 Here’s a snapshot of our progress 🧵

译AI协同临床医生是我们新的研究计划,旨在探索多模态智能体如何更好地支持医护人员和患者。🩺 以下是我们进展的概览🧵

SenseTime@SenseTime_AI · 4月30日59

𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨𝟭 𝗟𝗶𝘁𝗲 𝗦𝗲𝗿𝗶𝗲𝘀: 𝗦𝗺𝗮𝗹𝗹 𝗦𝗰𝗮𝗹𝗲, 𝗕𝗶𝗴 𝗖𝗮𝗽𝗮𝗯𝗶𝗹𝗶𝘁𝘆 A new generation of natively unified multimodal models, delivering commercial-grade performance at a compact 8B / A3B scale:   • 𝗖𝗼𝗺𝗽𝗹𝗲𝘅 𝗶𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻 with strong semantic integrity and pixel level precision   • 𝗛𝗶𝗴𝗵 𝗹𝗮𝘆𝗼𝘂𝘁 𝗰𝗼𝗻𝘀𝗶𝘀𝘁𝗲𝗻𝗰𝘆 with 𝗮𝗰𝗰𝘂𝗿𝗮𝘁𝗲 𝗮𝗻𝗱 𝗿𝗲𝗹𝗶𝗮𝗯𝗹𝗲 𝘁𝗲𝘅𝘁 𝗿𝗲𝗻𝗱𝗲𝗿𝗶𝗻𝗴   • 𝗜𝗻𝗱𝘂𝘀𝘁𝗿𝘆-𝗳𝗶𝗿𝘀𝘁 𝗰𝗼𝗻𝘁𝗶𝗻𝘂𝗼𝘂𝘀 𝗶𝗺𝗮𝗴𝗲–𝘁𝗲𝘅𝘁 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻, enabling unified reasoning and consistent visual style Now fully open-sourced: 𝗚𝗶𝘁𝗛𝘂𝗯: https://github.com/OpenSenseNova/SenseNova-U1 𝗛𝘂𝗴𝗴𝗶𝗻𝗴 𝗙𝗮𝗰𝗲: https://huggingface.co/collections/sensenova/sensenova-u1 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨1 𝗦𝗸𝗶𝗹𝗹𝘀: https://github.com/OpenSenseNova/SenseNova-Skills 𝗗𝗶𝘀𝗰𝗼𝗿𝗱: https://discord.gg/cxkwXWjp @huggingface @github

译SenseNova U1 Lite Series是新一代原生统一的多模态模型,在紧凑的8B/A3B规模下提供商业级性能。其核心能力包括复杂信息图生成,具备强语义完整性和像素级精度;高布局一致性,实现准确可靠的文本渲染;以及行业首创的连续图像-文本生成,支持统一推理和一致视觉风格。该模型现已完全开源,相关代码和资源可通过GitHub、Hugging Face等平台获取。

向阳乔木@vista8 · 4月30日50

http://x.com/i/article/2049847033758916609 # 又是节假日搞事情!DeepSeek开源视觉大模型,读完论文帮你划重点 昨天体验了网页端的DeepSeek的识图模式,速度超级快,质量也还行。 今天看到DeepSeek公布了论文,果然秉承了优良传统,节假日前搞事情,Respect! Github地址:https://github.com/deepseek-ai/DeepSeek-VL > 论文查看 https://arxiv.org/pdf/2403.05525 AI总结,人工阅读Review配图如下。 ## 一句话总结 DeepSeek-VL是DeepSeek团队开源的视觉语言模型,有1.3B和7B两个版本。 核心目标只有一个:在真实场景里既能看图又能说话,同时不丢失语言能力。它从数据、架构、训练策略三个维度入手,在同等参数规模下做到了开源模型里的顶尖水平。 ## 这篇论文到底在解决什么问题? 2024年初,开源多模态模型和GPT-4V之间有一道明显的鸿沟。 很多开源模型在学术benchmark(基准测试,就是标准化的评分考试)上跑分还行,但一到真实场景就拉胯。 让它看一张网页截图、读一份PDF、识别街拍里的小字,效果就大打折扣。 DeepSeek团队总结了四个核心原因: 第一,预训练不够充分。 很多模型把大量算力花在了指令微调阶段,但真正的通用能力来自大规模预训练。 这就像一个人只刷题不读书,考试可能还行,解决实际问题就不够用了。 第二,训练数据和真实使用场景脱节。 把一堆学术数据集拼在一起做微调,benchmark分数好看,但用户实际用起来体验很差。 第三,图像分辨率太低。 大部分模型只能处理336×336或448×448像素的图片。 现实世界里的OCR(光学字符识别,就是让AI读懂图片里的文字)、小物体识别,这个分辨率根本不够用。 第四,多模态训练会"吃掉"语言能力。 很多模型在加入视觉训练后,语言能力明显下降。 这是一个很棘手的问题,也是这篇论文花了最多篇幅去解决的事情。 ## 数据构建:从真实场景出发 DeepSeek-VL的数据分两大块:预训练数据和监督微调数据。 ## 预训练数据 覆盖面非常广,按类别拆开来看: 图文交错数据(占13.1%) 就是图片和文字混合出现的内容,比如维基百科文章里图文穿插的格式。 用了MMC4、Wikipedia中英文、Wikihow,以及内部的PDF和电子书。 这类数据能让模型学会在上下文里理解多张图片,也就是所谓的"多模态上下文学习"能力。 图像描述数据(占11.1%) 高质量的图文配对数据集,包括Capsfusion、TaiSu(一个1.66亿规模的中文视觉语言数据集)和Detailed Caption。 表格和图表数据(占2.1%) 来自十多个公开数据集,涵盖各种图表、地理题、科学题、UI截图等,让模型学会理解各种结构化视觉信息。 网页代码数据(占0.4%) 这部分很有意思。团队从GitHub上抓取了146万个Jupyter Notebook,提取了其中的图表和对应的生成代码,最终筛选出110万个高质量的图文代码对。 目标是让模型能从图形界面或可视化图表反推出代码。 文档OCR数据(占2.1%) 当时市面上没有大规模的中英文文档OCR数据集,团队自己造了。 两个来源:一是从140万篇arXiv论文里提取图文对;二是从86万本英文电子书和18万本中文电子书里,用HTML渲染工具生成了配对的图片和文本。 场景文字OCR数据(占1.2%) 识别融入环境的文字,比如街道招牌、商品包装。 用了ArT、MLT-17、LSVT、UberText等十个公开数据集。 纯文本数据(占70%) 这个比例是整个训练策略的核心,后面会详细解释。用的是DeepSeek-LLM的2万亿token文本语料。 ## 监督微调数据 微调数据分四类: 内部数据(占10.5%) 这是最有价值的部分。 团队先从网上收集了GPT-4V和Gemini的真实用户测试案例,然后把这些案例整理成一套完整的分类体系,再根据这套分类体系去选图、写提示词,构建出贴近真实使用场景的微调数据。 通用多模态数据(占35.5%) 包括ShareGPT4V、LAION-GPTV、LVIS-Instruct4V等知名开源数据集。 表格图表和网页代码数据(各占4.1%和2.0%) 从预训练数据集里抽取部分用于微调。 纯文本对话数据(占47.9%) 沿用DeepSeek-LLM的文本对话数据,保住语言能力。 ## 那套分类体系长什么样? 这套分类体系是整个数据构建思路的精华,值得单独说说。 团队把多模态模型的真实使用场景分成六大类: 识别类: 全局描述(场景、风格、食物)、局部描述(位置、人物、Logo、计数)、OCR转录(印刷体、手写体)。 转换类: 图片转代码(UI转代码、图表转代码、公式转代码)、图片转文本(生成提示词、文字摘要、图片创作)。 分析类: 数据图表分析、专业图表分析(电路图、流程图、地图、乐谱、平面图)、专业图像分析(传感器图像、医学图像)、百科知识分析(艺术文化、自然环境、衣食住行)。 常识推理类: 关系推理(人际、空间、大小)、功能推理(硬件、软件)、环境推理(具身智能)、异常推理(缺陷检测、事故判断)。 逻辑推理类: 数学推理(代数、平面几何、立体几何)、其他逻辑推理(物理、化学、生物、代码、智力题)。 评估类: 真实性评估、相似度评估、美学评估。 还有多图理解和安全两个额外类别。 这套分类体系同时用于数据构建和效果评估,保证了训练和测试的一致性。 这是"从真实用户需求倒推数据构建"的典型做法,比单纯堆学术数据集高明得多。 ## 模型架构:三个模块协同工作 整个模型由三个模块组成:混合视觉编码器、视觉语言适配器、语言模型。 ## 混合视觉编码器 这是技术上最有意思的部分之一。 传统的视觉语言模型通常只用一个视觉编码器,比如CLIP系列的SigLIP(一种用图文对比训练出来的视觉编码器)。 但SigLIP有两个问题: 一是存在"CLIP盲点对"现象,视觉上明显不同的两张图片,经过SigLIP编码后可能得到非常相似的表示,导致模型分不清楚。 二是分辨率有限,最高只到512×512,处理不了需要精细识别的任务。 DeepSeek-VL用了双编码器混合方案: SigLIP-L 处理低分辨率(384×384)输入,负责提取高层语义特征,擅长理解图片"讲了什么"。 SAM-B 处理高分辨率(1024×1024)输入,负责提取低层细节特征。 SAM是 Meta 开发的"Segment Anything Model"(万物分割模型),其中的ViTDet图像编码器(一种专门为目标检测优化的视觉Transformer)特别擅长捕捉精细的局部信息,比如小字、边缘、纹理。 两个编码器输出的特征经过适配器处理后,最终融合成576个视觉token(可以理解为576个"视觉词")。 这个数字很关键,它在视觉信息量和计算成本之间找到了平衡点,既能支持多轮对话,又不会让推理成本爆炸。 为了验证这个选择,团队做了对比实验,测试了CLIP、SigLIP、SigLIP+DINO、SigLIP+SAM四种组合的训练损失曲线。 结果显示SigLIP+SAM的组合训练损失下降最快、最低,证明引入视觉自监督编码器确实有效。 ## 视觉语言适配器 这是连接视觉编码器和语言模型的桥梁,用的是两层混合MLP(多层感知机,一种基础的神经网络结构)。 具体做法:先用两个独立的单层MLP分别处理高分辨率和低分辨率特征,然后把两个特征拼接在一起,再通过一层MLP映射到语言模型的输入空间。 为什么要用两个独立的MLP而不是共享一个? 团队做了消融实验,对比了几种适配器设计: - 序列拼接(把视觉特征在序列维度上堆叠):效果一般,而且计算量更大 - 嵌入维度拼接(在特征维度上拼接):效果更好 - 共享MLP:特征融合充分,但对不同编码器的特征分布适应性差 - 独立MLP:能精准适应各自编码器的特征分布,但融合不够 - 混合MLP(先独立处理再拼接):综合了两者优点,效果最好 ## 语言模型 基于DeepSeek-LLM构建,架构上和LLaMA高度相似:用了RMSNorm(一种更高效的归一化方法)、SwiGLU激活函数(一种改进的门控线性单元)、旋转位置编码(RoPE,一种让模型理解token位置关系的方法)。 两个版本的基础: - DeepSeek-VL-1.3B 基于 DeepSeek-LLM-1B(用约5000亿文本token训练) - DeepSeek-VL-7B 基于 DeepSeek-LLM-7B(用约2万亿文本token训练) 值得注意的是,团队选的是DeepSeek预训练模型的中间检查点,而不是最终版本,然后继续做多模态预训练。 ## 训练策略:三阶段 + 模态平衡 训练分三个阶段,每个阶段解决不同的问题。 ## 第一阶段:热身视觉语言适配器 冻住视觉编码器和语言模型,只训练适配器。 数据:125万张来自ShareGPT4V的图文描述对 + 250万个文档OCR渲染对。 这个阶段的目标是在视觉和语言的嵌入空间之间建立初步的概念连接,让语言模型能"认识"视觉特征。 团队做了一个重要实验:把第一阶段的数据量从2K步扩展到80K步,然后直接做微调,看效果有没有提升。 结果是扩大数据量没有任何帮助,性能甚至略有下降。 原因很清楚:适配器(两层MLP)的参数量太少,容量有限,学到一定程度就饱和了。 再多的数据也塞不进去。这也说明了为什么必须有第二阶段。 ## 第二阶段:联合视觉语言预训练 这是最关键的阶段,也是论文最核心的贡献之一。 解冻语言模型和适配器,视觉编码器保持冻结,用大规模图文混合数据继续预训练。 团队发现了一个严峻问题:如果只用多模态数据训练,语言能力会断崖式下降。 上图展示了这个现象。 在1B模型上,用100%多模态数据训练时,MMBench(多模态理解测试)分数缓慢上升,但HellaSwag(语言理解测试)和MMLU(多学科知识测试)分数急剧崩塌。 团队分析了两个原因: 一是多模态数据本身比纯文本数据简单得多,分布差异很大,直接用来训练会"稀释"语言知识。 二是视觉模态和语言模态之间存在竞争关系,学多了视觉就会忘记语言,这是一种"灾难性遗忘"。 解决方案是联合语言多模态训练:在训练时同时混入大量纯文本数据。 实验结果非常清晰: - 混入语言数据后,语言能力下降的问题得到了大幅缓解 - 加入语言数据并不会明显损害多模态性能 - 两种模态的性能都和它们在训练数据中的比例强相关 最终选定的比例是语言70%、多模态30%。 这个比例能让模型在保住语言能力的同时,获得足够的多模态预训练效果。 除了混合比例,团队还提出了两个实用技巧: 模态分组训练 直接把语言数据和多模态数据混在同一个batch里,会有效率问题:纯文本处理很快,但要等多模态数据处理完才能更新参数,造成大量等待。 解决方法是把不同模态的数据分开组batch,每个训练步要么全是语言数据,要么全是多模态数据。 这一招让训练效率提升了20%,而且性能完全不受影响。 模态热身策略 训练初期把语言数据比例设为100%,然后逐渐降到目标比例(70%)。 这样可以避免训练初期语言能力的剧烈波动,让模型更平稳地适应多模态数据的加入。 实验证明,这个策略在训练后期也能带来更好的语言和多模态双端性能。 还有一个容易被忽略的工程细节。 团队在1.3B小模型上做实验迭代,再放大到7B。 但小模型有个问题:在标准benchmark上表现波动极大,很难准确反映改进效果。 原因是小模型虽然"知道"正确答案,但没有足够的指令跟随能力把答案"说出来"。 解决方案是双管齐下: 1. 把评估方式从"让模型生成答案"改成"比较各选项的困惑度(PPL,一种衡量模型对某段文本有多困惑的指标,越低越好)" 1. 同时在预训练阶段混入少量指令微调数据,让小模型也能稳定地跟随指令。这样小模型就能给出稳定的评估信号,大大加快了迭代速度。 ## 第三阶段:监督微调 用前面构建的指令微调数据集,训练模型的对话和指令跟随能力,最终得到DeepSeek-VL-Chat。 这个阶段同时训练语言模型、适配器和SigLIP编码器。 SAM-B因为显存限制保持冻结。只对答案和特殊token计算损失,系统提示和用户输入不参与训练。 三个阶段缺一不可:只有第一阶段+第三阶段,平均分57.4;加上第二阶段后提升到62.4。 第一阶段虽然提升有限,但也有意义,去掉它性能会略微下降。 ## 训练基础设施 使用了DeepSeek自研的HAI-LLM分布式训练框架。 DeepSeek-VL-7B用了64个节点(每个节点8块英伟达A100 GPU),训练了5天。 DeepSeek-VL-1.3B用了16个节点,训练了7天。 ## 效果评测:数字说话 ## 多模态benchmark ## 7B模型在开源模型里表现最好: - SeedBench(综合多模态理解):70.4,接近GPT-4V的71.6 - MMBench(多模态综合测试):73.2,超过所有同级开源模型 - OCRBench(OCR专项测试):456分,远超同级模型(LLaVA-1.5 13B只有331分) - POPE(幻觉测试,测模型会不会"看到"不存在的东西):88.1,同级最高 - MathVista(数学视觉推理):36.1,超过所有同级开源模型,但和GPT-4V(47.8)还有差距 - CMMMU(中文多学科多模态理解):37.9,明显优于其他开源模型 1.3B小模型更令人印象深刻:用一半不到的参数(1.3B vs 2.7B),在MMBench上超过了MobileVLM V2 2.7B(64.6 vs 63.2)。 MathVista上甚至达到31.1,和部分7B模型相当。 ## 语言benchmark 这是DeepSeek-VL最值得骄傲的地方之一。 - HellaSwag:68.4(DeepSeek-LLM-7B是68.5),几乎持平 - MMLU:52.4(DeepSeek-LLM-7B是49.4),多模态训练后反而提升了 - AGIEval:27.8(DeepSeek-LLM-7B是19.3),同样提升 - GSM8K(数学):55.0(DeepSeek-LLM-7B是63.0),有所下降 数学能力的下降说明视觉和语言模态之间的竞争关系仍然存在,7B的模型容量在这里成了瓶颈。 团队认为更大的模型可以缓解这个问题。 ## 人工评测 团队构建了100道题,覆盖七个类别,和InternLM-XComposer2-VL、CogVLM-17B、GPT-4V做对比。 结论:DeepSeek-VL-7B在识别、转换、常识推理三个维度接近GPT-4V,整体表现优于其他开源模型。 逻辑推理是所有开源模型的共同短板,和GPT-4V差距最大。 还做了GPT-4V裁判评测:把DeepSeek-VL和其他模型的回答都给GPT-4V看,让它判断哪个更好。 结果DeepSeek-VL在超过60%的情况下被GPT-4V判定为更好,甚至在和GPT-4V自身对比时也获得了相当不错的评价。 真实场景能力展示 论文里展示了大量真实案例,值得逐一看看: 处理逻辑图、网页、公式识别、科学文献、自然图像、具身智能场景的综合展示 识别图片中的细小物体(骑车人在女士手提包的左侧),并给出有条理的解释 理解Python代码截图并逐步解释算法逻辑 看懂儿童编程Scratch流程图并转换成Python代码(对比的开源模型1直接说"我无法处理图片") 1. 分析训练损失曲线图表,找出代码中的bug 识别泰国10泰铢硬币;根据图片创作七言绝句;识别米哈游游戏角色 把真实表格图片转换成Markdown格式 ## 为什么这篇论文重要? 它揭示并量化了一个关键矛盾:多模态能力和语言能力之间存在竞争关系。 70%语言数据这个比例,加上模态热身策略和分组训练,提供了一套可复制的解决方案。 它证明了"从真实场景出发"构建数据的重要性。 用分类体系指导数据收集,比随意拼凑学术数据集有效得多。 混合视觉编码器的思路很实用。 用两个互补的编码器分别处理语义和细节,比单纯堆高分辨率更高效,576个token的压缩方案在信息量和计算成本之间找到了合理平衡。 小模型迭代方法论有很强的工程参考价值。 困惑度评估 + 少量指令数据混入,让1.3B模型也能给出稳定的实验信号,大幅降低了迭代成本。 当然,局限也很清楚。 7B的模型容量限制了数学推理等复杂任务的表现。 论文结尾提到了后续会引入MoE(Mixture of Experts,混合专家模型)技术,这也是后来DeepSeek-VL2的方向。

译DeepSeek团队开源视觉语言模型DeepSeek-VL,包含1.3B和7B两个版本,旨在缩小开源模型与GPT-4V在真实场景中的差距。模型从数据、架构、训练三方面优化:数据构建上,采用从真实用户需求倒推的分类体系,并包含70%纯文本以保持语言能力;架构上创新采用SigLIP与SAM-B的混合视觉编码器,分别处理语义与细节特征;训练采用三阶段策略及模态平衡技术,缓解多模态训练对语言能力的侵蚀。

向阳乔木@vista8 · 4月30日60

今天刚发的DeepSeek-VL论文中最有意思的就是这个结论和配方了。 多模态训练会"吃掉"语言能力 用100%视觉数据训练语言模型,语言benchmark会断崖式崩塌。 70% 纯文本 + 30%多模态数据,是最佳配方。 两种模态存在竞争关系,不是调参能绕过去的。

译DeepSeek-VL论文指出,多模态训练会损害语言模型的语言能力,使用100%视觉数据训练将导致语言benchmark性能断崖式崩塌。研究确定最佳训练配方为70%纯文本数据与30%多模态数据结合,并强调视觉与语言模态之间存在固有竞争关系,这种竞争无法通过参数调整来规避。论文结论突显了平衡多模态数据比例对维持模型语言性能的关键作用。

SenseTime@SenseTime_AI · 4月30日37

We also believe that native unified multimodal intelligence represents a foundational step towards Artificial General Intelligence (#AGI) 🙌

译我们也相信,原生统一多模态智能是迈向通用人工智能(#AGI)的基础性一步 🙌

歸藏(guizang.ai)@op7418 · 4月30日51

DeepSeek 多模态大语言模型的论文《Thinking with Visual Primitives》已经公开 底座是 DeepSeek-V4-Flash,MoE架构,总参数量 284B,激活参数量 13B。 自研 DeepSeek‑ViT 视觉编码模型,14×14 patch,输出后 3×3 空间压缩,再接入 LLM。 模型在回答时不仅进行文字推理,还会同时通过画框、打点等“视觉原语”进行思考。 在极低的 Token 成本下,其效果能和 GPT-5.4、Claude 以及 Gemini 在一些前沿指标上对齐,甚至有的指标能反超。

译该论文介绍了基于DeepSeek-V4-Flash底座的多模态大模型。其核心创新在于模型能同时进行文字推理和“视觉原语”(如画框、打点)思考。该模型以极低的Token成本,在多项前沿指标上达到了与GPT-5.4、Claude、Gemini等模型相当甚至更优的性能。

Alibaba Cloud@alibaba_cloud · 4月30日68

Introducing HappyHorse, the latest breakthrough from Alibaba Cloud. Key Features Demonstrated: - Cinematic 1080p Quality: Crystal clear visuals that breathe life into your ideas. - Native Audio-Visual Sync: Perfect lip-sync and sound alignment generated instantly. - Multi-Shot Consistency: Maintain character identity across complex scenes and camera movements. - Instant Generation: Go from prompt to production in seconds. Try HappyHorse for FREE today: https://int.alibabacloud.com/m/1000412663/

译阿里云推出最新AI视频生成模型HappyHorse。该模型具备多项突破性功能:可生成影院级1080p高清画质;原生实现精准的音画同步,确保口型与声音对齐;在复杂场景和镜头切换中保持多镜头角色一致性;支持从文本提示到视频成片的秒级即时生成。用户现可免费试用。

Alibaba Cloud@alibaba_cloud · 4月30日33

Every great dive begins with a single leap. We're joining forces with @WorldAquatics to bring you #DiveIntoYourWorld — a global creative challenge powered by MuleRun, the AI Super Agent. Use MuleRun to create stunning posters, videos, data reports, or websites. Share your work with #DiveIntoYourWorld and win exclusive co-branded prizes. Apr 30 – May 30. Your world awaits. → https://diveintoyourworld.mule.page/ #AlibabaCloud #CloudComputing #AI #AInnovation #LLM #WorldAquatics

译每一次精彩的潜水都始于纵身一跃。 我们正与@WorldAquatics携手,为您带来#潜入你的世界——一项由AI超级智能体MuleRun驱动的全球创意挑战。 使用MuleRun创作惊艳的海报、视频、数据报告或网站。通过#潜入你的世界分享您的作品,赢取独家联名奖品。 4月30日至5月30日。您的世界正待探索。 → https://diveintoyourworld.mule.page/ #AlibabaCloud #CloudComputing #AI #AInnovation #LLM #WorldAquatics

阿绎 AYi@AYi_AInotes · 4月30日43

AI音乐产品也出来了,儿时的音乐梦想能实现的节奏啊

译作者对当前同质化的SaaS开发感到倦怠,质疑为何“独立开发”总被默认为做软件。他列举了销售Notion模板、壁纸等非软件产品获得可观收入的例子。受此启发,他将自身营销经验应用于音乐赛道,启动实验项目“Milo Ever”。仅用一周时间,他便创作并发布了全新AI音乐专辑《The Small World to Remember》。该专辑包含12首关于童年记忆的歌曲,旨在探索独立开发的更多可能性,并已通过此前发行的AI音乐专辑获得了超过6400美元的收入。

Berryxia.AI@berryxia · 4月30日52

Moonlake 推出 3D Agent! 像专业技术艺术家一样的 AI 来了! • 从单张图片生成带关节、可编辑的 3D 资产 + 大型场景(数百物体) • 支持从零建模(独立部件+关节绑定,无需预设规则) • 重建完整可编辑室内/室外场景 • 原生集成 Blender 实现真实工作流自动化

译Moonlake发布3D Agent,这是一个AI驱动的工具,能像专业技术艺术家一样从单张图片生成带关节、可编辑的3D资产和大型场景(包含数百物体)。它支持从零建模,自动处理独立部件和关节绑定,无需预设规则,并能重建完整可编辑的室内或室外场景。通过原生集成Blender,该工具实现了真实工作流的自动化,简化3D创作过程。

Luma@LumaLabsAI · 4月30日58

Great content deserves a global audience. Upload your video. Set the languages. Luma Agents handle translation, lip sync, and localization across every market from there. No reshoots. No separate production pipelines. Just your content, everywhere it needs to be. Go global → http://lumalabs.ai/app

译优质内容值得拥有全球观众。 上传你的视频。设置语言。Luma Agents 会处理翻译、唇形同步和针对每个市场的本地化工作。无需重新拍摄。无需单独制作流程。只需你的内容,触达所有需要的地方。 走向全球 → http://lumalabs.ai/app

Greg Brockman@gdb · 4月30日40

I’ve been very pleasantly surprised by how useful GPT Image 2 is for app building:

译我对GPT Image 2在应用构建中的实用性感到非常惊喜: [引用 @romainhuet]:GPT-5.5 + GPT-Image-2 is becoming one of the best combos for building apps! @dkundel 分析了它为何如此有效。我们将这些见解融入了Build Web Apps插件中,因此Codex可以为您处理从设计到应用的循环。👌

Rohan Paul@rohanpaul_ai · 4月30日57

Abacus just launched Abacus AI Studio. Brings 100+ AI models, plus image, video, and voice, into 1 dashboard.

译Abacus 刚刚推出了 Abacus AI Studio。 将 100 多种 AI 模型,以及图像、视频和语音功能,整合进一个仪表板。

Google AI Developers@googleaidevs · 4月30日55

Watch this demo from @thorwebdev to see Gemini 3.1 Flash Live in action as a real-time DJ. The model uses function calling (to the Gemini API) to generate custom 30-second clips using Lyria 3️⃣ Start your own studio session in @GoogleAIStudio: http://goo.gle/3PbcCXJ

译观看 @thorwebdev 的这个演示,看看 Gemini 3.1 Flash 如何作为实时 DJ 实际运作。该模型使用函数调用(调用 Gemini API),通过 Lyria 3️⃣ 生成定制的 30 秒片段。 在 @GoogleAIStudio 中开启你自己的工作室会话:http://goo.gle/3PbcCXJ

Google Gemini@GeminiApp · 4月30日38

This event is happening soon! Join the Gemini Discord here: http://discord.gg/gemini

译这场活动即将开始!在此处加入Gemini Discord:http://discord.gg/gemini [引用 @GeminiApp]:准备好用Gemini Canvas释放你的创造力了吗?🪄 不要错过我们下一次的Discord活动,届时Gemini创意技术专家@DavidMaliglowka将现场演示他最新的Canvas和Nano Banana工作流程,帮助你提升自己的创意提示技巧。 🗓️ 4月29日,星期三 ⏰ 太平洋时间上午11:30 📍 http://discord.gg/gemini

TestingCatalog News 🗞@testingcatalog · 4月29日55

DeepSeek released DeepSeek Vision in Beta, a new mode in DeepSeek Chat dedicated to image-understanding tasks.

译DeepSeek 发布了 DeepSeek Vision 测试版,这是 DeepSeek Chat 中专门用于图像理解任务的新模式。

TestingCatalog News 🗞@testingcatalog · 4月29日65

ElevenLabs launched ElevenMusic platform 🔥 ElevenMusic is built on top of ElevenLabs music generation model and is now available on the web and mobile.

译ElevenLabs 推出 ElevenMusic 平台 🔥 ElevenMusic 基于 ElevenLabs 音乐生成模型构建,现已在网页端和移动端上线。

歸藏(guizang.ai)@op7418 · 4月29日54

Deepseek 的多模态模型全量了。 目前可以在网页版的识图模式尝试,看起来是一个单独的多模态模型

向阳乔木@vista8 · 4月29日38

DeepSeek 的识图模式速度好快啊!这是新出的吗? 上传图片,让反推提示词,秒出~

向阳乔木@vista8 · 4月29日29

已经灰度到,用上了,速度快到我震惊! 但我不理解,为什么网页要单独加一个Tab叫“识图模式”。 这样感觉很不自然,希望以后合并都所有的模式里? API调用不知道什么时候能识图,这对开发很重要。

译用户已体验新版AI识图功能,对其处理速度表示震惊。但质疑网页端为何将“识图模式”设为独立标签页,认为这种交互设计不自然,希望未来能整合到所有模式中。同时,用户关注API何时能支持识图功能,强调这对开发者至关重要。引用推文“Now, we see you. 👀”暗示了模型已具备视觉感知能力,是此次功能升级的核心背景。

向阳乔木@vista8 · 4月29日47

DeepSeek 的识图模式速度实在是太快了。 网页复刻还原度相当不错,这下前端开发就更好用了。 DeepSeek牛逼!

meng shao@shao__meng · 4月29日56

这两天在试用商汤刚开源的 SenseNova-U1,印象最深的不是 benchmark 分数,是它的架构方向。 现在的多模态模型大多还是"语言模型 + 视觉编码器 + VAE"拼起来的,视觉信息要先被翻译一道再进 LLM。 U1 用的 NEO-Unify 把翻译层直接拿掉了,语言和视觉跑在同一表征里。 所以它读图、想、画图,是在一次推理里完成的,不是分三步走。

译商汤开源的 SenseNova-U1 模型在架构上实现关键突破。传统多模态模型多采用“语言模型 + 视觉编码器 + VAE”的拼接方式,视觉信息需先翻译再输入 LLM。U1 基于 NEO-Unify 架构,直接移除翻译层,使语言和视觉在同一表征空间中运行。因此,模型能在单次推理中同步完成图像理解、推理和生成等任务,而非分步处理,提升了多模态交互的效率和连贯性。

TestingCatalog News 🗞@testingcatalog · 4月29日54

SenseTime open-sourced SenseNova-U1, a multimodal image generation model built on NEO-Unify! This architecture drops the visual encoder and VAE entirely. It generates images natively as one system that can handle understanding, reasoning, and generation processes. @SenseTime_AI 🤖

译SenseTime开源了基于NEO-Unify架构的多模态图像生成模型SenseNova-U1。该架构完全摒弃了传统视觉编码器和VAE,原生地将理解、推理和生成统一为一个系统。该系列模型(8B和A3B参数)在开源模型中效率领先,以紧凑尺寸提供商业级性能与出色成本效益。其特色功能包括原生生成图文交织内容,适用于制作指南等实用场景;并擅长高密度信息渲染,能生成知识插图、海报、PPT和漫画等丰富结构的布局。模型已在Hugging Face和GitHub等平台开源。

SenseTime@SenseTime_AI · 4月29日56

Thank you @liuziwei7 for co‑creating the future of #multimodal intelligence with us!

译感谢 @liuziwei7 与我们共同创造 #多模态智能 的未来!

小互@xiaohu · 4月29日44

Deepseek 内测多模态能力 现在可以识别图像 对于Agent执行能力提升有很大帮助...

译Deepseek 内测多模态能力 现在可以识别图像 对于Agent执行能力提升有很大帮助... [引用 @PKUCXK]:Now, we see you. 👀

SenseTime@SenseTime_AI · 4月29日65

𝗬𝗲𝘀, 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨1 𝗶𝘀 𝗻𝗼𝘄 𝗮𝘃𝗮𝗶𝗹𝗮𝗯𝗹𝗲 𝗼𝗻 𝗛𝘂𝗴𝗴𝗶𝗻𝗴 𝗙𝗮𝗰𝗲 𝗮𝗻𝗱 𝗚𝗶𝘁𝗛𝘂𝗯! Discover how it enables complex #infographic creation with semantic precision and pixel‑level fidelity. Hugging Face: https://huggingface.co/collections/sensenova/sensenova-u1 GitHub: https://github.com/OpenSenseNova/SenseNova-U1 Discord: https://discord.gg/cxkwXWjp

译是的,SenseNova U1 现已在 Hugging Face 和 GitHub 上发布! 探索它如何以语义精确性和像素级保真度实现复杂的 #信息图 创作。 Hugging Face: https://huggingface.co/collections/sensenova/sensenova-u1 GitHub: https://github.com/OpenSenseNova/SenseNova-U1 Discord: https://discord.gg/cxkwXWjp

Alibaba Cloud@alibaba_cloud · 4月29日64

HappyHorse 1.0 is now live on @fal. Go build.

译HappyHorse 1.0 现已在 @fal 上线。去构建吧。 [引用 @fal]:Happy Horse 1.0 is live on fal, day 0 🐎 🎬 一流的运动质量 🎧 原生1080p,音频同步一步完成 🔗 音视频联合生成,非拼接 🔓 限制更少,商业用途更广 ⚡ 为生产规模而构建

-Zho-@ZHO_ZHO_ZHO · 4月29日16

这才是 AI 的正确用法哈哈哈哈哈哈哈哈哈

宝玉@dotey · 4月29日64

Amira 这套真实模糊摄影背景 + 霓虹线稿插画的提示词模板很好看👍 --- 提示词 --- 想象一张充满质感的照片:背景是[具体的场景],阳光明媚地洒下来,带着柔和的虚化(Bokeh)效果,周围点缀着郁郁葱葱的[自然元素],整个画面显得真实而温暖。 但在画面的主体部分,画风突变,充满创意。一个由霓虹线条(Neon Line-art)勾勒出的[主体人物/物]跃然纸上,它正满心欢喜地拿着一个[某种颜色]的[物体]。这些线条加粗且发着白光,像是在现实世界中闪烁的简笔画。 为了让氛围更加灵动,画面中还散落着各种草图涂鸦(Sketchy Doodles)。你可以看到漂浮的星光、俏皮的液滴,以及随手画上去的装饰元素。这种混合媒介的设计感,让整体风格变得既活泼又天马行空。 最精妙的细节在于:这个霓虹形象脚下那双发光的鞋子,正轻轻触碰着真实的地面。这一刻,现实摄影的厚重感与霓虹素描的生命力完美交汇,营造出一种如梦似幻的视觉体验。 --- 主体:开心的兔子 手持物:粉色气球 背景场景:清晨阳光下的植物园小径 自然元素:野花、绿叶、开花的树

译一条推文分享了一个名为“Neon Sketch”的AI图像生成提示词模板。该模板旨在创造一种独特的混合媒介风格:背景采用带有柔光虚化效果的真实感摄影(如植物园小径),前景主体则由发光的白色霓虹线条勾勒(如手持粉色气球的兔子),并点缀草图涂鸦、星光等手绘元素。其核心创意在于让霓虹形象的发光部分与摄影背景的地面轻微接触,从而营造出梦幻般的虚实交融视觉效果。推文附上了详细的提示词结构示例,并鼓励用户尝试创作和分享成果。

ginobefun@hongming731 · 4月29日38

一款出色的个人 AI 助手应该做到以下几点: 1. 跨平台执行力:能无缝处理邮件、日历、Google Workspace,以及任何已接入 API 或 MCP 的服务。 2. 主动且靠谱:不仅是被动响应,还能稳定执行定时任务、事件触发器和自动跟进事项。 3. 超强记忆力:具备极佳的长期记忆,随着时间的推移能变得越来越“懂你”。 4. 开箱即用的多端体验:横跨网页与移动端,彻底告别繁琐的斜杠指令和手动配置。 5. 多模态无缝切换:在交流过程中,允许你随时在文字、语音、视频和实时通话之间自由切换。 6. 全渠道触达:就像联系真人朋友一样,你可以通过任何第三方通讯软件随时找到它。 7. 有趣的灵魂:自带个性和人设,让聊天沟通变得生动有趣。 但说实话,无论是 OpenClaw、Claude Code 还是 Codex——目前市面上还没有任何一款产品能完美做到以上这一切。

译一款出色的个人AI助手应具备七大核心能力:跨平台无缝执行邮件、日历及各类API/MCP服务;能主动可靠地处理定时任务与自动跟进;拥有优秀的长期记忆以更懂用户;提供无需复杂指令的开箱即用多端体验;支持在文字、语音、视频和实时通话间自由切换;可通过任何第三方通讯软件触达;并具备有趣的个性。然而,目前包括OpenClaw、Claude Code和Codex在内的产品,均未能完全满足所有这些标准。

阿绎 AYi@AYi_AInotes · 4月29日49

说实话,我认为Adobe和Claude的这次合作,真的算不上什么强强联合🤔 恰恰相反,我倒觉得这是Adobe在AI时代,第一次公开的战略投降。 它终于承认自己做不好AI了,所以把自己攒了三十年的工具库,打包成了Claude的后端工具箱🤣 官方演示里全是一键修图,自动改尺寸,套模板出海报这种低复杂度活。 真正靠创意吃饭的人,没有一个为此兴奋的。 看到Clemson足球创意总监Tyson也在吐槽,回复区全是一边倒的认同。 其实大家怕的不是AI,是Adobe又一次把所有功能,都塞进那个难用又死板的Firefly里😅😅😅 说不定未来你可能再也不用打开Photoshop了,你只需要在Claude里说一句话就可以完成修图设计等所有任务🎨 挺感慨的,那个曾经的创意工具霸主,不知不觉就变成了AI调度层里的一个普通插件🥹🥹🥹

译作者认为Adobe与Claude的合作并非强强联合,而是其在AI时代的公开战略投降,承认自身AI能力不足,转而将三十年积累的创意工具库打包成Claude的后端工具箱。官方演示聚焦于低复杂度任务,未能激发创意专业人士兴趣,行业反馈普遍失望。核心担忧在于Adobe可能将功能再次塞入体验不佳的Firefly框架,导致用户未来或仅需通过Claude对话即可完成设计,无需打开专业软件。这标志着Adobe正从创意工具霸主降级为AI工作流中的一个普通调度插件。

ginobefun@hongming731 · 4月29日49

NVIDIA 发布 Nemotron 3 Nano Omni,这是一款面向长上下文的多模态模型,能够处理文本、图像、音频和视频。 它在文档分析、自动语音识别、音视频理解及智能体计算机使用等实际应用中表现出色,并在多项基准测试中展现了领先的准确性和效率。

译NVIDIA发布了多模态模型Nemotron 3 Nano Omni,专为处理长上下文设计,能够同时理解文本、图像、音频和视频。该模型在文档分析、自动语音识别、音视频理解以及智能体计算机使用等实际应用场景中表现优异。在多项基准测试中,Nemotron 3 Nano Omni均展现出领先的准确性和效率。

Berryxia.AI@berryxia · 4月29日65

🚀 OpenBMB 重磅发布!MiniCPM-o 4.5 技术报告来了! 9B 参数多模态模型实现突破性实时交互: • Omni-Flow 框架:原生全双工流式交互(视频+音频+文本毫秒级同步) • Native Full-Duplex + Proactive Interaction(无需VAD,可主动提醒) • 多模态基准接近 Gemini 2.5 Flash(MMBench 87.6 / MathVista 80.1) • 极致 Edge AI:完全离线运行,一键安装 Windows / macOS(12G VRAM 即可) • 100% 本地隐私 + 免费社区 API 真正的实时、自然人机交互时代来了!🔥 技术报告、GitHub、HuggingFace、Web Demo 已开放。

译OpenBMB发布的MiniCPM-o 4.5是一个仅90亿参数的多模态模型,实现了从传统轮询交互到实时、原生全双工流式交互的范式突破。其Omni-Flow框架能在统一时间线上毫秒级同步处理视频、音频和文本流,无需外部语音检测即可同时感知与响应。该模型在多模态基准测试中表现接近Gemini 2.5 Flash,并专为边缘AI设计,支持完全离线运行,提供Windows/macOS一键安装(仅需12G显存),保障100%数据隐私,同时开源权重并提供免费社区API。

Berryxia.AI@berryxia · 4月29日45

Apple Vision Pro “首次”用于真实手术!👀 世界首例白内障手术诞生! 这里我补充一下其实AVP在几年前刚出来那会就已经有国内沈阳那边的医院用于做手术,国内北大好像也有并非首例! 纽约 SightMD 眼科医生 Dr. Eric Rosenberg 使用 Apple Vision Pro + ScopeXR 混合现实平台,于2025年10月完成全球首例,至今已成功实施数百例。 支持3D立体显微视野、实时数据叠加 + 远程专家协作,空间计算正式进入手术室! ```

译纽约眼科医生Eric Rosenberg于2025年10月使用Apple Vision Pro结合ScopeXR混合现实平台,完成了全球首例由该设备辅助的白内障手术,并已成功实施数百例。该应用提供了3D立体显微视野、实时数据叠加和远程专家协作功能,标志着空间计算技术正式进入手术室。主推文同时指出,国内沈阳和北大医院此前已有使用AVP进行手术的案例,因此此次并非严格意义上的“全球首例”。

Berryxia.AI@berryxia · 4月29日60

NVIDIA 重磅发布!🚀 Nemotron 3 Nano Omni 多模态开源模型来了! 🔥 30B 参数 🔥 256K 超长上下文 🔥 最高效开放多模态模型(语言+视觉+语音+视频+音频一体化) 🔥 专为 subagents / Agentic 任务设计 🔥 完全开源(权重 + 数据 + 配方),领跑多项榜单 可通过 NVIDIA NIM API 免费试用!完美 powering 多代理工作流。

译NVIDIA 重磅发布!🚀 Nemotron 3 Nano Omni 多模态开源模型来了! 🔥 30B 参数 🔥 256K 超长上下文 🔥 最高效开放多模态模型(语言+视觉+语音+视频+音频一体化) 🔥 专为 subagents / Agentic 任务设计 🔥 完全开源(权重 + 数据 + 配方),领跑多项榜单 可通过 NVIDIA NIM API 免费试用!完美驱动多代理工作流。

Berryxia.AI@berryxia · 4月29日52

3D 网格生成重磅突破!SATO 来了! • 从点云(Point Clouds)直接生成完整网格 • Strip-based tokenization,实现超干净边缘流与结构 • 原生 UV segmentation 直接 baked into 生成过程 • 单个模型同时支持三角网格 + 四边形网格

译3D网格生成领域出现重大突破,新方法SATO能够直接从点云生成完整的网格模型。其核心技术在于采用了基于条带的标记化方法,从而实现了极其干净、结构清晰的边缘流。该模型在生成过程中原生集成了UV分割,简化了后续纹理贴图流程。此外,SATO的一个显著优势是单个模型能同时支持生成三角网格和四边形网格,提供了更高的灵活性和应用潜力。

ginobefun@hongming731 · 4月29日50

#BestBlogs 早报 2026-04-29 今日主题:老代码、AI 工具与组织治理三件事正在合流。Anthropic 把 Claude Code 当新员工,带进 17 年 70 万行的 Skyline 老仓库;Thoughtworks 让提示词变成版本化、可审查的一等交付物;NVIDIA 把文本、图片、视频、音频压进同一个全模态主干。模型已经能写代码,工程的难题就从生成转向了治理:让它持续记住项目,让它的输出可以被复用,让多模态真正进入生产。

译当前,遗留代码、AI工具与组织治理正加速融合。Anthropic将Claude Code作为“新员工”引入拥有70万行代码的17年老项目;Thoughtworks推动提示词成为可版本化、可审查的一等交付物;NVIDIA致力于构建统一的全模态主干模型。随着AI已具备代码生成能力,工程挑战的核心正从“生成”转向“治理”,关键在于让AI持续理解项目上下文、使其输出可复用,并推动多模态技术落地生产环境。

小互@xiaohu · 4月29日53

Adobe 把8款创意工具的打包接进 Claude 涉及工具:Photoshop、Lightroom、Illustrator、Firefly、Premiere、Express、InDesign、Stock。 现在Claude 可以帮你: 改图调图:调色调光、抠背景或模糊背景、扩图裁剪 做素材:套模板做设计、剪视频、从 Stock 图库买授权 找东西管文件:搜之前存的素材、总结内容、整理资产

译Adobe 将 Photoshop、Lightroom、Illustrator 等八款核心创意工具集成至 Claude。用户现可通过 AI 助手直接调用这些工具,执行调色、抠图、扩图等图像处理,套用模板设计、剪辑视频、获取 Stock 授权素材,以及搜索、总结和整理创意文件。此举旨在简化创意工作流程。

Rohan Paul@rohanpaul_ai · 4月29日40

A San Diego ophthalmologist performed cataract surgery while wearing an Apple Vision Pro. The headset overlays real-time 3D imagery from a digital microscope and patient data directly in his field of view. No more glancing away at separate monitors.

译圣地亚哥一位眼科医生佩戴Apple Vision Pro完成了白内障手术。 该头显将数字显微镜的实时3D影像和患者数据直接叠加在他的视野中。 无需再转头查看单独的显示器。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月1日
00:13
Artificial Analysis@ArtificialAnlys
64
阿里发布Qwen3.6系列开源模型,27B版本成150B参数以下最强开源模型

阿里巴巴开源了Qwen3.6系列两款模型:27B密集模型和35B A3B混合专家模型。其中,Qwen3.6 27B在Artificial Analysis智能指数上得分46,成为150B参数以下最智能的开源模型,领先于Gemma 4 31B等。但其运行完整测试消耗的输出token约为后者的3.7倍,成本高出约21倍。两款模型均采用Apache 2.0许可,支持262K上下文,具备多模态能力。值得注意的是,其幻觉率较前代大幅下降,但准确率基本持平。更大的Plus和Max Preview版本未开源。

多模态开源生态推理评测/基准
4月30日
23:14
Google DeepMind@GoogleDeepMind
47
AI协同临床医生是我们新的研究计划,旨在探索多模态智能体如何更好地支持医护人员和患者。🩺 以下是我们进展的概览🧵
智能体DeepMindGoogle多模态
23:13
SenseTime@SenseTime_AI
59
SenseNova U1 Lite系列:小规模多模态模型开源发布

SenseNova U1 Lite Series是新一代原生统一的多模态模型,在紧凑的8B/A3B规模下提供商业级性能。其核心能力包括复杂信息图生成,具备强语义完整性和像素级精度;高布局一致性,实现准确可靠的文本渲染;以及行业首创的连续图像-文本生成,支持统一推理和一致视觉风格。该模型现已完全开源,相关代码和资源可通过GitHub、Hugging Face等平台获取。

图像生成多模态模型发布
22:13
向阳乔木@vista8
50
DeepSeek开源视觉语言模型DeepSeek-VL,聚焦真实场景应用

DeepSeek团队开源视觉语言模型DeepSeek-VL,包含1.3B和7B两个版本,旨在缩小开源模型与GPT-4V在真实场景中的差距。模型从数据、架构、训练三方面优化:数据构建上,采用从真实用户需求倒推的分类体系,并包含70%纯文本以保持语言能力;架构上创新采用SigLIP与SAM-B的混合视觉编码器,分别处理语义与细节特征;训练采用三阶段策略及模态平衡技术,缓解多模态训练对语言能力的侵蚀。

DeepSeek多模态开源生态现象/趋势
22:13
向阳乔木@vista8
60
DeepSeek-VL论文揭示多模态训练最佳配方:70%文本+30%多模态

DeepSeek-VL论文指出,多模态训练会损害语言模型的语言能力,使用100%视觉数据训练将导致语言benchmark性能断崖式崩塌。研究确定最佳训练配方为70%纯文本数据与30%多模态数据结合,并强调视觉与语言模态之间存在固有竞争关系,这种竞争无法通过参数调整来规避。论文结论突显了平衡多模态数据比例对维持模型语言性能的关键作用。

向阳乔木: http://x.com/i/article/2049847033758916609

DeepSeek多模态数据/训练论文/研究
22:13
SenseTime@SenseTime_AI
37
我们也相信,原生统一多模态智能是迈向通用人工智能(#AGI)的基础性一步 🙌

Hugging Models: Most multimodal stacks still work like this: Image encoder → LLM → generator → formatter Every handoff adds latency, com...

多模态现象/趋势
20:11
歸藏(guizang.ai)@op7418
51
DeepSeek 多模态大语言模型的论文《Thinking with Visual Primitives》已经公开

该论文介绍了基于DeepSeek-V4-Flash底座的多模态大模型。其核心创新在于模型能同时进行文字推理和“视觉原语”(如画框、打点)思考。该模型以极低的Token成本,在多项前沿指标上达到了与GPT-5.4、Claude、Gemini等模型相当甚至更优的性能。

DeepSeek多模态论文/研究
14:52
Alibaba Cloud@alibaba_cloud
精选68
阿里云发布HappyHorse,实现秒级AI视频生成

阿里云推出最新AI视频生成模型HappyHorse。该模型具备多项突破性功能:可生成影院级1080p高清画质;原生实现精准的音画同步,确保口型与声音对齐;在复杂场景和镜头切换中保持多镜头角色一致性;支持从文本提示到视频成片的秒级即时生成。用户现可免费试用。

多模态模型发布视频

推荐理由:阿里云终于放出视频生成模型,1080p+音频同步+秒级生成,功能直指 Sora 的短板。如果 demo 没修图,国产视频工具又多一个靠谱选择。
14:22
Alibaba Cloud@alibaba_cloud
33
每一次精彩的潜水都始于纵身一跃。 我们正与@WorldAquatics携手,为您带来#潜入你的世界--一项由AI超级智能体MuleRun驱动的全球创意挑战。 使用MuleRun创作惊艳的海报、视频、数据报告或网站。通过#潜入你的世界分享您的作品,赢取独家联名奖品。 4月30日至5月30日。您的世界正待探索。 → https://diveintoyourworld.mule.page/ #AlibabaCloud #CloudComputing #AI #AInnovation #LLM #WorldAquatics
多模态行业动态
13:37
阿绎 AYi@AYi_AInotes
43
作者对当前同质化的SaaS开发感到倦怠,质疑为何"独立开发"总被默认为做软件。他列举了销售Notion模板、壁纸等非软件产品获得可观收入的例子。受此启发,他将自身营销经验应用于音乐赛道,启动实验项目"Milo Ever"。仅用一周时间,他便创作并发布了全新AI音乐专辑《The Small World to Remember》。该专辑包含12首关于童年记忆的歌曲,旨在探索独立开发的更多可能性,并已通过此前发行的AI音乐专辑获得了超过6400美元的收入。

Luo说不啰嗦: 从上海 Let's Vision 2026 回来之后, 我整整一个月几乎没写代码了。 不是因为忙, 是突然就觉得这件事没那么有意思了。 这几年我反复经历一个循环: 做产品 → burn out → 怀疑 → 再继续做产品 随着 vibe c...

多模态现象/趋势
07:39
Berryxia.AI@berryxia
52
Moonlake推出3D Agent:AI自动化生成可编辑3D资产

Moonlake发布3D Agent,这是一个AI驱动的工具,能像专业技术艺术家一样从单张图片生成带关节、可编辑的3D资产和大型场景(包含数百物体)。它支持从零建模,自动处理独立部件和关节绑定,无需预设规则,并能重建完整可编辑的室内或室外场景。通过原生集成Blender,该工具实现了真实工作流的自动化,简化3D创作过程。

智能体产品更新多模态
06:21
Luma@LumaLabsAI
58
优质内容值得拥有全球观众。 上传你的视频。设置语言。Luma Agents 会处理翻译、唇形同步和针对每个市场的本地化工作。无需重新拍摄。无需单独制作流程。只需你的内容,触达所有需要的地方。 走向全球 → http://lumalabs.ai/app
智能体产品更新多模态视频
06:09
Greg Brockman@gdb
40
我对GPT Image 2在应用构建中的实用性感到非常惊喜: 【引用 @romainhuet】:GPT-5.5 + GPT-Image-2 is becoming one of the best combos for building apps! @dkundel 分析了它为何如此有效。我们将这些见解融入了Build Web Apps插件中,因此Codex可以为您处理从设计到应用的循环。👌

Romain Huet: GPT-5.5 + GPT-Image-2 is becoming one of the best combos for building apps! @dkundel breaks down why it works so well. W...

OpenAI图像生成多模态大佬观点
04:39
Rohan Paul@rohanpaul_ai
57
Abacus 刚刚推出了 Abacus AI Studio。 将 100 多种 AI 模型,以及图像、视频和语音功能,整合进一个仪表板。

Abacus.AI: 🚨 Excited To Launch Abacus AI Studio Use 100+ Top AI Video And Image Models on Abacus AI Studio Use an agentic loop alo...

产品更新多模态
04:13
Google AI Developers@googleaidevs
55
观看 @thorwebdev 的这个演示,看看 Gemini 3.1 Flash 如何作为实时 DJ 实际运作。该模型使用函数调用(调用 Gemini API),通过 Lyria 3️⃣ 生成定制的 30 秒片段。 在 @GoogleAIStudio 中开启你自己的工作室会话:http://goo.gle/3PbcCXJ
Google多模态教程/实践
02:08
Google Gemini@GeminiApp
38
这场活动即将开始!在此处加入Gemini Discord:http://discord.gg/gemini 【引用 @GeminiApp】:准备好用Gemini Canvas释放你的创造力了吗?🪄 不要错过我们下一次的Discord活动,届时Gemini创意技术专家@DavidMaliglowka将现场演示他最新的Canvas和Nano Banana工作流程,帮助你提升自己的创意提示技巧。 🗓️ 4月29日,星期三 ⏰ 太平洋时间上午11:30 📍 http://discord.gg/gemini

Google Gemini: Ready to unlock your creativity with Gemini Canvas? 🪄 Don't miss our next Discord event to see Gemini Creative Technolo...

Google多模态教程/实践
4月29日
23:40
TestingCatalog News 🗞@testingcatalog
55
DeepSeek 发布了 DeepSeek Vision 测试版,这是 DeepSeek Chat 中专门用于图像理解任务的新模式。

testtm: Deepseek Vision 👀

DeepSeek产品更新多模态
22:40
TestingCatalog News 🗞@testingcatalog
65
ElevenLabs 推出 ElevenMusic 平台 🔥 ElevenMusic 基于 ElevenLabs 音乐生成模型构建,现已在网页端和移动端上线。

ElevenLabs: Today we are launching ElevenMusic, a new platform to discover, remix, create, and earn from music, built on the ElevenL...

产品更新多模态
22:37
歸藏(guizang.ai)@op7418
54
Deepseek 的多模态模型全量了。 目前可以在网页版的识图模式尝试,看起来是一个单独的多模态模型
DeepSeek多模态模型发布
22:15
向阳乔木@vista8
38
DeepSeek 的识图模式速度好快啊!这是新出的吗? 上传图片,让反推提示词,秒出~
DeepSeek产品更新多模态
22:15
向阳乔木@vista8
29
用户已体验新版AI识图功能,对其处理速度表示震惊。但质疑网页端为何将"识图模式"设为独立标签页,认为这种交互设计不自然,希望未来能整合到所有模式中。同时,用户关注API何时能支持识图功能,强调这对开发者至关重要。引用推文"Now, we see you. 👀"暗示了模型已具备视觉感知能力,是此次功能升级的核心背景。

Xiaokang Chen: Now, we see you. 👀

多模态大佬观点
22:15
向阳乔木@vista8
47
DeepSeek 的识图模式速度实在是太快了。 网页复刻还原度相当不错,这下前端开发就更好用了。 DeepSeek牛逼!
DeepSeek多模态大佬观点
22:13
meng shao@shao__meng
56
商汤 SenseNova-U1 架构创新:统一语言视觉表征

商汤开源的 SenseNova-U1 模型在架构上实现关键突破。传统多模态模型多采用“语言模型 + 视觉编码器 + VAE”的拼接方式,视觉信息需先翻译再输入 LLM。U1 基于 NEO-Unify 架构,直接移除翻译层,使语言和视觉在同一表征空间中运行。因此,模型能在单次推理中同步完成图像理解、推理和生成等任务,而非分步处理,提升了多模态交互的效率和连贯性。

多模态大佬观点开源生态
22:10
TestingCatalog News 🗞@testingcatalog
54
SenseTime开源了基于NEO-Unify架构的多模态图像生成模型SenseNova-U1。该架构完全摒弃了传统视觉编码器和VAE,原生地将理解、推理和生成统一为一个系统。该系列模型(8B和A3B参数)在开源模型中效率领先,以紧凑尺寸提供商业级性能与出色成本效益。其特色功能包括原生生成图文交织内容,适用于制作指南等实用场景;并擅长高密度信息渲染,能生成知识插图、海报、PPT和漫画等丰富结构的布局。模型已在Hugging Face和GitHub等平台开源。

SenseTime: SenseNova U1 Lite Series is now open source! Built on the NEO-unify architecture, it natively unifies multimodal underst...

图像生成多模态开源生态模型发布
17:16
SenseTime@SenseTime_AI
56
感谢 @liuziwei7 与我们共同创造 #多模态智能 的未来!

Ziwei Liu: 🔥Native Unified Multimodal Model Open Sourced🔥 🚀SenseNova U1🚀 is the first native multimodal model that unifies mult...

Hugging Face多模态开源生态模型发布
17:11
小互@xiaohu
44
Deepseek 内测多模态能力 现在可以识别图像 对于Agent执行能力提升有很大帮助… 【引用 @PKUCXK】:Now, we see you. 👀

Xiaokang Chen: Now, we see you. 👀

智能体DeepSeek多模态模型发布
16:46
SenseTime@SenseTime_AI
精选65
是的,SenseNova U1 现已在 Hugging Face 和 GitHub 上发布! 探索它如何以语义精确性和像素级保真度实现复杂的 #信息图 创作。 Hugging Face: https://huggingface.co/collections/sensenova/sensenova-u1 GitHub: https://github.com/OpenSenseNova/SenseNova-U1 Discord: https://discord.gg/cxkwXWjp

AK: SenseNova U1 is out on Hugging Face https://huggingface.co/collections/sensenova/sensenova-u1

Hugging Face图像生成多模态模型发布

推荐理由:SenseNova U1 开源了,能生成像素级精准的信息图,对于做电商和可视化的人是个直接可用的工具,值得跑一下看看实际表现。
14:49
Alibaba Cloud@alibaba_cloud
精选64
HappyHorse 1.0 现已在 @fal 上线。去构建吧。 【引用 @fal】:Happy Horse 1.0 is live on fal, day 0 🐎 🎬 一流的运动质量 🎧 原生1080p,音频同步一步完成 🔗 音视频联合生成,非拼接 🔓 限制更少,商业用途更广 ⚡ 为生产规模而构建

fal: Happy Horse 1.0 is live on fal, day 0 🐎 🎬 Best-in-class motion quality 🎧 Native 1080p with synced audio in one pass �...

多模态模型发布视频

推荐理由:阿里云不声不响丢了个跟 Sora 对标的视频生成模型,音画同步一镜出片,直播带货团队可以立刻试试。
14:35
-Zho-@ZHO_ZHO_ZHO
16
这才是 AI 的正确用法哈哈哈哈哈哈哈哈哈
其他多模态
13:10
宝玉@dotey
64
分享"Neon Sketch"混合媒介AI绘画提示词模板

一条推文分享了一个名为“Neon Sketch”的AI图像生成提示词模板。该模板旨在创造一种独特的混合媒介风格:背景采用带有柔光虚化效果的真实感摄影(如植物园小径),前景主体则由发光的白色霓虹线条勾勒(如手持粉色气球的兔子),并点缀草图涂鸦、星光等手绘元素。其核心创意在于让霓虹形象的发光部分与摄影背景的地面轻微接触,从而营造出梦幻般的虚实交融视觉效果。推文附上了详细的提示词结构示例,并鼓励用户尝试创作和分享成果。

Amira Zairi: Prompt share: Neon Sketch 💬Prompt: A realistic blurred photo of a [background scene], filled with bright sunlight, soft...

图像生成多模态教程/实践
12:38
ginobefun@hongming731
38
理想个人AI助手七大标准,尚无产品能全满足

一款出色的个人AI助手应具备七大核心能力:跨平台无缝执行邮件、日历及各类API/MCP服务;能主动可靠地处理定时任务与自动跟进;拥有优秀的长期记忆以更懂用户;提供无需复杂指令的开箱即用多端体验;支持在文字、语音、视频和实时通话间自由切换;可通过任何第三方通讯软件触达;并具备有趣的个性。然而,目前包括OpenClaw、Claude Code和Codex在内的产品,均未能完全满足所有这些标准。

Peter Yang: A great personal agent should: 1. Get work done across email, calendar, Google Workspace, or any API/MCP it's hooked up ...

智能体MCP/工具多模态大佬观点
11:35
阿绎 AYi@AYi_AInotes
49
Adobe与Claude合作被指战略投降,创意工具霸主或降级为AI插件

作者认为Adobe与Claude的合作并非强强联合,而是其在AI时代的公开战略投降,承认自身AI能力不足,转而将三十年积累的创意工具库打包成Claude的后端工具箱。官方演示聚焦于低复杂度任务,未能激发创意专业人士兴趣,行业反馈普遍失望。核心担忧在于Adobe可能将功能再次塞入体验不佳的Firefly框架,导致用户未来或仅需通过Claude对话即可完成设计,无需打开专业软件。这标志着Adobe正从创意工具霸主降级为AI工作流中的一个普通调度插件。

Adobe: Adobe for creativity + Claude 🤝 Now, Claude users can power their content with more than 50 Creative Cloud tools. Simpl...

Anthropic多模态大佬观点
09:38
ginobefun@hongming731
49
NVIDIA发布多模态模型Nemotron 3 Nano Omni

NVIDIA发布了多模态模型Nemotron 3 Nano Omni,专为处理长上下文设计,能够同时理解文本、图像、音频和视频。该模型在文档分析、自动语音识别、音视频理解以及智能体计算机使用等实际应用场景中表现优异。在多项基准测试中,Nemotron 3 Nano Omni均展现出领先的准确性和效率。

多模态模型发布端侧
08:38
Berryxia.AI@berryxia
65
OpenBMB发布的MiniCPM-o 4.5是一个仅90亿参数的多模态模型,实现了从传统轮询交互到实时、原生全双工流式交互的范式突破。其Omni-Flow框架能在统一时间线上毫秒级同步处理视频、音频和文本流,无需外部语音检测即可同时感知与响应。该模型在多模态基准测试中表现接近Gemini 2.5 Flash,并专为边缘AI设计,支持完全离线运行,提供Windows/macOS一键安装(仅需12G显存),保障100%数据隐私,同时开源权重并提供免费社区API。

OpenBMB: 🚀 🚀Excited to announce the technical report of MiniCPM-o 4.5! MiniCPM-o 4.5 transitions #AI interaction from tradition...

GitHub多模态开源生态模型发布
07:38
Berryxia.AI@berryxia
45
Apple Vision Pro辅助完成全球首例白内障手术

纽约眼科医生Eric Rosenberg于2025年10月使用Apple Vision Pro结合ScopeXR混合现实平台,完成了全球首例由该设备辅助的白内障手术,并已成功实施数百例。该应用提供了3D立体显微视野、实时数据叠加和远程专家协作功能,标志着空间计算技术正式进入手术室。主推文同时指出,国内沈阳和北大医院此前已有使用AVP进行手术的案例,因此此次并非严格意义上的“全球首例”。

MacRumors.com: Apple Vision Pro Used in World-First Cataract Surgery https://www.macrumors.com/2026/04/28/apple-vision-pro-cataract-sur...

多模态现象/趋势端侧
07:38
Berryxia.AI@berryxia
60
NVIDIA发布高效开源多模态模型Nemotron 3 Nano Omni

NVIDIA 重磅发布!🚀 Nemotron 3 Nano Omni 多模态开源模型来了! 🔥 30B 参数 🔥 256K 超长上下文 🔥 最高效开放多模态模型(语言+视觉+语音+视频+音频一体化) 🔥 专为 subagents / Agentic 任务设计 🔥 完全开源(权重 + 数据 + 配方),领跑多项榜单 可通过 NVIDIA NIM API 免费试用!完美驱动多代理工作流。

NVIDIA AI: Meet Nemotron 3 Nano Omni 👋 Our latest addition to the Nemotron family is the highest efficiency, open multimodal model...

智能体多模态开源生态模型发布
07:38
Berryxia.AI@berryxia
52
SATO实现从点云直接生成高质量3D网格

3D网格生成领域出现重大突破,新方法SATO能够直接从点云生成完整的网格模型。其核心技术在于采用了基于条带的标记化方法,从而实现了极其干净、结构清晰的边缘流。该模型在生成过程中原生集成了UV分割,简化了后续纹理贴图流程。此外,SATO的一个显著优势是单个模型能同时支持生成三角网格和四边形网格,提供了更高的灵活性和应用潜力。

多模态论文/研究
07:38
ginobefun@hongming731
50
老代码、AI工具与组织治理的融合趋势

当前,遗留代码、AI工具与组织治理正加速融合。Anthropic将Claude Code作为“新员工”引入拥有70万行代码的17年老项目;Thoughtworks推动提示词成为可版本化、可审查的一等交付物;NVIDIA致力于构建统一的全模态主干模型。随着AI已具备代码生成能力,工程挑战的核心正从“生成”转向“治理”,关键在于让AI持续理解项目上下文、使其输出可复用,并推动多模态技术落地生产环境。

AnthropicMCP/工具多模态现象/趋势
07:11
小互@xiaohu
53
Adobe 把8款创意工具的打包接进 Claude

Adobe 将 Photoshop、Lightroom、Illustrator 等八款核心创意工具集成至 Claude。用户现可通过 AI 助手直接调用这些工具,执行调色、抠图、扩图等图像处理,套用模板设计、剪辑视频、获取 Stock 授权素材,以及搜索、总结和整理创意文件。此举旨在简化创意工作流程。

AnthropicMCP/工具产品更新多模态
07:07
Rohan Paul@rohanpaul_ai
40
圣地亚哥一位眼科医生佩戴Apple Vision Pro完成了白内障手术。 该头显将数字显微镜的实时3D影像和患者数据直接叠加在他的视野中。 无需再转头查看单独的显示器。
多模态端侧行业动态
‹ 上一页
1…181920212223
下一页 ›