全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 588 条

全部一手资讯 X 论文

6月6日周六

14:58The Decoder：AI News（RSS）66Qwen3.7-Plus：阿里巴巴将多模态AI打造成完全自主智能体

11:16IT之家（RSS）55全球海洋现象智能预报大模型"琅琊"2.0发布

03:27MarkTechPost（RSS）50Google DeepMind 发布 Gemma 4 QAT 检查点：Q4_0 和新的移动格式降低设备端内存

03:21Hacker News 热门（buzzing.cc 中文翻译）69Gemma 4 QAT 模型：优化压缩以提升移动设备和笔记本电脑的能效

6月5日周五

14:14IT之家（RSS）71谷歌推出 Magenta RealTime 2 本地实时音乐 AI 模型：延迟降低至 1/15

13:27公众号：京东JoyAI72精选京东开源JoyAI-Echo长音视频生成框架

13:14IT之家（RSS）58xAI 开放预览版图转视频模型 grok-imagine-video-1.5-preview，单图生成最高 720p 电影感视频

05:54MarkTechPost（RSS）69NVIDIA AI 发布 Nemotron 3 Ultra：开源 550B MoE 混合 Mamba-Transformer，面向长时间运行智能体

03:43Hugging Face：Blog（RSS）78精选Nemotron 3.5 Content Safety：面向全球企业AI的可定制多模态安全

6月4日周四

20:52LMSYS：Blog（Chatbot Arena 团队）81SGLang 和 Miles 即日支持 NVIDIA Nemotron 3 Ultra

16:21MarkTechPost（RSS）61Miso Labs 发布 MisoTTS：8B 参数情感文本转语音模型，开放权重

16:18The Decoder：AI News（RSS）55xAI 更新 Grok Imagine 至 1.5，新增 720p 图像转视频生成

14:11IT之家（RSS）75Ideogram 4.0 开源文生图模型发布

11:10IT之家（RSS）64香港首个生产力级超级智能体发布，本地大模型 HKGAI V3 登场

09:28xAI：News（网页）75精选xAI 发布 Grok Imagine 1.5 预览版（图像转视频模型）

04:26OpenAI：官网动态（RSS · 排除企业/客户案例）66精选GPT-Rosalind 新功能发布

04:17The Decoder：AI News（RSS）72Google DeepMind 发布 Gemma 4 12B：开源多模态模型，16GB 内存笔记本即可运行

03:22Ars Technica：AI（RSS）60Google 新发布的 Gemma 4 12B 模型可在任何 16GB 内存笔记本电脑上运行

02:48MarkTechPost（RSS）68Google DeepMind 发布 Gemma 4 12B：无需编码器的多模态模型，支持原生音频，可在16GB笔记本上运行

02:47The Decoder：AI News（RSS）66Ideogram 4.0 发布：开放权重模型，原生2K分辨率与改进文本渲染

01:38Hacker News 热门（buzzing.cc 中文翻译）78同事件精选Gemma 4 12B：一种统一的、无需编码器的多模态模型同一事件，精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》

00:07Google Developers Blog（RSS）78同事件精选Gemma 4 12B：开发者指南同一事件，精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》

6月3日周三

19:16The Decoder：AI News（RSS）71Build 2026：Microsoft 在图像生成上超越 Google，在推理上仍追赶

16:47MarkTechPost（RSS）69NVIDIA发布Cosmos 3：统一物理推理、世界生成与动作生成的双塔混合Transformer基础模型

05:35Hacker News 热门（buzzing.cc 中文翻译）66微软推出 MAI-Thinking-1 模型

04:05Hacker News 热门（buzzing.cc 中文翻译）49微软 MAI-Code-1-Flash 以 50 亿参数在 SWE-Bench Pro 取得 51% 成绩

03:09IT之家（RSS）69微软发布其首款高级推理模型 MAI-Thinking-1：承诺未蒸馏第三方模型，自研 AI 模型阵容进一步扩充

02:45The Verge：AI（RSS）78精选微软首款高级推理AI模型MAI-Thinking-1发布

6月2日周二

22:40Hugging Face：Blog（RSS）73精选Holo3.1：快速本地计算机使用智能体

19:34蚂蚁 inclusionAI：HuggingFace 新模型61同事件精选蚂蚁 inclusionAI 开源万亿参数 MoE 基座模型 Ling-2.6-1T-base同一事件，精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》

17:55蚂蚁 inclusionAI：HuggingFace 新模型54蚂蚁 inclusionAI 发布 Ling-2.6-flash-base 基础模型

17:13MarkTechPost（RSS）67阿里巴巴通义千问团队在百炼平台发布 Qwen3.7-Plus

16:13MarkTechPost（RSS）65JetBrains 发布 Mellum2：用于多模型 AI 流水线快速专用任务的 12B MoE 模型

14:07IT之家（RSS）67JetBrains 开源 Mellum2 模型：12B 参数，升级为 AI 智能体编程助手

10:07IT之家（RSS）47AI 气象模型 WeatherMesh-6 发布，预报精度超欧洲政府机构顶尖系统

09:07IT之家（RSS）59微软首个自研推理 AI 模型 MAI-Thinking-1、新 Copilot 超级应用曝光

07:07IT之家（RSS）71阿里发布 Qwen3.7-Plus 模型，升级多模态交互混合 AI 智能体

04:41MarkTechPost（RSS）59MiniMax 发布 MiniMax M3：支持 MSA 架构、1M Token 上下文、原生多模态与智能体编程

02:15xAI：News（网页）78精选xAI发布Composer 2.5

01:59公众号：通义实验室（千问）64同事件精选Qwen3.7-Plus 多模态智能体模型发布同一事件，精选展示《Qwen3.7-Plus：多模态智能体模型发布》

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月6日

14:58

The Decoder：AI News（RSS）

66

Qwen3.7-Plus：阿里巴巴将多模态AI打造成完全自主智能体

阿里巴巴Qwen团队发布Qwen3.7-Plus，一个将视觉感知、GUI操作和编码能力整合到单一智能体循环中的多模态智能体模型。在演示中，基于该模型的智能体自主开发了一款词汇学习应用，生成了超过10,000行代码，共执行了1,000次智能体调用，耗时11小时。该模型在Qwen自主基准测试的屏幕理解任务上领先，但整体性能表现参差不齐。Qwen3.7-Plus为闭源模型，价格远低于西方前沿模型。

智能体多模态模型发布编码

11:16

IT之家（RSS）

55

全球海洋现象智能预报大模型"琅琊"2.0发布

6月6日，中国科学院海洋研究所发布“琅琊”2.0，在1.0基础上从海洋状态变量预报拓展至台风、降水、风暴潮、海冰等六类复杂海洋现象，开发了6个垂直模型。台风模型融合大气海洋环境场、卫星云图和历史演变信息，提升24小时路径与强度预报；降水模型基于卫星数据学习时空演变预测未来变化；海冰模型面向北极航道，实现3公里分辨率、月尺度以上快速预测，支撑航道安全研判。

数据/训练模型发布

03:27

MarkTechPost（RSS）

50

Google DeepMind 发布 Gemma 4 QAT 检查点：Q4_0 和新的移动格式降低设备端内存

Google DeepMind 推出 Gemma 4 量化感知训练（QAT）检查点，包含 Q4_0 格式和一种新的移动端格式，旨在降低设备端内存占用。对比 BF16、Q4_0 QAT 和移动版 QAT 三种边缘端格式，官方公布了各格式的内存数据与设计权衡。

DeepMind Google 多模态模型发布

03:21

Hacker News 热门（buzzing.cc 中文翻译）

69

Gemma 4 QAT 模型：优化压缩以提升移动设备和笔记本电脑的能效

Google 发布 Gemma 4 QAT 模型，该模型通过量化感知训练（QAT）技术优化压缩，旨在提升移动设备和笔记本电脑上的运行效率与能效。文章来源于 Google 官方博客，介绍了这一面向移动端和笔记本端的模型优化方案。

Google 推理模型发布端侧

6月5日

14:14

IT之家（RSS）

71

谷歌推出 Magenta RealTime 2 本地实时音乐 AI 模型：延迟降低至 1/15

谷歌 Magenta 团队昨日发布 Magenta RealTime 2（MRT2）模型，免费放出乐器应用 Jam 及 DAW 插件 MRT2。MRT2 提供两种规模：高质量模型 mrt2_base（24 亿参数）和高速模型 mrt2_small（2.3 亿参数），均针对苹果 Apple Silicon 优化，mrt2_small 可在 M1 及以上芯片 Mac 实时运行。相较前代延迟约 3 秒，MRT2 改为逐帧生成（每帧 40 毫秒），控制延迟约 200 毫秒，降低至 15 分之一。支持文本和音频风格提示、MIDI 音符与鼓开关控制及 Auto-Strum 模式。技术基于 Codec Language Model，采用 SpectroStream 编解码器处理 48kHz 立体声音频。

Google 多模态模型发布

关联讨论 1 条X：Google AI for Developers (@googleaidevs)

13:27

公众号：京东JoyAI

精选72

京东开源JoyAI-Echo长音视频生成框架

6月3日，京东开源JoyAI-Echo框架，解决长视频生成中角色身份崩坏、音色突变和生成缓慢三大难题。该框架通过跨模态音视频记忆库保持5分钟内角色外观与音色一致，记忆驱动后训练结合DMD技术带来约7.5倍推理加速。新增Director Agent支持自然语言对话式局部修订，无需重跑整条视频。配套轻量化实时超分模块，支持736×1280→1152×1920及1472×2560两档分辨率。评测集显示，语音内容准确率0.8646，用户偏好多项领先。代码与权重已开源至GitHub。

GitHub 多模态模型发布

推荐理由：长视频生成一直被角色崩塌和龟速生成卡死，JoyAI-Echo 开源给出了角色一致性方案和 7.5 倍加速，Director Agent 对话式编辑的思路很先进，做 AI 视频的朋友可以直接去 GitHub 开跑。

13:14

IT之家（RSS）

58

xAI 开放预览版图转视频模型 grok-imagine-video-1.5-preview，单图生成最高 720p 电影感视频

xAI 通过 API 开放预览版图像转视频模型 grok-imagine-video-1.5-preview，可将一张静态图像扩展为流畅的电影感视频片段。用户提供起始图片并用自然语言描述运动方式后，模型可控制镜头移动、画面节奏、环境氛围与物理效果。该模型最高支持 720p 视频生成，适合概念验证、分镜测试和短内容生产，并能通过逐段动画化将多镜头串联为更长场景。

xAI 图像生成模型发布视频

05:54

MarkTechPost（RSS）

69

NVIDIA AI 发布 Nemotron 3 Ultra：开源 550B MoE 混合 Mamba-Transformer，面向长时间运行智能体

NVIDIA 发布 Nemotron 3 Ultra，总参数量 550B（活跃参数 55B）的开源混合专家（MoE）模型，采用 Mamba-Transformer 混合架构，专为长时间运行的 AI 智能体设计。该模型支持 1M token 上下文窗口，推理吞吐量比同等准确率的开源大语言模型最高提升约 6 倍。权重、训练数据和配方以 OpenMDW-1.1 许可开放。

智能体开源生态模型发布

03:43

Hugging Face：Blog（RSS）

精选78

Nemotron 3.5 Content Safety：面向全球企业AI的可定制多模态安全

Nemotron 3.5 Content Safety基于Gemma 3 4B IT，提供128K上下文窗口，支持用户提示、可选图像与助手响应的统一多模态安全评估。新增自定义策略执行，允许企业用自然语言定义专属安全规则；THINK模式可输出可审计的逐步推理痕迹。显式训练覆盖12种语言，并借助基座模型零样本泛化至约140种语言。输出提供低延迟二分类、带分类标签、THINK推理痕迹三种模式。安全分类遵循Aegis 2.0框架（13核心类别+10细分类别）。同步发布多模态、多语言安全数据集，可在8GB+ VRAM GPU上实时部署。

Hugging Face 多模态安全/对齐开源/仓库

推荐理由：Nemotron 3.5 把内容安全从「单模态英文」拉到「多语言多模态可定制」，自定义策略和推理 trace 让企业能审计决策，做安全平台的值得细看。

6月4日

20:52

LMSYS：Blog（Chatbot Arena 团队）

81

SGLang 和 Miles 即日支持 NVIDIA Nemotron 3 Ultra

SGLang 与 Miles 在发布首日即支持 NVIDIA Nemotron 3 Ultra。该模型为开放前沿推理模型，总参数 550B、激活参数 55B，采用混合 Transformer-Mamba 架构的 MoE，支持最长 1M token 上下文。针对长运行自主智能体优化，具备工具调用、编码、深度研究与编排能力，后训练使用多环境强化学习（NeMo RL）。SGLang 提供高性能推理，支持 NVFP4 和 BF16 精度，NVFP4 检查点可在 Blackwell GPU 运行；Miles 支持强化学习工作流。模型权重、数据与配方均开源。在智能体生产力、指令遵循与长上下文任务上准确率领先，成本节省高达 30%。

智能体开源生态推理模型发布

关联讨论 9 条X：Kim (@kimmonismus)HuggingFace Daily Papers（社区热门论文）IT之家（RSS）Hugging Face：Blog（RSS）X：卡兹克 (@Khazix0918)X：Satya Nadella (@satyanadella)X：Perplexity (@perplexity_ai)X：Artificial Analysis (@ArtificialAnlys)Hacker News 热门（buzzing.cc 中文翻译）

16:21

MarkTechPost（RSS）

61

Miso Labs 发布 MisoTTS：8B 参数情感文本转语音模型，开放权重

Miso Labs 推出 MisoTTS，一款开放权重的 8B 参数文本转语音模型。该模型采用残差向量量化（RVQ）在不增加参数量的情况下扩展声音范围，并同时基于文本和音频上下文来响应用户语调。架构由 7.7B 主骨干与 300M 深度解码器组成。

开源生态模型发布语音

16:18

The Decoder：AI News（RSS）

55

xAI 更新 Grok Imagine 至 1.5，新增 720p 图像转视频生成

xAI 发布 grok-imagine-video-1.5-preview 图像转视频模型，能将静态图片转换为最高 720p 分辨率的影视级视频，支持文本提示控制，多个片段可拼接为更长的场景。

xAI 图像生成模型发布视频

14:11

IT之家（RSS）

75

Ideogram 4.0 开源文生图模型发布

Ideogram 6月3日发布开源文生图模型 Ideogram 4.0，核心规模 9.3B 参数，采用单流架构，文本 tokens 与图像 tokens 共享自注意力序列。模型使用 Qwen3-VL-8B-Instruct 文本编码器、34 层单流 DiT、Euler 流匹配采样器及冻结 KL 自动编码器。擅长文字绘制，能准确呈现较长文本；通过对象和文本边界框训练，配合结构化 JSON 字幕数据，支持用提示词指定版式和布局。在 DesignArena 人类评价排名中位列全球第 4。

图像生成开源生态模型发布

关联讨论 1 条X：Krea AI (@krea_ai)

11:10

IT之家（RSS）

64

香港首个生产力级超级智能体发布，本地大模型 HKGAI V3 登场

香港生成式人工智能研发中心（HKGAI）发布HKGAI V3大模型及香港首个生产力级超级智能体。V3实现超10倍Token压缩效率提升，Agent无干预运行时长增长近百倍，单次稳定运行达28小时，并针对香港本地语境优化。HKGAI联合香港浪潮云及三大运营商向海外开放推理算力与智能服务。同时发布HKGAI政商一体机，内置V3模型实现本地推理、数据不出站，适用于政务、金融、医疗等高安全场景。

智能体模型发布

09:28

xAI：News（网页）

精选75

xAI 发布 Grok Imagine 1.5 预览版（图像转视频模型）

xAI 通过 API 发布了图像转视频模型 grok-imagine-video-1.5-preview（Grok Imagine 1.5 预览版）。该模型能将单张静态图片转为流畅的电影感视频，用户提供起始帧和描述运动的提示词后，模型可生成包含相机移动、氛围和物理效果的动画，并保持对源图像的忠实。支持生成 720p 片段，可使用自然语言指令控制镜头、节奏和音效，并支持逐帧拼接成长场景。模型目前通过 xAI API 提供预览使用。

xAI 多模态模型发布视频

关联讨论 4 条X：Elon Musk (@elonmusk, xAI)X：阿易 AI Notes (@AYi_AInotes)X：cb_doge (@cb_doge)xAI：News（网页）

推荐理由：xAI的新视频模型从单张图像生成电影级短片，支持自然语言控制运镜和氛围，对视频创作者和开发者是个值得一试的工具。

04:26

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选66

GPT-Rosalind 新功能发布

GPT-Rosalind 在生命科学研究领域推出新功能，增强了生物推理、药物化学专业知识、基因组学分析以及实验工作流处理能力。

OpenAI 推理模型发布

关联讨论 1 条X：OpenAI (@OpenAI)

推荐理由：GPT-Rosalind 把 GPT-5.5 的智能带进了生命科学核心流程，从分子设计到 FDA 审评准备都能直接参与，是行业模型走向实用化的一个关键节点，虽然现在只对机构开放，但未来可能重塑药物研发工具链。

04:17

The Decoder：AI News（RSS）

72

Google DeepMind 发布 Gemma 4 12B：开源多模态模型，16GB 内存笔记本即可运行

Gemma 4 12B 是 Google DeepMind 推出的开源模型，原生支持处理文本、图像和音频，仅需 16GB RAM 即可在笔记本上运行。在基准测试中几乎追平两倍参数规模的 26B 模型，采用 Apache 2.0 许可证，可用于商业用途。

Google 多模态开源生态模型发布

关联讨论 6 条X：Demis Hassabis (@demishassabis)X：Sundar Pichai (@sundarpichai)X：Google AI for Developers (@googleaidevs)Google Developers Blog（RSS）X：Jeff Dean (@JeffDean)Google DeepMind：Blog（RSS）

03:22

Ars Technica：AI（RSS）

60

Google 新发布的 Gemma 4 12B 模型可在任何 16GB 内存笔记本电脑上运行

Gemma 4 12B 采用新的编码方案与 token 预测，实现了超越自身参数规模的性能表现。该模型专为在 16GB RAM 的笔记本电脑上本地运行而设计。

Google 多模态模型发布端侧

02:48

MarkTechPost（RSS）

68

Google DeepMind 发布 Gemma 4 12B：无需编码器的多模态模型，支持原生音频，可在16GB笔记本上运行

Gemma 4 12B 是 Google DeepMind 发布的无需编码器的多模态模型，直接将视觉和音频输入大语言模型骨干，支持原生音频，可在 16 GB 笔记本电脑上本地运行，采用 Apache 2.0 开源许可。

Google 多模态开源/仓库模型发布

02:47

The Decoder：AI News（RSS）

66

Ideogram 4.0 发布：开放权重模型，原生2K分辨率与改进文本渲染

Ideogram 发布 4.0 版本文本到图像模型，采用开放权重，支持原生2K分辨率、边界框控制和改进的文本渲染。在 DesignArena 排行榜上，该模型位列所有开放模型之首；仅 OpenAI 和 Google 的闭源系统得分更高。商业使用需购买付费许可证。

图像生成开源生态模型发布

01:38

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选78

Gemma 4 12B：一种统一的、无需编码器的多模态模型

Gemma 4 12B 是 Google 发布的一款统一架构、无需独立视觉编码器的多模态大语言模型（LLM）。该模型直接处理图像与文本输入，无需传统视觉编码器，简化了多模态推理流程。基于 12B 参数规模，Gemma 4 12B 面向开发者工具生态开放。目前其具体 benchmark 分数、上下文窗口、价格及开源/API 可用性等细节尚未披露。

Google 多模态模型发布端侧

同一事件，精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》

推荐理由：我觉得Gemma 4 12B最大的变化不是参数大小，而是第一次在开源模型里把多模态直接交给LLM主干处理，没有单独的视觉编码器，这意味着本地多模态应用的延迟和内存占用都会大幅下降，对于在笔记本上做Agent的开发者，这是一个必试的版本。

00:07

Google Developers Blog（RSS）

同事件精选78

Gemma 4 12B：开发者指南

Gemma 4 12B 是一款密集多模态模型，专为消费级设备上的高性能本地 AI 执行而设计。其采用新颖的无编码器架构，绕过传统视觉和音频编码器，将多模态数据直接输入大语言模型主干。

Google 多模态模型发布端侧

同一事件，精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》

推荐理由：Google 把多模态模型直接塞进消费级设备，靠的不再是缩水而是架构层面的创新。12B 放在本地跑，这次玩法变了。

6月3日

19:16

The Decoder：AI News（RSS）

71

Build 2026：Microsoft 在图像生成上超越 Google，在推理上仍追赶

微软在 Build 2026 大会上发布七款自研新 AI 模型，其中包括其首款推理模型。公司还推出了一种新的调优方法和一个自主后台 AI 智能体。

Microsoft 图像生成推理模型发布

关联讨论 2 条X：Rohan Paul (@rohanpaul_ai)X：Satya Nadella (@satyanadella)

16:47

MarkTechPost（RSS）

69

NVIDIA发布Cosmos 3：统一物理推理、世界生成与动作生成的双塔混合Transformer基础模型

NVIDIA发布Cosmos 3，这是一款开放的全模态世界模型。该模型采用双塔混合Transformer架构，统一了物理推理、世界生成与动作生成能力，结合了自回归VLM推理器与扩散生成器，旨在赋能物理AI。

具身智能多模态开源生态模型发布

05:35

Hacker News 热门（buzzing.cc 中文翻译）

66

微软推出 MAI-Thinking-1 模型

微软通过其AI官方网站 microsoft.ai 发布了新模型 “MAI-Thinking-1”。该消息随链接一同发布，并出现在相关技术社区中。

Microsoft 推理模型发布编码

04:05

Hacker News 热门（buzzing.cc 中文翻译）

49

微软 MAI-Code-1-Flash 以 50 亿参数在 SWE-Bench Pro 取得 51% 成绩

微软推出 MAI-Code-1-Flash 模型，仅使用 50 亿个活动参数（5B Active Params），在 SWE-Bench Pro 基准测试中获得了 51% 的成绩，展示了高参数效率。

Microsoft 模型发布编码

03:09

IT之家（RSS）

69

微软发布其首款高级推理模型 MAI-Thinking-1：承诺未蒸馏第三方模型，自研 AI 模型阵容进一步扩充

微软在 Build 2026 大会上发布了其首款高级推理模型 MAI-Thinking-1。该模型为中等规模，在软件工程基准测试中达到业界领先水平，且完全基于干净数据从零开始训练，未使用第三方模型的蒸馏数据。同时，微软还推出了 MAI-Image 2.5（文生图/图像编辑）、MAI-Transcribe-1.5（语音转写，速度达竞争对手五倍）、MAI-Voice-2（语音合成，新增15种语言支持）和 MAI-Code-1（编程辅助，已集成至 GitHub Copilot 和 VS Code）等多款新模型。

Microsoft 推理模型发布编码

02:45

The Verge：AI（RSS）

精选78

微软首款高级推理AI模型MAI-Thinking-1发布

微软在Build 2026上发布了其首款高级推理AI模型MAI-Thinking-1。该模型被定位为“中等规模”，能在“关键”软件工程基准测试中达到领先模型的水平。微软称其完全从头使用干净数据进行训练，未涉及从第三方模型进行知识蒸馏。这标志着微软在自研AI模型上迈出重要一步，此前其主要依赖OpenAI。近期两家公司已重新协商合作协议，关系有所松绑。

Microsoft 推理模型发布

关联讨论 2 条X：Rohan Paul (@rohanpaul_ai)X：Satya Nadella (@satyanadella)

推荐理由：微软自己从头训练的推理模型，不用任何第三方蒸馏数据，这可能是微软系 Agent 和 Copilot 底座更换的信号，值得盯着看。

6月2日

22:40

Hugging Face：Blog（RSS）

精选73

Holo3.1：快速本地计算机使用智能体

Holo3.1 是基于 Qwen 模型家族的计算机使用智能体系列，旨在提升在桌面、网页和移动环境中的鲁棒性。新模型提供 0.8B、4B、9B 和 35B-A3B 四种尺寸，并首次发布量化检查点，包括 FP8、Q4 GGUF 和 NVFP4，以优化本地推理。在 AndroidWorld 基准测试中，35B-A3B 模型得分从 67% 提升至 79.3%。在 DGX Spark 上，NVFP4 量化相比 BF16 实现 1.74 倍 token 吞吐量提升，并将平均步骤时间从 6.8 秒缩短至 3.3 秒。模型支持函数调用协议，可在第三方智能体框架中部署。

智能体 Hugging Face 开源/仓库模型发布

推荐理由：Holo3.1 把计算机使用代理从桌面扩展到了移动端，还首次放出了量化版，让本地运行真正快了起来。想做 GUI 自动化的开发者可以立刻跑起来了。

19:34

蚂蚁 inclusionAI：HuggingFace 新模型

同事件精选61

蚂蚁 inclusionAI 开源万亿参数 MoE 基座模型 Ling-2.6-1T-base

Ling-2.6-1T-base 是蚂蚁 inclusionAI 开源的万亿参数 MoE 基座模型（总参约 1T，激活 63B）。它由 Ling-2.0-1T-base 升级而来，采用 Lightning Attention 与 MLA 以 7:1 混合的线性注意力架构，经约 9.6T token 的迁移预训练、持续预训练和中训练，上下文窗口从 4K 分阶段扩展至 256K。在 MMLU（86.82）、SimpleQA、LongBenchv2（43.54）等基准上超越前代。该模型仅供研究（继续预训练、微调、蒸馏等），不直接提供对话功能。

Hugging Face 开源生态推理模型发布

同一事件，精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》

推荐理由：Ling-2.6 用混合线性注意力把万亿 MoE 基座模型的上下文能力推到了 256K，对于研究长上下文和 MoE 的团队是个有价值的基座，但它是未对齐的预训练模型，不能直接当对话助手用。

17:55

蚂蚁 inclusionAI：HuggingFace 新模型

54

蚂蚁 inclusionAI 发布 Ling-2.6-flash-base 基础模型

Ling-2.6-flash-base 是蚂蚁 inclusionAI 发布的基础模型，采用闪速规模 MoE 与混合线性注意力架构（7:1 融合 Lightning Attention 与 MLA），总参数量约 104B、激活约 7.4B。模型从 Ling-2.0 检查点改造而来，经约 9.6T token 的迁移预训练、继续预训练和中段训练，上下文窗口从 4K 扩展至 256K。在知识、推理、数学、代码和长上下文基准上相比前代均有提升（如 MMLU 84.13，GSM8K 91.89）。该模型面向研究用途开放，支持继续预训练、微调和蒸馏，未经聊天对齐。

推理模型发布部署/工程

17:13

MarkTechPost（RSS）

67

阿里巴巴通义千问团队在百炼平台发布 Qwen3.7-Plus

通义千问（Qwen）团队在百炼平台发布了多模态智能体模型 Qwen3.7-Plus。该模型能理解图像和视频，并新增了自我编程、工具调用、深度推理和自主迭代能力。

智能体多模态模型发布

16:13

MarkTechPost（RSS）

65

JetBrains 发布 Mellum2：用于多模型 AI 流水线快速专用任务的 12B MoE 模型

JetBrains 发布开源模型 Mellum2。该模型为 12B 参数的 MoE 架构，在 10.6 万亿个 token 上训练，采用 Apache 2.0 许可，专为多模型 AI 流水线中的快速、专用任务设计。

开源生态模型发布部署/工程

14:07

IT之家（RSS）

67

JetBrains 开源 Mellum2 模型：12B 参数，升级为 AI 智能体编程助手

JetBrains 开源了面向软件工程的模型 Mellum2。该模型总规模为 12B 参数，采用稀疏 Mixture-of-Experts 框架，激活参数量为 2.5B。上下文窗口扩展至 131072 Token。Mellum2 支持生成编辑代码、调用外部工具及执行多步骤智能体式工作流。模型基础版、指令版和思考版均以 Apache 2.0 许可证开源。

开源生态模型发布编码

10:07

IT之家（RSS）

47

AI 气象模型 WeatherMesh-6 发布，预报精度超欧洲政府机构顶尖系统

初创企业 WindBorne Systems 今日发布第六代气象模型 WeatherMesh-6。该模型预报精度已超越欧洲中期天气预报中心（ECMWF）的传统与AI预报产品，其提前五天的地表气温预报准确度相当于传统模型提前一天的水平。WindBorne Systems 通过全球15个站点约400只探空气球自主采集数据，形成“自研模型+自主数据源”的核心优势。该公司于2024年完成2500万美元融资，估值8500万美元。

数据/训练模型发布

09:07

IT之家（RSS）

59

微软首个自研推理 AI 模型 MAI-Thinking-1、新 Copilot 超级应用曝光

微软将在 Build 2026 大会上发布首个自研推理模型 MAI-Thinking-1，该模型未使用其他模型输出进行知识蒸馏训练。同期还将发布 MAI-Image-2.5 和 MAI-Image-2.5-Flash 图像生成模型，以完善其自有模型矩阵。此外，微软可能展示整合了多个 AI 助手及 Scout AI agent 的 Copilot 超级应用新形态，但该功能测试版预计要到夏末才会推出。

Microsoft 推理模型发布

07:07

IT之家（RSS）

71

阿里发布 Qwen3.7-Plus 模型，升级多模态交互混合 AI 智能体

阿里通义千问（Qwen）于6月2日发布新模型 Qwen3.7-Plus，定位为多模态交互混合智能体基座。它是 Qwen3.7 的升级版，在保留文本、编码和工具使用能力的基础上，显著强化了视觉理解与视觉推理能力，支持图像、视频、屏幕、网页和文本输入，面向复杂软件与办公流程。该模型在 Vision Arena 评测中帮助阿里进入全球前 5、中国第 1，并在 BabyVision、MathVision 等多模态测试中提升明显。模型已通过阿里云百炼和 Qwen Studio 提供服务。

智能体多模态模型发布

关联讨论 3 条X：阿里云 / Alibaba Cloud (@alibaba_cloud)X：Kim (@kimmonismus)X：通义千问 / Qwen (@Alibaba_Qwen)

04:41

MarkTechPost（RSS）

59

MiniMax 发布 MiniMax M3：支持 MSA 架构、1M Token 上下文、原生多模态与智能体编程

MiniMax 发布了新模型 MiniMax M3，引入了 MiniMax Sparse Attention (MSA) 架构。该模型支持高达 1M token 的上下文窗口，并具备原生的图像、视频和计算机使用能力，面向智能体编程场景。

智能体多模态模型发布

02:15

xAI：News（网页）

精选78

xAI发布Composer 2.5

xAI的最新编程模型Composer 2.5现已在Grok Build中可用，用户可通过/models菜单选择使用。这是一款快速、先进的模型，擅长处理长时间运行的任务和复杂指令。该模型面向SuperGrok和X Premium+用户开放。

xAI 推理模型发布

关联讨论 1 条X：xAI (@xai)

推荐理由：xAI 的 Composer 2.5 主攻长任务和复杂指令，如果你在用 Grok 搭 Agent，这模型值得切过去试试，可能比之前的编码模型更稳。

01:59

公众号：通义实验室（千问）

同事件精选64

Qwen3.7-Plus 多模态智能体模型发布

Qwen3.7-Plus 深度融合视觉与语言，实现“看、想、写、做、验”端到端闭环，在 12 项核心基准测试中表现提升。实测中，基于该模型的智能体连续运行超 11 小时，自动完成英语学习 APP 开发，生成代码超 10000 行、触发调用超 1000 次；复刻 macOS Stocks 应用并通过 10 项功能验证。支持图像/视频转 SVG、视觉驱动网页设计及浏览器自动化。已在阿里云百炼上线，提供 OpenAI 兼容 API 与 Anthropic 协议。

智能体多模态模型发布

同一事件，精选展示《Qwen3.7-Plus：多模态智能体模型发布》

推荐理由：Qwen3.7-Plus 把视觉智能体推到了‘能看、能想、能动手’的端到端闭环，从写代码到操作浏览器一条龙，做自动化 Agent 的团队可以直接拿来用。

1…4 567 8…15