AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 588 条
全部一手资讯X论文
6月6日周六
14:58The Decoder:AI News(RSS)66Qwen3.7-Plus:阿里巴巴将多模态AI打造成完全自主智能体
11:16IT之家(RSS)55全球海洋现象智能预报大模型"琅琊"2.0发布
03:27MarkTechPost(RSS)50Google DeepMind 发布 Gemma 4 QAT 检查点:Q4_0 和新的移动格式降低设备端内存
03:21Hacker News 热门(buzzing.cc 中文翻译)69Gemma 4 QAT 模型:优化压缩以提升移动设备和笔记本电脑的能效
6月5日周五
14:14IT之家(RSS)71谷歌推出 Magenta RealTime 2 本地实时音乐 AI 模型:延迟降低至 1/15
13:27公众号:京东JoyAI72精选京东开源JoyAI-Echo长音视频生成框架
13:14IT之家(RSS)58xAI 开放预览版图转视频模型 grok-imagine-video-1.5-preview,单图生成最高 720p 电影感视频
05:54MarkTechPost(RSS)69NVIDIA AI 发布 Nemotron 3 Ultra:开源 550B MoE 混合 Mamba-Transformer,面向长时间运行智能体
03:43Hugging Face:Blog(RSS)78精选Nemotron 3.5 Content Safety:面向全球企业AI的可定制多模态安全
6月4日周四
20:52LMSYS:Blog(Chatbot Arena 团队)81SGLang 和 Miles 即日支持 NVIDIA Nemotron 3 Ultra
16:21MarkTechPost(RSS)61Miso Labs 发布 MisoTTS:8B 参数情感文本转语音模型,开放权重
16:18The Decoder:AI News(RSS)55xAI 更新 Grok Imagine 至 1.5,新增 720p 图像转视频生成
14:11IT之家(RSS)75Ideogram 4.0 开源文生图模型发布
11:10IT之家(RSS)64香港首个生产力级超级智能体发布,本地大模型 HKGAI V3 登场
09:28xAI:News(网页)75精选xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)
04:26OpenAI:官网动态(RSS · 排除企业/客户案例)66精选GPT-Rosalind 新功能发布
04:17The Decoder:AI News(RSS)72Google DeepMind 发布 Gemma 4 12B:开源多模态模型,16GB 内存笔记本即可运行
03:22Ars Technica:AI(RSS)60Google 新发布的 Gemma 4 12B 模型可在任何 16GB 内存笔记本电脑上运行
02:48MarkTechPost(RSS)68Google DeepMind 发布 Gemma 4 12B:无需编码器的多模态模型,支持原生音频,可在16GB笔记本上运行
02:47The Decoder:AI News(RSS)66Ideogram 4.0 发布:开放权重模型,原生2K分辨率与改进文本渲染
01:38Hacker News 热门(buzzing.cc 中文翻译)78同事件精选Gemma 4 12B:一种统一的、无需编码器的多模态模型同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
00:07Google Developers Blog(RSS)78同事件精选Gemma 4 12B:开发者指南同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
6月3日周三
19:16The Decoder:AI News(RSS)71Build 2026:Microsoft 在图像生成上超越 Google,在推理上仍追赶
16:47MarkTechPost(RSS)69NVIDIA发布Cosmos 3:统一物理推理、世界生成与动作生成的双塔混合Transformer基础模型
05:35Hacker News 热门(buzzing.cc 中文翻译)66微软推出 MAI-Thinking-1 模型
04:05Hacker News 热门(buzzing.cc 中文翻译)49微软 MAI-Code-1-Flash 以 50 亿参数在 SWE-Bench Pro 取得 51% 成绩
03:09IT之家(RSS)69微软发布其首款高级推理模型 MAI-Thinking-1:承诺未蒸馏第三方模型,自研 AI 模型阵容进一步扩充
02:45The Verge:AI(RSS)78精选微软首款高级推理AI模型MAI-Thinking-1发布
6月2日周二
22:40Hugging Face:Blog(RSS)73精选Holo3.1:快速本地计算机使用智能体
19:34蚂蚁 inclusionAI:HuggingFace 新模型61同事件精选蚂蚁 inclusionAI 开源万亿参数 MoE 基座模型 Ling-2.6-1T-base同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》
17:55蚂蚁 inclusionAI:HuggingFace 新模型54蚂蚁 inclusionAI 发布 Ling-2.6-flash-base 基础模型
17:13MarkTechPost(RSS)67阿里巴巴通义千问团队在百炼平台发布 Qwen3.7-Plus
16:13MarkTechPost(RSS)65JetBrains 发布 Mellum2:用于多模型 AI 流水线快速专用任务的 12B MoE 模型
14:07IT之家(RSS)67JetBrains 开源 Mellum2 模型:12B 参数,升级为 AI 智能体编程助手
10:07IT之家(RSS)47AI 气象模型 WeatherMesh-6 发布,预报精度超欧洲政府机构顶尖系统
09:07IT之家(RSS)59微软首个自研推理 AI 模型 MAI-Thinking-1、新 Copilot 超级应用曝光
07:07IT之家(RSS)71阿里发布 Qwen3.7-Plus 模型,升级多模态交互混合 AI 智能体
04:41MarkTechPost(RSS)59MiniMax 发布 MiniMax M3:支持 MSA 架构、1M Token 上下文、原生多模态与智能体编程
02:15xAI:News(网页)78精选xAI发布Composer 2.5
01:59公众号:通义实验室(千问)64同事件精选Qwen3.7-Plus 多模态智能体模型发布同一事件,精选展示《Qwen3.7-Plus:多模态智能体模型发布》
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月6日
14:58
The Decoder:AI News(RSS)
66
Qwen3.7-Plus:阿里巴巴将多模态AI打造成完全自主智能体

阿里巴巴Qwen团队发布Qwen3.7-Plus,一个将视觉感知、GUI操作和编码能力整合到单一智能体循环中的多模态智能体模型。在演示中,基于该模型的智能体自主开发了一款词汇学习应用,生成了超过10,000行代码,共执行了1,000次智能体调用,耗时11小时。该模型在Qwen自主基准测试的屏幕理解任务上领先,但整体性能表现参差不齐。Qwen3.7-Plus为闭源模型,价格远低于西方前沿模型。

智能体多模态模型发布编码
11:16
IT之家(RSS)
55
全球海洋现象智能预报大模型"琅琊"2.0发布

6月6日,中国科学院海洋研究所发布“琅琊”2.0,在1.0基础上从海洋状态变量预报拓展至台风、降水、风暴潮、海冰等六类复杂海洋现象,开发了6个垂直模型。台风模型融合大气海洋环境场、卫星云图和历史演变信息,提升24小时路径与强度预报;降水模型基于卫星数据学习时空演变预测未来变化;海冰模型面向北极航道,实现3公里分辨率、月尺度以上快速预测,支撑航道安全研判。

数据/训练模型发布
03:27
MarkTechPost(RSS)
50
Google DeepMind 发布 Gemma 4 QAT 检查点:Q4_0 和新的移动格式降低设备端内存

Google DeepMind 推出 Gemma 4 量化感知训练(QAT)检查点,包含 Q4_0 格式和一种新的移动端格式,旨在降低设备端内存占用。对比 BF16、Q4_0 QAT 和移动版 QAT 三种边缘端格式,官方公布了各格式的内存数据与设计权衡。

DeepMindGoogle多模态模型发布
03:21
Hacker News 热门(buzzing.cc 中文翻译)
69
Gemma 4 QAT 模型:优化压缩以提升移动设备和笔记本电脑的能效

Google 发布 Gemma 4 QAT 模型,该模型通过量化感知训练(QAT)技术优化压缩,旨在提升移动设备和笔记本电脑上的运行效率与能效。文章来源于 Google 官方博客,介绍了这一面向移动端和笔记本端的模型优化方案。

Google推理模型发布端侧
6月5日
14:14
IT之家(RSS)
71
谷歌推出 Magenta RealTime 2 本地实时音乐 AI 模型:延迟降低至 1/15

谷歌 Magenta 团队昨日发布 Magenta RealTime 2(MRT2)模型,免费放出乐器应用 Jam 及 DAW 插件 MRT2。MRT2 提供两种规模:高质量模型 mrt2_base(24 亿参数)和高速模型 mrt2_small(2.3 亿参数),均针对苹果 Apple Silicon 优化,mrt2_small 可在 M1 及以上芯片 Mac 实时运行。相较前代延迟约 3 秒,MRT2 改为逐帧生成(每帧 40 毫秒),控制延迟约 200 毫秒,降低至 15 分之一。支持文本和音频风格提示、MIDI 音符与鼓开关控制及 Auto-Strum 模式。技术基于 Codec Language Model,采用 SpectroStream 编解码器处理 48kHz 立体声音频。

Google多模态模型发布
关联讨论 1 条X:Google AI for Developers (@googleaidevs)
13:27
公众号:京东JoyAI
精选72
京东开源JoyAI-Echo长音视频生成框架

6月3日,京东开源JoyAI-Echo框架,解决长视频生成中角色身份崩坏、音色突变和生成缓慢三大难题。该框架通过跨模态音视频记忆库保持5分钟内角色外观与音色一致,记忆驱动后训练结合DMD技术带来约7.5倍推理加速。新增Director Agent支持自然语言对话式局部修订,无需重跑整条视频。配套轻量化实时超分模块,支持736×1280→1152×1920及1472×2560两档分辨率。评测集显示,语音内容准确率0.8646,用户偏好多项领先。代码与权重已开源至GitHub。

GitHub多模态模型发布

推荐理由:长视频生成一直被角色崩塌和龟速生成卡死,JoyAI-Echo 开源给出了角色一致性方案和 7.5 倍加速,Director Agent 对话式编辑的思路很先进,做 AI 视频的朋友可以直接去 GitHub 开跑。
13:14
IT之家(RSS)
58
xAI 开放预览版图转视频模型 grok-imagine-video-1.5-preview,单图生成最高 720p 电影感视频

xAI 通过 API 开放预览版图像转视频模型 grok-imagine-video-1.5-preview,可将一张静态图像扩展为流畅的电影感视频片段。用户提供起始图片并用自然语言描述运动方式后,模型可控制镜头移动、画面节奏、环境氛围与物理效果。该模型最高支持 720p 视频生成,适合概念验证、分镜测试和短内容生产,并能通过逐段动画化将多镜头串联为更长场景。

xAI图像生成模型发布视频
05:54
MarkTechPost(RSS)
69
NVIDIA AI 发布 Nemotron 3 Ultra:开源 550B MoE 混合 Mamba-Transformer,面向长时间运行智能体

NVIDIA 发布 Nemotron 3 Ultra,总参数量 550B(活跃参数 55B)的开源混合专家(MoE)模型,采用 Mamba-Transformer 混合架构,专为长时间运行的 AI 智能体设计。该模型支持 1M token 上下文窗口,推理吞吐量比同等准确率的开源大语言模型最高提升约 6 倍。权重、训练数据和配方以 OpenMDW-1.1 许可开放。

智能体开源生态模型发布
03:43
Hugging Face:Blog(RSS)
精选78
Nemotron 3.5 Content Safety:面向全球企业AI的可定制多模态安全

Nemotron 3.5 Content Safety基于Gemma 3 4B IT,提供128K上下文窗口,支持用户提示、可选图像与助手响应的统一多模态安全评估。新增自定义策略执行,允许企业用自然语言定义专属安全规则;THINK模式可输出可审计的逐步推理痕迹。显式训练覆盖12种语言,并借助基座模型零样本泛化至约140种语言。输出提供低延迟二分类、带分类标签、THINK推理痕迹三种模式。安全分类遵循Aegis 2.0框架(13核心类别+10细分类别)。同步发布多模态、多语言安全数据集,可在8GB+ VRAM GPU上实时部署。

Hugging Face多模态安全/对齐开源/仓库

推荐理由:Nemotron 3.5 把内容安全从「单模态英文」拉到「多语言多模态可定制」,自定义策略和推理 trace 让企业能审计决策,做安全平台的值得细看。
6月4日
20:52
LMSYS:Blog(Chatbot Arena 团队)
81
SGLang 和 Miles 即日支持 NVIDIA Nemotron 3 Ultra

SGLang 与 Miles 在发布首日即支持 NVIDIA Nemotron 3 Ultra。该模型为开放前沿推理模型,总参数 550B、激活参数 55B,采用混合 Transformer-Mamba 架构的 MoE,支持最长 1M token 上下文。针对长运行自主智能体优化,具备工具调用、编码、深度研究与编排能力,后训练使用多环境强化学习(NeMo RL)。SGLang 提供高性能推理,支持 NVFP4 和 BF16 精度,NVFP4 检查点可在 Blackwell GPU 运行;Miles 支持强化学习工作流。模型权重、数据与配方均开源。在智能体生产力、指令遵循与长上下文任务上准确率领先,成本节省高达 30%。

智能体开源生态推理模型发布
关联讨论 9 条X:Kim (@kimmonismus)HuggingFace Daily Papers(社区热门论文)IT之家(RSS)Hugging Face:Blog(RSS)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)
16:21
MarkTechPost(RSS)
61
Miso Labs 发布 MisoTTS:8B 参数情感文本转语音模型,开放权重

Miso Labs 推出 MisoTTS,一款开放权重的 8B 参数文本转语音模型。该模型采用残差向量量化(RVQ)在不增加参数量的情况下扩展声音范围,并同时基于文本和音频上下文来响应用户语调。架构由 7.7B 主骨干与 300M 深度解码器组成。

开源生态模型发布语音
16:18
The Decoder:AI News(RSS)
55
xAI 更新 Grok Imagine 至 1.5,新增 720p 图像转视频生成

xAI 发布 grok-imagine-video-1.5-preview 图像转视频模型,能将静态图片转换为最高 720p 分辨率的影视级视频,支持文本提示控制,多个片段可拼接为更长的场景。

xAI图像生成模型发布视频
14:11
IT之家(RSS)
75
Ideogram 4.0 开源文生图模型发布

Ideogram 6月3日发布开源文生图模型 Ideogram 4.0,核心规模 9.3B 参数,采用单流架构,文本 tokens 与图像 tokens 共享自注意力序列。模型使用 Qwen3-VL-8B-Instruct 文本编码器、34 层单流 DiT、Euler 流匹配采样器及冻结 KL 自动编码器。擅长文字绘制,能准确呈现较长文本;通过对象和文本边界框训练,配合结构化 JSON 字幕数据,支持用提示词指定版式和布局。在 DesignArena 人类评价排名中位列全球第 4。

图像生成开源生态模型发布
关联讨论 1 条X:Krea AI (@krea_ai)
11:10
IT之家(RSS)
64
香港首个生产力级超级智能体发布,本地大模型 HKGAI V3 登场

香港生成式人工智能研发中心(HKGAI)发布HKGAI V3大模型及香港首个生产力级超级智能体。V3实现超10倍Token压缩效率提升,Agent无干预运行时长增长近百倍,单次稳定运行达28小时,并针对香港本地语境优化。HKGAI联合香港浪潮云及三大运营商向海外开放推理算力与智能服务。同时发布HKGAI政商一体机,内置V3模型实现本地推理、数据不出站,适用于政务、金融、医疗等高安全场景。

智能体模型发布
09:28
xAI:News(网页)
精选75
xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)

xAI 通过 API 发布了图像转视频模型 grok-imagine-video-1.5-preview(Grok Imagine 1.5 预览版)。该模型能将单张静态图片转为流畅的电影感视频,用户提供起始帧和描述运动的提示词后,模型可生成包含相机移动、氛围和物理效果的动画,并保持对源图像的忠实。支持生成 720p 片段,可使用自然语言指令控制镜头、节奏和音效,并支持逐帧拼接成长场景。模型目前通过 xAI API 提供预览使用。

xAI多模态模型发布视频
关联讨论 4 条X:Elon Musk (@elonmusk, xAI)X:阿易 AI Notes (@AYi_AInotes)X:cb_doge (@cb_doge)xAI:News(网页)
推荐理由:xAI的新视频模型从单张图像生成电影级短片,支持自然语言控制运镜和氛围,对视频创作者和开发者是个值得一试的工具。
04:26
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选66
GPT-Rosalind 新功能发布

GPT-Rosalind 在生命科学研究领域推出新功能,增强了生物推理、药物化学专业知识、基因组学分析以及实验工作流处理能力。

OpenAI推理模型发布
关联讨论 1 条X:OpenAI (@OpenAI)
推荐理由:GPT-Rosalind 把 GPT-5.5 的智能带进了生命科学核心流程,从分子设计到 FDA 审评准备都能直接参与,是行业模型走向实用化的一个关键节点,虽然现在只对机构开放,但未来可能重塑药物研发工具链。
04:17
The Decoder:AI News(RSS)
72
Google DeepMind 发布 Gemma 4 12B:开源多模态模型,16GB 内存笔记本即可运行

Gemma 4 12B 是 Google DeepMind 推出的开源模型,原生支持处理文本、图像和音频,仅需 16GB RAM 即可在笔记本上运行。在基准测试中几乎追平两倍参数规模的 26B 模型,采用 Apache 2.0 许可证,可用于商业用途。

Google多模态开源生态模型发布
关联讨论 6 条X:Demis Hassabis (@demishassabis)X:Sundar Pichai (@sundarpichai)X:Google AI for Developers (@googleaidevs)Google Developers Blog(RSS)X:Jeff Dean (@JeffDean)Google DeepMind:Blog(RSS)
03:22
Ars Technica:AI(RSS)
60
Google 新发布的 Gemma 4 12B 模型可在任何 16GB 内存笔记本电脑上运行

Gemma 4 12B 采用新的编码方案与 token 预测,实现了超越自身参数规模的性能表现。该模型专为在 16GB RAM 的笔记本电脑上本地运行而设计。

Google多模态模型发布端侧
02:48
MarkTechPost(RSS)
68
Google DeepMind 发布 Gemma 4 12B:无需编码器的多模态模型,支持原生音频,可在16GB笔记本上运行

Gemma 4 12B 是 Google DeepMind 发布的无需编码器的多模态模型,直接将视觉和音频输入大语言模型骨干,支持原生音频,可在 16 GB 笔记本电脑上本地运行,采用 Apache 2.0 开源许可。

Google多模态开源/仓库模型发布
02:47
The Decoder:AI News(RSS)
66
Ideogram 4.0 发布:开放权重模型,原生2K分辨率与改进文本渲染

Ideogram 发布 4.0 版本文本到图像模型,采用开放权重,支持原生2K分辨率、边界框控制和改进的文本渲染。在 DesignArena 排行榜上,该模型位列所有开放模型之首;仅 OpenAI 和 Google 的闭源系统得分更高。商业使用需购买付费许可证。

图像生成开源生态模型发布
01:38
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选78
Gemma 4 12B:一种统一的、无需编码器的多模态模型

Gemma 4 12B 是 Google 发布的一款统一架构、无需独立视觉编码器的多模态大语言模型(LLM)。该模型直接处理图像与文本输入,无需传统视觉编码器,简化了多模态推理流程。基于 12B 参数规模,Gemma 4 12B 面向开发者工具生态开放。目前其具体 benchmark 分数、上下文窗口、价格及开源/API 可用性等细节尚未披露。

Google多模态模型发布端侧
同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
推荐理由:我觉得Gemma 4 12B最大的变化不是参数大小,而是第一次在开源模型里把多模态直接交给LLM主干处理,没有单独的视觉编码器,这意味着本地多模态应用的延迟和内存占用都会大幅下降,对于在笔记本上做Agent的开发者,这是一个必试的版本。
00:07
Google Developers Blog(RSS)
同事件精选78
Gemma 4 12B:开发者指南

Gemma 4 12B 是一款密集多模态模型,专为消费级设备上的高性能本地 AI 执行而设计。其采用新颖的无编码器架构,绕过传统视觉和音频编码器,将多模态数据直接输入大语言模型主干。

Google多模态模型发布端侧
同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
推荐理由:Google 把多模态模型直接塞进消费级设备,靠的不再是缩水而是架构层面的创新。12B 放在本地跑,这次玩法变了。
6月3日
19:16
The Decoder:AI News(RSS)
71
Build 2026:Microsoft 在图像生成上超越 Google,在推理上仍追赶

微软在 Build 2026 大会上发布七款自研新 AI 模型,其中包括其首款推理模型。公司还推出了一种新的调优方法和一个自主后台 AI 智能体。

Microsoft图像生成推理模型发布
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)X:Satya Nadella (@satyanadella)
16:47
MarkTechPost(RSS)
69
NVIDIA发布Cosmos 3:统一物理推理、世界生成与动作生成的双塔混合Transformer基础模型

NVIDIA发布Cosmos 3,这是一款开放的全模态世界模型。该模型采用双塔混合Transformer架构,统一了物理推理、世界生成与动作生成能力,结合了自回归VLM推理器与扩散生成器,旨在赋能物理AI。

具身智能多模态开源生态模型发布
05:35
Hacker News 热门(buzzing.cc 中文翻译)
66
微软推出 MAI-Thinking-1 模型

微软通过其AI官方网站 microsoft.ai 发布了新模型 “MAI-Thinking-1”。该消息随链接一同发布,并出现在相关技术社区中。

Microsoft推理模型发布编码
04:05
Hacker News 热门(buzzing.cc 中文翻译)
49
微软 MAI-Code-1-Flash 以 50 亿参数在 SWE-Bench Pro 取得 51% 成绩

微软推出 MAI-Code-1-Flash 模型,仅使用 50 亿个活动参数(5B Active Params),在 SWE-Bench Pro 基准测试中获得了 51% 的成绩,展示了高参数效率。

Microsoft模型发布编码
03:09
IT之家(RSS)
69
微软发布其首款高级推理模型 MAI-Thinking-1:承诺未蒸馏第三方模型,自研 AI 模型阵容进一步扩充

微软在 Build 2026 大会上发布了其首款高级推理模型 MAI-Thinking-1。该模型为中等规模,在软件工程基准测试中达到业界领先水平,且完全基于干净数据从零开始训练,未使用第三方模型的蒸馏数据。同时,微软还推出了 MAI-Image 2.5(文生图/图像编辑)、MAI-Transcribe-1.5(语音转写,速度达竞争对手五倍)、MAI-Voice-2(语音合成,新增15种语言支持)和 MAI-Code-1(编程辅助,已集成至 GitHub Copilot 和 VS Code)等多款新模型。

Microsoft推理模型发布编码
02:45
The Verge:AI(RSS)
精选78
微软首款高级推理AI模型MAI-Thinking-1发布

微软在Build 2026上发布了其首款高级推理AI模型MAI-Thinking-1。该模型被定位为“中等规模”,能在“关键”软件工程基准测试中达到领先模型的水平。微软称其完全从头使用干净数据进行训练,未涉及从第三方模型进行知识蒸馏。这标志着微软在自研AI模型上迈出重要一步,此前其主要依赖OpenAI。近期两家公司已重新协商合作协议,关系有所松绑。

Microsoft推理模型发布
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)X:Satya Nadella (@satyanadella)
推荐理由:微软自己从头训练的推理模型,不用任何第三方蒸馏数据,这可能是微软系 Agent 和 Copilot 底座更换的信号,值得盯着看。
6月2日
22:40
Hugging Face:Blog(RSS)
精选73
Holo3.1:快速本地计算机使用智能体

Holo3.1 是基于 Qwen 模型家族的计算机使用智能体系列,旨在提升在桌面、网页和移动环境中的鲁棒性。新模型提供 0.8B、4B、9B 和 35B-A3B 四种尺寸,并首次发布量化检查点,包括 FP8、Q4 GGUF 和 NVFP4,以优化本地推理。在 AndroidWorld 基准测试中,35B-A3B 模型得分从 67% 提升至 79.3%。在 DGX Spark 上,NVFP4 量化相比 BF16 实现 1.74 倍 token 吞吐量提升,并将平均步骤时间从 6.8 秒缩短至 3.3 秒。模型支持函数调用协议,可在第三方智能体框架中部署。

智能体Hugging Face开源/仓库模型发布

推荐理由:Holo3.1 把计算机使用代理从桌面扩展到了移动端,还首次放出了量化版,让本地运行真正快了起来。想做 GUI 自动化的开发者可以立刻跑起来了。
19:34
蚂蚁 inclusionAI:HuggingFace 新模型
同事件精选61
蚂蚁 inclusionAI 开源万亿参数 MoE 基座模型 Ling-2.6-1T-base

Ling-2.6-1T-base 是蚂蚁 inclusionAI 开源的万亿参数 MoE 基座模型(总参约 1T,激活 63B)。它由 Ling-2.0-1T-base 升级而来,采用 Lightning Attention 与 MLA 以 7:1 混合的线性注意力架构,经约 9.6T token 的迁移预训练、持续预训练和中训练,上下文窗口从 4K 分阶段扩展至 256K。在 MMLU(86.82)、SimpleQA、LongBenchv2(43.54)等基准上超越前代。该模型仅供研究(继续预训练、微调、蒸馏等),不直接提供对话功能。

Hugging Face开源生态推理模型发布
同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》
推荐理由:Ling-2.6 用混合线性注意力把万亿 MoE 基座模型的上下文能力推到了 256K,对于研究长上下文和 MoE 的团队是个有价值的基座,但它是未对齐的预训练模型,不能直接当对话助手用。
17:55
蚂蚁 inclusionAI:HuggingFace 新模型
54
蚂蚁 inclusionAI 发布 Ling-2.6-flash-base 基础模型

Ling-2.6-flash-base 是蚂蚁 inclusionAI 发布的基础模型,采用闪速规模 MoE 与混合线性注意力架构(7:1 融合 Lightning Attention 与 MLA),总参数量约 104B、激活约 7.4B。模型从 Ling-2.0 检查点改造而来,经约 9.6T token 的迁移预训练、继续预训练和中段训练,上下文窗口从 4K 扩展至 256K。在知识、推理、数学、代码和长上下文基准上相比前代均有提升(如 MMLU 84.13,GSM8K 91.89)。该模型面向研究用途开放,支持继续预训练、微调和蒸馏,未经聊天对齐。

推理模型发布部署/工程
17:13
MarkTechPost(RSS)
67
阿里巴巴通义千问团队在百炼平台发布 Qwen3.7-Plus

通义千问(Qwen)团队在百炼平台发布了多模态智能体模型 Qwen3.7-Plus。该模型能理解图像和视频,并新增了自我编程、工具调用、深度推理和自主迭代能力。

智能体多模态模型发布
16:13
MarkTechPost(RSS)
65
JetBrains 发布 Mellum2:用于多模型 AI 流水线快速专用任务的 12B MoE 模型

JetBrains 发布开源模型 Mellum2。该模型为 12B 参数的 MoE 架构,在 10.6 万亿个 token 上训练,采用 Apache 2.0 许可,专为多模型 AI 流水线中的快速、专用任务设计。

开源生态模型发布部署/工程
14:07
IT之家(RSS)
67
JetBrains 开源 Mellum2 模型:12B 参数,升级为 AI 智能体编程助手

JetBrains 开源了面向软件工程的模型 Mellum2。该模型总规模为 12B 参数,采用稀疏 Mixture-of-Experts 框架,激活参数量为 2.5B。上下文窗口扩展至 131072 Token。Mellum2 支持生成编辑代码、调用外部工具及执行多步骤智能体式工作流。模型基础版、指令版和思考版均以 Apache 2.0 许可证开源。

开源生态模型发布编码
10:07
IT之家(RSS)
47
AI 气象模型 WeatherMesh-6 发布,预报精度超欧洲政府机构顶尖系统

初创企业 WindBorne Systems 今日发布第六代气象模型 WeatherMesh-6。该模型预报精度已超越欧洲中期天气预报中心(ECMWF)的传统与AI预报产品,其提前五天的地表气温预报准确度相当于传统模型提前一天的水平。WindBorne Systems 通过全球15个站点约400只探空气球自主采集数据,形成“自研模型+自主数据源”的核心优势。该公司于2024年完成2500万美元融资,估值8500万美元。

数据/训练模型发布
09:07
IT之家(RSS)
59
微软首个自研推理 AI 模型 MAI-Thinking-1、新 Copilot 超级应用曝光

微软将在 Build 2026 大会上发布首个自研推理模型 MAI-Thinking-1,该模型未使用其他模型输出进行知识蒸馏训练。同期还将发布 MAI-Image-2.5 和 MAI-Image-2.5-Flash 图像生成模型,以完善其自有模型矩阵。此外,微软可能展示整合了多个 AI 助手及 Scout AI agent 的 Copilot 超级应用新形态,但该功能测试版预计要到夏末才会推出。

Microsoft推理模型发布
07:07
IT之家(RSS)
71
阿里发布 Qwen3.7-Plus 模型,升级多模态交互混合 AI 智能体

阿里通义千问(Qwen)于6月2日发布新模型 Qwen3.7-Plus,定位为多模态交互混合智能体基座。它是 Qwen3.7 的升级版,在保留文本、编码和工具使用能力的基础上,显著强化了视觉理解与视觉推理能力,支持图像、视频、屏幕、网页和文本输入,面向复杂软件与办公流程。该模型在 Vision Arena 评测中帮助阿里进入全球前 5、中国第 1,并在 BabyVision、MathVision 等多模态测试中提升明显。模型已通过阿里云百炼和 Qwen Studio 提供服务。

智能体多模态模型发布
关联讨论 3 条X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:Kim (@kimmonismus)X:通义千问 / Qwen (@Alibaba_Qwen)
04:41
MarkTechPost(RSS)
59
MiniMax 发布 MiniMax M3:支持 MSA 架构、1M Token 上下文、原生多模态与智能体编程

MiniMax 发布了新模型 MiniMax M3,引入了 MiniMax Sparse Attention (MSA) 架构。该模型支持高达 1M token 的上下文窗口,并具备原生的图像、视频和计算机使用能力,面向智能体编程场景。

智能体多模态模型发布
02:15
xAI:News(网页)
精选78
xAI发布Composer 2.5

xAI的最新编程模型Composer 2.5现已在Grok Build中可用,用户可通过/models菜单选择使用。这是一款快速、先进的模型,擅长处理长时间运行的任务和复杂指令。该模型面向SuperGrok和X Premium+用户开放。

xAI推理模型发布
关联讨论 1 条X:xAI (@xai)
推荐理由:xAI 的 Composer 2.5 主攻长任务和复杂指令,如果你在用 Grok 搭 Agent,这模型值得切过去试试,可能比之前的编码模型更稳。
01:59
公众号:通义实验室(千问)
同事件精选64
Qwen3.7-Plus 多模态智能体模型发布

Qwen3.7-Plus 深度融合视觉与语言,实现“看、想、写、做、验”端到端闭环,在 12 项核心基准测试中表现提升。实测中,基于该模型的智能体连续运行超 11 小时,自动完成英语学习 APP 开发,生成代码超 10000 行、触发调用超 1000 次;复刻 macOS Stocks 应用并通过 10 项功能验证。支持图像/视频转 SVG、视觉驱动网页设计及浏览器自动化。已在阿里云百炼上线,提供 OpenAI 兼容 API 与 Anthropic 协议。

智能体多模态模型发布
同一事件,精选展示《Qwen3.7-Plus:多模态智能体模型发布》
推荐理由:Qwen3.7-Plus 把视觉智能体推到了‘能看、能想、能动手’的端到端闭环,从写代码到操作浏览器一条龙,做自动化 Agent 的团队可以直接拿来用。
‹ 上一页
1…45678…15
下一页 ›