AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 726 条
全部一手资讯X论文
标签「模型发布」清除
6月17日周三
09:20公众号:智谱(GLM)81GLM-5.2上线并开源:专注Coding与长程任务
06:56Hacker News 热门(buzzing.cc 中文翻译)69SubQ 1.1 Small
06:26Hacker News 热门(buzzing.cc 中文翻译)71Qwen-Robot Suite:一套面向物理世界智能的基础模型套件
00:53MarkTechPost(RSS)76同事件精选Qwen团队发布三个具身AI模型套件 Qwen-RobotSuite同一事件,精选展示《Qwen-RobotWorld:具身智能体的无界世界》
6月16日周二
14:30公众号:通义实验室(千问)73Qwen-Robot 发布:打通大模型到物理世界的最后一公里
12:39Qwen:Blog Retrieval(API)72同事件精选Qwen-RobotManip:对齐解锁机器人操作基础模型的规模化能力同一事件,精选展示《Qwen-RobotWorld:具身智能体的无界世界》
12:39Qwen:Blog Retrieval(API)72精选Qwen-RobotWorld:具身智能体的无界世界
12:39Qwen:Blog Retrieval(API)73Qwen-Robot Suite:面向物理世界智能的基础模型套件
12:39Qwen:Blog Retrieval(API)70同事件精选Qwen-RobotNav:面向智能体导航系统的可扩展导航模型同一事件,精选展示《Qwen-RobotWorld:具身智能体的无界世界》
10:40公众号:蚂蚁百灵(Ling)79同事件精选蚂蚁百灵发布 Ling & Ring 2.6 技术报告同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》
10:00IT之家(RSS)70精选成本砍半,字节跳动推出 Seedance 2.0 Mini 视频生成模型
01:25LMSYS:Blog(Chatbot Arena 团队)67精选下一代投机解码:DFlash 与 Spec V2
6月15日周一
23:49IT之家(RSS)69MiniMax M3 模型正式开源:原生多模态、百万上下文
23:01公众号:MiniMax(稀宇科技)76同事件精选MiniMax 开源 M3 模型权重及 MSA 技术论文同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
17:43IT之家(RSS)55理想汽车宣布下半年马赫VLA能力持续进化,第四季度对齐特斯拉FSD V14能力
14:38MarkTechPost(RSS)63Z.ai 发布 GLM-5.2,支持可用 1M Token 上下文窗口及两种思考强度
01:59Hacker News 热门(buzzing.cc 中文翻译)72精选里约热内卢市政府 AI 模型 Rio3.5 在基准测试中击败 Qwen3.7
6月14日周日
07:37IT之家(RSS)24智谱 GLM-5.2 下周开源,支持 1M 上下文
03:24Hacker News 热门(buzzing.cc 中文翻译)72同事件精选GLM 5.2 发布同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》
01:04The Decoder:AI News(RSS)38新AI模型"Count Anything"可对任意图像中的物体进行计数
6月13日周六
20:33The Decoder:AI News(RSS)50Google Research 的 Gemini-SQL2 在 text-to-SQL 基准测试中以大幅优势领先
18:36IT之家(RSS)63科大讯飞发布星火多模态大模型 X2-VL,当前唯一基于全国产算力训练的主流大模型
17:54公众号:智谱(GLM)70同事件精选智谱 GLM-5.2 全量开放,支持 1M 上下文且下周开源同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》
17:02The Decoder:AI News(RSS)61月之暗面开源模型Kimi K2.7 Code每个token价格比GPT-5.5和Claude低12倍
14:36IT之家(RSS)55谷歌发布Gemini-SQL2,Text-to-SQL准确率80.04%登顶
14:36IT之家(RSS)67智谱:GLM-5.2 面向 GLM Coding Plan 全量用户开放,下周开源
13:17蚂蚁 inclusionAI:HuggingFace 新模型62精选inclusionAI 发布 VISTA-4B GUI 定位视觉语言模型
13:17蚂蚁 inclusionAI:HuggingFace 新模型71inclusionAI/VISTA-9B:基于VISTA训练的GUI定位视觉语言模型
12:59MarkTechPost(RSS)55Moonshot AI 开源 Kimi K2.7-Code:编程模型在 Kimi Code Bench v2 上较 K2.6 提升 21.8%
08:00HuggingFace Daily Papers(社区热门论文)77同事件精选Ling-2.6与Ring-2.6技术报告:高效即时的万亿参数智能体智能同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》
05:28MarkTechPost(RSS)58Google 发布 Gemini-SQL2:Gemini 3.1 Pro Text-to-SQL 在 BIRD 单模型排行榜上取得 80.04% 执行准确率
6月12日周五
21:18Hacker News 热门(buzzing.cc 中文翻译)77同事件精选Kimi K2.7-Code:具有更高模型 token 效率的开源编码模型同一事件,精选展示《6倍速!Kimi K2.7 Code 高速版已上线》
19:36IT之家(RSS)69月之暗面开源 Kimi K2.7 Code 编程模型,预告 6 倍速高速版
17:35IT之家(RSS)69商汤开源 SenseNova U1 图文交错生成增强版模型:支持多页连续创作,角色风格不"跑偏"
16:26MarkTechPost(RSS)53Zyphra 发布 Zamba2-VL:混合 Mamba2-Transformer 视觉语言模型,首 token 延迟降低约一个数量级
15:35IT之家(RSS)64华为发布开源盘古2.0模型:最高505B参数,余承东坦言算力有限
13:53TechCrunch:AI(RSS)64Avataar AI 发布蒸馏视频生成模型,面向印度市场
08:00HuggingFace Daily Papers(社区热门论文)64Nemotron 3 Ultra:开放高效混合专家Mamba-Transformer智能体推理模型
01:17Hacker News 热门(buzzing.cc 中文翻译)72精选DeepSeek-R1 的开源实现
6月11日周四
16:54MarkTechPost(RSS)67Cohere 发布 North Mini Code:30B 参数 MoE 编码模型,3B 活跃参数,单卡 H100 运行,支持 256K 上下文
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月17日
09:20
公众号:智谱(GLM)
81
GLM-5.2上线并开源:专注Coding与长程任务

智谱今日发布并开源GLM-5.2,在前端开发盲测系统Code Arena上取得全球可用模型第一。该模型专为长程任务设计,实现1M无损上下文,支持跨越数天的任务执行。在FrontierSWE上仅比Claude Opus 4.8低1%,超过GPT-5.5(1%)和Opus 4.7(11%);Terminal-Bench 2.1上比Opus 4.8低4%,较GLM-5.1提升17.5%。引入思考档位控制,Coding能力介于Opus 4.7与4.8之间。提出IndexShare架构降低单位FLOPs至2.9倍,改进MTP层提升接受长度20%。已在华为昇腾等国产算力平台适配。模型权重以MIT协议开源,API已上线并纳入GLM Coding Plan。

智能体Hugging Face模型发布编码
关联讨论 9 条X:Testing Catalog (@testingcatalog)X:硅基流动 SiliconFlow (@SiliconFlowAI)Simon Willison 博客The Decoder:AI News(RSS)X:智谱 Z.ai (@Zai_org)Nathan Lambert:Interconnects(RSS)智谱:研究(网页内嵌数据)Hugging Face:Blog(RSS)Hacker News 热门(buzzing.cc 中文翻译)
06:56
Hacker News 热门(buzzing.cc 中文翻译)
69
SubQ 1.1 Small

SubQ 1.1 Small 基于 Subquadratic Sparse Attention (SSA),在 needle-in-a-haystack 测试中接近完美检索 12M token,注意力计算减少近 1000 倍。1M token 时计算量仅密集注意力的 1/64.5,速度是 FlashAttention-2 的 56 倍。GPQA Diamond 85.4%,LiveCodeBench v6 pass@4 89.7%,AutomationBench Finance 13%。模型基于现有开源前沿模型改造,通过阶段上下文扩展(262K 至 2M)和约 1 万亿 token 继续预训练实现。已与设计合作伙伴部署,计划年内推出 2M–12M token 更大系列。

推理数据/训练模型发布
06:26
Hacker News 热门(buzzing.cc 中文翻译)
71
Qwen-Robot Suite:一套面向物理世界智能的基础模型套件

Qwen-Robot Suite 包含三个基础模型:Qwen-RobotNav 通过可控观察编码统一指令跟随、点/物体目标导航、目标跟踪和自动驾驶五个导航域;Qwen-RobotManip 利用规范状态-动作空间和相机帧增量位姿,在超3.81万小时开源语料上实现跨具身操作对齐;Qwen-RobotWorld 以自然语言为动作接口,联合训练20余种具身,预测物理世界动态。三者可组合成通用智能体系统。

具身智能模型发布
关联讨论 1 条X:通义千问 / Qwen (@Alibaba_Qwen)
00:53
MarkTechPost(RSS)
同事件精选76
Qwen团队发布三个具身AI模型套件 Qwen-RobotSuite

Qwen团队发布三个具身AI模型组成的套件Qwen-RobotSuite:Qwen-RobotManip(基于Qwen3.5-4B的VLA模型,通过统一对齐框架和3800小时开源数据(含24708小时合成)实现跨本体操作,在LIBERO-Plus OOD基准上达91.4%,跨本体迁移性能为π0.5的3.2倍)、Qwen-RobotWorld(60层MMDiT+冻结Qwen2.5-VL编码器的语言条件视频世界模型,以自然语言为统一动作接口预测未来视频)和Qwen-RobotNav(基于Qwen3-VL的导航模型,2B/4B/8B,输出航点轨迹)。RobotManip与RobotNav已开源GitHub。

具身智能多模态开源/仓库模型发布
同一事件,精选展示《Qwen-RobotWorld:具身智能体的无界世界》
推荐理由:Qwen-RobotSuite 一次性放出三个具身模型,用统一对齐策略解决了机器人数据碎片化问题,多个 SOTA 结果加上两个开源仓库,做具身智能的值得认真看一下。
6月16日
14:30
公众号:通义实验室(千问)
73
Qwen-Robot 发布:打通大模型到物理世界的最后一公里

通义实验室推出 Qwen-Robot,包含三个基础模型:Qwen-RobotNav 以单套权重统一五类导航任务,五项基准达 SOTA,零样本部署于宇树 Go2 机器人(推理延迟 196ms);Qwen-RobotManip 基于 Qwen3.5-4B VL,采用 80 维状态-动作统一表示,利用超 38,100 小时开源数据训练,在多个操作基准超越 π0.5;Qwen-RobotWorld 以 860 万视频-文本对训练,通过自然语言动作接口统一 20 余种本体,多项世界模型评测第一。三个模型通过语言优先接口可被通用 Qwen 模型组合调用,实现物理智能体闭环。

具身智能多模态模型发布
关联讨论 1 条X:通义千问 / Qwen (@Alibaba_Qwen)
12:39
Qwen:Blog Retrieval(API)
同事件精选72
Qwen-RobotManip:对齐解锁机器人操作基础模型的规模化能力

Qwen-RobotManip 是通义千问基于 Qwen-VL 的视觉-语言-动作(VLA)基础模型,引入覆盖表示、运动和行为三维度的统一对齐框架。仅使用开源机器人数据集和人演示视频,构建约 38,100 小时预训练语料,涵盖 15 种机器人形态。在 LIBERO-Plus 达 91.4%,RoboTwin-C2R Hard 达 69.4%,RoboCasa365 Composite-Unseen 达 14.9%,EBench 达 45.6%,RoboTwin-IF 达 72.0%,并在 RoboChallenge Table30 v1 generalist track 夺冠。模型采用 80 维状态-动作表示、人-机器人数据合成管道(1,933 小时第一人称视频转 24,808 小时数据)及上下文策略适配。

具身智能开源生态数据/训练模型发布
同一事件,精选展示《Qwen-RobotWorld:具身智能体的无界世界》
推荐理由:Qwen 这次发布的机器人模型,用统一对齐框架把跨实体数据规模化训练跑通了,OOD 泛化大幅领先,做具身智能的值得认真看一下。
12:39
Qwen:Blog Retrieval(API)
精选72
Qwen-RobotWorld:具身智能体的无界世界

Qwen-RobotWorld以语言为统一动作接口,采用双流Multimodal Diffusion Transformer(MMDiT)架构,将Qwen2.5-VL作为动作编码器。在4个基准测试中取得顶尖成绩,统一20余种机器人形态,基于860万跨场景训练对和1300多项操作技能。语言接口标准化500多种动作类别,支持操作、自动驾驶、室内导航的联合训练。还支持Scene2Robot人类到机器人转移及2–4路多视角几何一致视频生成。

具身智能多模态模型发布
关联讨论 1 条X:通义千问 / Qwen (@Alibaba_Qwen)
推荐理由:具身智能的世界模型长期受限于单一形态,Qwen-RobotWorld用语言统一动作接口,把操作、驾驶、导航合训,多视角几何一致性和人类演示迁移是过去一年最扎实的落地信号,做机器人的别错过。
12:39
Qwen:Blog Retrieval(API)
73
Qwen-Robot Suite:面向物理世界智能的基础模型套件

Qwen 发布三款基础模型——Qwen-RobotNav、Qwen-RobotManip 和 Qwen-RobotWorld。Nav 通过可控观测协议统一指令跟随、点/物体目标导航、目标追踪和自动驾驶五类任务,在 VLN-CE RxR 上达 76.5% SR,HM3Dv2 物体目标导航(仅 RGB)75.6% SR,EVT-Bench 追踪率 90.0%,NAVSIM 91.4 PDMS。Manip 利用规范状态-动作空间对超 38,100 小时异构开源机器人数据进行跨本体训练。World 通过自然语言动作接口协同训练 20 余种本体,预测操控、驾驶和导航的物理未来。三者共同将通用智能转化为物理行动。

具身智能模型发布
关联讨论 1 条X:通义千问 / Qwen (@Alibaba_Qwen)
12:39
Qwen:Blog Retrieval(API)
同事件精选70
Qwen-RobotNav:面向智能体导航系统的可扩展导航模型

Qwen 发布 Qwen-RobotNav,基于 Qwen3-VL 在 15.6M 样本上训练,统一了视觉语言导航、目标导航、目标跟踪、自动驾驶和具身问答五个领域,无需修改架构即可在推理时切换任务模式和观察参数。模型在多项基准取得 SOTA:VLN-CE RxR 成功率 76.5%,HM3Dv2 目标导航 75.6%(仅 RGB),EVT-Bench 跟踪率 90.0%,NAVSIM PDMS 91.4,以及三项 EQA 新标杆。模型暴露四个可调轴(视觉 token 预算、时间衰减、相机权重、帧采样模式)。作为智能体系统的一部分,上层规划器 Qwen3.7-Plus 在 EXPRESS-Bench 上提升 15.4%,导航步数减少 77%。模型已零样本部署在 Unitree Go2 四足机器人上,无需环境微调。

具身智能模型发布
同一事件,精选展示《Qwen-RobotWorld:具身智能体的无界世界》
推荐理由:把导航任务看作上下文配置问题,单一模型覆盖从跟随指令到自动驾驶五种任务,在四足机器人上零样本部署,具身智能的工程化样本。
10:40
公众号:蚂蚁百灵(Ling)
同事件精选79
蚂蚁百灵发布 Ling & Ring 2.6 技术报告

蚂蚁百灵发布 Ling & Ring 2.6 技术报告,系统公开 Ling-2.6-flash、Ling-2.6-1T 和 Ring-2.6-1T 的架构、预训练、后训练及 Agent 强化学习细节。三款模型采用 Hybrid Linear Attention 架构,将 Lightning Attention 与 MLA 以 7:1 比例结合。Ling-2.6-flash 在 4×H20 硬件上解码速度达 340 tokens/s,Ling-2.6-1T 在 Artificial Analysis Intelligence Index 上 token efficiency 较前代提升约 4 倍。Ring-2.6-1T high 在 PinchBench 得 87.60,ClawEval 得 63.82。三款模型均已开源。

智能体开源/仓库推理模型发布
同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》
推荐理由:蚂蚁百灵2.6技术报告首次公开Hybrid Linear Attention与KPop Agent RL细节,开源模型在OpenClaw登顶,把万亿模型从聊天拉到真实工作流,做Agent应用的值得细读。
10:00
IT之家(RSS)
精选70
成本砍半,字节跳动推出 Seedance 2.0 Mini 视频生成模型

字节跳动火山引擎旗下火山方舟体验中心于 6 月 15 日上线 Seedance 2.0 Mini 视频生成模型,计划近期开放 API。该模型比 Seedance 2.0 Fast 快 2 倍,输出质量相当。图生视频定价 0.023 元/千 tokens,视频生视频 0.014 元/千 tokens,720P 规格下单秒生成成本约 0.5 元,较 Seedance 2.0 标准版降低约一半。模型面向电商内容生产、营销素材批量生成、UGC 创作及特效玩法等高频率、大规模视频生成场景。

模型发布视频

推荐理由:Seedance 2.0 Mini 把视频生成成本压到 0.5 元/秒,比标准版便宜一半,对做大批量电商素材和 UGC 的团队是个实际信号,值得等 API 开放后看实测。
01:25
LMSYS:Blog(Chatbot Arena 团队)
精选67
下一代投机解码:DFlash 与 Spec V2

Z Lab、Modal 与 SGLang 团队联合发布 DFlash 投机解码模型和 SGLang 的默认 Spec V2 引擎。DFlash 采用块扩散+KV 注入并行生成整块 draft token,在 Qwen 3.5 397B-A17B(BF16)的 HumanEval 数据集上、并发 1 时吞吐量达到基线的 4.3

Hugging Face推理模型发布部署/工程

推荐理由:DFlash 用并行起草和 KV 注入实现了实测 4.3 倍吞吐,再加上 SGLang Spec V2 引擎优化,推理加速不再是纸上谈兵。做 LLM 部署和推理服务的人,可以直接用这个组合试试。
6月15日
23:49
IT之家(RSS)
69
MiniMax M3 模型正式开源:原生多模态、百万上下文

MiniMax 于 6 月 12 日开源 MiniMax M3 模型权重并发布 MSA 技术论文。M3 是原生多模态旗舰模型,总参数 428B,激活参数 23B,为首个从 Step 0 开始多模态混合训练的开源模型。在 Artificial Analysis 综合智能指数上获全球开源最高排名。输出速度从约 30 TPS 提升至约 80 TPS,后续还将提速 30-40%。M3 在编码与智能体评测中达行业顶尖水平,具备自主任务拆解、工具调用与多步推理能力,上下文支持百万级别。

arXivHugging Face多模态开源生态
23:01
公众号:MiniMax(稀宇科技)
同事件精选76
MiniMax 开源 M3 模型权重及 MSA 技术论文

MiniMax 上周五开源了 428B 总参数、23B 激活参数的 M3 模型权重,同步发布 MSA(MiniMax Sparse Attention)技术论文,该架构显著降低长上下文计算成本。M3 是首个从预训练阶段就进行文本、图像等多模态交错混合训练的开源模型。发布两周后,M3 在 Artificial Analysis 综合智能指数、GDPval-AA 排行榜均获开源模型第一,Code Arena WebDev 跻身帕累托最优序列,Vals.AI 榜单居国产模型首位。输出速度已从约 30 TPS 提升至约 80 TPS,计划再提速 30–40%;Token Plan 后台新增调用量看板。

多模态数据/训练模型发布
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
推荐理由:M3 是第一个从预训练阶段就深度融合多模态的开源模型,MSA 架构让长上下文成本大幅降低,它的开源会给做多模态应用的团队一个高性价比的选择,国产开源又多了一个能打的基座。
17:43
IT之家(RSS)
55
理想汽车宣布下半年马赫VLA能力持续进化,第四季度对齐特斯拉FSD V14能力

理想汽车在 Livis Day 发布会上宣布,第三季度 AD Max 推送全新马赫 VLA,第四季度对齐特斯拉 FSD V14 能力。双马赫 M100 芯片算力 2560TOPS,模仿学习规模提升 50%、强化学习提升 15 倍、模型参数量提升 10 倍、计算量提升 15 倍。自研马赫 Mind-4 系列基座大模型包括 Mind-Pro 和 Mind-Edge;Mind-Pro 在多项基准及 Agent 评测中领先,Mind-Edge 为端侧原生具身智能体,数据不上传。

具身智能模型发布端侧
14:38
MarkTechPost(RSS)
63
Z.ai 发布 GLM-5.2,支持可用 1M Token 上下文窗口及两种思考强度

Z.ai 于 6 月 13 日发布 GLM-5.2,这是 GLM-5 系列四个月内的第四款旗舰编码模型。核心亮点是可用的 100 万 token 上下文窗口(标识为 glm-5.2[1m]),每轮最多输出 131,072 token,约为 GLM-5.1 的 5 倍。新增 High 和 Max 两种思考强度级别,Max 推荐用于复杂多步编码任务。架构未在发布时公开,但社区指出 GLM-5 基础为 744B 参数的 MoE 模型,每 token 激活 40B 参数。Z.ai 未公布任何基准测试分数。GLM-5.2 兼容 Claude Code、Cline 等 8 种编码智能体工具,可通过 Anthropic 兼容端点直接替换使用,对所有 GLM Coding Plan 用户(Lite/Pro/Max/Team)开放。

推理模型发布编码
01:59
Hacker News 热门(buzzing.cc 中文翻译)
精选72
里约热内卢市政府 AI 模型 Rio3.5 在基准测试中击败 Qwen3.7

里约热内卢市政府开发的 AI 模型 Rio3.5,在近期基准测试中超越了 Qwen3.7。该消息源自 Hacker News 上的一篇帖子,指出 Rio3.5 在多项评测中表现优于 Qwen3.7。目前尚未公开具体的测试细节或基准名称。

Hugging Face开源/仓库模型发布评测/基准

推荐理由:一个市政府 IT 部门训练的模型在基准测试中击败了 Qwen3.7,这让人重新审视谁在参与前沿模型竞争。如果结果可复现,可能是今年最意外的黑马。
6月14日
07:37
IT之家(RSS)
24
智谱 GLM-5.2 下周开源,支持 1M 上下文

智谱 GLM-5.2 将面向 GLM Coding Plan 全量用户开放,模型下周正式开源。GLM-5.2 是智谱迄今能力最强的开源模型,支持真正可用的 1M 上下文,并在长程任务中继续保持领先。

模型发布行业动态
03:24
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选72
GLM 5.2 发布

GLM 5.2 版本已正式发布。该消息来自 Hacker News 的一则热门讨论,帖子获得 111 个 HN 积分。页面包含一张发布图片,但未提供具体功能或更新内容。

开源生态模型发布编码
同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》
推荐理由:GLM-5.2 把 1M 上下文和长链推理压进了开源模型,智谱高调喊出“前沿智能应属于所有人”,这对被断供的开发者是一剂强心针,可以立刻上手试试。
01:04
The Decoder:AI News(RSS)
38
新AI模型"Count Anything"可对任意图像中的物体进行计数

“Count Anything”是一个新AI模型,仅通过文本提示即可对任意类型图像(如人群、显微镜下细胞样本)中的物体进行计数。对比测试显示,其错误率比此前系统降低一半。但该模型在处理极密集物体和模糊术语时仍存在困难。

多模态模型发布
6月13日
20:33
The Decoder:AI News(RSS)
50
Google Research 的 Gemini-SQL2 在 text-to-SQL 基准测试中以大幅优势领先

Google Research 推出 Gemini-SQL2,基于 Gemini 3.1 Pro,可将自然语言转换为可执行 SQL 查询。该模型在 BIRD 基准上达到 80.04% 准确率,大幅领先 OpenAI 和 Anthropic。Google 表示该技术将改进其数据服务的自然语言功能。

Google推理模型发布
18:36
IT之家(RSS)
63
科大讯飞发布星火多模态大模型 X2-VL,当前唯一基于全国产算力训练的主流大模型

6月13日,科大讯飞在长三角机器人及自动化展览会上发布星火多模态大模型X2-VL。该模型基于全国产算力平台太湖星跃训练,采用专属MoE架构。面向高中各科图文结合试题,答题准确率近95%;挑战2026年高考数学全国I卷获148分,高于对比模型A-E(144、143、137、145、142分)。科大讯飞已在无锡高新区成立子公司负责日常运营。

多模态推理模型发布
17:54
公众号:智谱(GLM)
同事件精选70
智谱 GLM-5.2 全量开放,支持 1M 上下文且下周开源

GLM-5.2 是智谱迄今能力最强的开源模型,支持真正可用的 1M 上下文,在长程任务中继续保持领先,并被智谱称为最强的国产 Coding 模型。今晚 5:21 起面向 GLM Coding Plan 全量用户开放(覆盖 Lite、Pro、Max、团队版)。API 将于下周上线,模型下周正式开源,遵循 MIT 协议。

开源生态模型发布编码
同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》
推荐理由:智谱把最强大模型全量开放且开源,这事本身就在打脸那些收回权限的闭源模型,做中文编码的开发者可以认真看看。
17:02
The Decoder:AI News(RSS)
61
月之暗面开源模型Kimi K2.7 Code每个token价格比GPT-5.5和Claude低12倍

Moonshot AI发布Kimi K2.7 Code,一款拥有1万亿参数的开源权重编程模型。在编程基准测试上仍落后于GPT-5.5和Claude Opus 4.8,但每个token的价格比竞争对手低最多12倍。核心问题在于:同等预算下额外获得的运行次数能否弥补质量差距。

开源/仓库模型发布编码
14:36
IT之家(RSS)
55
谷歌发布Gemini-SQL2,Text-to-SQL准确率80.04%登顶

Google Research发布Gemini-SQL2模型,基于Gemini 3.1 Pro,专攻自然语言转SQL任务。在BIRD单模型赛道执行准确率80.04%,超越此前Gemini-SQL。BIRD涵盖95个数据库、37个专业领域及12751组问题-SQL配对,含脏数据与外部知识需求。业务人员可用自然语言查询营收、流失等指标。谷歌尚未公布API、模型卡或技术报告,亦未确认产品接入。

Google推理模型发布
14:36
IT之家(RSS)
67
智谱:GLM-5.2 面向 GLM Coding Plan 全量用户开放,下周开源

智谱今日宣布,GLM-5.2 面向 GLM Coding Plan 全量用户开放,覆盖 Lite/Pro/Max/团队版。其 API 将于下周上线,模型下周正式开源,遵循 MIT 协议。智谱称 GLM-5.2 是迄今能力最强的开源模型,支持真正可用的 1M 上下文,在长程任务中保持领先。此前,智谱于今年 3 月发布 GLM-5.1,5 月发布 GLM-5.1 高速版,输出速度达 400 tokens/s。

开源生态模型发布
13:17
蚂蚁 inclusionAI:HuggingFace 新模型
精选62
inclusionAI 发布 VISTA-4B GUI 定位视觉语言模型

VISTA-4B 是基于 Qwen3.5-4B 骨干的 GUI 定位模型,输入截图与自然语言指令,输出归一化 0-1000 坐标。训练采用视图一致 GRPO 和自验证交叉视图锚定。在 GUI 定位基准上,SSPro 得分 64.2(相比 GRPO-4B 提升 2.0),SSV2 得分 93.8(下降 0.4),OSWorld-G 得分 61.2(提升 1.3),OSWorld-G-R 得分 69.7(提升 0.5)。模型已开源在 HuggingFace,推荐使用提示词并返回 [x,y] 格式坐标。

智能体Hugging Face多模态模型发布

推荐理由:蚂蚁 inclusionAI 开源了一款 GUI 定位模型,基于 Qwen3.5 微调,在接地基准上小幅提升,关键是提供了自验证训练方法,做桌面自动化的可以直接下载用。
13:17
蚂蚁 inclusionAI:HuggingFace 新模型
71
inclusionAI/VISTA-9B:基于VISTA训练的GUI定位视觉语言模型

VISTA-9B是基于Qwen3.5 9B骨干训练的GUI定位模型,输入截图与自然语言指令,输出0-1000归一化坐标。采用VISTA(视图一致自验证)方法,含view-consistent GRPO与self-verified cross-view anchoring。在SSPro、SSV2、OSWorld-G、OSWorld-G-R上分别取得69.2、95.8、68.1、75.5分,超越Qwen3.5-9B与GRPO-9B基线。模型已开源,可通过HuggingFace加载使用。

智能体Hugging Face多模态模型发布
12:59
MarkTechPost(RSS)
55
Moonshot AI 开源 Kimi K2.7-Code:编程模型在 Kimi Code Bench v2 上较 K2.6 提升 21.8%

Moonshot AI 以 Modified MIT 许可证开源了 Kimi K2.7-Code,一款专注编程的智能体模型,基于 Kimi K2.6,拥有 256K 上下文窗口,推理 token 使用量降低约 30%。在六项基准测试中均优于 K2.6,其中在 Kimi Code Bench v2 上提升 21.8%。该模型可通过 Kimi API 和 Kimi Code 获取。

开源生态模型发布编码
08:00
HuggingFace Daily Papers(社区热门论文)
同事件精选77
Ling-2.6与Ring-2.6技术报告:高效即时的万亿参数智能体智能

Ling-2.6优化即时响应与输出token能力,Ring-2.6针对深度推理和复杂智能体工作流。基于Ling-2.0通过架构迁移预训练和大规模后训练升级。架构引入融合Lightning Attention与MLA的混合线性注意力设计,提升长上下文训练与解码效率。通过进化思维链、语言单元策略优化、双向偏好对齐和最短正确响应蒸馏优化token效率。提出KPop强化学习框架支持Ring-2.6-1T在环境交互数据上稳定训练,通过异步调度提升编码、搜索、工具使用和工作流执行的训练效率。2.6系列全部检查点已开源。

智能体推理模型发布
同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》
推荐理由:万亿参数开源 Agent 模型,一个走即时响应,一个专攻复杂推理,对于做工具调用和自动化工作流的团队是能立刻上手的重要弹药。
05:28
MarkTechPost(RSS)
58
Google 发布 Gemini-SQL2:Gemini 3.1 Pro Text-to-SQL 在 BIRD 单模型排行榜上取得 80.04% 执行准确率

Google Research 于 2026 年 6 月 12 日发布 Gemini-SQL2,基于 Gemini 3.1 Pro 驱动的文本转 SQL(Text-to-SQL)能力,在 BIRD 单模型排行榜上达到 80.04% 的执行准确率。

Google推理模型发布编码
6月12日
21:18
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选77
Kimi K2.7-Code:具有更高模型 token 效率的开源编码模型

Kimi K2.7-Code 是一个开源编码模型,相比同类模型拥有更高的模型 token 效率,能够用更少的 token 完成相同的代码生成任务。模型已在 HuggingFace 上发布。

智能体Hugging Face推理模型发布
同一事件,精选展示《6倍速!Kimi K2.7 Code 高速版已上线》
推荐理由:Kimi K2.7-Code 把推理 token 砍掉 30%,在长程编码任务上有实打实的提升,是编码智能体赛道的一个有力信号,做代码 Agent 的可以盯一下。
19:36
IT之家(RSS)
69
月之暗面开源 Kimi K2.7 Code 编程模型,预告 6 倍速高速版

月之暗面发布并开源 Kimi K2.7 Code 编程模型。相比 K2.6,长上下文编程指令遵循和长程任务性能提升,过度思考倾向改善,平均 token 消耗减少 30%。Kimi Code Bench v2 提升 21.8%、Program-Bench 提升 11%、MLS Bench Lite 提升 31.5%;Agent 基准提升约 10%。即日起通过 Kimi API 调用,输入 6.5 元/百万 token、输出 27 元、缓存输入 1.3 元。非编程任务仍推荐 K2.6,模型需开启思考模式。预告高速版(输出约 180 Token/s),6 月 15 日可调用,6x 速度仅需 2x 价格。

Hugging Face模型发布编码
17:35
IT之家(RSS)
69
商汤开源 SenseNova U1 图文交错生成增强版模型:支持多页连续创作,角色风格不"跑偏"

商汤科技开源日日新 SenseNova U1 系列新成员 U1-8B-MoT-Interleaved 图文交错增强版模型。该模型面向图文交错创作与生成场景强化,支持绘本、故事书、多页 PPT 等连续内容创作,解决了多轮生成后角色形象飘移、画风断裂、图文脱节等痛点。核心升级包括叙事一致性与角色连贯性提升、图文对应关系增强、视觉质量改善,以及新增多页 PPT 自动生成能力。模型已开源。

Hugging Face图像生成多模态模型发布
16:26
MarkTechPost(RSS)
53
Zyphra 发布 Zamba2-VL:混合 Mamba2-Transformer 视觉语言模型,首 token 延迟降低约一个数量级

Zyphra 推出 Zamba2-VL 系列开源视觉语言模型,包含 1.2B、2.7B 和 7B 三种参数规模。采用混合 Mamba2 状态空间与 Transformer 骨干架构,基于 Apache 2.0 许可证开源。在保持与同类 Transformer VLM 相当性能的同时,首 token 生成时间(time-to-first-token)缩短约一个数量级。

多模态开源生态推理模型发布
15:35
IT之家(RSS)
64
华为发布开源盘古2.0模型:最高505B参数,余承东坦言算力有限

华为在HDC 2026上发布开源盘古openPangu 2.0模型,拥有512K上下文,提供Pro和Flash两个版本:Pro总参数505B、激活18B,Flash总参数92B、激活6B。该模型更亲和昇腾算力,单卡吞吐率可达其他主流开源模型2倍;更适配鸿蒙,Agent任务更快更准更省。计划从6月30日起陆续开源7大组件,包括预训练代码、后训练代码、训练算子。余承东解释总参数仅505B,因算力大量支持国内其他企业,自身留用有限,且AI算力成本高,华为更聚焦时延和吞吐率提升。

开源生态推理模型发布
13:53
TechCrunch:AI(RSS)
64
Avataar AI 发布蒸馏视频生成模型,面向印度市场

Avataar AI 推出蒸馏视频生成模型,专为印度的大规模应用打造,定价为每生成一秒视频 0.005 美元。该模型主打更廉价、更快速且具有文化意识,旨在适应印度本地需求。

数据/训练模型发布视频
08:00
HuggingFace Daily Papers(社区热门论文)
64
Nemotron 3 Ultra:开放高效混合专家Mamba-Transformer智能体推理模型

Nemotron 3 Ultra 是一个 550B 总参数、55B 激活参数的混合专家(MoE)Mamba-Attention 语言模型。它在 20T tokens 上预训练,上下文窗口扩展至 1M tokens,后训练采用监督微调(SFT)、强化学习(RL)和多方教师在线蒸馏(MOPD)。关键技术包括 LatentMoE、多 token 预测(MTP)、NVFP4 预训练、多环境 RLVR、MOPD 和推理预算控制。相比公开 SOTA 大语言模型,推理吞吐量提升约 6 倍且准确率持平,适合长时间运行的自主智能体任务。模型开源基础、后训练和量化检查点,以及训练数据和配方。

智能体推理模型发布
01:17
Hacker News 热门(buzzing.cc 中文翻译)
精选72
DeepSeek-R1 的开源实现

DeepSeek-R1 的开源复现项目已在 GitHub 发布,在 Hacker News 上获得 101 个积分。该项目旨在以开源方式复现 DeepSeek-R1 模型。

Hugging Face开源/仓库推理模型发布

推荐理由:Hugging Face 把 DeepSeek-R1 的完整训练管线拆解得清清楚楚,从数据蒸馏到 GRPO 强化学习都开源了,还放出了复现的模型和数据集。想理解或自己训练推理模型的开发者,这大概是目前最实用的路线图。
6月11日
16:54
MarkTechPost(RSS)
67
Cohere 发布 North Mini Code:30B 参数 MoE 编码模型,3B 活跃参数,单卡 H100 运行,支持 256K 上下文

Cohere 推出首款开发者编码模型 North Mini Code,采用 30B 总参数的混合专家(MoE)架构,每次推理仅激活 3B 参数,可在单块 H100 GPU 上运行,支持 256K token 上下文窗口,专为智能体编码场景设计,模型权重开源。

模型发布编码
‹ 上一页
123456…19
下一页 ›