AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 398 条
全部一手资讯X论文
标签「模型发布」清除
7月2日周四
02:32Google Blog:AI(RSS)43Google 2026年6月AI更新汇总
7月1日周三
12:00公众号:龙猫LongCat(美团)82精选美团 LongCat-2.0 正式发布:国产算力集群训练的万亿参数大模型
11:33Anthropic:Newsroom(网页)71同事件精选重新部署 Claude Fable 5同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
02:48Claude Code:GitHub Releases(RSS)81Claude Code v2.1.197 发布:默认模型升级为 Claude Sonnet 5,支持原生 1M-token 上下文窗口
02:02Anthropic:Newsroom(网页)81精选Claude Sonnet 5 发布
00:08Google DeepMind:Blog(RSS)70精选Google DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni Flash
6月29日周一
01:26Nathan Lambert:Interconnects(RSS)60精选Artifacts 22:Zyphra、Cohere 和 Poolside 正在扩展生态系统广度
6月27日周六
01:02OpenAI:官网动态(RSS · 排除企业/客户案例)78精选OpenAI 预览新一代模型 GPT-5.6 Sol
6月24日周三
11:54Qwen:Blog Retrieval(API)81精选Qwen-AgentWorld:面向通用智能体的语言世界模型
11:40公众号:通义实验室(千问)74Qwen-AgentWorld 开源:让 Agent 学会"先预测,再行动"
10:06蚂蚁 inclusionAI:HuggingFace 新模型31inclusionAI/Sing-Guard-0.8b 发布
6月23日周二
22:24Mistral AI:News(网页)68精选Mistral OCR 4
14:50公众号:火山引擎83火山引擎FORCE大会发布豆包大模型2.1 Pro及多款多模态模型
14:10公众号:京东JoyAI73精选京东全栈开源JoyAI-VL-Interaction,从"一问一答"走向"边看边说"
13:50公众号:火山引擎71精选豆包音频生成模型1.0发布,重新定义AI音频创作
13:00公众号:火山引擎79豆包大模型2.1发布,面向生产级任务的新起点
12:39字节 Seed:Research Feed(网页内嵌数据)64精选Seed2.1 正式发布,深入 AI 生产力
01:14OpenAI:官网动态(RSS · 排除企业/客户案例)63精选OpenAI 扩展 Daybreak 计划:推出 GPT-5.5-Cyber 完整版与 Codex Security 更新
6月22日周一
23:05Nathan Lambert:Interconnects(RSS)67同事件精选GLM-5.2:开放智能体的阶跃变化同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》
22:11Hugging Face:Blog(RSS)69精选PP-OCRv6 on Hugging Face:50 语言 OCR,参数规模 1.5M 至 34.5M
6月18日周四
18:40公众号:火山引擎72精选火山引擎上线豆包实时语音模型3.0 API 服务,开启邀测
10:40公众号:通义实验室(千问)75精选首个统一科学大模型 LOGOS 正式开源
03:48xAI:News(网页)61精选Grok 4.3 在 Amazon Bedrock 正式可用
6月17日周三
23:43Hugging Face:Blog(RSS)69精选MolmoMotion:语言引导的3D运动预测模型
17:38Hugging Face:Blog(RSS)83GLM-5.2:为长周期任务而生
16:09智谱:研究(网页内嵌数据)59精选GLM-5.2 上线并开源:专注 Coding 与长程任务
12:05xAI:News(网页)73同事件精选xAI 发布 Grok Imagine Video 1.5同一事件,精选展示《xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)》
09:20公众号:智谱(GLM)81GLM-5.2上线并开源:专注Coding与长程任务
6月16日周二
14:30公众号:通义实验室(千问)73Qwen-Robot 发布:打通大模型到物理世界的最后一公里
12:39Qwen:Blog Retrieval(API)72同事件精选Qwen-RobotManip:对齐解锁机器人操作基础模型的规模化能力同一事件,精选展示《Qwen-RobotWorld:具身智能体的无界世界》
12:39Qwen:Blog Retrieval(API)72精选Qwen-RobotWorld:具身智能体的无界世界
12:39Qwen:Blog Retrieval(API)73Qwen-Robot Suite:面向物理世界智能的基础模型套件
12:39Qwen:Blog Retrieval(API)70同事件精选Qwen-RobotNav:面向智能体导航系统的可扩展导航模型同一事件,精选展示《Qwen-RobotWorld:具身智能体的无界世界》
10:40公众号:蚂蚁百灵(Ling)79同事件精选蚂蚁百灵发布 Ling & Ring 2.6 技术报告同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》
01:25LMSYS:Blog(Chatbot Arena 团队)67精选下一代投机解码:DFlash 与 Spec V2
6月15日周一
23:01公众号:MiniMax(稀宇科技)76同事件精选MiniMax 开源 M3 模型权重及 MSA 技术论文同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
6月13日周六
17:54公众号:智谱(GLM)70同事件精选智谱 GLM-5.2 全量开放,支持 1M 上下文且下周开源同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》
13:17蚂蚁 inclusionAI:HuggingFace 新模型62精选inclusionAI 发布 VISTA-4B GUI 定位视觉语言模型
13:17蚂蚁 inclusionAI:HuggingFace 新模型71inclusionAI/VISTA-9B:基于VISTA训练的GUI定位视觉语言模型
6月11日周四
12:10Midjourney:Updates(RSS)64精选Midjourney V8.1 已成为默认模型
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月2日
02:32
Google Blog:AI(RSS)
43
Google 2026年6月AI更新汇总

Google在6月发布多项AI更新:推出Gemini 3.5 Live Translate实时语音翻译;

Google多模态模型发布端侧
7月1日
12:00
公众号:龙猫LongCat(美团)
精选82
美团 LongCat-2.0 正式发布:国产算力集群训练的万亿参数大模型

美团于6月30日发布新一代万亿参数大模型LongCat-2.0并开源。总参数1.6T,平均激活约48B,原生支持1M超长上下文,在五万卡国产算力集群上完成全流程训练与推理。采用LSA稀疏注意力、零计算专家、ScMoE及MOPD多专家融合(Agent/Reasoning/Interaction三组专家)架构。评测中SWE-bench Pro获59.5,SWE-bench Multilingual获77.3。预览版已通过OpenRouter和longcat.ai开放,月调用量跻身OpenRouter全球前三。

开源生态推理模型发布编码
关联讨论 9 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:美团 LongCat (@Meituan_LongCat)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)IT之家(RSS)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)
推荐理由:国产算力上首个全流程自训的万亿开源模型,1M上下文和动态专家架构直指Agentic Coding场景,OpenRouter调用量已经冲到前三,不是Demo是生产力。
11:33
Anthropic:Newsroom(网页)
同事件精选71
重新部署 Claude Fable 5

美国政府6月12日对Claude Fable 5和Mythos 5实施出口管制,Anthropic暂停其所有用户访问。6月30日管制解除。7月1日起Fable 5在全球平台重新上线,Pro、Max、Team及部分Enterprise计划用户在7月7日前可享每周50%额度,之后按点数计费。Mythos 5已恢复部分美国组织访问。此前Amazon研究人员发现绕过Fable 5安全措施的方法,Anthropic训练新分类器,将该技术阻挡率提升至99%以上,但可能增加良性请求误报。Anthropic正与Amazon、Microsoft、Google等合作开发行业漏洞评估框架。

Anthropic安全/对齐政策/监管模型发布
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
推荐理由:Fable 5重新上线只是表面,真正重要的是Anthropic借机提出了一套行业通用的jailbreak严重性框架,并拉上亚马逊、微软、谷歌,这可能会成为前沿模型发布的新安全标杆。
02:48
Claude Code:GitHub Releases(RSS)
81
Claude Code v2.1.197 发布:默认模型升级为 Claude Sonnet 5,支持原生 1M-token 上下文窗口

Claude Code v2.1.197 更新将 Claude Sonnet 5 设为默认模型,原生支持 1M-token 上下文窗口。该版本提供促销定价,输入 $2/M tokens、输出 $10/M tokens,持续至 8 月 31 日。用户更新至 v2.1.197 即可启用。

Anthropic模型发布编码
关联讨论 12 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)TechCrunch:AI(RSS)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)MarkTechPost(RSS)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)
02:02
Anthropic:Newsroom(网页)
精选81
Claude Sonnet 5 发布

Claude Sonnet 5 是 Anthropic 推出的最新 Sonnet 模型,具备计划、浏览器和终端工具使用能力,可自主运行。性能接近 Opus 4.8,定价更低:即日起至 2026 年 8 月 31 日,输入 token $2/百万,输出 $10/百万,之后恢复为 $3/百万输入和 $15/百万输出。相比 Sonnet 4.6,在推理、工具使用、编程和知识工作等智能体能力上大幅提升。在 BrowseComp 和 OSWorld-Verified 评测中严格优于 Sonnet 4.6。安全评估显示不良行为率更低,幻觉和谄媚减少,但网络安全能力弱于 Opus 4.8。即日起在所有套餐及 Claude Code、Claude API 中可用。

智能体Anthropic模型发布编码
关联讨论 12 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)TechCrunch:AI(RSS)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)MarkTechPost(RSS)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)
推荐理由:Claude Sonnet 5 把代理能力从 Opus 下放到了 Sonnet,性能接近 Opus 4.8 但价格只有三分之一,这对开发者来说性价比飞跃。虽然还不是最强,但已经能让许多复杂任务从勉强可用变成可靠。
00:08
Google DeepMind:Blog(RSS)
精选70
Google DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni Flash

Google DeepMind 推出 Nano Banana 2 Lite(gemini-3.1-flash-lite-image),为 Nano Banana 系列速度最快、成本最低的图像模型,文本到图像输出仅需 4 秒,每 1K 分辨率图像成本 $0.034,已上线 Google AI Studio、Gemini API 及消费者产品(AI Mode in Search、Gemini app 等)。同时推出 Gemini Omni Flash(gemini-omni-flash-preview),支持高画质视频生成与对话式编辑,视频输出定价 $0.10/秒,面向开发者开放 API。

Google图像生成多模态模型发布
关联讨论 3 条X:Google DeepMind (@GoogleDeepMind)X:Logan Kilpatrick (@OfficialLoganK)X:Google AI (@GoogleAI)
推荐理由:Nano Banana 2 Lite 把图像生成拉到 4 秒延迟和 0.034 美元单价,很适合高频草稿流,Omni Flash 首次对开发者开放视频生成和对话编辑,两个模型串起来的快速迭代工作流是这次最实用的更新。
6月29日
01:26
Nathan Lambert:Interconnects(RSS)
精选60
Artifacts 22:Zyphra、Cohere 和 Poolside 正在扩展生态系统广度

开源模型生态正变得更多元,参与者从少数中国公司扩展到全球各类组织。纯模型制造商包括 DeepSeek、智谱、MiniMax、Poolside、Arcee、Zyphra 及主权 AI 玩家 Cohere、Sovereign、Mistral、Trillion Labs;科技巨头如阿里 Qwen、Google Gemma 和 NVIDIA 各有不同动机;产品公司如 JetBrains、Zed、Krea、Photoroom 则训练高度专业的小模型。NVIDIA 发布 Nemotron-3-Ultra-550B-A55B-BF16,采用 LatentMoE 架构并改用 OpenMDW 许可证。Cohere 以 Apache 2.0 开源其旗舰模型 Command A+(05-2026-bf16),这是一款 218B-A25B MoE 模型,具备多模态、多语言和智能体能力。

开源生态模型发布现象/趋势

推荐理由:这篇文章把开源模型玩家拆成三类,清晰解释了不同动机,Cohere 转向 Apache 2.0 和 NVIDIA 采用 OpenMDW 是许可层面的重要信号,关注开源的值得一读。
6月27日
01:02
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选78
OpenAI 预览新一代模型 GPT-5.6 Sol

OpenAI 发布了新一代模型 GPT-5.6 Sol 的预览信息。该模型被定位为下一代模型,目前仅公开了预览消息和标题,尚未披露具体技术细节、性能参数或功能特性。

OpenAI安全/对齐推理模型发布
关联讨论 12 条The Verge:AI(RSS)X:OpenAI (@OpenAI)X:小北 (@frxiaobei)X:Rohan Paul (@rohanpaul_ai)Simon Willison 博客X:Gabriel (@gabriel1)X:邵猛 (@shao__meng)MarkTechPost(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)X:Sam Altman (@sama)
推荐理由:GPT-5.6 Sol 不是一次常规升级,它把推理推到新高度,还引入了子代理模式。但美国政府要求有限预览,让这次发布多了点政治味道。
6月24日
11:54
Qwen:Blog Retrieval(API)
精选81
Qwen-AgentWorld:面向通用智能体的语言世界模型

Qwen 团队发布 Qwen-AgentWorld,一个以环境建模为训练目标的原生语言世界模型,在单个模型中模拟 MCP、Search、Terminal、SWE 及 GUI 域(Web、OS、Android)共七个域。模型使用超 1000 万条真实交互轨迹训练,在 AgentWorldBench 上以 Qwen-AgentWorld-397B-A17B 版本达最高模拟质量,超越 GPT-5.4、Claude Opus 4.8 和 Gemini 3.1 Pro。同时发布评测基准 AgentWorldBench。该模型可作为解耦环境模拟器用于智能体 RL 训练,也可作为统一智能体基础模型,经 LWM 预热后无需智能体 RL 微调即可迁移。模型和基准已开源在 Hugging Face 和 ModelScope。

智能体arXivHugging FaceMCP/工具
关联讨论 4 条X:通义千问 / Qwen (@Alibaba_Qwen)Hacker News 热门(buzzing.cc 中文翻译)X:Berry Xia (@berryxia)HuggingFace Daily Papers(社区热门论文)
推荐理由:Qwen把世界模型做成了一个可开源的通用产品,覆盖七域,做agent RL的可以直接拿它仿真训练,可控性甚至超过真实环境,做agent的团队应该认真看看。
11:40
公众号:通义实验室(千问)
74
Qwen-AgentWorld 开源:让 Agent 学会"先预测,再行动"

通义千问推出首个原生语言世界模型 Qwen-AgentWorld,覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大领域。模型基于超 1000 万条真实交互轨迹,经 CPT→SFT→RL 三阶段训练,在 AgentWorldBench 上超越 GPT-5.4(58.25)和 Claude Opus 4.8,Qwen-AgentWorld-397B-A17B 取得 58.71 分。两种范式已验证其能力:作为解耦环境模拟器实现可控 Sim RL,在 WideSearch 上超越真实环境 RL(F1 50.3% vs 45.6%);作为智能体基础模型,LWM 预热可迁移至七个基准(三个完全未出现在训练集中)。模型与评测基准已开源。

智能体推理模型发布
关联讨论 4 条X:通义千问 / Qwen (@Alibaba_Qwen)Hacker News 热门(buzzing.cc 中文翻译)X:Berry Xia (@berryxia)HuggingFace Daily Papers(社区热门论文)
10:06
蚂蚁 inclusionAI:HuggingFace 新模型
31
inclusionAI/Sing-Guard-0.8b 发布

蚂蚁 inclusionAI 在 HuggingFace 上开源了 Sing-Guard-0.8b 模型。项目旨在通过开源和开放科学推动人工智能的普及与发展。

安全/对齐模型发布
6月23日
22:24
Mistral AI:News(网页)
精选68
Mistral OCR 4

Mistral AI 发布 OCR 4,新增边界框、块分类(标题、表格、方程式、签名等)及逐页逐词置信度分数。支持 170 种语言、10 个语系,可单容器全自托管部署。在 OlmOCRBench 上得分 85.20,独立标注者偏好率平均 72%。定价每 1000 页 $4,Batch API 享 50% 折扣。可通过 API 或 Mistral Studio 的 Document AI 调用。

多模态搜索模型发布
关联讨论 2 条Hacker News 热门(buzzing.cc 中文翻译)MarkTechPost(RSS)
推荐理由:Mistral OCR 4 把 bounding box 和置信度输出做进了产品,自托管部署和多语言能力很务实,做文档 RAG 和智能体的团队可以认真看看。
14:50
公众号:火山引擎
83
火山引擎FORCE大会发布豆包大模型2.1 Pro及多款多模态模型

火山引擎在FORCE原动力大会上发布豆包大模型2.1 Pro、Seedance 2.5、Seedance 2.0 4K版、Seedream 5.0 Pro及豆包音频生成模型1.0。豆包大模型2.1 Pro在Coding、Agent、VLM方向升级,多Coding评测比肩全球顶尖,Agent国内第一,VLM全球领先。Seedance 2.5支持30秒单段原生直出、50个全模态素材联合输入;Seedream 5.0 Pro支持交互式编辑、多图层分离;豆包音频生成模型1.0可一次直出影视级音频。截至今年6月,豆包大模型日均Token调用量180万亿,同比增长超10倍;火山引擎在中国公有云MaaS市场份额占49.5%第一。同时发布方舟CLI、AgentKit、HiAgent 3.0及AI Trust安全体系。

多模态推理模型发布
关联讨论 3 条X:Vista (@vista8)公众号:数字生命卡兹克X:卡兹克 (@Khazix0918)
14:10
公众号:京东JoyAI
精选73
京东全栈开源JoyAI-VL-Interaction,从"一问一答"走向"边看边说"

京东近日开源全球首个全栈交互模型JoyAI-VL-Interaction,获vLLM-Omni原生支持。该模型能持续观察视频流、主动判断关键事件并实时响应,支持将复杂任务委托后台Agent处理。在58个真人盲评中,对比豆包视频通话助手胜率77.6%,对比Gemini视频通话助手胜率87.9%,监控预警场景达100%胜率。开源内容包括模型权重、交互数据集、训练方案及完整可部署系统,支持摄像头、直播流等视频输入及语音交互、长期记忆、vLLM部署,适用于安防监控、老人看护、直播讲解等实时场景。

多模态开源生态模型发布部署/工程
关联讨论 2 条HuggingFace Daily Papers(社区热门论文)IT之家(RSS)
推荐理由:京东这个实时交互模型不是又一个刷榜模型,它把「什么时候该说话」变成了模型自己的判断。全栈开源且对比豆包、Gemini 胜率惊人,做安防、看护、直播的开发者可以直接试了。
13:50
公众号:火山引擎
精选71
豆包音频生成模型1.0发布,重新定义AI音频创作

火山引擎正式发布豆包音频生成模型1.0(Doubao-Seed-Audio 1.0),支持文本与音频参考生成,端到端输出目标音频。单条Prompt可编排多角色对白、情绪语气、背景音乐及环境氛围,长时生成中保持多角色音色一致性,无需后期多轨混音。模型支持0样本多模态输入,无需额外训练即可生成;实现音色与风格解耦控制及“一声多角”能力。一次支持2分钟音频创作,多次延长保持音色统一。已开启火山方舟API邀测,个人用户享30分钟创作额度,即将上线剪映、即梦、番茄等产品。

多模态模型发布语音

推荐理由:豆包音频生成模型把多角色配音、音效、配乐压缩进一条 Prompt,长时一致性解决了一直以来‘串戏’的痛点,音频创作者的生产流程可能会被改写。
13:00
公众号:火山引擎
79
豆包大模型2.1发布,面向生产级任务的新起点

火山引擎发布豆包大模型2.1系列:Doubao-Seed-2.1-pro和Doubao-Seed-2.1-turbo,API已全量上线火山方舟。Pro输入6元/百万tokens,输出30元,缓存命中1.2元;Turbo能力相近、价格减半。该系列Coding和Agent能力跨越生产级质变点:Terminal Bench 2.1上Pro与Claude Opus 4.7持平,SWE-Pro接近GPT-5.5,NL2Repo-Bench领先GPT-5.5,SciCode超Claude Opus 4.7和GPT-5.5。Agent方面GDPval最高分,ALE超越Claude Opus4.7,MCP-Atlas全面超Opus4.7与GPT5.5。多模态理解领先:OSWorld移动端、MMMU-Pro、TOMATO、LVBench均全球SOTA。同时推出Doubao-Seed-Evolving,每月2~4次迭代。

智能体模型发布编码
关联讨论 3 条X:Vista (@vista8)公众号:数字生命卡兹克X:卡兹克 (@Khazix0918)
12:39
字节 Seed:Research Feed(网页内嵌数据)
精选64
Seed2.1 正式发布,深入 AI 生产力

字节Seed发布Seed2.1系列,面向真实生产力场景的智能体,强化通用Agent能力、代码工程交付与多模态理解。Seed2.1 Pro在GDPval基准获最高分,Agents' Last Exam位列参评模型第一梯队;MobileWorld手机GUI任务最高分,CreativeWork多环境任务表现突出。多模态在CharXiv-RQ等多项基准取得SOTA。代码能力上,Seed2.1 Pro在NL2Repo-Bench表现良好,开发者评测相比Claude Opus 4.6获59.1%胜率。模型已在豆包、TRAE上线,API通过火山方舟提供。

智能体多模态模型发布编码
关联讨论 3 条X:Vista (@vista8)公众号:数字生命卡兹克X:卡兹克 (@Khazix0918)
推荐理由:字节 Seed2.1 这次更新把 Agent 和代码交付稳定性提到新高度,官方测评在多个硬核基准上不输 Claude Opus。虽然技术细节少,但豆包和 TRAE 直接可用,做 Agent 和开发的值得上手试试。
01:14
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选63
OpenAI 扩展 Daybreak 计划:推出 GPT-5.5-Cyber 完整版与 Codex Security 更新

OpenAI 于 2026 年 6 月 22 日宣布扩展 Daybreak 计划,发布 GPT‑5.5‑Cyber 完整版和 Codex Security 插件更新。GPT‑5.5‑Cyber 在 CyberGym 上达 85.6%,超越 GPT‑5.5 的 81.8%。Codex Security 插件可深度扫描代码库、验证漏洞并自动生成补丁,支持导出至漏洞管理系统。自 3 月预览以来已扫描超 3000 万次提交,超 7 万项发现经人工确认已修复。同期启动 Patch the Planet 计划,联合 Trail of Bits、HackerOne 等,cURL、Go、Python、Sigstore、pyca/cryptography 等 30 多个开源项目已参与。

OpenAI安全/对齐模型发布
关联讨论 3 条X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)OpenAI:官网动态(RSS · 排除企业/客户案例)
推荐理由:OpenAI 把安全模型做成了从发现到修补的完整工具链,GPT-5.5-Cyber 性能比 GPT-5.5 小幅提升,但关键在开源修补计划和政府合作,做安全的值得看看。
6月22日
23:05
Nathan Lambert:Interconnects(RSS)
同事件精选67
GLM-5.2:开放智能体的阶跃变化

Z.ai 于 6 月 13 日向 GLM Coding Plan 成员发布 GLM-5.2,6 月 16 日开源 MIT 许可权重。该模型在 Arena 智能体排行榜上成为唯一与 OpenAI 和 Anthropic 最新模型匹敌的开放模型,匹配 Opus 4.8 无思考模式;在 Design Arena 中甚至超越 Claude Fable。作者认为这是自 DeepSeek R1 以来最受关注的开放模型发布,GLM-5.2 是首个在编码工具中作为通用智能体表现合格的开放权重模型。从 Claude Opus 4.5 发布(2025 年 11 月 24 日)到 GLM-5.2 发布(2026 年 6 月 16 日)间隔约 6.8 个月。

开源生态模型发布编码
同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》
推荐理由:GLM-5.2是第一个真正能打的开放编码代理模型,社区反应堪比DeepSeek R1时刻,对依赖Claude Code的开发者是个好消息,开放模型的竞争力又前进了一大步。
22:11
Hugging Face:Blog(RSS)
精选69
PP-OCRv6 on Hugging Face:50 语言 OCR,参数规模 1.5M 至 34.5M

PP-OCRv6 是 PaddleOCR 最新一代通用 OCR 模型族,提供 tiny(1.5M)、small(7.7M)和 medium(34.5M)三级。medium 和 small 支持 50 种语言(简体/繁体中文、英文、日文及 46 种拉丁语系)。在官方多场景基准上,medium 检测 Hmean 86.2%,识别准确率 83.2%,较 PP-OCRv5_server 分别提升 +4.6 和 +5.1 个百分点。模型采用 PPLCNetV4 统一骨干、RepLKFPN 检测模块和 EncoderWithLightSVTR 识别模块,可通过 PaddleOCR、Transformers、ONNX Runtime 等后端灵活部署。

Hugging Face多模态模型发布部署/工程

推荐理由:OCR模型并没有因为VLM的兴起而消失,PP-OCRv6用1.5M到34.5M参数覆盖50种语言,对需要轻量、准确OCR的产品来说,这是一个务实的选择。
6月18日
18:40
公众号:火山引擎
精选72
火山引擎上线豆包实时语音模型3.0 API 服务,开启邀测

火山引擎上线豆包实时语音模型3.0(Seeduplex)API 服务并开启邀测。该模型为原生全双工端到端语音大模型,具备精准遵循、抗干扰、动态判停三大优势。可在多人对话中安静待命,指定话题出现时主动加入;支持通过自定义工具在实时交互中完成预定日历、发送邮件等任务。抗干扰力提升,误回复率与误打断率大幅降低;判停延迟缩短约250ms,复杂场景抢话比例下降40%,用户主动打断延迟缩短约300ms。适用于汽车智能座舱、智能硬件、智能客服等场景。

模型发布语音

推荐理由:豆包实时语音模型3.0带来的全双工实时工具调用,把语音助手从对讲机变成了真人助理,判停延迟和抢话率的改善数据扎实,做车载和智能硬件的团队该认真看看。
10:40
公众号:通义实验室(千问)
精选75
首个统一科学大模型 LOGOS 正式开源

LOGOS 由 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院开源,是首个基于统一“科学语法”的多领域科学生成基础模型。LOGOS-1B(1B参数)在六大科学任务上匹配或超越领域专用方法:口袋条件配体生成纯序列范式首次超越3D扩散模型,超越NatureLM(8×7B);逆合成预测Top-1准确率74.8%;口袋位点识别仅靠序列达58.5% Top-n准确率;MOF材料生成NBB提升至17.78%。模型采用统一词汇表将蛋白质、小分子等编码为离散Token,通过空间交互离散化实现无需3D坐标的序列预测。预训练与下游任务形式与目标一致,跨领域知识迁移经实验验证有效。已完整开源模型权重、推理代码与技术报告。

开源生态数据/训练模型发布
关联讨论 1 条IT之家(RSS)
推荐理由:LOGOS用一套统一科学语法把蛋白质、小分子、材料等塞进同一个LLM框架,纯序列建模就干过了专用扩散模型,参数量却只有NatureLM的1/56,做AI4S的得认真看一眼。
03:48
xAI:News(网页)
精选61
Grok 4.3 在 Amazon Bedrock 正式可用

6 月 17 日,xAI 宣布 Grok 4.3 在 Amazon Bedrock 上全面可用。该模型在前沿模型中达成最低幻觉率,支持 100 万 token 上下文窗口,并提供可配置推理努力(none/low/medium/high)。在 Artificial Analysis Omniscience 基准排名第一,在 Tau2 Telecom 基准评估客服智能体真实工具调用性能排名第一,在 Vals AI Case Law 和 Corporate Finance 基准的复杂文档理解任务排名第一。定价为输入每百万 token 1.25 美元、输出每百万 token 2.50 美元,每美元智能度是其他前沿模型的 2–10 倍。

xAI推理模型发布

推荐理由:Grok 4.3 登陆 Bedrock,把极低幻觉率和可配置推理带给了 AWS 用户,价格也摆在了 Pareto 前沿,不过本质上是一次渠道扩展而非模型突破,企业开发者可以尝鲜。
6月17日
23:43
Hugging Face:Blog(RSS)
精选69
MolmoMotion:语言引导的3D运动预测模型

MolmoMotion基于Molmo 2骨干网络,输入视频帧、物体上的3D点标记及文字动作指令(如“移动并旋转桌上放水果的木碗”),预测未来数秒内这些点的3D轨迹。提供两个变体:自回归的MolmoMotion-AR逐步预测坐标,流匹配的MolmoMotion-FM通过连续空间变换处理多可能性运动。同时发布MolmoMotion-1M数据集(含116万视频的3D点轨迹及动作描述)和PointMotionBench基准测试(2700个人工验证视频片段)。模型权重、数据集和基准测试均已开源。

Hugging Face具身智能多模态模型发布

推荐理由:MolmoMotion把3D运动预测从模板化推到任意物体,百万级数据集和基准让研究门槛大降,做机器人和视频生成的值得认真看,但目前仍是研究阶段,离落地还有距离。
17:38
Hugging Face:Blog(RSS)
83
GLM-5.2:为长周期任务而生

GLM-5.2 发布,支持 1M token 上下文,采用 IndexShare 架构——每 4 个稀疏注意力层共用一个轻量索引器,将 1M 上下文下每 token FLOPs 降低 2.9 倍;MTP 层改进使推测解码接受长度提升 20%。长周期编码基准上,FrontierSWE 落后 Opus 4.8 仅 1%、领先 GPT-5.5 1%;PostTrainBench 仅次于 Opus 4.8;SWE-Marathon 落后 Opus 4.8 13% 但排名第二。标准编码测试 Terminal-Bench 2.1 获 81.0 分(GLM-5.1 为 63.5),接近 Opus 4.8 的 85.0。模型引入努力级别控制以平衡性能与延迟。MIT 开源许可,无地域限制。

开源生态推理模型发布编码
关联讨论 6 条X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)X:硅基流动 SiliconFlow (@SiliconFlowAI)Simon Willison 博客The Decoder:AI News(RSS)X:智谱 Z.ai (@Zai_org)
16:09
智谱:研究(网页内嵌数据)
精选59
GLM-5.2 上线并开源:专注 Coding 与长程任务

GLM-5.2 已发布并开源,采用 MIT 协议,支持 1M 上下文窗口。Coding 方面能承载项目级上下文,长程任务执行更稳定,遵循生产级工程规范,并支持客户端与移动端真机调试闭环。通过极致 Infra 优化,发布首日即可在国产算力平台运行。模型已开源至 GitHub、Hugging Face、ModelScope、BigModel 开放平台、Z.ai、智谱清言、AutoClaw 及 ZCode。

开源生态模型发布编码
关联讨论 6 条X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)X:硅基流动 SiliconFlow (@SiliconFlowAI)Simon Willison 博客The Decoder:AI News(RSS)X:智谱 Z.ai (@Zai_org)
推荐理由:智谱这次升级很务实,1M 上下文和 MIT 协议对做长程任务的开发者很实用,但官方没给出量化 benchmark,实际提升还得自己上手测。
12:05
xAI:News(网页)
同事件精选73
xAI 发布 Grok Imagine Video 1.5

xAI 将 Grok Imagine Video 1.5 从预览转为全面可用,在 Imagine API 上提供 grok-imagine-video-1.5,并在 grok.com/imagine 及 iOS/Android 应用上推出 Video 1.5 Fast 版。相比前代,模型在音频与语音(更清晰、嘴型同步更好)、运动与物理(更连贯、重量感更真实)、生成速度(6 秒 720p 视频约 25 秒,此前超 40 秒)上全面提升。同时逐步推出 Projects、Multiple agents(并行运行多个生成任务)、Search 等新功能,以优化创作流程。

xAI多模态模型发布视频
同一事件,精选展示《xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)》
推荐理由:Grok Imagine 1.5 把视频生成速度砍半,音效同步和项目功能让创作者工作流更顺畅,xAI 在视频方向上站住了脚。
09:20
公众号:智谱(GLM)
81
GLM-5.2上线并开源:专注Coding与长程任务

智谱今日发布并开源GLM-5.2,在前端开发盲测系统Code Arena上取得全球可用模型第一。该模型专为长程任务设计,实现1M无损上下文,支持跨越数天的任务执行。在FrontierSWE上仅比Claude Opus 4.8低1%,超过GPT-5.5(1%)和Opus 4.7(11%);Terminal-Bench 2.1上比Opus 4.8低4%,较GLM-5.1提升17.5%。引入思考档位控制,Coding能力介于Opus 4.7与4.8之间。提出IndexShare架构降低单位FLOPs至2.9倍,改进MTP层提升接受长度20%。已在华为昇腾等国产算力平台适配。模型权重以MIT协议开源,API已上线并纳入GLM Coding Plan。

智能体Hugging Face模型发布编码
关联讨论 6 条X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)X:硅基流动 SiliconFlow (@SiliconFlowAI)Simon Willison 博客The Decoder:AI News(RSS)X:智谱 Z.ai (@Zai_org)
6月16日
14:30
公众号:通义实验室(千问)
73
Qwen-Robot 发布:打通大模型到物理世界的最后一公里

通义实验室推出 Qwen-Robot,包含三个基础模型:Qwen-RobotNav 以单套权重统一五类导航任务,五项基准达 SOTA,零样本部署于宇树 Go2 机器人(推理延迟 196ms);Qwen-RobotManip 基于 Qwen3.5-4B VL,采用 80 维状态-动作统一表示,利用超 38,100 小时开源数据训练,在多个操作基准超越 π0.5;Qwen-RobotWorld 以 860 万视频-文本对训练,通过自然语言动作接口统一 20 余种本体,多项世界模型评测第一。三个模型通过语言优先接口可被通用 Qwen 模型组合调用,实现物理智能体闭环。

具身智能多模态模型发布
关联讨论 3 条Hacker News 热门(buzzing.cc 中文翻译)X:通义千问 / Qwen (@Alibaba_Qwen)MarkTechPost(RSS)
12:39
Qwen:Blog Retrieval(API)
同事件精选72
Qwen-RobotManip:对齐解锁机器人操作基础模型的规模化能力

Qwen-RobotManip 是通义千问基于 Qwen-VL 的视觉-语言-动作(VLA)基础模型,引入覆盖表示、运动和行为三维度的统一对齐框架。仅使用开源机器人数据集和人演示视频,构建约 38,100 小时预训练语料,涵盖 15 种机器人形态。在 LIBERO-Plus 达 91.4%,RoboTwin-C2R Hard 达 69.4%,RoboCasa365 Composite-Unseen 达 14.9%,EBench 达 45.6%,RoboTwin-IF 达 72.0%,并在 RoboChallenge Table30 v1 generalist track 夺冠。模型采用 80 维状态-动作表示、人-机器人数据合成管道(1,933 小时第一人称视频转 24,808 小时数据)及上下文策略适配。

具身智能开源生态数据/训练模型发布
同一事件,精选展示《Qwen-RobotWorld:具身智能体的无界世界》
推荐理由:Qwen 这次发布的机器人模型,用统一对齐框架把跨实体数据规模化训练跑通了,OOD 泛化大幅领先,做具身智能的值得认真看一下。
12:39
Qwen:Blog Retrieval(API)
精选72
Qwen-RobotWorld:具身智能体的无界世界

Qwen-RobotWorld以语言为统一动作接口,采用双流Multimodal Diffusion Transformer(MMDiT)架构,将Qwen2.5-VL作为动作编码器。在4个基准测试中取得顶尖成绩,统一20余种机器人形态,基于860万跨场景训练对和1300多项操作技能。语言接口标准化500多种动作类别,支持操作、自动驾驶、室内导航的联合训练。还支持Scene2Robot人类到机器人转移及2–4路多视角几何一致视频生成。

具身智能多模态模型发布
关联讨论 3 条Hacker News 热门(buzzing.cc 中文翻译)X:通义千问 / Qwen (@Alibaba_Qwen)MarkTechPost(RSS)
推荐理由:具身智能的世界模型长期受限于单一形态,Qwen-RobotWorld用语言统一动作接口,把操作、驾驶、导航合训,多视角几何一致性和人类演示迁移是过去一年最扎实的落地信号,做机器人的别错过。
12:39
Qwen:Blog Retrieval(API)
73
Qwen-Robot Suite:面向物理世界智能的基础模型套件

Qwen 发布三款基础模型——Qwen-RobotNav、Qwen-RobotManip 和 Qwen-RobotWorld。Nav 通过可控观测协议统一指令跟随、点/物体目标导航、目标追踪和自动驾驶五类任务,在 VLN-CE RxR 上达 76.5% SR,HM3Dv2 物体目标导航(仅 RGB)75.6% SR,EVT-Bench 追踪率 90.0%,NAVSIM 91.4 PDMS。Manip 利用规范状态-动作空间对超 38,100 小时异构开源机器人数据进行跨本体训练。World 通过自然语言动作接口协同训练 20 余种本体,预测操控、驾驶和导航的物理未来。三者共同将通用智能转化为物理行动。

具身智能模型发布
关联讨论 3 条Hacker News 热门(buzzing.cc 中文翻译)X:通义千问 / Qwen (@Alibaba_Qwen)MarkTechPost(RSS)
12:39
Qwen:Blog Retrieval(API)
同事件精选70
Qwen-RobotNav:面向智能体导航系统的可扩展导航模型

Qwen 发布 Qwen-RobotNav,基于 Qwen3-VL 在 15.6M 样本上训练,统一了视觉语言导航、目标导航、目标跟踪、自动驾驶和具身问答五个领域,无需修改架构即可在推理时切换任务模式和观察参数。模型在多项基准取得 SOTA:VLN-CE RxR 成功率 76.5%,HM3Dv2 目标导航 75.6%(仅 RGB),EVT-Bench 跟踪率 90.0%,NAVSIM PDMS 91.4,以及三项 EQA 新标杆。模型暴露四个可调轴(视觉 token 预算、时间衰减、相机权重、帧采样模式)。作为智能体系统的一部分,上层规划器 Qwen3.7-Plus 在 EXPRESS-Bench 上提升 15.4%,导航步数减少 77%。模型已零样本部署在 Unitree Go2 四足机器人上,无需环境微调。

具身智能模型发布
同一事件,精选展示《Qwen-RobotWorld:具身智能体的无界世界》
推荐理由:把导航任务看作上下文配置问题,单一模型覆盖从跟随指令到自动驾驶五种任务,在四足机器人上零样本部署,具身智能的工程化样本。
10:40
公众号:蚂蚁百灵(Ling)
同事件精选79
蚂蚁百灵发布 Ling & Ring 2.6 技术报告

蚂蚁百灵发布 Ling & Ring 2.6 技术报告,系统公开 Ling-2.6-flash、Ling-2.6-1T 和 Ring-2.6-1T 的架构、预训练、后训练及 Agent 强化学习细节。三款模型采用 Hybrid Linear Attention 架构,将 Lightning Attention 与 MLA 以 7:1 比例结合。Ling-2.6-flash 在 4×H20 硬件上解码速度达 340 tokens/s,Ling-2.6-1T 在 Artificial Analysis Intelligence Index 上 token efficiency 较前代提升约 4 倍。Ring-2.6-1T high 在 PinchBench 得 87.60,ClawEval 得 63.82。三款模型均已开源。

智能体开源/仓库推理模型发布
同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》
推荐理由:蚂蚁百灵2.6技术报告首次公开Hybrid Linear Attention与KPop Agent RL细节,开源模型在OpenClaw登顶,把万亿模型从聊天拉到真实工作流,做Agent应用的值得细读。
01:25
LMSYS:Blog(Chatbot Arena 团队)
精选67
下一代投机解码:DFlash 与 Spec V2

Z Lab、Modal 与 SGLang 团队联合发布 DFlash 投机解码模型和 SGLang 的默认 Spec V2 引擎。DFlash 采用块扩散+KV 注入并行生成整块 draft token,在 Qwen 3.5 397B-A17B(BF16)的 HumanEval 数据集上、并发 1 时吞吐量达到基线的 4.3

Hugging Face推理模型发布部署/工程

推荐理由:DFlash 用并行起草和 KV 注入实现了实测 4.3 倍吞吐,再加上 SGLang Spec V2 引擎优化,推理加速不再是纸上谈兵。做 LLM 部署和推理服务的人,可以直接用这个组合试试。
6月15日
23:01
公众号:MiniMax(稀宇科技)
同事件精选76
MiniMax 开源 M3 模型权重及 MSA 技术论文

MiniMax 上周五开源了 428B 总参数、23B 激活参数的 M3 模型权重,同步发布 MSA(MiniMax Sparse Attention)技术论文,该架构显著降低长上下文计算成本。M3 是首个从预训练阶段就进行文本、图像等多模态交错混合训练的开源模型。发布两周后,M3 在 Artificial Analysis 综合智能指数、GDPval-AA 排行榜均获开源模型第一,Code Arena WebDev 跻身帕累托最优序列,Vals.AI 榜单居国产模型首位。输出速度已从约 30 TPS 提升至约 80 TPS,计划再提速 30–40%;Token Plan 后台新增调用量看板。

多模态数据/训练模型发布
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
推荐理由:M3 是第一个从预训练阶段就深度融合多模态的开源模型,MSA 架构让长上下文成本大幅降低,它的开源会给做多模态应用的团队一个高性价比的选择,国产开源又多了一个能打的基座。
6月13日
17:54
公众号:智谱(GLM)
同事件精选70
智谱 GLM-5.2 全量开放,支持 1M 上下文且下周开源

GLM-5.2 是智谱迄今能力最强的开源模型,支持真正可用的 1M 上下文,在长程任务中继续保持领先,并被智谱称为最强的国产 Coding 模型。今晚 5:21 起面向 GLM Coding Plan 全量用户开放(覆盖 Lite、Pro、Max、团队版)。API 将于下周上线,模型下周正式开源,遵循 MIT 协议。

开源生态模型发布编码
同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》
推荐理由:智谱把最强大模型全量开放且开源,这事本身就在打脸那些收回权限的闭源模型,做中文编码的开发者可以认真看看。
13:17
蚂蚁 inclusionAI:HuggingFace 新模型
精选62
inclusionAI 发布 VISTA-4B GUI 定位视觉语言模型

VISTA-4B 是基于 Qwen3.5-4B 骨干的 GUI 定位模型,输入截图与自然语言指令,输出归一化 0-1000 坐标。训练采用视图一致 GRPO 和自验证交叉视图锚定。在 GUI 定位基准上,SSPro 得分 64.2(相比 GRPO-4B 提升 2.0),SSV2 得分 93.8(下降 0.4),OSWorld-G 得分 61.2(提升 1.3),OSWorld-G-R 得分 69.7(提升 0.5)。模型已开源在 HuggingFace,推荐使用提示词并返回 [x,y] 格式坐标。

智能体Hugging Face多模态模型发布

推荐理由:蚂蚁 inclusionAI 开源了一款 GUI 定位模型,基于 Qwen3.5 微调,在接地基准上小幅提升,关键是提供了自验证训练方法,做桌面自动化的可以直接下载用。
13:17
蚂蚁 inclusionAI:HuggingFace 新模型
71
inclusionAI/VISTA-9B:基于VISTA训练的GUI定位视觉语言模型

VISTA-9B是基于Qwen3.5 9B骨干训练的GUI定位模型,输入截图与自然语言指令,输出0-1000归一化坐标。采用VISTA(视图一致自验证)方法,含view-consistent GRPO与self-verified cross-view anchoring。在SSPro、SSV2、OSWorld-G、OSWorld-G-R上分别取得69.2、95.8、68.1、75.5分,超越Qwen3.5-9B与GRPO-9B基线。模型已开源,可通过HuggingFace加载使用。

智能体Hugging Face多模态模型发布
6月11日
12:10
Midjourney:Updates(RSS)
精选64
Midjourney V8.1 已成为默认模型

Midjourney 已将默认模型从 V7 升级为 V8.1。V8.1 在智能性、连贯性、对详细提示的遵循度以及文本渲染效果上均有提升,HD 模式也已支持。

图像生成模型发布
关联讨论 2 条X:Midjourney (@midjourney)Midjourney:Updates(RSS)
推荐理由:虽然V8.1不是大版本,但设为默认后所有用户自动升级,尤其是文本和复杂提示词的理解增强,做设计的朋友值得重新测试一下关键词。
‹ 上一页
123…10
下一页 ›