AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 398 条
全部一手资讯X论文
标签「模型发布」清除
5月22日周五
09:41公众号:智谱(GLM)63同事件精选智谱推出GLM-5.1高速版同一事件,精选展示《GLM-5.1开源:一个独立工作8小时的模型》
00:00Mistral AI:News(网页)69Vibe中的远程智能体,由Mistral Medium 3.5驱动。介绍Mistral Medium 3.5、Vibe中的远程编程智能体,以及Le Chat中用于复杂任务的新Work模式。2026年5月22日,Mistral AI
5月21日周四
16:43公众号:腾讯混元58腾讯混元全新翻译模型Hy-MT2开源,小程序「腾讯Hy翻译」开放体验
5月20日周三
13:53公众号:通义实验室(千问)55Qwen3.5-LiveTranslate 发布:开口即同传
11:04公众号:通义实验室(千问)62同事件精选Qwen3.7-Max 重新定义 AI Agent 基座同一事件,精选展示《Qwen3.7-Max:面向智能体时代的最新专有模型》
10:49Qwen:Blog Retrieval(API)79精选Qwen3.7-Max:面向智能体时代的最新专有模型
05:25Google Developers Blog(RSS)87Google I/O 2026:从辅助工具到独立智能体的战略转型
03:03Hugging Face:Blog(RSS)44OlmoEarth v1.1:更高效的地球观测模型家族
02:18Google Blog:AI(RSS)83精选Gemini 3.5:前沿智能与行动能力相结合
02:18Google Blog:AI(RSS)89精选I/O 2026: 欢迎来到自主的 Gemini 时代
01:48Google DeepMind:Blog(RSS)83同事件精选推出Gemini Omni多模态AI模型同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
5月19日周二
23:18Qwen:Blog Retrieval(API)77精选Qwen3.5-LiveTranslate:从声音到视觉,从词语到准确
23:01Hugging Face:Blog(RSS)60精选引入 Ettin Reranker 系列
5月16日周六
06:50Google DeepMind:Blog(RSS)75精选Gemini 3.5:具备行动能力的前沿智能
5月15日周五
11:02蚂蚁 inclusionAI:HuggingFace 新模型56精选蚂蚁集团提出 ARGenSeg-8B:基于自回归图像生成模型的图像分割框架
09:00公众号:蚂蚁百灵(Ling)51Ring-2.6-1T 正式开源:为真实复杂任务打造的万亿级思考模型
03:45Hugging Face:Blog(RSS)60精选IBM 发布 Granite Embedding Multilingual R2 开源多语言嵌入模型
5月14日周四
23:31蚂蚁 inclusionAI:HuggingFace 新模型59精选蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T
5月13日周三
11:45公众号:面壁智能(MiniCPM)54新一代「小钢炮」来袭!1.3B 模型性能效率双杀,MiniCPM-V 4.6 正式开源
5月11日周一
08:00Thinking Machines Lab:官方博客(RSS)59精选Thinking Machines Lab发布Interaction Models研究预览
5月9日周六
09:00公众号:蚂蚁百灵(Ling)56Ring-2.6-1T 正式发布
02:34Hugging Face:Blog(RSS)52CyberSecQwen-4B 发布:防御性网络安全专用小模型
00:34Hugging Face:Blog(RSS)72精选EMO:为涌现模块化预训练的专家混合模型
5月8日周五
05:49OpenAI:官网动态(RSS · 排除企业/客户案例)74精选Scaling Trusted Access for Cyber with GPT-5.5 and GPT-5.5-Cyber
01:18OpenAI:官网动态(RSS · 排除企业/客户案例)86精选通过 API 中的新模型推进语音智能
5月7日周四
10:01公众号:腾讯混元32腾讯混元 Hy3 preview 上线两周 Token 调用增长 10 倍
5月6日周三
19:54公众号:火山引擎49豆包基础模型 Doubao-Seed-2.0-lite 升级,支持全模态理解
01:42OpenAI:官网动态(RSS · 排除企业/客户案例)75精选GPT-5.5 Instant 系统卡片
01:12OpenAI:官网动态(RSS · 排除企业/客户案例)82精选GPT-5.5 Instant:更智能、更清晰、更个性化
5月1日周五
05:01Midjourney:Updates(RSS)56精选V8.1 更新
02:13Google Developers Blog(RSS)62精选基于Gemini Embedding 2构建:智能多模态RAG及其他应用
4月30日周四
09:00公众号:蚂蚁百灵(Ling)62同事件精选Ling-2.6-1T 正式开源:面向复杂任务的万亿级综合旗舰模型同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》
08:00OpenRouter:Announcements(RSS)54April Release Spotlight
00:40Mistral AI:News(网页)76Mistral AI发布Mistral Medium 3.5模型及Vibe远程编程智能体
4月29日周三
20:40公众号:生数科技(Vidu·视频)54生数科技发布通用世界行动模型 MotuBrain
16:30公众号:腾讯混元46出国必备+1!腾讯混元开源手机端离线翻译模型,仅0.4G,支持33种语言
11:25公众号:阶跃星辰(Step)53阶跃 Step Image Edit 2 上线!小身材、大能力、快响应
11:19蚂蚁 inclusionAI:HuggingFace 新模型51inclusionAI/Ling-2.6-1T
09:00公众号:蚂蚁百灵(Ling)57Ling-2.6-flash 正式开源
00:37Hugging Face:Blog(RSS)70精选介绍 NVIDIA Nemotron 3 Nano Omni:面向文档、音频和视频智能体的长上下文多模态模型
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月22日
09:41
公众号:智谱(GLM)
同事件精选63
智谱推出GLM-5.1高速版

智谱发布GLM-5.1高速版,推理速度达400 tokens/s,在顶尖模型中生成速度最快。

推理模型发布部署/工程
同一事件,精选展示《GLM-5.1开源:一个独立工作8小时的模型》
推荐理由:智谱把GLM-5.1做到了400 tokens/s,虽然发布已半个月,但这是国产模型在推理速度上的新标杆,做实时应用的可以看看。
00:00
Mistral AI:News(网页)
69
Vibe中的远程智能体,由Mistral Medium 3.5驱动。介绍Mistral Medium 3.5、Vibe中的远程编程智能体,以及Le Chat中用于复杂任务的新Work模式。2026年5月22日,Mistral AI

Mistral AI发布了新模型Mistral Medium 3.5。该模型为Vibe产品中的远程编程智能体(remote coding agents)提供支持,这些智能体可在终端、IDE和后台运行。同时,Le Chat新增Work模式,专为处理复杂任务而设计。发布日期为2026年5月22日。

智能体模型发布编码
5月21日
16:43
公众号:腾讯混元
58
腾讯混元全新翻译模型Hy-MT2开源,小程序「腾讯Hy翻译」开放体验
开源生态模型发布
5月20日
13:53
公众号:通义实验室(千问)
55
Qwen3.5-LiveTranslate 发布:开口即同传

通义实验室(千问)发布 Qwen3.5-LiveTranslate,实现“开口即同传”——用户说话的同时即可获得翻译结果,支持实时语音同声传译。目前尚未公布模型参数规模、benchmark 分数、上下文长度等具体技术细节。

多模态模型发布语音
11:04
公众号:通义实验室(千问)
同事件精选62
Qwen3.7-Max 重新定义 AI Agent 基座

通义实验室推出 Qwen3.7-Max,定位为重新定义 AI 智能体基座的模型,侧重提升智能体的基础能力与架构。

智能体模型发布
同一事件,精选展示《Qwen3.7-Max:面向智能体时代的最新专有模型》
推荐理由:Qwen3.7-Max 是通义系列对 Agent 基座的一次关键升级,发布时间虽已过两周,但做 Agent 的开发者仍不能忽略,选型必看。
10:49
Qwen:Blog Retrieval(API)
精选79
Qwen3.7-Max:面向智能体时代的最新专有模型

通义千问发布 Qwen3.7-Max,专为智能体时代设计。它具备从原型到复杂多文件工程的编码智能体能力,通过 MCP 和多智能体编排实现办公自动化,能自主执行超 1000 步工具调用(如 35 小时全自主内核优化)。兼容 Claude Code、OpenClaw、Qwen Code 等多框架。在多项基准测试中超越 Opus-4.6 Max 等模型:Terminal Bench 2.0 (69.7)、SWE-Verified (80.4)、GPQA Diamond (92.4)、HLE (41.4) 等。现已通过阿里云 Model Studio 提供 API 调用。

智能体推理模型发布编码
关联讨论 8 条X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)Hacker News 热门(buzzing.cc 中文翻译)公众号:通义实验室(千问)X:OpenRouter (@OpenRouter)IT之家(RSS)
推荐理由:Qwen3.7-Max 把 agent 能力拉到了新高度,35 小时自主内核优化证明长程执行有真实生产力,做 coding agent 的团队该认真测一下。
05:25
Google Developers Blog(RSS)
87
Google I/O 2026:从辅助工具到独立智能体的战略转型

在2026年开发者大会上,Google宣布其AI战略核心从辅助工具转向开发独立智能体。大会重点发布了Gemini 3.5系列模型,并对“反重力”智能体优先平台进行了重大更新。面向移动开发者,推出了Android CLI工具、评估排行榜及能将多种框架代码快速迁移至原生Kotlin的智能体。Web开发领域也迎来变革,包括专为智能体设计的Chrome DevTools、HTML-in-Canvas API,以及旨在让浏览器内AI智能体执行复杂任务的开放标准WebMCP提案。

智能体Google模型发布编码
03:03
Hugging Face:Blog(RSS)
44
OlmoEarth v1.1:更高效的地球观测模型家族

OlmoEarth v1.1 是新一代地球观测模型家族,将计算成本降低最多 3 倍,同时保持与 v1 相近的性能。通过将 Sentinel‑2 不同分辨率(10m、20m、60m)的 token 合并为单个 token,大幅缩短输入序列长度,从而减少预训练、微调和推理所需算力。提供 Base、Tiny、Nano 三种尺寸,权重与训练代码已开源。该模型已在红树林变化追踪、森林退化成因分类、国家级作物图绘制等任务中得到验证。

Hugging Face开源/仓库数据/训练模型发布
02:18
Google Blog:AI(RSS)
精选83
Gemini 3.5:前沿智能与行动能力相结合

Google 在 I/O 大会上正式发布了最新的 Gemini 3.5 模型系列。该系列模型将前沿的人工智能能力与执行操作的功能相结合,旨在提供更强的综合性能。作为 Google 最新推出的模型,它代表了其在大模型技术上的最新进展。

智能体Google多模态推理

推荐理由:Google 在 I/O 上甩出 Gemini 3.5,这次不只拼多模态,更强调‘行动’,是所有做 Agent 的团队必须对标的新基座。
02:18
Google Blog:AI(RSS)
精选89
I/O 2026: 欢迎来到自主的 Gemini 时代

Google 在 I/O 2026 大会上宣布 Gemini 进入自主代理时代,新功能使其能够自动执行复杂任务,显著提升用户工作效率。大会展示了 Gemini 如何通过代理操作简化工作流程,实现自动化处理,例如自动管理邮件、安排日程或生成报告,帮助用户从重复性工作中解放出来,专注于创造性任务。这一更新基于先进机器学习模型,强调准确性与效率,标志着 AI 助手向更智能、更自主的方向发展。

智能体Google模型发布

推荐理由:谷歌 I/O 大会上 Sundar Pichai 亲自宣布 agentic Gemini 时代到来,这是把 Gemini 从对话助手升级成真正能自主执行任务的 agent,所有做 AI 应用的接下来都得重新看一遍技术选型。
01:48
Google DeepMind:Blog(RSS)
同事件精选83
推出Gemini Omni多模态AI模型

谷歌推出原生多模态AI模型Gemini Omni,能够整合视频、图像、音频和文本等多种输入,生成高质量视频内容。其核心能力是通过自然语言对话进行视频编辑,并能保持角色一致性、物理规律与场景连贯性。首个模型Gemini Omni Flash已上线,未来将支持图像和音频输出。Gemini Omni结合了对物理世界的直觉理解与丰富的知识库,支持从写实到叙事的创意生成,并可通过多轮对话持续编辑视频,而不丢失原始场景上下文。

DeepMindGoogle多模态模型发布
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Gemini Omni 把视频生成从画面堆砌推到了物理世界叙事,多轮自然语言编辑和世界知识融合是真正的代际升级,做视频内容的该重新理解工具的定义了。
5月19日
23:18
Qwen:Blog Retrieval(API)
精选77
Qwen3.5-LiveTranslate:从声音到视觉,从词语到准确

Qwen3.5-LiveTranslate-Flash 是 Qwen 家族最新的同声传译模型,基于 Qwen3.5-Omni 架构,支持实时多模态翻译(音频、视频及视觉上下文)。语言覆盖大幅扩展:输入音频与输出文本从18种增至60种,输出音频从10种增至29种。采用 Readable Unit 技术,平均端到端每 token 延迟降至2.8秒,相比前代首 token 延迟降低3.45秒、每 token 延迟降低1.88秒。支持一句话启动的实时语音克隆和可动态配置的热词增强。在 FLEURS 和 CoVoST2 基准上翻译准确率超越主流商用大语音模型。

多模态模型发布语音

推荐理由:这个版本让同声传译从“能用”变成了“好用”,语言覆盖从 18 跃升 60,延迟压到 2.8 秒,加上视觉消除歧义,做国际业务和直播的人值得跟进。
23:01
Hugging Face:Blog(RSS)
精选60
引入 Ettin Reranker 系列

Hugging Face 发布六个 Ettin Reranker 重排序模型(17m、32m、68m、150m、400m、1b),基于 Ettin ModernBERT 编码器,蒸馏 self-mxbai-rerank-large-v2 分数训练,在 MTEB(eng, v2) Retrieval 达各自规模 SOTA。模型以 Sentence Transformers CrossEncoder 接口提供,三行代码可调用。同时发布 train-sentence-transformers Agent Skill(v5.5.0),允许 AI 编码智能体在用户数据上微调模型。训练配方、数据集和脚本已全部开源。

Hugging Face检索增强开源/仓库搜索

推荐理由:从17M到1B的全尺寸reranker家族,每个量级都是SOTA,而且训练数据和代码全开放,做搜索和RAG的开发者可以无痛替换旧模型。
5月16日
06:50
Google DeepMind:Blog(RSS)
精选75
Gemini 3.5:具备行动能力的前沿智能

Google发布了Gemini 3.5模型,该模型专注于提升执行复杂任务的能力。其核心特点是支持“代理式工作流”,即能够像助手一样自主规划并执行一系列多步骤、复杂的操作,旨在将先进的语言理解与实际问题解决能力相结合。

智能体DeepMindGoogle多模态
关联讨论 18 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Rohan Paul (@rohanpaul_ai)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)
推荐理由:Gemini 3.5 Flash 把前沿级智能体和编程能力塞进了极低延迟和成本,四倍于竞品速度的同时基准表现超过 3.1 Pro,这可能是今年对开发者最实用的基座模型之一。
5月15日
11:02
蚂蚁 inclusionAI:HuggingFace 新模型
精选56
蚂蚁集团提出 ARGenSeg-8B:基于自回归图像生成模型的图像分割框架

蚂蚁集团推出 ARGenSeg-8B,一种将多模态理解与像素级感知统一的自回归图像生成分割框架。它利用多模态大语言模型(MLLM)输出视觉 token,并通过通用 VQ-VAE 解码为分割掩码,使分割完全依赖 MLLM 的像素级理解。采用 next-scale-prediction 策略并行生成视觉 token,降低推理延迟。在多个分割数据集上超越此前最优方法,推理速度显著提升。论文已被 NeurIPS 2025 接收,模型已发布在 HuggingFace。

Hugging Face多模态开源/仓库模型发布

推荐理由:蚂蚁提出用自回归生成做分割,把理解和像素级感知统一到一个框架里,多个数据集SOTA且速度更快,做CV的值得看看。
09:00
公众号:蚂蚁百灵(Ling)
51
Ring-2.6-1T 正式开源:为真实复杂任务打造的万亿级思考模型

Ring-2.6-1T 正式开源,这是为真实复杂任务打造的万亿级思考模型,Agent 执行能力全面增强,采用双档推理配置,兼顾效率、成本与能力上限。

开源生态推理模型发布
03:45
Hugging Face:Blog(RSS)
精选60
IBM 发布 Granite Embedding Multilingual R2 开源多语言嵌入模型

IBM 发布两个 Apache 2.0 开源多语言嵌入模型:97M 参数的紧凑型(granite-embedding-97m-multilingual-r2)在 MTEB Multilingual Retrieval 上得 60.3 分,超越所有开放子 1 亿参数模型;311M 全尺寸模型(granite-embedding-311m-multilingual-r2)得 65.2 分,在 500M 以下开放模型中排第二,并支持 Matryoshka 维度。两者均基于 ModernBERT 架构,支持 200+ 种语言,针对 52 种语言和 9 种编程代码检索训练,上下文窗口达 32,768 tokens。可直接替换 sentence-transformers、LangChain、LlamaIndex 等框架中的默认模型,预置 ONNX 和 OpenVINO 权重以优化 CPU 推理。

检索增强开源生态搜索模型发布

推荐理由:97M小模型在跨语言检索上打败很多300M级选手,32K上下文让长文档处理不再鸡肋,Apache 2.0开源意味着做多语言RAG的可以直接拿来当默认嵌入模型了。
5月14日
23:31
蚂蚁 inclusionAI:HuggingFace 新模型
精选59
蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T

蚂蚁 inclusionAI 发布旗舰推理模型 Ring-2.6-1T,参数规模达万亿,面向智能体工作流、工程开发、科研分析等复杂场景。模型从“能回答”升级至“能执行”,在多步任务与工具协作中表现更优;支持 high/xhigh 两档推理强度,可灵活平衡效果与成本;采用异步强化学习结合 IcePop 算法提升训练效率。基准测试中,high 模式 PinchBench 得 87.60、ClawEval 63.82、Tau2-Bench 电信场景 95.32;xhigh 模式 ARC-AGI-V2 得 66.18、AIME 26 达 95.83、GPQA Diamond 88.27。上下文长度支持 128K 扩展至 256K(YaRN),已通过 HuggingFace 和 ModelScope 开放下载。

智能体开源/仓库推理模型发布
关联讨论 4 条HuggingFace Daily Papers(社区热门论文)蚂蚁 inclusionAI:HuggingFace 新模型公众号:蚂蚁百灵(Ling)X:蚂蚁百灵 (@AntLingAGI)
推荐理由:蚂蚁放出的万亿参数推理模型,Agent执行能力在PinchBench上超GPT-5.4,异步RL训练和可调推理强度对工程落地有参考价值,开源可试。
5月13日
11:45
公众号:面壁智能(MiniCPM)
54
新一代「小钢炮」来袭!1.3B 模型性能效率双杀,MiniCPM-V 4.6 正式开源
多模态开源/仓库模型发布端侧
5月11日
08:00
Thinking Machines Lab:官方博客(RSS)
精选59
Thinking Machines Lab发布Interaction Models研究预览

Thinking Machines Lab发布interaction models研究预览。该模型从零训练,原生处理音频、视频和文本,采用多流微回合设计实现实时响应,无需外部脚手架。研究预览展示了全新的交互能力,并在智能性与响应性上取得综合SOTA表现。

智能体多模态模型发布视频

推荐理由:Thinking Machines 把实时交互训进了模型本身,不再是外挂脚手架,微轮次架构和 benchmark 数据很硬,做语音/视频助手的可以认真看看,虽然还是研究预览,但方向值得盯着。
5月9日
09:00
公众号:蚂蚁百灵(Ling)
56
Ring-2.6-1T 正式发布

Ring-2.6-1T 是一款万亿级旗舰思考模型,引入可调节的 Reasoning Effort 机制,支持 high 与 xhigh 两种推理强度。high 模式面向高频 Agent 工作流,xhigh 面向数学、科研等复杂任务。评测中,high 模式 PinchBench 得分 87.60,Tau2-Bench Telecom 95.32;xhigh 模式 ARC-AGI-V2 得分 77.78,AIME 26 得分 95.83,GPQA Diamond 88.27。模型已上线 OpenRouter,近期将开源。

智能体推理模型发布
02:34
Hugging Face:Blog(RSS)
52
CyberSecQwen-4B 发布:防御性网络安全专用小模型

CyberSecQwen-4B 是基于 Qwen3-4B-Instruct-2507 微调的 4B 参数防御性网络安全模型,在 CTI-Bench 上以半参数(4B vs 8B)对标 Cisco Foundation-Sec-Instruct-8B:CTI-MCQ 得分 0.5868,领先 8.7 个百分点;CTI-RCM 得分 0.6664,保留后者 97.3% 的准确率。可运行于单张 12 GB 消费级 GPU,训练使用 AMD Instinct MI300X,LoRA 微调(r=64, lr=5e-5),数据来自 MITRE/NVD 的 2021 CVE→CWE 映射及合成分析师问答,以 Apache-2.0 许可发布。专为需本地部署的敏感安全场景设计。

Hugging Face安全/对齐开源生态模型发布
00:34
Hugging Face:Blog(RSS)
精选72
EMO:为涌现模块化预训练的专家混合模型

EMO是一种新型专家混合模型,通过端到端预训练使模块化结构直接从数据中涌现,无需依赖人类定义的先验。该模型允许在特定任务中仅使用12.5%的专家子集(即8个活跃专家中的部分),同时保持接近全模型的性能;当所有128个专家共同使用时,它仍作为强大的通用模型。EMO具有1B活跃参数和14B总参数,训练数据达1万亿令牌。与标准MoE相比,EMO通过文档级路由约束,鼓励专家形成领域专业化组,从而支持选择性使用而不导致严重性能下降,实现了可组合架构,优化了大型稀疏MoE的内存-准确性权衡。

Hugging Face开源生态数据/训练模型发布

推荐理由:EMO 让 MoE 专家从按词法分散进化到按语义域自然模块化,仅用 12.5% 专家就能接近全模型性能,对需要按需加载的大模型部署是真正的突破。
5月8日
05:49
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选74
Scaling Trusted Access for Cyber with GPT-5.5 and GPT-5.5-Cyber

OpenAI扩展了网络安全领域的可信访问计划,推出了GPT-5.5和专门针对网络安全的GPT-5.5-Cyber模型。此举旨在帮助经过验证的网络安全防御者加速漏洞研究,并加强对关键基础设施的保护。新模型将为安全专业人员提供更强大的AI工具支持。

OpenAI安全/对齐模型发布

推荐理由:GPT-5.5 正式登场,首秀是给安全防御者用的,Trusted Access 机制把模型和真实漏洞环境连起来,做网络安全的可以关注,其他人先看看。
01:18
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选86
通过 API 中的新模型推进语音智能

OpenAI API 推出了新的实时语音模型,能够进行推理、翻译和语音转录。这些模型显著提升了语音交互的自然度与智能水平,支持实时处理与多语言转换。新功能旨在为开发者提供更强大的工具,以构建更流畅、更智能的语音应用体验。

OpenAI多模态模型发布语音

推荐理由:语音模型不再只是‘听写’,开始能推理和翻译了,OpenAI这次API更新的几个新模型把语音智能推向更实用的阶段,做语音产品的值得赶紧试试。
5月7日
10:01
公众号:腾讯混元
32
腾讯混元 Hy3 preview 上线两周 Token 调用增长 10 倍

腾讯混元推出的 Hy3 preview 模型上线仅两周,Token 调用量即增长 10 倍,其中代码和智能体类场景的 Token 调用增长尤为明显。

智能体模型发布编码
5月6日
19:54
公众号:火山引擎
49
豆包基础模型 Doubao-Seed-2.0-lite 升级,支持全模态理解

豆包基础模型 Doubao-Seed-2.0-lite 完成升级,新增全模态理解能力。升级后的模型支持全模态理解,可处理多种信息形式。此为火山引擎旗下模型的最新升级。

多模态模型发布
01:42
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选75
GPT-5.5 Instant 系统卡片

OpenAI 于2026年5月5日发布了最新即时模型 GPT-5.5 Instant。该模型在网络安全、生物与化学防范两个类别首次被定位为“高能力”级别,并为此实施了相应的安全防护措施。其整体安全缓解方案与此系列前代模型相似。官方明确,不存在名为 GPT-5.4 Instant 的模型,其主要对标基线是 GPT-5.3 Instant。为避免混淆,GPT-5.5 模型被特指为 GPT-5.5 Thinking。

OpenAI安全/对齐模型发布

推荐理由:GPT-5.5 Instant 是第一个被 OpenAI 标记为「高能力」的 Instant 模型,安全评估里多了些新门槛,做 AI 安全的可以翻开系统卡看看具体红线画在哪。
01:12
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选82
GPT-5.5 Instant:更智能、更清晰、更个性化

ChatGPT的默认模型已更新为GPT-5.5 Instant。新版模型能提供更智能、更准确的答案,并有效减少了幻觉现象。同时,用户获得了更强的个性化控制能力,使交互体验更贴合个人需求。此次升级标志着模型在理解精度与响应定制化方面取得了显著进步。

OpenAI推理模型发布

推荐理由:ChatGPT默认模型替换为GPT-5.5 Instant,不只是变聪明,幻觉减少和个性化控制才是真改进,每个用户都能马上感觉到不同。
5月1日
05:01
Midjourney:Updates(RSS)
精选56
V8.1 更新

Midjourney V8.1 版本现已登陆 Discord 平台及其官方网站。本次更新重点提升了图像的清晰度与整体画质,这一改进在风格参考(SREF)和情绪板(Moodboards)功能中效果最为显著,同时所有类型的图像生成质量均有所增强,为用户带来更精细的视觉体验。

图像生成模型发布

推荐理由:Midjourney V8.1 只是个小版本迭代,主要提升锐度和图像质量,用惯了 V8 的可以不急着换,但玩 SREF 和 Moodboard 的值得试一下,细节确实有提升。
02:13
Google Developers Blog(RSS)
精选62
基于Gemini Embedding 2构建:智能多模态RAG及其他应用

Google正式发布Gemini Embedding 2统一嵌入模型,该模型能将文本、图像、视频、音频和文档映射到同一语义空间。开发者可通过单请求处理交织多模态输入,显著提升智能RAG、视觉搜索等内容审核任务的性能。模型支持超100种语言,并提供任务特定前缀和马特廖什卡降维等特性,为构建复杂AI智能体提供高效精准的基础。

Google检索增强多模态模型发布

推荐理由:开发者做多模态RAG的苦日子结束了,Gemini Embedding 2把文本、图片、视频塞进同一个语义空间,还自带Matryoshka降维,直接省掉一堆胶水代码。
4月30日
09:00
公众号:蚂蚁百灵(Ling)
同事件精选62
Ling-2.6-1T 正式开源:面向复杂任务的万亿级综合旗舰模型

Ling-2.6-1T 于上周发布,今日正式开源。该模型定位为面向复杂任务的万亿级综合旗舰模型。

开源生态模型发布
同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》
推荐理由:蚂蚁开源万亿参数模型 Ling-2.6-1T,虽然一个多月后才看到,但这是目前国内参数最大的综合性基座,做复杂多模态 agent 的团队可以直接拿来用,省去从头训练的麻烦。
08:00
OpenRouter:Announcements(RSS)
54
April Release Spotlight

本月发布聚焦视频生成、工作空间、智能体SDK与重排序模型。多家公司推出前沿大模型,包括GPT、Claude和LLaMA系列的新版本。核心变化体现在模型多模态能力增强,特别是视频生成功能成为竞争焦点。部分新模型在标准基准测试中性能提升超过15%,同时上下文窗口扩展至百万token级别。开发者工具方面,新的智能体SDK支持更复杂的任务编排,而重排序模型显著提升了检索精度。

智能体产品更新多模态模型发布
00:40
Mistral AI:News(网页)
76
Mistral AI发布Mistral Medium 3.5模型及Vibe远程编程智能体

Mistral AI推出旗舰模型Mistral Medium 3.5,这是一个128B参数的密集模型,拥有256K上下文窗口,在SWE-Bench Verified上获得77.6%的分数。该模型现作为Vibe和Le Chat的默认引擎,并驱动两项新功能:Vibe远程编程智能体可将编码任务移至云端异步并行执行,用户可通过CLI或Le Chat启动并在完成后接收通知;Le Chat的新工作模式则是一个由该模型驱动的智能体,能处理研究、分析和跨工具操作等多步骤复杂任务。这些更新旨在将开发者从本地线性任务中解放出来,提升工作效率。

智能体开源生态模型发布编码
4月29日
20:40
公众号:生数科技(Vidu·视频)
54
生数科技发布通用世界行动模型 MotuBrain

生数科技发布通用世界行动模型 MotuBrain,主打“为行动而生”,旨在推动智能体在物理世界中的感知与交互能力。

具身智能模型发布
16:30
公众号:腾讯混元
46
出国必备+1!腾讯混元开源手机端离线翻译模型,仅0.4G,支持33种语言
开源生态模型发布端侧
11:25
公众号:阶跃星辰(Step)
53
阶跃 Step Image Edit 2 上线!小身材、大能力、快响应
图像生成模型发布
11:19
蚂蚁 inclusionAI:HuggingFace 新模型
51
inclusionAI/Ling-2.6-1T

inclusionAI 发布了 Ling-2.6-1T 模型,这是一个包含 1 万亿参数的大型语言模型。该模型基于开源与开放科学理念构建,旨在推动人工智能技术的进步与民主化。新模型在多项基准测试中展现出更强的语言理解与生成能力,同时提供了更高效的推理性能。这一发布标志着开源社区在规模化 AI 模型开发上的重要进展,为研究者和开发者提供了可访问的高性能工具。

Hugging Face开源生态模型发布
09:00
公众号:蚂蚁百灵(Ling)
57
Ling-2.6-flash 正式开源

Ling-2.6-flash 今日正式开源,同步提供 BF16、FP8、INT4 等多个版本。该模型两周前以匿名身份登陆 OpenRouter,一周前正式发布并开放为期一周的免费 API 调用服务。过去两周内,团队基于开发者反馈进行多轮优化,改善了中英文自然切换能力,并提升了主流 Coding 框架的适配效果。开发者可通过 Hugging Face 和 ModelScope 获取模型。

开源/仓库开源生态模型发布
00:37
Hugging Face:Blog(RSS)
精选70
介绍 NVIDIA Nemotron 3 Nano Omni:面向文档、音频和视频智能体的长上下文多模态模型

NVIDIA 发布了 Nemotron 3 Nano Omni 模型,这是一个专为处理长上下文多模态任务设计的轻量级模型。该模型能够同时理解并处理文档、音频和视频数据,旨在赋能新一代多模态智能体。其核心变化在于将长上下文能力与多模态理解结合到一个小型化模型中,提升了在复杂跨模态场景下的处理效率与应用灵活性。

多模态模型发布端侧

推荐理由:NVIDIA 把多模态长上下文塞进 Nano 级别模型,文档、音频、视频 Agent 通吃,做端侧多模态应用的团队值得认真看看这个架构思路。
‹ 上一页
12345…10
下一页 ›