AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 728 条
全部一手资讯X论文
标签「模型发布」清除
5月19日周二
16:51IT之家(RSS)74精选地平线开源 HoloMotion-1 4 亿参数机器人小脑大模型,可实现舞蹈、健身、搬箱子等动作
14:50Hacker News 热门(buzzing.cc 中文翻译)68Agora-1:多智能体世界模型
09:45IT之家(RSS)45Qwen 3.7?阿里云峰会 5 月 20 日举行,千问官宣"重量级新朋友"即将亮相
06:45IT之家(RSS)65阿里云千问大模型 Qwen3.7-Max-Preview 首发亮相 Arena AI
03:34Hacker News 热门(buzzing.cc 中文翻译)78精选Qwen 3.7 预览版
02:06The Decoder:AI News(RSS)62Cursor 发布 Composer 2.5:性能比肩 Opus 4.7 与 GPT-5.5,成本大幅降低
5月16日周六
23:31Hacker News 热门(buzzing.cc 中文翻译)73精选SANA-WM:一个用于生成1分钟720p视频的26亿级开源世界模型
15:42IT之家(RSS)66蚂蚁集团百灵开源万亿级思考模型 Ring-2.6-1T,支持 high 与 xhigh 两种推理强度
06:50Google DeepMind:Blog(RSS)75精选Gemini 3.5:具备行动能力的前沿智能
5月15日周五
11:02蚂蚁 inclusionAI:HuggingFace 新模型56精选蚂蚁集团提出 ARGenSeg-8B:基于自回归图像生成模型的图像分割框架
09:00公众号:蚂蚁百灵(Ling)51Ring-2.6-1T 正式开源:为真实复杂任务打造的万亿级思考模型
07:41IT之家(RSS)69IT早报 0515:《GTA 6》游戏解锁时间公布;小米 YU7 GT 高清实车图曝光;英伟达市值超世界第三大经济体德国 GDP;微信团队投入一半人适配鸿蒙…
03:45Hugging Face:Blog(RSS)60精选IBM 发布 Granite Embedding Multilingual R2 开源多语言嵌入模型
5月14日周四
23:31蚂蚁 inclusionAI:HuggingFace 新模型59精选蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T
21:45The Decoder:AI News(RSS)64阿里巴巴的 Qwen-Image-2.0 将压缩率提升一倍,并将生成步骤从40步削减至4步
09:40IT之家(RSS)67雷军谈小米自动驾驶模型 Xiaomi OneVL:业内率先通过潜空间推理将 VLA、世界模型统一到一套框架
5月13日周三
17:39IT之家(RSS)69小米开源 Xiaomi OneVL 自动驾驶模型,业内率先实现 VLA、世界模型等多技术路线统一
13:39IT之家(RSS)60面壁智能 MiniCPM-V 4.6 发布开源:1.3B 参数仅需 6G 内存即可流畅运行
11:45公众号:面壁智能(MiniCPM)54新一代「小钢炮」来袭!1.3B 模型性能效率双杀,MiniCPM-V 4.6 正式开源
04:56Hacker News 热门(buzzing.cc 中文翻译)65Show HN: Needle:我们将"双子座工具召唤"浓缩为一个26M模型
5月12日周二
21:40The Decoder:AI News(RSS)66Thinking Machines Lab发布首款模型,主张交互性才是OpenAI语音技术的误区
12:44HuggingFace Daily Papers(社区热门论文)76精选Qwen-Image-2.0技术报告
01:39The Decoder:AI News(RSS)66Baidu的Ernie 5.1在性能比肩顶尖模型的同时,将预训练成本削减94%
5月11日周一
08:00Thinking Machines Lab:官方博客(RSS)59精选Thinking Machines Lab发布Interaction Models研究预览
5月9日周六
11:29IT之家(RSS)69百度发布文心大模型 5.1:搜索能力位居国内首位,预训练成本仅为业界 6%
11:29IT之家(RSS)68蚂蚁集团百灵发布万亿级旗舰思考模型 Ring-2.6-1T:限时一周免费体验,引入 Reasoning Effort 机制
10:29IT之家(RSS)66阶跃星辰发布新一代实时语音大模型 StepAudio 2.5 Realtime,支持情绪感知与人设自定义
09:00公众号:蚂蚁百灵(Ling)56Ring-2.6-1T 正式发布
02:34Hugging Face:Blog(RSS)52CyberSecQwen-4B 发布:防御性网络安全专用小模型
00:34Hugging Face:Blog(RSS)72精选EMO:为涌现模块化预训练的专家混合模型
5月8日周五
20:22IT之家(RSS)67消息称 DeepSeek 寻求 500 亿元融资,下月将发布 V4.1 更新
19:18The Decoder:AI News(RSS)61OpenAI 向通过审查的安全研究人员开放 GPT-5.5-Cyber
13:36Hacker News 热门(buzzing.cc 中文翻译)57ZAYA1-8B 在数学计算方面与 DeepSeek-R1 表现相当,且活跃参数少于 10 亿
10:16IT之家(RSS)57商汤发布日日新 SenseNova 6.7 Flash-Lite 多模态模型,Token Plan 限时免费
09:16IT之家(RSS)70OpenAI 最智能 AI 语音模型:GPT-Realtime-2 登场,GPT-5 级推理能力
05:49OpenAI:官网动态(RSS · 排除企业/客户案例)74精选Scaling Trusted Access for Cyber with GPT-5.5 and GPT-5.5-Cyber
03:10The Decoder:AI News(RSS)70OpenAI发布新语音模型,为实时对话带来GPT-5级推理能力
01:18OpenAI:官网动态(RSS · 排除企业/客户案例)86精选通过 API 中的新模型推进语音智能
5月7日周四
18:16IT之家(RSS)69小米开源 OmniVoice 多语言语音克隆 TTS,号称一个模型搞定 600 余种语言
10:01公众号:腾讯混元32腾讯混元 Hy3 preview 上线两周 Token 调用增长 10 倍
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月19日
16:51
IT之家(RSS)
精选74
地平线开源 HoloMotion-1 4 亿参数机器人小脑大模型,可实现舞蹈、健身、搬箱子等动作

地平线机器人实验室发布了其开源的人形机器人全身控制模型 HoloMotion-1。这是一个拥有 4 亿参数的“小脑”大模型,通过 MoE 稀疏激活与 KV-cache 推理机制,在端侧实现了约 300FPS 的实时推理能力。该模型利用互联网视频、光学动捕、VR 遥操作等多种来源的动作数据进行训练,并在真实机器人上成功展示了舞蹈、爬行、健身、搬箱子等复杂动作的零样本迁移能力。相关代码与技术报告已公开。

具身智能开源生态模型发布

推荐理由:地平线开源的这个4亿参数模型,把机器人“小脑”拉到一个小模型级别,300FPS实时跑在端侧,零样本跳舞搬箱子,搞具身智能的该跟进看看了。
14:50
Hacker News 热门(buzzing.cc 中文翻译)
68
Agora-1:多智能体世界模型

Agora-1是一个新发布的多智能体世界模型,旨在为人工智能系统提供对复杂环境进行协同模拟与推理的能力。该模型聚焦于让多个AI智能体在共享的虚拟世界中互动、规划和协作,可能应用于机器人控制、游戏AI或复杂场景仿真等前沿领域。其发布标志着多智能体系统与环境建模技术融合的一个新进展。

智能体模型发布视频
09:45
IT之家(RSS)
45
Qwen 3.7?阿里云峰会 5 月 20 日举行,千问官宣"重量级新朋友"即将亮相

阿里云峰会将于5月20日举行。千问大模型官方发布预热海报,透露将有一位“重量级新朋友”亮相,其特点是“更全能、更强大、有深度、有广度”。结合海报中的吉祥物元素,预计本次将公布Qwen系列大模型的最新重要成果。此前,Qwen 3.7-Max-Preview和Qwen 3.7-Plus-Preview版本已率先在相关平台上线,有望在峰会上正式发布。

开源生态模型发布
06:45
IT之家(RSS)
65
阿里云千问大模型 Qwen3.7-Max-Preview 首发亮相 Arena AI

阿里云通义千问最新模型 Qwen3.7-Max-Preview 与 Qwen3.7-Plus-Preview 已登陆 Qwen Chat 和 Arena AI 平台,预计于 5 月 20 日阿里云峰会正式发布。在 Arena AI 评测中,Max-Preview 在文本领域综合排名第 13,细分领域数学排名第 7,专家级应用与软件 IT 均位列第 9;Plus-Preview 在视觉领域综合排名第 16。据此,阿里通义千问在文本实验室榜单中排名第 6,视觉榜单中位列第 5。

多模态模型发布
03:34
Hacker News 热门(buzzing.cc 中文翻译)
精选78
Qwen 3.7 预览版
多模态推理模型发布

推荐理由:阿里 Qwen 3.7 预览版来了,国产模型在推理和多模态上的推进速度令人侧目,虽然还是预览,但已经是一个值得开发者提前盯紧的信号。
02:06
The Decoder:AI News(RSS)
62
Cursor 发布 Composer 2.5:性能比肩 Opus 4.7 与 GPT-5.5,成本大幅降低

Cursor 推出了其最新的 AI 编程模型 Composer 2.5,该模型基于 Kimi K2.5 构建,训练时使用了前代模型 25 倍的合成任务数据。在性能基准测试中,Composer 2.5 达到了与 Opus 4.7 及 GPT-5.5 相当的水平,而其运行成本仅为后两者的一小部分,显著提升了成本效益比。

模型发布编码
5月16日
23:31
Hacker News 热门(buzzing.cc 中文翻译)
精选73
SANA-WM:一个用于生成1分钟720p视频的26亿级开源世界模型

NVIDIA研究团队发布了SANA-WM,这是一个参数规模达26亿的开源世界模型,专门用于生成长达1分钟、分辨率为720p的视频。该模型已在GitHub页面开源,旨在推动高质量长视频生成的研发。其在Hacker News社区获得了107点热度,显示出业界对该技术进展的关注。

开源生态模型发布视频

推荐理由:开源且能跑 1 分钟 720p,NVIDIA 这个 2.6B 世界模型在物理一致性上跨了一大步,做视频生成和物理仿真的同行该坐不住了。
15:42
IT之家(RSS)
66
蚂蚁集团百灵开源万亿级思考模型 Ring-2.6-1T,支持 high 与 xhigh 两种推理强度

蚂蚁集团百灵大模型开源了面向复杂任务的万亿级思考模型 Ring-2.6-1T。该模型创新性地引入了可调节推理强度机制,提供 high 和 xhigh 两种模式。high 模式适用于高频 Agent 工作流,具有低 Token 开销和快速多步执行能力,适合多轮交互与工具协作;xhigh 模式则为数学、科研及复杂逻辑分析等高难任务提供更充分的思考深度。开发者可根据任务需求灵活选择,以平衡效果、速度与成本。模型已在 Hugging Face 和 ModelScope 平台开放。

Hugging Face开源生态推理模型发布
06:50
Google DeepMind:Blog(RSS)
精选75
Gemini 3.5:具备行动能力的前沿智能

Google发布了Gemini 3.5模型,该模型专注于提升执行复杂任务的能力。其核心特点是支持“代理式工作流”,即能够像助手一样自主规划并执行一系列多步骤、复杂的操作,旨在将先进的语言理解与实际问题解决能力相结合。

智能体DeepMindGoogle多模态
关联讨论 19 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Rohan Paul (@rohanpaul_ai)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)
推荐理由:Gemini 3.5 Flash 把前沿级智能体和编程能力塞进了极低延迟和成本,四倍于竞品速度的同时基准表现超过 3.1 Pro,这可能是今年对开发者最实用的基座模型之一。
5月15日
11:02
蚂蚁 inclusionAI:HuggingFace 新模型
精选56
蚂蚁集团提出 ARGenSeg-8B:基于自回归图像生成模型的图像分割框架

蚂蚁集团推出 ARGenSeg-8B,一种将多模态理解与像素级感知统一的自回归图像生成分割框架。它利用多模态大语言模型(MLLM)输出视觉 token,并通过通用 VQ-VAE 解码为分割掩码,使分割完全依赖 MLLM 的像素级理解。采用 next-scale-prediction 策略并行生成视觉 token,降低推理延迟。在多个分割数据集上超越此前最优方法,推理速度显著提升。论文已被 NeurIPS 2025 接收,模型已发布在 HuggingFace。

Hugging Face多模态开源/仓库模型发布

推荐理由:蚂蚁提出用自回归生成做分割,把理解和像素级感知统一到一个框架里,多个数据集SOTA且速度更快,做CV的值得看看。
09:00
公众号:蚂蚁百灵(Ling)
51
Ring-2.6-1T 正式开源:为真实复杂任务打造的万亿级思考模型

Ring-2.6-1T 正式开源,这是为真实复杂任务打造的万亿级思考模型,Agent 执行能力全面增强,采用双档推理配置,兼顾效率、成本与能力上限。

开源生态推理模型发布
07:41
IT之家(RSS)
69
IT早报 0515:《GTA 6》游戏解锁时间公布;小米 YU7 GT 高清实车图曝光;英伟达市值超世界第三大经济体德国 GDP;微信团队投入一半人适配鸿蒙…

索尼公布《GTA 6》解锁时间,新西兰玩家可率先体验。小米YU7 GT“车厘子红”实车图曝光,将于5月底发布。英伟达市值首次突破5.5万亿美元,超越德国GDP。腾讯微信为适配鸿蒙系统成立了800多人团队,约占其客户端开发人员一半。比亚迪确认正与Stellantis等谈判收购欧洲闲置工厂,并计划未来三年推出多款欧洲专属车型。此外,小米17 Max手机将搭载徕卡2亿像素主摄及8000mAh电池,而ChatGPT网页端流量份额一年内大幅下滑。

OpenAI模型发布行业动态
03:45
Hugging Face:Blog(RSS)
精选60
IBM 发布 Granite Embedding Multilingual R2 开源多语言嵌入模型

IBM 发布两个 Apache 2.0 开源多语言嵌入模型:97M 参数的紧凑型(granite-embedding-97m-multilingual-r2)在 MTEB Multilingual Retrieval 上得 60.3 分,超越所有开放子 1 亿参数模型;311M 全尺寸模型(granite-embedding-311m-multilingual-r2)得 65.2 分,在 500M 以下开放模型中排第二,并支持 Matryoshka 维度。两者均基于 ModernBERT 架构,支持 200+ 种语言,针对 52 种语言和 9 种编程代码检索训练,上下文窗口达 32,768 tokens。可直接替换 sentence-transformers、LangChain、LlamaIndex 等框架中的默认模型,预置 ONNX 和 OpenVINO 权重以优化 CPU 推理。

检索增强开源生态搜索模型发布

推荐理由:97M小模型在跨语言检索上打败很多300M级选手,32K上下文让长文档处理不再鸡肋,Apache 2.0开源意味着做多语言RAG的可以直接拿来当默认嵌入模型了。
5月14日
23:31
蚂蚁 inclusionAI:HuggingFace 新模型
精选59
蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T

蚂蚁 inclusionAI 发布旗舰推理模型 Ring-2.6-1T,参数规模达万亿,面向智能体工作流、工程开发、科研分析等复杂场景。模型从“能回答”升级至“能执行”,在多步任务与工具协作中表现更优;支持 high/xhigh 两档推理强度,可灵活平衡效果与成本;采用异步强化学习结合 IcePop 算法提升训练效率。基准测试中,high 模式 PinchBench 得 87.60、ClawEval 63.82、Tau2-Bench 电信场景 95.32;xhigh 模式 ARC-AGI-V2 得 66.18、AIME 26 达 95.83、GPQA Diamond 88.27。上下文长度支持 128K 扩展至 256K(YaRN),已通过 HuggingFace 和 ModelScope 开放下载。

智能体开源/仓库推理模型发布
关联讨论 4 条HuggingFace Daily Papers(社区热门论文)蚂蚁 inclusionAI:HuggingFace 新模型公众号:蚂蚁百灵(Ling)X:蚂蚁百灵 (@AntLingAGI)
推荐理由:蚂蚁放出的万亿参数推理模型,Agent执行能力在PinchBench上超GPT-5.4,异步RL训练和可调推理强度对工程落地有参考价值,开源可试。
21:45
The Decoder:AI News(RSS)
64
阿里巴巴的 Qwen-Image-2.0 将压缩率提升一倍,并将生成步骤从40步削减至4步

阿里巴巴发布图像模型 Qwen-Image-2.0,其图像压缩强度达到多数竞品的两倍。模型采用重新设计的Transformer架构以稳定训练,并配备专用模块,可将简短用户输入自动扩展为详细提示。其蒸馏版本仅需4步去噪即可完成图像生成,远少于通常的40步。在用户盲测平台LMArena上,该模型目前排名第9位。

图像生成推理模型发布
09:40
IT之家(RSS)
67
雷军谈小米自动驾驶模型 Xiaomi OneVL:业内率先通过潜空间推理将 VLA、世界模型统一到一套框架

小米技术正式发布并开源一步式潜空间语言视觉推理框架Xiaomi OneVL。该框架在业内率先通过潜空间推理,将视觉语言动作模型与世界模型统一到同一套框架中。在推理、规划等多个主流基准上,该模型全面刷新了潜在推理方法的性能上限,在精度上超越显式思维链方案,在速度上对齐“仅答案”预测的潜空间思维链方案。小米已全面开源其模型权重及训练、推理代码。

多模态开源生态推理模型发布
5月13日
17:39
IT之家(RSS)
69
小米开源 Xiaomi OneVL 自动驾驶模型,业内率先实现 VLA、世界模型等多技术路线统一

小米开源了Xiaomi OneVL一步式潜空间语言视觉推理框架。该模型在业内首次将VLA(视觉语言动作模型)与世界模型这两条技术路线统一于同一框架,通过潜空间推理同时提升推理速度与精度,在多项基准测试中达到先进水平。此外,它还能为决策提供语言和视觉双维度的可解释性。小米已全面开源其模型权重、训练及推理代码。

具身智能多模态模型发布
13:39
IT之家(RSS)
60
面壁智能 MiniCPM-V 4.6 发布开源:1.3B 参数仅需 6G 内存即可流畅运行

面壁智能联合清华大学及 OpenBMB 开源社区发布新一代端侧多模态大模型 MiniCPM-V 4.6。该模型参数为 1.3B,仅需约 6GB 内存即可在端侧设备运行。其在通用图文理解、STEM 推理等任务上超越同尺寸模型,Artificial Analysis 评测得 13 分。效率方面,Token 吞吐量为竞品的 1.5 倍,计算消耗仅为其 2.5%。模型采用 LLaVA-UHD v4 架构,图像编码计算量降低 55.8%,并支持高分辨率图像快速处理。目前已全面开源,提供完整工具链,适配主流微调与推理框架。

多模态开源/仓库模型发布端侧
11:45
公众号:面壁智能(MiniCPM)
54
新一代「小钢炮」来袭!1.3B 模型性能效率双杀,MiniCPM-V 4.6 正式开源
多模态开源/仓库模型发布端侧
04:56
Hacker News 热门(buzzing.cc 中文翻译)
65
Show HN: Needle:我们将"双子座工具召唤"浓缩为一个26M模型

研究团队发布了名为Needle的轻量级模型,它将谷歌Gemini的工具调用能力浓缩至仅2600万参数。该模型在保持核心功能的同时,体积显著缩小,旨在实现更高效的部署与应用。项目代码已在GitHub开源,并在Hacker News社区获得了超过100点的关注度。

智能体MCP/工具开源生态模型发布
5月12日
21:40
The Decoder:AI News(RSS)
66
Thinking Machines Lab发布首款模型,主张交互性才是OpenAI语音技术的误区

由Mira Murati创立的Thinking Machines Lab发布了其首个人工智能模型,旨在突破传统语音AI的问答模式。该模型以200毫秒为数据块,并行处理音频、视频和文本信息,专注于提升实时交互的流畅性与自然度。公司宣称,这一设计在交互质量上超越了OpenAI的GPT Realtime 2和Google的Gemini Live,致力于推动语音助手向更自然、非问答式的对话体验演进,从而重新定义人机交互方式。

多模态模型发布语音
12:44
HuggingFace Daily Papers(社区热门论文)
精选76
Qwen-Image-2.0技术报告

Qwen-Image-2.0是一个统一高保真生成与精确编辑的全能图像生成基础模型。它采用Qwen3-VL作为条件编码器,结合多模态扩散变换器进行联合建模,并通过大规模数据整理与多阶段训练实现强化。该模型支持长达1K令牌的指令输入,能生成幻灯片、海报等富文本内容,显著提升多语言文本渲染与排版质量。在生成方面,它增强了细节、纹理真实感与光照一致性,并更可靠遵循复杂指令。人工评估表明,其在生成和编辑任务上均大幅超越前代模型。

arXiv图像生成多模态模型发布

推荐理由:这是 Qwen-Image 系列第一次把多模态理解和生成真正拧到同一框架里,长文本渲染和多语言排版提升肉眼可见,做海报和幻灯片的可以重点关注。
01:39
The Decoder:AI News(RSS)
66
Baidu的Ernie 5.1在性能比肩顶尖模型的同时,将预训练成本削减94%

百度发布其对话机器人Ernie的最新版本5.1。该模型采用“Once-For-All”方法,仅使用前代模型三分之一的参数量,其预训练成本仅为同类模型的6%,实现了94%的成本削减。在Search Arena排行榜上,Ernie 5.1位列全球第四,排名仅次于两个Claude Opus变体和GPT-5.5 Search。

搜索数据/训练模型发布
5月11日
08:00
Thinking Machines Lab:官方博客(RSS)
精选59
Thinking Machines Lab发布Interaction Models研究预览

Thinking Machines Lab发布interaction models研究预览。该模型从零训练,原生处理音频、视频和文本,采用多流微回合设计实现实时响应,无需外部脚手架。研究预览展示了全新的交互能力,并在智能性与响应性上取得综合SOTA表现。

智能体多模态模型发布视频

推荐理由:Thinking Machines 把实时交互训进了模型本身,不再是外挂脚手架,微轮次架构和 benchmark 数据很硬,做语音/视频助手的可以认真看看,虽然还是研究预览,但方向值得盯着。
5月9日
11:29
IT之家(RSS)
69
百度发布文心大模型 5.1:搜索能力位居国内首位,预训练成本仅为业界 6%

百度发布新一代基础大模型文心大模型5.1,并已在千帆模型广场等平台上线。该模型采用“多维弹性预训练”技术,仅以业界同规模模型约6%的预训练成本,实现了基础效果的领先。在国际权威竞技场LMArena的搜索榜上,文心5.1位列国内第一、全球第四。其综合能力显著提升,Agent能力实现超越,创意写作与推理能力已接近或达到业界领先水平。

智能体搜索模型发布
11:29
IT之家(RSS)
68
蚂蚁集团百灵发布万亿级旗舰思考模型 Ring-2.6-1T:限时一周免费体验,引入 Reasoning Effort 机制

蚂蚁集团旗下百灵大模型发布万亿级思考模型 Ring-2.6-1T,专为处理真实复杂任务设计。该模型创新引入可调节 Reasoning Effort 机制,提供 high 和 xhigh 两种推理强度。high 模式适用于高频 Agent 工作流,注重低 Token 开销与快速多步执行;xhigh 模式则面向数学、科研等需要深度逻辑分析与多路径探索的高难任务。模型兼具快速多步执行、工具协调能力及 SOTA 稳定性。目前已在 OpenRouter 平台上线,开放限时一周免费体验。

推理模型发布
10:29
IT之家(RSS)
66
阶跃星辰发布新一代实时语音大模型 StepAudio 2.5 Realtime,支持情绪感知与人设自定义

阶跃星辰发布新一代实时语音大模型StepAudio 2.5 Realtime,现已全量上线。该模型能感知语调、语速等“副语言”信息以识别用户情绪,动态调整回应以提升对话真实感。开发者可通过API精细定制AI角色的性格、背景等,其能力基于超万个原生人设生成的百万级特征矩阵训练,并针对角色一致性进行了强化。模型在对话能力上强调智商与情商的双重提升,可应对从闲聊到专业面试等多种场景。据2026年4月评测,其主观对话体验与语音问答基准得分均领先于同期竞品。

多模态模型发布评测/基准语音
09:00
公众号:蚂蚁百灵(Ling)
56
Ring-2.6-1T 正式发布

Ring-2.6-1T 是一款万亿级旗舰思考模型,引入可调节的 Reasoning Effort 机制,支持 high 与 xhigh 两种推理强度。high 模式面向高频 Agent 工作流,xhigh 面向数学、科研等复杂任务。评测中,high 模式 PinchBench 得分 87.60,Tau2-Bench Telecom 95.32;xhigh 模式 ARC-AGI-V2 得分 77.78,AIME 26 得分 95.83,GPQA Diamond 88.27。模型已上线 OpenRouter,近期将开源。

智能体推理模型发布
02:34
Hugging Face:Blog(RSS)
52
CyberSecQwen-4B 发布:防御性网络安全专用小模型

CyberSecQwen-4B 是基于 Qwen3-4B-Instruct-2507 微调的 4B 参数防御性网络安全模型,在 CTI-Bench 上以半参数(4B vs 8B)对标 Cisco Foundation-Sec-Instruct-8B:CTI-MCQ 得分 0.5868,领先 8.7 个百分点;CTI-RCM 得分 0.6664,保留后者 97.3% 的准确率。可运行于单张 12 GB 消费级 GPU,训练使用 AMD Instinct MI300X,LoRA 微调(r=64, lr=5e-5),数据来自 MITRE/NVD 的 2021 CVE→CWE 映射及合成分析师问答,以 Apache-2.0 许可发布。专为需本地部署的敏感安全场景设计。

Hugging Face安全/对齐开源生态模型发布
00:34
Hugging Face:Blog(RSS)
精选72
EMO:为涌现模块化预训练的专家混合模型

EMO是一种新型专家混合模型,通过端到端预训练使模块化结构直接从数据中涌现,无需依赖人类定义的先验。该模型允许在特定任务中仅使用12.5%的专家子集(即8个活跃专家中的部分),同时保持接近全模型的性能;当所有128个专家共同使用时,它仍作为强大的通用模型。EMO具有1B活跃参数和14B总参数,训练数据达1万亿令牌。与标准MoE相比,EMO通过文档级路由约束,鼓励专家形成领域专业化组,从而支持选择性使用而不导致严重性能下降,实现了可组合架构,优化了大型稀疏MoE的内存-准确性权衡。

Hugging Face开源生态数据/训练模型发布

推荐理由:EMO 让 MoE 专家从按词法分散进化到按语义域自然模块化,仅用 12.5% 专家就能接近全模型性能,对需要按需加载的大模型部署是真正的突破。
5月8日
20:22
IT之家(RSS)
67
消息称 DeepSeek 寻求 500 亿元融资,下月将发布 V4.1 更新

据知情人士消息,DeepSeek正寻求首轮融资,目标高达500亿元人民币,若成功将成中国AI公司迄今最大规模融资。创始人兼CEO梁文锋计划提供最大一笔资金。融资推动公司加快商业化节奏,计划提高模型发布频率以接近行业标准。同时,DeepSeek将于6月发布V4模型的更新版本V4.1。

DeepSeek开源生态模型发布行业动态
19:18
The Decoder:AI News(RSS)
61
OpenAI 向通过审查的安全研究人员开放 GPT-5.5-Cyber

OpenAI 发布了专门用于网络安全的新模型 GPT-5.5-Cyber。该模型显著降低了安全请求的拒绝率,并能主动对测试服务器执行漏洞利用。目前访问权限仅限于经过验证的关键基础设施防御者,包括思科、CrowdStrike 和 Cloudflare 等合作伙伴。GPT-5.5-Cyber 将直接与 Anthropic 的 Mythos Preview 模型展开竞争。

OpenAI安全/对齐模型发布
13:36
Hacker News 热门(buzzing.cc 中文翻译)
57
ZAYA1-8B 在数学计算方面与 DeepSeek-R1 表现相当,且活跃参数少于 10 亿

ZAYA1-8B 是一个新发布的开源人工智能模型,在数学计算任务中性能与 DeepSeek-R1 相当。该模型的活跃参数数量少于10亿,突显了在保持高性能的同时实现更高参数效率的突破。这一进展意味着模型在计算资源和存储需求上更为高效,可能降低部署成本并加速推理过程,为资源受限环境提供实用解决方案。ZAYA1-8B 的开发展示了在AI模型优化领域的重要进步,其开源性质有望推动进一步研究和应用。

DeepSeek推理模型发布编码
10:16
IT之家(RSS)
57
商汤发布日日新 SenseNova 6.7 Flash-Lite 多模态模型,Token Plan 限时免费

商汤科技推出新一代轻量化多模态模型“日日新 SenseNova 6.7 Flash-Lite”。该模型采用原生多模态架构,能直接理解网页、文档和图表,提升复杂任务处理效率。它取消了视觉转文本中间层,以更小参数量实现能力跨越,在权威测试中取得多项同级别SOTA,并在信息搜索等场景中比纯文本智能体降低60%的Token消耗。同时,商汤推出限时免费的SenseNova Token Plan,为开发者提供首月无门槛调用额度,并将其全线办公技能SenseNova-Skills在GitHub开源。

多模态开源生态模型发布
09:16
IT之家(RSS)
70
OpenAI 最智能 AI 语音模型:GPT-Realtime-2 登场,GPT-5 级推理能力

OpenAI 发布三款集成于Realtime API的实时语音模型,旨在解决语音交互中的延迟、打断处理和多语言支持难题。其中,GPT-Realtime-2具备GPT-5级推理能力,可在对话中进行推理、调用工具并处理打断,音频输入输出分别按每百万Token 32美元和64美元计费。GPT-Realtime-Translate支持70种输入语言同步翻译为13种输出语言,每分钟0.034美元。GPT-Realtime-Whisper提供低延迟流式转录,每分钟0.017美元。这些模型为开发复杂语音助手、实时翻译和转录应用提供了底层技术支持。

OpenAI推理模型发布语音
05:49
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选74
Scaling Trusted Access for Cyber with GPT-5.5 and GPT-5.5-Cyber

OpenAI扩展了网络安全领域的可信访问计划,推出了GPT-5.5和专门针对网络安全的GPT-5.5-Cyber模型。此举旨在帮助经过验证的网络安全防御者加速漏洞研究,并加强对关键基础设施的保护。新模型将为安全专业人员提供更强大的AI工具支持。

OpenAI安全/对齐模型发布

推荐理由:GPT-5.5 正式登场,首秀是给安全防御者用的,Trusted Access 机制把模型和真实漏洞环境连起来,做网络安全的可以关注,其他人先看看。
03:10
The Decoder:AI News(RSS)
70
OpenAI发布新语音模型,为实时对话带来GPT-5级推理能力

OpenAI发布了三款新型语音模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。其中,GPT-Realtime-2具备与GPT-5相匹配的实时推理能力,旨在实现更流畅、智能的实时对话交互。GPT-Realtime-Translate支持超过70种语言的实时翻译,而GPT-Realtime-Whisper则专注于实时语音转写功能。这一系列模型标志着OpenAI在实时音频处理和交互领域的重要进展,有望显著提升跨语言沟通和语音应用的体验。

OpenAI推理模型发布语音
01:18
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选86
通过 API 中的新模型推进语音智能

OpenAI API 推出了新的实时语音模型,能够进行推理、翻译和语音转录。这些模型显著提升了语音交互的自然度与智能水平,支持实时处理与多语言转换。新功能旨在为开发者提供更强大的工具,以构建更流畅、更智能的语音应用体验。

OpenAI多模态模型发布语音

推荐理由:语音模型不再只是‘听写’,开始能推理和翻译了,OpenAI这次API更新的几个新模型把语音智能推向更实用的阶段,做语音产品的值得赶紧试试。
5月7日
18:16
IT之家(RSS)
69
小米开源 OmniVoice 多语言语音克隆 TTS,号称一个模型搞定 600 余种语言

小米AI实验室开源多语言语音克隆TTS模型OmniVoice,覆盖600余种语言。该模型采用极简双向Transformer架构,无需复杂结构即可实现文本到语音的直接转换。其语音合成质量超越同类主流模型,训练速度可达一天10万小时。关键设计包括全码本随机掩蔽策略和引入大语言模型预训练参数,显著提升训练效率与语音可懂度。测试显示,在多种语言中其相似度与可懂度超越多款商用系统,并对低资源小语种也能实现高质量合成。模型还支持自定义音色、带噪音频适配等实用功能。

arXivGitHub多模态开源生态
10:01
公众号:腾讯混元
32
腾讯混元 Hy3 preview 上线两周 Token 调用增长 10 倍

腾讯混元推出的 Hy3 preview 模型上线仅两周,Token 调用量即增长 10 倍,其中代码和智能体类场景的 Token 调用增长尤为明显。

智能体模型发布编码
‹ 上一页
1…89101112…19
下一页 ›