AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「模型发布」清除
6月17日周三
16:05MarkTechPost(RSS)70同事件精选MiniMax 发布 MSA 稀疏注意力方法,开源推理内核并推出 MiniMax-M3 模型同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
15:16🚨 AI News | TestingCatalog80Z ai 发布 GLM-5.2:开源权重新 SOTA,智能指数 51 分排名第四
15:05IT之家(RSS)41ChatGPT 语音最大规模升级:OpenAI 正筹备推出 GPT-Bidi-1 模型
14:15数字生命卡兹克56智谱GLM-5.2开源,1M上下文,称可比肩Opus 4.8
13:35DogeDesigner49Grok Imagine 1.5 Fast 视频生成速度翻倍
13:05IT之家(RSS)58Grok Imagine Video 1.5 模型正式上线:6 秒 720P 视频仅需 25 秒
12:54Orange AI71智谱开源 GLM 5.2,编程能力达 Opus 水平
12:35DogeDesigner45Grok Imagine 1.5 视频质量大幅提升
12:29歸藏(guizang.ai)72智谱 GLM-5.2 发布开源,支持Codepilot添加
12:27SiliconFlow42GLM 5.2 CodeArena登顶,全开源1M上下文
12:25Andrew Milich44Imagine Video 1.5 实现真实运动与一致文本
12:24Elon Musk56Grok Imagine 1.5 现已广泛发布
12:05xAI:News(网页)73同事件精选xAI 发布 Grok Imagine Video 1.5同一事件,精选展示《xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)》
12:05IT之家(RSS)66大晓机器人开源 ACE-Ego 具身操作 VLA 模型
12:05xAI52Grok Imagine Video 1.5 发布
11:38karminski-牙医67GLM-5.2 发布:1M上下文窗口,MIT开源权重
11:29歸藏(guizang.ai)79智谱 GLM-5.2 发布并开源
11:24Orange AI76GLM-5.2 开源模型编程能力首次达到Opus水平
10:03IT之家(RSS)73智谱开源GLM-5.2模型:1M无损上下文,Code Arena全球可用模型第一
09:20公众号:智谱(GLM)81GLM-5.2上线并开源:专注Coding与长程任务
08:35Berryxia.AI73GLM-5.2 开源发布:MIT 协议、1M 上下文、强化长程 Agent 能力
06:56Hacker News 热门(buzzing.cc 中文翻译)69SubQ 1.1 Small
06:26Hacker News 热门(buzzing.cc 中文翻译)71Qwen-Robot Suite:一套面向物理世界智能的基础模型套件
04:35Rohan Paul65Catnip推出MaineCoon:22B实时音频-视觉流式基础模型
03:55elvis56GLM-5.2登顶Design Arena,超越Claude Fable 5
03:55elvis70Z.AI 推出 GLM-5.2,MIT 开源权重
02:24Chubby♨️83GLM-5.2 发布:1M 上下文窗口,MIT 开源权重
02:16🚨 AI News | TestingCatalog77GLM-5.2 发布:1M 上下文窗口,开源权重,DeepSWE SOTA 46.2%
02:03Z.ai73智谱发布GLM-5.2:开源权重与1M上下文
01:53OpenRouter53GLM-5.2 上线 OpenRouter,1M token 窗口
00:53MarkTechPost(RSS)76同事件精选Qwen团队发布三个具身AI模型套件 Qwen-RobotSuite同一事件,精选展示《Qwen-RobotWorld:具身智能体的无界世界》
00:46🚨 AI News | TestingCatalog34OpenAI 语音升级:GPT-Bidi-1 模型曝光
00:46🚨 AI News | TestingCatalog41Mistral预告今夏推出新"fat"开源模型系列
00:01StepFun51阶跃星辰 Step 3.7 Flash 登陆 Novita 与 OpenRouter
6月16日周二
22:18SiliconFlow65同事件精选Kimi K2.7 Code发布:专注编码的智能体模型,接近GPT5.5同一事件,精选展示《6倍速!Kimi K2.7 Code 高速版已上线》
21:50Ant Ling77Ling & Ring 2.6 技术报告发布
21:44Alibaba Cloud70阿里云发布 Qwen-Robot 套件:Qwen-RobotNav、Qwen-RobotManip、Qwen-RobotWorld 三个基础模型
21:15Qwen72通义千问发布Qwen-Robot Suite,含三个具身智能基础模型
15:05🚨 AI News | TestingCatalog75精选Cartesia 发布 Sonic 3.5 与 Ink 2 实时语音模型
14:30公众号:通义实验室(千问)73Qwen-Robot 发布:打通大模型到物理世界的最后一公里
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月17日
16:05
MarkTechPost(RSS)
同事件精选70
MiniMax 发布 MSA 稀疏注意力方法,开源推理内核并推出 MiniMax-M3 模型

MiniMax 发布 MSA(MiniMax Sparse Attention),一种构建在 Grouped Query Attention 上的稀疏注意力方法。它将注意力分解为索引分支与主分支:索引分支以块粒度(默认 128 token)为每个 GQA 组选择 16 个 token 块(固定预算 2048 个键值 token),主分支仅在这些块上执行精确 softmax 注意力。MSA 在 109B 参数 MoE 模型上训练,开源了面向 NVIDIA SM100 GPU 的推理内核 fmha_sm100(MIT 许可,支持 BF16/FP8/NVFP4/FP4),并发布生产模型 MiniMax-M3。MSA-PT 在 MMLU、GSM8K、HumanEval、RULER-8K、RULER-32K 上分别达 67.2、77.7、64.0、84.2、77.5,与全注意力基线持平。128K 上下文下,其 exp-free Top-k 选择比 torch.topk 快 5.1 倍。

开源生态推理模型发布部署/工程
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
推荐理由:MiniMax 把长上下文注意力从 O(N) 压到固定每查询 2048 token,还同时开源高效内核与生产模型,对做长上下文 agent 的团队是即时可用的方法,遗憾是只限 SM100 GPU。
15:16
🚨 AI News | TestingCatalog@testingcatalog
80
Z ai 推出 GLM-5.2,在 Artificial Analysis Intelligence Index 上得 51 分排名第四,成为开源权重 SOTA。模型规模同 GLM-5.1(744B 总/40B 活跃参数),智能指数 v4.1 提升 11 分。科学推理显著增强:CritPt +16% 至 21%,HLE +12% 至 40%,GPQA Diamond +3% 至 89%。上下文窗口升至 1M tokens。API 定价 $1.4/$4.4/$0.26 每 1M 输入/输出/缓存命中 token,每任务成本约 $0.46,处智能 vs 成本帕累托前沿。MIT 许可证,已上线 DeepInfra 等第三方平台。

Artificial Analysis: Z ai's GLM-5.2 is the new leading open weights model on the Artificial Analysis Intelligence Index scoring 51 and it sit...

开源生态推理模型发布
15:05
IT之家(RSS)
41
ChatGPT 语音最大规模升级:OpenAI 正筹备推出 GPT-Bidi-1 模型

OpenAI 正筹备推出 GPT-Bidi-1 模型,采用双向(BiDi)架构,能同时听和说,吸收用户打断并在对话中实时调整。相比已进化至 GPT-5.5 的文本模型,ChatGPT 的语音能力仍基于较旧音频技术栈,GPT-Bidi-1 旨在弥合这一差距。上线后用户可切换双向模式与现有高级语音模式,并支持 High、Medium 及 Instant 智能等级,按任务调整速度和深度。

OpenAI模型发布语音
14:15
数字生命卡兹克@Khazix0918
56
智谱发布GLM-5.2,开源模型(MIT许可),在编码和智能体任务上有显著提升,支持1M上下文窗口。提供两种推理努力级别:GLM-5.2 (max) 极限模式、GLM-5.2 (high) 性能与token效率平衡。API定价与GLM-5.1保持不变。官方评测显示其性能已可与Opus 4.8竞争。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

开源生态模型发布
13:35
DogeDesigner@cb_doge
49
Grok Imagine Video 1.5 Fast 的视频生成速度几乎翻倍。 它可在约25秒内生成一段6秒720p视频,而上一代模型需要40秒以上。 这是一次巨大的速度升级。 以下是对比:
模型发布视频
13:05
IT之家(RSS)
58
Grok Imagine Video 1.5 模型正式上线:6 秒 720P 视频仅需 25 秒

6 月 17 日,xAI 宣布 Grok Imagine Video 1.5 模型正式在 xAI API 上线。该模型支持静态图一键生成带同步音频的短视频,单次生成同时输出音效、环境音和对话,语音清晰度和口型同步效果提升。运动连贯性增强,减少了肢体扭曲和物体漂浮,更好模拟重量感与动量。Fast 模式下生成一段 6 秒 720p 视频约需 25 秒,较前代 40 秒以上显著提速。开发者可通过上传起始图片、描述运动方式并选择分辨率和时长调用 API。

xAI模型发布视频
12:54
Orange AI@oran_ge
71
智谱开源 GLM 5.2,编程能力达 Opus 水平

智谱今日正式开源 GLM 5.2,这是首个编程 coding 能力达到 Opus 水平的开源模型。目前该模型已接入 Cola 作为 beta 模型开放测试,定价与官方一致,欢迎体验和反馈。

开源生态模型发布编码
12:35
DogeDesigner@cb_doge
45
所有这些视频都是用 Grok Imagine 1.5 创建的。 重大升级。质量大幅跃升。🚀
图像生成模型发布视频
12:29
歸藏(guizang.ai)@op7418
72
智谱 GLM-5.2 正式发布并开源,定位处理长周期任务。模型具备稳定的100万上下文窗口,并引入思考力度控制。架构上采用 IndexShare 机制,每四层稀疏注意力共享同一个 indexer,在百万 token 上下文中将每 token 计算量降低约 2.9 倍。用户现可在 Codepilot 模型管理中添加使用 GLM-5.2。

歸藏(guizang.ai): 智谱 GLM-5.2 正式发布和开源了,基准测试成绩相当吓人 核心定位是处理长周期任务,并且有稳定的 100 万上下文,模型还引入了思考力度控制。 架构层面,GLM-5.2 提出了 IndexShare 机制,每四层稀疏注意力共享同一个 i...

开源生态推理模型发布
12:27
SiliconFlow@SiliconFlowAI
42
GLM 5.2 CodeArena登顶,全开源1M上下文

智谱 GLM 5.2 在编码评测 CodeArena 的可用模型中排名第一。硅基流动同步首发,定价 Input Cache/Input/Output 分别为 $0.26/1.40/4.40 每百万 token,支持 1M 上下文,具备可靠的长时间任务执行能力,编码性能与 Opus 4.8 持平。提供双思考模式:max 侧重深度,high 侧重质量成本平衡。模型完全开源。

开源生态模型发布编码
12:25
Andrew Milich@milichab
44
Imagine Video 1.5 提供真实运动、逼真环境以及跨帧一致文本

xAI: Grok Imagine Video 1.5 is here Our new image-to-video model with sharper realism, better physics and faster generations ...

xAI模型发布视频
12:24
Elon Musk@elonmusk
56
Grok Imagine 1.5 现已广泛发布

xAI: Grok Imagine Video 1.5 is here Our new image-to-video model with sharper realism, better physics and faster generations ...

xAI图像生成模型发布视频
12:05
xAI:News(网页)
同事件精选73
xAI 发布 Grok Imagine Video 1.5

xAI 将 Grok Imagine Video 1.5 从预览转为全面可用,在 Imagine API 上提供 grok-imagine-video-1.5,并在 grok.com/imagine 及 iOS/Android 应用上推出 Video 1.5 Fast 版。相比前代,模型在音频与语音(更清晰、嘴型同步更好)、运动与物理(更连贯、重量感更真实)、生成速度(6 秒 720p 视频约 25 秒,此前超 40 秒)上全面提升。同时逐步推出 Projects、Multiple agents(并行运行多个生成任务)、Search 等新功能,以优化创作流程。

xAI多模态模型发布视频
同一事件,精选展示《xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)》
推荐理由:Grok Imagine 1.5 把视频生成速度砍半,音效同步和项目功能让创作者工作流更顺畅,xAI 在视频方向上站住了脚。
12:05
IT之家(RSS)
66
大晓机器人开源 ACE-Ego 具身操作 VLA 模型

6 月 17 日,大晓机器人联合香港中文大学发布并开源具身操作 VLA 模型 ACE-Ego。在 RoboCasa GR1 TableTop 基准上,ACE-Ego 以 72.8% 平均成功率刷新纪录,超越英伟达 GR00T 等模型;在 RoboTwin 2.0 强域随机化测试中成功率达 90.62%。该模型已能稳定完成塑料袋打包、鞋子装入鞋盒等长周期复杂零售操作。

具身智能模型发布
12:05
xAI@xai
52
Grok Imagine Video 1.5 来了 我们新的图像转视频模型,具有更清晰的真实感、更好的物理效果和更快的生成🧵 http://grok.com/imagine
xAI模型发布
11:38
karminski-牙医@karminski3
67
智谱(Z.ai)发布GLM-5.2模型,编程与智能体任务显著改进,支持1M上下文窗口。提供两种推理模式:GLM-5.2(max)追求极限性能,GLM-5.2(high)平衡性能与token效率。模型权重以MIT许可开源,API定价与GLM-5.1保持一致。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

开源生态推理模型发布编码
11:29
歸藏(guizang.ai)@op7418
79
智谱 GLM-5.2 发布并开源

智谱发布并开源 GLM-5.2,定位长周期任务,支持 100 万 token 稳定上下文。引入思考力度控制:GLM-5.2 max 追求极限性能,GLM-5.2 high 兼顾效率。架构采用 IndexShare 机制,每四层稀疏注意力共享 indexer,百万 token 下每 token 计算量降低约 2.9 倍。编码与智能体任务表现显著提升。模型权重以 MIT 许可证开源,API 定价与 GLM-5.1 一致。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

开源生态推理模型发布编码
11:24
Orange AI@oran_ge
76
GLM-5.2 开源模型发布,其编程(Coding)能力首次达到Opus级别。该模型在编程与智能体(Agentic)任务上显著提升,支持1M上下文窗口,提供两级推理难度--GLM-5.2 (max) 追求极限性能,GLM-5.2 (high) 平衡性能与token效率。采用MIT许可证开源,API定价与GLM-5.1保持一致。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

开源生态模型发布编码
10:03
IT之家(RSS)
73
智谱开源GLM-5.2模型:1M无损上下文,Code Arena全球可用模型第一

智谱今日开源GLM-5.2模型,稳定支撑1M上下文。在Code Arena盲测中取得全球可用模型第一,主流编程基准保持开源SOTA,与Claude Opus 4.8可比。通过极致Infra优化,1M上下文下单位token FLOPs降至2.9倍。Day 0已适配华为昇腾、平头哥、摩尔线程、寒武纪等国产算力平台,预计下半年昇腾950超节点将成为其算力底座。开源链接已发布于GitHub、HuggingFace、ModelScope。

开源生态模型发布编码
09:20
公众号:智谱(GLM)
81
GLM-5.2上线并开源:专注Coding与长程任务

智谱今日发布并开源GLM-5.2,在前端开发盲测系统Code Arena上取得全球可用模型第一。该模型专为长程任务设计,实现1M无损上下文,支持跨越数天的任务执行。在FrontierSWE上仅比Claude Opus 4.8低1%,超过GPT-5.5(1%)和Opus 4.7(11%);Terminal-Bench 2.1上比Opus 4.8低4%,较GLM-5.1提升17.5%。引入思考档位控制,Coding能力介于Opus 4.7与4.8之间。提出IndexShare架构降低单位FLOPs至2.9倍,改进MTP层提升接受长度20%。已在华为昇腾等国产算力平台适配。模型权重以MIT协议开源,API已上线并纳入GLM Coding Plan。

智能体Hugging Face模型发布编码
关联讨论 10 条X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)X:硅基流动 SiliconFlow (@SiliconFlowAI)Simon Willison 博客The Decoder:AI News(RSS)X:智谱 Z.ai (@Zai_org)Nathan Lambert:Interconnects(RSS)智谱:研究(网页内嵌数据)公众号:智谱(GLM)Hugging Face:Blog(RSS)
08:35
Berryxia.AI@berryxia
73
GLM-5.2 开源发布:MIT 协议、1M 上下文、强化长程 Agent 能力

GLM-5.2 以 MIT 协议开源权重,支持 1M 上下文窗口。相比 GLM-5.1,在 Coding、Tool use、Reasoning 上明显提升,尤其在长程 Agent 任务(大规模代码实现、自动化研究、性能优化、复杂调试)中更稳定。提供 Max 和 High 两种推理模式,分别侧重极致性能与 Token 效率平衡。API 价格与上一代相同。社区已在 DeepSWE 等基准上验证其能力。此外,Slide 生成、长文档处理和角色扮演等任务也有进步。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

智能体Hugging Face开源/仓库模型发布
06:56
Hacker News 热门(buzzing.cc 中文翻译)
69
SubQ 1.1 Small

SubQ 1.1 Small 基于 Subquadratic Sparse Attention (SSA),在 needle-in-a-haystack 测试中接近完美检索 12M token,注意力计算减少近 1000 倍。1M token 时计算量仅密集注意力的 1/64.5,速度是 FlashAttention-2 的 56 倍。GPQA Diamond 85.4%,LiveCodeBench v6 pass@4 89.7%,AutomationBench Finance 13%。模型基于现有开源前沿模型改造,通过阶段上下文扩展(262K 至 2M)和约 1 万亿 token 继续预训练实现。已与设计合作伙伴部署,计划年内推出 2M–12M token 更大系列。

推理数据/训练模型发布
06:26
Hacker News 热门(buzzing.cc 中文翻译)
71
Qwen-Robot Suite:一套面向物理世界智能的基础模型套件

Qwen-Robot Suite 包含三个基础模型:Qwen-RobotNav 通过可控观察编码统一指令跟随、点/物体目标导航、目标跟踪和自动驾驶五个导航域;Qwen-RobotManip 利用规范状态-动作空间和相机帧增量位姿,在超3.81万小时开源语料上实现跨具身操作对齐;Qwen-RobotWorld 以自然语言为动作接口,联合训练20余种具身,预测物理世界动态。三者可组合成通用智能体系统。

具身智能模型发布
关联讨论 1 条Qwen:Blog Retrieval(API)
04:35
Rohan Paul@rohanpaul_ai
65
Catnip推出MaineCoon:22B实时音频-视觉流式基础模型

Catnip推出MaineCoon,一个22B参数的实时音频-视觉基础模型,能将文本提示词转化为带同步语音、动作和表情的实时角色流,支持无限时长交互。作为首个流式原生模型,MaineCoon实现亚秒级首帧,单张H100上达47.5FPS,单张RTX Pro 6000上达30FPS,内部测试吞吐量比同类音频-视觉系统快约7倍。与被动视频生成不同,它能因果性地实时响应,记住自身不完美的过去,并保持角色身份、声音和节奏的连贯一致,让AI从轮次式应答变为“与你同在”的实时存在。

Catnip: 🥇MaineCoon: From Passive Video to Real-Time AI Presence The first unlimited-duration interactive audio-visual model. Mo...

多模态模型发布视频语音
03:55
elvis@omarsar0
56
智谱发布GLM-5.2,在Design Arena评测中跃居第1名,Elo评分1360,超过已下架的Claude Fable 5,提升4个名次和27 Elo分。该模型为开源权重。DAIR.AI创始人Elvis Saravia表示若属实则令人印象深刻,并称已在内部用例测试,后续将汇报结果。

Design Arena: BREAKING: GLM-5.2 is now 1st on Design Arena. With an Elo of 1360, GLM-5.2 has jumped ahead of the now unavailable Claud...

模型发布编码评测/基准
03:55
elvis@omarsar0
70
Z.AI 发布 GLM-5.2,采用 MIT 许可证开源权重。模型在编码与智能体任务上显著提升,支持 1M 上下文窗口,具备长时能力。提供两种推理力度:GLM-5.2 (max) 与 GLM-5.2 (high),后者平衡性能与 token 效率。API 定价与 GLM-5.1 相同。DAIR.AI 的 Elvis Saravia 评价其在前沿开放权重模型中表现令人印象深刻,并关注其长时任务表现。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

智能体开源生态推理模型发布
02:24
Chubby♨️@kimmonismus
83
GLM-5.2 作为开放权重模型发布,采用 MIT 许可,拥有 1M 上下文窗口。提供两种推理模式:max(极限推理)和 high(平衡性能与 token 效率)。在编码和智能体任务上有显著提升,专为大规模实现、自动化研究、性能优化和复杂调试训练。API 定价与 GLM-5.1 保持一致。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

Hugging Face开源生态推理模型发布
02:16
🚨 AI News | TestingCatalog@testingcatalog
77
ZAI 在 Hugging Face 上发布 GLM-5.2,采用 MIT 开源许可,API 定价与 GLM-5.1 相同。模型支持 1M 上下文窗口,提供两种推理努力级别:max(极致性能)和 high(平衡性能与 token 效率)。在编程和 AI 智能体任务上有显著提升,具备长程任务能力。DeepSWE 基准得分 46.2%,创下开源权重模型的 SOTA 纪录。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

Hugging Face开源生态推理模型发布
02:03
Z.ai@Zai_org
73
智谱发布GLM-5.2:开源权重与1M上下文

智谱(Z.ai)正式发布GLM-5.2,采用MIT开源协议开放模型权重。相比前代,在编码和智能体任务上有显著提升,支持1M上下文窗口。提供两种推理努力级别:GLM-5.2(max)追求极致性能,GLM-5.2(high)在效果与token效率间取得平衡。API定价与GLM-5.1保持一致。技术博客、权重及API文档均已上线。

开源生态模型发布编码
01:53
OpenRouter@OpenRouter
53
来自 @Zai_org 的 GLM-5.2 已在 OpenRouter 上线! Z.ai 的旗舰模型,专为长期任务设计,现在拥有 1M token 上下文窗口,能够在冗长杂乱的编码智能体工作中保持可靠。
推理模型发布编码
00:53
MarkTechPost(RSS)
同事件精选76
Qwen团队发布三个具身AI模型套件 Qwen-RobotSuite

Qwen团队发布三个具身AI模型组成的套件Qwen-RobotSuite:Qwen-RobotManip(基于Qwen3.5-4B的VLA模型,通过统一对齐框架和3800小时开源数据(含24708小时合成)实现跨本体操作,在LIBERO-Plus OOD基准上达91.4%,跨本体迁移性能为π0.5的3.2倍)、Qwen-RobotWorld(60层MMDiT+冻结Qwen2.5-VL编码器的语言条件视频世界模型,以自然语言为统一动作接口预测未来视频)和Qwen-RobotNav(基于Qwen3-VL的导航模型,2B/4B/8B,输出航点轨迹)。RobotManip与RobotNav已开源GitHub。

具身智能多模态开源/仓库模型发布
同一事件,精选展示《Qwen-RobotWorld:具身智能体的无界世界》
推荐理由:Qwen-RobotSuite 一次性放出三个具身模型,用统一对齐策略解决了机器人数据碎片化问题,多个 SOTA 结果加上两个开源仓库,做具身智能的值得认真看一下。
00:46
🚨 AI News | TestingCatalog@testingcatalog
34
OPENAI 🔥: ChatGPT 即将迎来语音模式升级,新模型 "gpt-bidi-1" 已被发现,同时还有公告更新。 敬请期待 👀 鸣谢 @M1Astra 来自 DevMode

Chetaslua: 🚨 OpenAI is planning to release GPT-Bidi-1 very soon Their next-generation voice model for more natural conversations [...

OpenAI模型发布语音
00:46
🚨 AI News | TestingCatalog@testingcatalog
41
Mistral预告今夏推出新"fat"开源模型系列

Mistral 预告将在今年夏季推出一个新的“fat”模型系列,模型为 open-weight,7 月面向研究、政府和行业关键合作伙伴开放早期访问。官方称该系列“fat indeed, but sparse”(大但稀疏),并强调开放权重对客户信任和开发者社区至关重要。后续模型也将保持开源。此外,推文还提及了“Le Chaton Fat”的代号。

Arthur Mensch: We somehow got put in the spotlight the last few days! First we'd like to thank the organizers of the AI show for that, ...

开源生态模型发布
00:01
StepFun@StepFun_ai
51
阶跃星辰的 Step 3.7 Flash 已通过 Novita 在 OpenRouter 上线。该模型专为高效智能体工作负载设计,具备原生多模态理解、强智能体编码能力、可靠工具使用,以及网页与视觉搜索工作流。引用信息强调其高效多模态推理和多步工具使用能力,主要面向编码与智能体应用场景。

Novita AI: 🚀 Step 3.7 Flash from @StepFun_ai is now available via Novita on @OpenRouter. High-efficiency multimodal reasoning. Mul...

智能体多模态推理模型发布
6月16日
22:18
SiliconFlow@SiliconFlowAI
同事件精选65
Kimi K2.7 Code发布:专注编码的智能体模型,接近GPT5.5

硅基流动上线月之暗面Kimi K2.7 Code模型。基于K2.6改进,专注编码与智能体任务。32B激活/1T总参,VLM多模态,支持交错思考与多步工具调用。相比K2.6,推理token使用减少30%,减少过度思考;长程编码任务指令遵循和完成率提升。性能接近GPT5.5与Opus 4.8。价格:缓存输入0.19/输入0.94/输出4.00每百万token。

多模态模型发布编码
同一事件,精选展示《6倍速!Kimi K2.7 Code 高速版已上线》
推荐理由:K2.7 Code 在编码上逼近 GPT-5.5 和 Opus 4.8,同时推理 token 用量降低 30%,对追求前沿编码能力又在意成本的技术团队是个实用选择,硅基流动上的定价也给了明确预期。
21:50
Ant Ling@AntLingAGI
77
Ling & Ring 2.6 技术报告发布,带来两款开放权重基座模型。 我们通过架构、训练和智能体能力的协同设计,共同优化模型与系统: • 7:1 混合线性注意力 • 用于稳定智能体强化学习的 KPop:SWE-bench Verified 76.28% • 约 4 倍 token 效率
开源生态推理模型发布编码
关联讨论 4 条蚂蚁 inclusionAI:HuggingFace 新模型HuggingFace Daily Papers(社区热门论文)公众号:蚂蚁百灵(Ling)X:蚂蚁百灵 (@AntLingAGI)
21:44
Alibaba Cloud@alibaba_cloud
70
阿里云发布 Qwen-Robot 套件:Qwen-RobotNav、Qwen-RobotManip、Qwen-RobotWorld 三个基础模型

阿里云推出 Qwen-Robot 套件,包含三个基础模型:Qwen-RobotNav 统一指令跟随、点目标、对象目标、目标追踪和自动驾驶 5 种导航任务,提供可控观测协议和智能体工具接口;Qwen-RobotManip 统一异构机器人状态-动作空间,基于 38,100+ 小时开源语料预训练;Qwen-RobotWorld 单个世界模型支持 20+ 种具身形态,通过自然语言动作接口预测操控、驾驶、导航等物理可行未来。三者可独立使用,也可组合为通用智能体系统的底层物理世界工具。

具身智能模型发布
21:15
Qwen@Alibaba_Qwen
72
通义千问发布Qwen-Robot Suite,含三个具身智能基础模型

通义千问推出Qwen-Robot Suite,包含三个基础模型:Qwen-RobotNav统一5种导航任务(指令跟随、点目标、物体目标、目标追踪、自动驾驶),具备可控观测协议和智能体工具接口;Qwen-RobotManip实现异构机器人统一状态-动作空间,基于38,100+小时开源语料预训练;Qwen-RobotWorld是单一世界模型,支持20+具身形态,通过自然语言动作接口预测物理世界未来(涵盖操作、驾驶、导航)。三个模型可独立使用或组合,构成通用智能体的底层工具包。

具身智能模型发布
关联讨论 1 条Qwen:Blog Retrieval(API)
15:05
🚨 AI News | TestingCatalog@testingcatalog
精选75
Cartesia 推出 Sonic 3.5 和 Ink 2 两个模型,作为单一实时语音栈,分别负责文本转语音和语音转文本。Ink 2 在 Artificial Analysis 的流式语音转文字排行榜上排名第一。Sonic 3.5 在实时文本转语音中位列榜首,首音频延迟约 82ms。Cartesia 成为目前唯一同时拥有 #1 听与说模型的提供商。

Karan Goel: We released Sonic-3.5 and Ink-2, the #1 streaming models for text to speech and speech to text you can use in your voice...

智能体模型发布语音

推荐理由:Cartesia 同时发布实时语音合成和识别两个模型的迭代版,双双登顶第三方基准,80ms 首音频延迟让语音代理的交互感接近真人,做实时语音应用的开发者可以重点看一下。
14:30
公众号:通义实验室(千问)
73
Qwen-Robot 发布:打通大模型到物理世界的最后一公里

通义实验室推出 Qwen-Robot,包含三个基础模型:Qwen-RobotNav 以单套权重统一五类导航任务,五项基准达 SOTA,零样本部署于宇树 Go2 机器人(推理延迟 196ms);Qwen-RobotManip 基于 Qwen3.5-4B VL,采用 80 维状态-动作统一表示,利用超 38,100 小时开源数据训练,在多个操作基准超越 π0.5;Qwen-RobotWorld 以 860 万视频-文本对训练,通过自然语言动作接口统一 20 余种本体,多项世界模型评测第一。三个模型通过语言优先接口可被通用 Qwen 模型组合调用,实现物理智能体闭环。

具身智能多模态模型发布
关联讨论 1 条Qwen:Blog Retrieval(API)
‹ 上一页
1…7891011…43
下一页 ›