苹果 CoreAI 端侧 AI 引擎测试:小模型解码速度是 MLX 的 2.47 倍,大模型性能持平
阅读原文· ithome.com苹果在 WWDC 2026 推出 CoreAI 引擎,接替 CoreML,主攻端侧大语言模型推理。首批测试显示,M4 Mac 上运行 Qwen3 0.6B 时 CoreAI 解码速度约是 MLX 的 2.47 倍,iPhone 17 Pro 上约 1.6 倍;但模型升至 Qwen3 8B(M4 Max)时优势缩至 5%。持续负载下 iPhone 17 Pro GPU 降频,CoreML 配合苹果神经引擎(ANE)性能保持率反超。横向对比,谷歌 LiteRT-LM 运行 Gemma 达 55.4 tok/s,RAM 仅 641 MB,而 MLX 占用 2900 MB。
IT之家 6 月 11 日消息,科技媒体 Wccftech 昨日(6 月 10 日)发布博文,报道称在 2026 年全球开发者大会(WWDC)上,苹果推出 CoreAI 引擎,接替 2017 年推出的 CoreML 框架,主打端侧大模型推理。
IT之家援引博文介绍,CoreML 框架已服役 9 年,主要面向图像分类等小型静态任务;而最新接棒的 CoreAI 主要面向端侧本地推理和边缘 AI 场景,重点优化设备端大语言模型推理,重点支持更灵活的模型格式和更大的模型内存占用。
而 MLX 是苹果生态中的一个机器学习框架,更偏向研究、训练和微调任务,常被开发者拿来测试和部署本地大模型。
从首批基准来看,苹果 CoreAI 呈现“小模型强、大模型接近持平”特征。在 M4 Mac 上运行 Qwen3 0.6B 模型后,CoreAI 解码速度约为 MLX 的 2.47 倍。在 iPhone 17 Pro 上,这一优势约为 1.6 倍。
解码速度指大语言模型生成文本时,每秒能输出多少个 token,常写作 tok/s。这个指标越高,模型回复通常越快,用户等待时间越短。
在模型规模提升至 80 亿参数(Qwen3 8B,M4 Max)后,CoreAI 比 MLX 快 5%,两者解码性能几乎持平,意味着 CoreAI 的性能优势随模型规模增大而收窄。