网易有道“子曰4”多模态模型、语音合成模型全量开源 · AI HOT

IT之家（RSS）

精选70

网易有道"子曰4"多模态模型、语音合成模型全量开源

2026-05-22 17:45·41天前

精选理由

有道把垂直教育的多模态模型全量开源，27B参数在视觉数理上做到SOTA，还把思维链压缩了43%，推理成本实打实下降，做教育应用的可以拿来做二次开发；TTS的跨语种情感克隆也实用，3秒克隆14种语言。

AI 摘要

网易有道宣布将其“子曰”大模型4.0的多模态模型与语音合成模型面向全球全量开源。其中，多模态模型（27B参数）专注于教育场景，在处理高难度视觉数理问题上达到行业顶尖水平，纯文本中文数理难题准确率为81.4%。该模型通过思维链优化，将输出长度压缩43.2%，有效降低了推理成本。同时开源的语音合成模型支持跨语种音色与情感迁移克隆，3秒内即可完成零样本复制，准确度超97%，并支持包括中、英、日、韩在内的14种语言。

原文

IT之家 5 月 22 日消息，网易有道今日宣布，决定将“子曰”大模型 4.0 的核心双引擎 ——“多模态模型”与“语音合成（TTS）模型”，正式面向全球全量开源。开发者可以免费下载、部署，并基于此进行二次开发。

此次开源的“子曰 4”多模态模型（27B 参数规模）面向教育场景，支持视觉输入的数理能力，做到了行业顶尖水平（SOTA）。

在同等参数的规模模型中，处理带图表的高难度视觉数理问题。
纯文本的中文数理难题，准确率 81.4%。

此外，新模型采用了精细化思维链重构方案。通过汇聚大规模优质、精简的推理样本进行深度优化，把思维链输出长度压缩了 43.2%。这意味着：回答同样的问题，它输出的 Token 更少、推理路径更短、出答案更快。

对于做实际业务的开发者和企业来说，直接效果就是：推理成本下降。

此外，网易有道团队还针对国内学生真实的作业、考试和提问场景进行了深度优化，让它能够解决真实学习中遇到的复杂痛点。

而开源的语音合成（TTS）模型支持跨语种音色情感迁移克隆，只要上传一段中文音频，就能克隆说话人的音色，并流利说出英语、韩语、越南语…… 不带“中式口音”。而且情感也能精准迁移克隆 —— 只要生气地说一句话，合成出来的外语也是生气的语气。

3 秒：上传任意音频素材，系统即可在 3 秒内完成零样本原声复制。
97%：在克隆任务中准确度超过 97%，克隆音色与原声的相似度达 85% 以上。
14 种语言：全面支持中、英、日、韩、德、法、西、印尼、意、泰、葡、俄、马来、越南语等 14 种语言。

IT之家附两款模型开源地址如下：

多模态模型：https://huggingface.co/netease-youdao/Confucius4
TTS 模型：https://github.com/netease-youdao/Confucius4-TTS

多模态开源生态推理模型发布

阅读原文导出 Markdown

IT之家（RSS）

精选70导出 Markdown

网易有道"子曰4"多模态模型、语音合成模型全量开源

2026-05-22 17:45·41天前

阅读原文· ithome.com

精选理由

有道把垂直教育的多模态模型全量开源，27B参数在视觉数理上做到SOTA，还把思维链压缩了43%，推理成本实打实下降，做教育应用的可以拿来做二次开发；TTS的跨语种情感克隆也实用，3秒克隆14种语言。

AI 摘要

网易有道宣布将其“子曰”大模型4.0的多模态模型与语音合成模型面向全球全量开源。其中，多模态模型（27B参数）专注于教育场景，在处理高难度视觉数理问题上达到行业顶尖水平，纯文本中文数理难题准确率为81.4%。该模型通过思维链优化，将输出长度压缩43.2%，有效降低了推理成本。同时开源的语音合成模型支持跨语种音色与情感迁移克隆，3秒内即可完成零样本复制，准确度超97%，并支持包括中、英、日、韩在内的14种语言。

原文

IT之家 5 月 22 日消息，网易有道今日宣布，决定将“子曰”大模型 4.0 的核心双引擎 ——“多模态模型”与“语音合成（TTS）模型”，正式面向全球全量开源。开发者可以免费下载、部署，并基于此进行二次开发。

此次开源的“子曰 4”多模态模型（27B 参数规模）面向教育场景，支持视觉输入的数理能力，做到了行业顶尖水平（SOTA）。

在同等参数的规模模型中，处理带图表的高难度视觉数理问题。
纯文本的中文数理难题，准确率 81.4%。

此外，新模型采用了精细化思维链重构方案。通过汇聚大规模优质、精简的推理样本进行深度优化，把思维链输出长度压缩了 43.2%。这意味着：回答同样的问题，它输出的 Token 更少、推理路径更短、出答案更快。

对于做实际业务的开发者和企业来说，直接效果就是：推理成本下降。

此外，网易有道团队还针对国内学生真实的作业、考试和提问场景进行了深度优化，让它能够解决真实学习中遇到的复杂痛点。

而开源的语音合成（TTS）模型支持跨语种音色情感迁移克隆，只要上传一段中文音频，就能克隆说话人的音色，并流利说出英语、韩语、越南语…… 不带“中式口音”。而且情感也能精准迁移克隆 —— 只要生气地说一句话，合成出来的外语也是生气的语气。

3 秒：上传任意音频素材，系统即可在 3 秒内完成零样本原声复制。
97%：在克隆任务中准确度超过 97%，克隆音色与原声的相似度达 85% 以上。
14 种语言：全面支持中、英、日、韩、德、法、西、印尼、意、泰、葡、俄、马来、越南语等 14 种语言。

IT之家附两款模型开源地址如下：

多模态模型：https://huggingface.co/netease-youdao/Confucius4
TTS 模型：https://github.com/netease-youdao/Confucius4-TTS