Qwen3.5-Omni-Plus作为全模态大模型,支持文本、音频、图像、视频输入及文本与语音输出。实测显示其视频理解能精准捕捉画面细节,OCR能力在2000字内错误率低于0.1%,但存在幻觉问题,会虚构音乐或情节。作者通过修改openclaw框架,实现了该模型对平板屏幕和摄像头的直接控制,拓展了端侧AI交互场景。
AI能帮我拍照了? Qwen3.5-Omni实测!
给大家带来 Qwen3.5-Omni-Plus 全模态大模型实测! 这个模型同时支持文本, 音频, 图片, 视频输入, 并且支持文本和语音输出. 非常适合做语音助手.
本次主要测试了它的视觉能力, 测试包括视频理解和图片文本理解, 直接来看结论:
视频理解测试中, 画面细节都能准确的捕捉, 比如视频中的关键道具, 文本, 动作等. 而图片测试则是令我最意外的, 我测试了从100-5000字的OCR识别, 测试结论是2000字以内错误率能在0.1%以内, 直到3900字+才会到0.3%以上.
不过测试中也暴露出了模型的一些问题, 比如视频理解中会出现幻觉, 识别出不存在的音乐或者情节. 建议在实际生产中增加交叉验证或者干脆把温度调整到0试试.
另外我这次还魔改了龙虾(openclaw), 让它支持了Omni模型, 成功实现了让 Qwen3.5-Omni-Plus 操作我平板电脑的屏幕和摄像头, 结合大家生活中的场景 Omni 模型可以做出很多有趣的 SKILL. #通义实验室 #千问大模型 #qwen #qwen35omni