karminski-牙医@karminski3

2026-04-10 14:57·83天前

AI 摘要

Qwen3.5-Omni-Plus作为全模态大模型，支持文本、音频、图像、视频输入及文本与语音输出。实测显示其视频理解能精准捕捉画面细节，OCR能力在2000字内错误率低于0.1%，但存在幻觉问题，会虚构音乐或情节。作者通过修改openclaw框架，实现了该模型对平板屏幕和摄像头的直接控制，拓展了端侧AI交互场景。

AI能帮我拍照了？ Qwen3.5-Omni实测！

给大家带来 Qwen3.5-Omni-Plus 全模态大模型实测！这个模型同时支持文本，音频，图片，视频输入，并且支持文本和语音输出. 非常适合做语音助手.

本次主要测试了它的视觉能力，测试包括视频理解和图片文本理解，直接来看结论：

视频理解测试中，画面细节都能准确的捕捉，比如视频中的关键道具，文本，动作等. 而图片测试则是令我最意外的，我测试了从100-5000字的OCR识别，测试结论是2000字以内错误率能在0.1%以内，直到3900字+才会到0.3%以上.

不过测试中也暴露出了模型的一些问题，比如视频理解中会出现幻觉，识别出不存在的音乐或者情节. 建议在实际生产中增加交叉验证或者干脆把温度调整到0试试.

另外我这次还魔改了龙虾（openclaw），让它支持了Omni模型，成功实现了让 Qwen3.5-Omni-Plus 操作我平板电脑的屏幕和摄像头，结合大家生活中的场景 Omni 模型可以做出很多有趣的 SKILL. #通义实验室 #千问大模型 #qwen #qwen35omni