# Qwen3.5-Omni-Plus实测：全模态交互、OCR精度与端侧控制

- 来源：karminski-牙医 (@karminski3)
- 发布时间：2026-04-10 14:57
- AIHOT 链接：https://aihot.virxact.com/items/cmnxjn72s00c3sl9od0bwoq98
- 原文链接：https://x.com/karminski3/status/2042497202392875258

## AI 摘要

Qwen3.5-Omni-Plus作为全模态大模型，支持文本、音频、图像、视频输入及文本与语音输出。实测显示其视频理解能精准捕捉画面细节，OCR能力在2000字内错误率低于0.1%，但存在幻觉问题，会虚构音乐或情节。作者通过修改openclaw框架，实现了该模型对平板屏幕和摄像头的直接控制，拓展了端侧AI交互场景。

## 正文

AI能帮我拍照了？ Qwen3.5-Omni实测！

给大家带来 Qwen3.5-Omni-Plus 全模态大模型实测！ 这个模型同时支持文本， 音频， 图片， 视频输入， 并且支持文本和语音输出. 非常适合做语音助手.

本次主要测试了它的视觉能力， 测试包括视频理解和图片文本理解， 直接来看结论：

视频理解测试中， 画面细节都能准确的捕捉， 比如视频中的关键道具， 文本， 动作等. 而图片测试则是令我最意外的， 我测试了从100-5000字的OCR识别， 测试结论是2000字以内错误率能在0.1%以内， 直到3900字+才会到0.3%以上.

不过测试中也暴露出了模型的一些问题， 比如视频理解中会出现幻觉， 识别出不存在的音乐或者情节. 建议在实际生产中增加交叉验证或者干脆把温度调整到0试试.

另外我这次还魔改了龙虾（openclaw）， 让它支持了Omni模型， 成功实现了让 Qwen3.5-Omni-Plus 操作我平板电脑的屏幕和摄像头， 结合大家生活中的场景 Omni 模型可以做出很多有趣的 SKILL.
#通义实验室 #千问大模型 #qwen #qwen35omni
