智谱发布多模态模型 GLM-5V-Turbo,弥补 GLM-5.1 缺乏视觉输入的短板。实测显示其文本识别准确率保持水准,但前端代码生成能力一般。在网页克隆测试中,面对 JavaScript 背景定位、透明文本、SVG 分割及复杂 DIV 布局等场景,模型将设计图转换为精确代码的表现仍有提升空间。
GLM-5V-Turbo 能补充 GLM-5.1模态上的不足吗?
GLM-5V-Turbo 刚刚发布啦! 给大家带来 GLM-5V-Turbo 简单实测!
之前给大家测试 GLM-5.1 的时候, 大家除了API不稳定问题以外, 抱怨最多的就是 5.1 不支持多模态输入, 而智谱更多的把多模态输入放在了V系列模型, 而支持多模态输入的旗舰模型一个很大的应用场景就是, 给到参考图直接克隆网页. 于是直接给大家带来 GLM-5V-Turbo 的网页克隆测试!
直接说结论, GLM-5V-Turbo 仍然保持了之前系列模型的文本识别准确率, 但是输出前端代码的性能的确一般, 我测试了总计4个场景, 分别是:
case1: 需要使用js计算进行背景图片绝对定位 case2: 文本透明 case3: SVG 线条分割画面 case4: 复杂DIV布局
#GLM5VTrubo #GLM5V #GLM #智谱