karminski-牙医@karminski3

2026-04-01 11:15·92天前

AI 摘要

作者耗时两天尝试为openclaw接入Omni模型以解决语音交互延迟过高（超30秒）的问题。插件方案因channel连接冲突导致系统离线；直接改源码则遭遇底层库pi-ai不支持OpenAI语音流且PR被拒。所有技术路径均被堵死后，作者反思：在AI生产力爆发时代，必须快速拥抱不确定性，否则可能因项目架构限制或维护者审核标准而错失机会。

AI时代下，连拥抱不确定性都要快点拥抱

给大家说一下上周我浪费两天时间获得的失败经验. 我在之前的视频中做了好几个基于多模态模型的龙虾（openclaw） skill，包括识别游戏（大菠萝2）里面的物品的背包管理器，读书的时候给书拍照就能记录读书笔记的闪念等等.

这里面遇到的最大的问题是， openclaw 目前配置一下也支持语音输入和输出，但是会需要 STT， TTS 问题，啥意思呢？ openclaw 原生不支持语音模态模型，只能语音转文本（STT）输入给文本大模型，然后文本大模型输出的文本再转语音（TTS）输出. 这两次转换及其耗时，再加上龙虾本身上下文巨长，导致从语音输入到龙虾语音跟你对话普遍都要30s以上.

那么有没有端到端的解决方案呢？有的，用omni模型， omni 模型支持文本，音频，图片，视频输入，然后支持文本和语音输出，端到端模型最大的优点就是延迟低，不需要转来转去，一个模型能搞定一切.听上去先天就是为龙虾这类AI助手准备的对吧？

于是我上周抽了2天打算把这个事办了. 摆在我面前的有两条路，一个是直接改龙虾代码，另一个是写个龙虾插件，把omni模型接进去，显然第二个更快更省心，我只需要写完了发布我的插件，感兴趣的同学安装我的插件大家就能愉快的用了.

但是，但是来了啊，龙虾 channel （飞书，Discord，WhatsApp 等）都是有连接的， plugin 中的 omni 模型想要接收 channel 中的消息，就要连接channel，这一连接，就把openclaw本身的连接顶掉了， openclaw直接离线. 然后openclaw也没复用自身channel的方法. 并且我浏览了openclaw的类似pr，基本都被拒了，因为作者认为client连接应该在channel层管理（架构上的确是合理的）.

那我只剩下另一条路了，直接给龙虾贡献代码，于是我看了龙虾使用的接入大模型的基础库 pi-ai，结果它也不支持OpenAI http://delta.audio 风格的语音流. 于是我又先给 pi-ai 贡献代码支持这个特性. 然而直接被拒. 我翻了翻作者 @badlogicgames 的X ，看得出来作者是很想对自己的项目负责，不愿意接受低质量的AI生成代码（我也能理解，毕竟是个巨大的基础库，我的代码也是AI完成的我只是审阅了一下，所以我也说不出来啥）.

至此，所有的路都被堵死了，而我也花了2天时间来断断续续的搞龙虾支持Omni模型. 我觉得是时候止损了， so… 我接下可能会在这周末如果有时间完成自己的私有fork版本，或者干脆就这样了.

至于龙虾不支持Omni模型，那是它自己的损失了，龙虾现在开放的 issue 和 pr 有 5000 多个，最早的未合并pr还在1月31号，等合并估计都猴年马月了. 我也不知道是像openclaw这种全面拥抱AI审阅PR好，还是像pi-ai作者这样严格要求项目质量好.

我甚至觉得在现在的AI生产力加持下，下个月直接出现一个新的基于Omni模型能力的更强的AI助手也不足为奇.

在AI生产力的冲刷下，只能闪电拥抱不确定性. 否则你犹豫一下，可能都抱错了.