作者同步了DeepSeek-V4的测试进度,并重点介绍了一项新设计的“大模型工程能力测试”。该测试以约20万行代码的SillyTavern项目为基础,要求大模型通过tool_call创建新的数值系统(如属性、状态),并能注入JS代码与现有系统交互。测试使用魔改的kimi-cli来监督实现过程、统计token与工具使用情况,并运行定制黑盒测试。此外,通过为酒馆增加CLI模式,测试还评估了大模型的Agent能力,使其能自行测试并迭代代码。目前测试仍在进行中。
给大家同步一下DeepSeek-V4 的测试进度,目前前面几项大家熟悉的测试都已经跑完了,还缺少大家期待的GPT-5.5-Pro (我去攒点银子), xiaomi-mimo, hunyuan-3-preview 的测试,这几个正在跑了。
然后这次我还增加了【大模型工程能力测试】,说下测试核心设计思路: 首先工程项目我选择了酒馆(SillyTavern-1.17.0),然后写的需求文档是让被测试大模型给酒馆增加一个支持实时解释器的数值系统。大家都知道酒馆其实搭配各种插件其实是可以实现数值系统的,比如RPG数值系统。
但是,大模型是没办法凭空创造数值逻辑的,所以本次的需求就是让大模型通过tool_call可以创建新的数值系统,比如属性,状态,天赋等等,并且定义数值与现有数值系统的逻辑,即,它可以注入一段js代码,与已有的js代码交互,形成新的逻辑。
比如现在只有hp,数值100/100, 然后AI可以通过调用我们的数值系统,创建一个新的状态,叫做中毒,中毒状态持续10个tik, 然后每个tik会减少10点生命值。这一切全是我们的数值系统在AI创建这个js代码逻辑后自动执行的,不需要AI再接管。
这样一来是可以大大拓展可玩性,二来是大模型不会因为玩家【求求你了我快寄了给我加1000HP】轻松实现作弊。
然后,我还需要魔改terminal coding cli (本次使用的是kimi cli), 即,大模型需要使用魔改后的kimi-cli 来fork一份酒馆源代码来实现我们这个新需求,而这个魔改的kimi-cli 可以监督大模型的实现过程,统计大模型的token使用,使用工具的情况和能力,最终再运行我们专门为这个需求定制的黑盒测试,实现真正的【工程级别分析】。酒馆源代码足足有20万行,纯js也有13万行,作为测试项目工程量足够大了。