DavidAU团队基于Qwen3.5-27B Dense魔改出官方不存在的40B Dense模型。首先通过"Heretic"消融实现Uncensored,并用私有Deckard数据集赋予模型性格;随后截取并复制中间50%参数实现"扩增";最后用Unsloth配合Claude Opus推理数据集微调,稳定参数并优化可变长度推理。测试显示该模型在哲学思辨与创意写作上表现惊艳,但代码生成存在变量作用域问题,上下文能力受损。
哪来的 Qwen3.5-40B Dense?
阿里可没这个模型啊, Qwen3.5 系列是没40B这个尺寸的. 这个 Qwen3.5-40B Dense 是 DavidAU 这个团队搞的.
搞的方式很有意思:
第一步先去马: 首先用的基模是 Qwen3.5-27B Dense,然后用 "Heretic" 消融去审查化(Uncensored),这个我之前给大家介绍过, 是通用方法了. 去马完毕后使用他们私有的 "Deckard/PDK" 数据集进行后训练. 这个名字来源于《银翼杀手》的主角Rick Deckard, 专注于赋予模型性格、智力、深度、观察力和视角, 但这个数据集是不公开的哈 (小声猜可能有版权问题…)
第二步增肥: 将上一步的模型掐头去尾留中间, 把中间50%的参数复制一份. 为啥要掐头去尾呢? 主要是Dense模型前面的层通常负责基础词汇和语法的理解,最后面的层负责把特征映射回人类文字。而中间层则负责抽象逻辑和深度语义. 所以只有中间层有复制的价值.
阶段三再回炉: 使用 Unsloth 在本地硬件上对这个新诞生的 40B 模型进行高强度的微调, 使用的数据集是之前比较火的 Claude Opus 蒸馏推理数据集claude-opus-high-reasoning-250x. 这一步的作用有两个:一是稳定一切,让拼好模拼出来的 40B 参数融合成一个整体不至于崩溃, 二是优化, 让模型掌握可变长度推理, 即简单问题简答,复杂问题长思考的能力.
那这个模型具体性能咋样? 我用mlx 4bit 版本试了一下: