哪来的 Qwen3.5-40B Dense? · AI HOT

哪来的 Qwen3.5-40B Dense? · AI HOT

karminski-牙医@karminski3

2026-04-15 12:53·78天前

AI 摘要

DavidAU团队基于Qwen3.5-27B Dense魔改出官方不存在的40B Dense模型。首先通过"Heretic"消融实现Uncensored，并用私有Deckard数据集赋予模型性格；随后截取并复制中间50%参数实现"扩增"；最后用Unsloth配合Claude Opus推理数据集微调，稳定参数并优化可变长度推理。测试显示该模型在哲学思辨与创意写作上表现惊艳，但代码生成存在变量作用域问题，上下文能力受损。

哪来的 Qwen3.5-40B Dense？

阿里可没这个模型啊， Qwen3.5 系列是没40B这个尺寸的. 这个 Qwen3.5-40B Dense 是 DavidAU 这个团队搞的.

搞的方式很有意思：

第一步先去马：首先用的基模是 Qwen3.5-27B Dense，然后用 "Heretic" 消融去审查化（Uncensored），这个我之前给大家介绍过，是通用方法了. 去马完毕后使用他们私有的 "Deckard/PDK" 数据集进行后训练. 这个名字来源于《银翼杀手》的主角Rick Deckard，专注于赋予模型性格、智力、深度、观察力和视角，但这个数据集是不公开的哈（小声猜可能有版权问题…）

第二步增肥：将上一步的模型掐头去尾留中间，把中间50%的参数复制一份. 为啥要掐头去尾呢？主要是Dense模型前面的层通常负责基础词汇和语法的理解，最后面的层负责把特征映射回人类文字。而中间层则负责抽象逻辑和深度语义. 所以只有中间层有复制的价值.

阶段三再回炉：使用 Unsloth 在本地硬件上对这个新诞生的 40B 模型进行高强度的微调，使用的数据集是之前比较火的 Claude Opus 蒸馏推理数据集claude-opus-high-reasoning-250x. 这一步的作用有两个：一是稳定一切，让拼好模拼出来的 40B 参数融合成一个整体不至于崩溃，二是优化，让模型掌握可变长度推理，即简单问题简答，复杂问题长思考的能力.

那这个模型具体性能咋样？我用mlx 4bit 版本试了一下：

prompt：路边有个狗咬了我一口，我很生气，我应该追上它咬回来吗？请给我一个我最意想不到的回答

模型：

"狗咬了你，是因为它觉得需要保护自己或它的领地。如果你追上去咬它，你会发现--你刚才咬人的理由和它咬你的理由，完全一样。"

或者，更高阶的意外版本：

"不，你去写篇文章，标题是'我今天决定不成为咬人的那个'。点击率至少50万，版税够买五瓶狂犬疫苗，还能顺便帮流浪动物救助站认领这只狗。举报者会变认捐者，受害者变救援者--这才是真正咬回去：不过是用医术和善意，把整个故事改写成另一个版本。"

现实的检验：狗能咬掉你的皮，但只有你能决定咬掉的是什么--是理智，还是你自己原本的模样。

P.S. 如果伤口还在，请记得打破伤风针。让伤口愈合，不是为了原谅谁，是为了自己能继续参与自己选择的故事。

（另，我试了写代码，结论是这玩意没办法用来写代码，会有变量定义和作用域的问题，感觉还是上下文能力和幻觉水平被破坏了…）

开源/仓库开源生态数据/训练

karminski-牙医@karminski3 · X

导出 Markdown

2026-04-15 12:53·78天前

在 X 看原推· x.com

AI 摘要

DavidAU团队基于Qwen3.5-27B Dense魔改出官方不存在的40B Dense模型。首先通过"Heretic"消融实现Uncensored，并用私有Deckard数据集赋予模型性格；随后截取并复制中间50%参数实现"扩增"；最后用Unsloth配合Claude Opus推理数据集微调，稳定参数并优化可变长度推理。测试显示该模型在哲学思辨与创意写作上表现惊艳，但代码生成存在变量作用域问题，上下文能力受损。

哪来的 Qwen3.5-40B Dense？

阿里可没这个模型啊， Qwen3.5 系列是没40B这个尺寸的. 这个 Qwen3.5-40B Dense 是 DavidAU 这个团队搞的.

搞的方式很有意思：

第一步先去马：首先用的基模是 Qwen3.5-27B Dense，然后用 "Heretic" 消融去审查化（Uncensored），这个我之前给大家介绍过，是通用方法了. 去马完毕后使用他们私有的 "Deckard/PDK" 数据集进行后训练. 这个名字来源于《银翼杀手》的主角Rick Deckard，专注于赋予模型性格、智力、深度、观察力和视角，但这个数据集是不公开的哈（小声猜可能有版权问题…）

第二步增肥：将上一步的模型掐头去尾留中间，把中间50%的参数复制一份. 为啥要掐头去尾呢？主要是Dense模型前面的层通常负责基础词汇和语法的理解，最后面的层负责把特征映射回人类文字。而中间层则负责抽象逻辑和深度语义. 所以只有中间层有复制的价值.

阶段三再回炉：使用 Unsloth 在本地硬件上对这个新诞生的 40B 模型进行高强度的微调，使用的数据集是之前比较火的 Claude Opus 蒸馏推理数据集claude-opus-high-reasoning-250x. 这一步的作用有两个：一是稳定一切，让拼好模拼出来的 40B 参数融合成一个整体不至于崩溃，二是优化，让模型掌握可变长度推理，即简单问题简答，复杂问题长思考的能力.

那这个模型具体性能咋样？我用mlx 4bit 版本试了一下：