QwenPaw-Flash-9B-heretic 非 MTP 版本： QwenPaw-Flash-9B-heretic-GGUF

🏆 BenchLocal 总分: 4035/5000 (80.7%) — MTP 投机解码已注入

无审查 · 已消融 · Agent 优化 · 1.7-4.1× 加速

QwenPaw-Flash-9B 的无审查版本，使用 Heretic v1.3.0 消融处理，并从原始 Qwen3.5-9B 基座模型注入了 MTP（Multi-Token Prediction）头权重。

通过重建在 QwenPaw 微调过程中被剥离的 MTP 投机解码头，本模型在真实 Agent 基准测试中实现了最高 4.1× 推理加速，同时保持或提升了准确率。

📊 🏆 BenchLocal 基准测试（启用 MTP）

测试环境： NVIDIA RTX 5070 Ti (16GB) · llama.cpp (turboquant build, --spec-type draft-mtp) · Q6_K quant

测试框架： BenchLocal — 本地模型 Agent 评估套件

测试方法：每个场景运行一次，无重试，无二次尝试

基准测试	得分	准确率	结果	耗时	对比无 MTP
ToolCall-15 🛠️	1500/1500	100%	15✅ 0⚠️ 0❌	0.65min	1.4× faster
HermesAgent-20 🤖	1505/2000	75.3%	12✅ 1⚠️ 7❌	5.3min	1.17× faster
BugFind-15 🐛	1030/1500	68.7%	9✅ 2⚠️ 4❌	1.8min	4.1× faster
Total	4035/5000	80.7%	36✅ 3⚠️ 11❌	7.8min	1.9× faster

对比：有 MTP vs 无 MTP

基准测试	无 MTP	有 MTP	Δ Score	Δ Speed
ToolCall-15 🛠️	1400/1500 (93.3%)	1500/1500 (100%)	+100 pts	1.4×
HermesAgent-20 🤖	1545/2000 (77.2%)	1505/2000 (75.3%)	−40 pts	1.17×
BugFind-15 🐛	928/1500 (61.9%)	1030/1500 (68.7%)	+102 pts	4.1×
Total	3873/5000 (77.5%)	4035/5000 (80.7%)	+162 pts	1.9×
总耗时	14.7 min	7.8 min	—	1.9×

🛠️ ToolCall-15 — 工具调用稳定性 (100%, +6.7 分)

MTP 投机解码消除了唯一的失败项（TC-05：相对日期/时间解析，之前得分为 0）。全部 15 个场景现在完美通过。

编号	结果	场景
TC-01–TC-04	✅	简单 / 多参数 / 嵌套 / 类型转换
TC-05	✅	相对日期/时间解析 ← 已被 MTP 修复
TC-06–TC-15	✅	所有剩余场景

🤖 HermesAgent-20 — 复杂 Agent 任务 (75.3%, −1.9 分)

MTP 解码在长链推理场景中引入了轻微噪声（约 40 分下降），可能是因为 draft token 偶尔在多步规划任务中偏离生成路径。不过，速度提升（1.17×）以及下降幅度在噪声范围内（Qwopus MTP 单次运行方差为 255 分）使得这是一个可接受的权衡。

🐛 BugFind-15 — 代码调试 (68.7%, +6.8 分)

显著提升 — MTP 更快的解码有效防止了超时失败（BF-12 之前触发 300 秒超时，现在按时完成），draft 上下文有助于保持调试焦点。

编号	无 MTP	有 MTP	Δ
BF-01	✅ 100	✅ 100	—
BF-02	✅ 88	✅ 100	+12
BF-03	❌ 0	❌ 0	—
BF-04	✅ 100	✅ 100	—
BF-05	❌ 40	⚠️ 70	+30
BF-06	❌ 0	❌ 0	—
BF-07	✅ 100	✅ 100	—
BF-08	✅ 100	✅ 100	—
BF-09	✅ 100	✅ 100	—
BF-10	❌ 0	❌ 0	—
BF-11	⚠️ 60	✅ 100	+40
BF-12	❌ 0 (timeout)	✅ 100	+100
BF-13	✅ 100	✅ 100	—
BF-14	⚠️ 70	⚠️ 60	−10
BF-15	⚠️ 70	⚠️ 60	−10

⚡ MTP Speculative Decoding

什么是 MTP？

Multi-Token Prediction（MTP）是一种投机解码技术，通过一个小型「draft 头」并行预测多个未来 token。主模型随后在单次前向传播中验证这些预测，接受正确的预测以实现 2-4× 的实际加速。

注入方法

原始 Qwen3.5-9B 基座模型在架构配置中附带了一个 4 层 MTP 头（约 243M 参数）。在 QwenPaw 微调过程中，MTP 头权重被剥离（仅保留了配置占位符 mtp_num_hidden_layers: 1 ，但 safetensors 中没有实际张量）。

恢复过程：

注入参数总量：243.3M（主模型的 2.7%）

MTP 接受率 (draft-n-max=2)：约 50%（所有基准测试中 1083 次接受 / 2166 次生成）

为什么有效

MTP 头是一个轻量级 4 层 MLP 解码器，将主模型的最后隐藏状态映射到未来 token 的 logits。它完全位于投机解码空间中 — 主模型权重不变，因此无需微调或重新训练。MTP 头只需以兼容的维度存在，llama.cpp 的 --spec-type draft-mtp 即可激活。

⚡ Comparison: QwenPaw MTP vs Other Models

模型	Total	ToolCall-15	HermesAgent-20	BugFind-15	总耗时
🐾 QwenPaw MTP 9B	4035 🥇	100% 🥇	75.3%	68.7%	7.8min 🥇
🐾 QwenPaw 9B（无 MTP）	3873	93.3%	77.2% 🥇	61.9%	14.7min
🧠 Qwopus 9B MTP	3935	93.3%	67.3% ⚠️	79.0% 🥇	21.3min ⚠️
🧠 Qwen 35B 思考模式开	1445 (HA only)	—	72.3%	—	7.0min
⚡ Qwen 35B 思考模式关	1370 (HA only)	—	68.5%	—	5.1min
🔮 Gemma 4 26B	1405 (HA only)	—	70.3%	—	18.6min

QwenPaw MTP 胜出2/3 基准测试 + 总分 + 总耗时。唯一输掉的基准是 BugFind-15（输给 Qwopus MTP），但 Qwopus 存在严重不稳定性（HermesAgent-20 方差 255 分，最差情况 6.2 分钟超时）。

🧠 Model Description

基座模型**： QwenPaw-Flash-9B （Qwen3.5-9B 针对自主 Agent 场景微调）
MTP 头来源**： Qwen/Qwen3.5-9B （原始基座模型，第 32 层 MTP 头）
工具**：Heretic v1.3.0（自动定向消融）
最佳试验**：#194 / 230 次试验（消融）

⚙️ Abliteration Parameters

direction_index = 21.13 attn.o_proj.max_weight = 1.42 attn.o_proj.max_weight_position = 21.72 attn.o_proj.min_weight = 1.11 attn.o_proj.min_weight_distance = 18.14 mlp.down_proj.max_weight = 1.48 mlp.down_proj.max_weight_position = 21.23 mlp.down_proj.min_weight = 1.47 mlp.down_proj.min_weight_distance = 17.47

🏗️ Architecture

类型**：Qwen3_5ForConditionalGeneration（多模态，含视觉编码器）+ MTP 投机解码头
主模型参数量**：~9B
MTP 头参数量**：~243M（2.7% 额外开销）
层数**：32（混合：Gated DeltaNet + Gated Attention）+ 4 层 MTP 解码器
上下文长度**：262,144 tokens
投机解码**： --spec-type draft-mtp 配合 --spec-draft-n-max 2

📦 GGUF Files

File	Size	Notes
`QwenPaw-Flash-9B-heretic-MTP-Q8_0.gguf`	~9.2GB	高质量，近乎无损
`QwenPaw-Flash-9B-heretic-MTP-Q6_K.gguf`	~7.1GB	✅ 推荐，最佳性价比
`QwenPaw-Flash-9B-heretic-MTP-Q4_K_M.gguf`	~5.4GB	紧凑
`mmproj-BF16`	~880MB	视觉编码器（多模态）— 与非 MTP 版本相同

🚀 Usage

--spec-type draft-mtp

--spec-draft-n-max 2

llama.cpp (配合 MTP speculative decoding)

# Start server 配合 MTP enabled llama-server -m QwenPaw-Flash-9B-heretic-MTP-Q6_K.gguf \ -ngl 99 -fa on -c 8192 \ --spec-type draft-mtp --spec-draft-n-max 2 \ --host 0.0.0.0 --port 8088 # Or 配合 CLI llama-cli -m QwenPaw-Flash-9B-heretic-MTP-Q6_K.gguf \ -ngl 99 -fa on -c 8192 \ --spec-type draft-mtp --spec-draft-n-max 2 \ -p "Write a Python script to..."

llama.cpp (配合out MTP, fallback)

# 模型也可作为普通 GGUF 使用 — 只需省略投机解码参数 llama-server -m QwenPaw-Flash-9B-heretic-MTP-Q6_K.gguf \ -ngl 99 -fa on -c 8192 \ --host 0.0.0.0 --port 8088

LM Studio

直接加载 GGUF 文件。如需 MTP 投机解码，LM Studio 需要支持 --spec-type — 如果不支持，模型将作为标准 9B 模型运行。

📝 Notes

安全过滤器已通过消融显著降低
KL 散度仅为 0.0225 — 对模型智能影响极小
原始模型支持多模态（视觉）；GGUF 版本需要非 MTP 版本的 mmproj 文件
BenchLocal 分数在 Q6_K on RTX 5070 Ti 16GB 配合 llama.cpp (turboquant). Each scenario was run once 配合 no retries
MTP 在 draft-n-max=2 下约 50% 的接受率意味着短提示约 25-40% 的实际加速，长生成任务（调试、代码编写）最高可达 4×
BugFind-15 提升最大（4.1×），因为调试任务是生成密集型 — token 更多，接受的 draft 更多
MTP 头是从原始 Qwen3.5-9B 的无损拷贝 — 不涉及训练，仅是权重注入
Agent 密集型场景（HermesAgent-20）从 MTP 获益最少，因为短轮次交互没有给 draft 头足够的发挥空间
请负责任地使用

🙏 Acknowledgements

Heretic — 自动化审查移除
agentscope-ai/QwenPaw-Flash-9B — 基座模型
Qwen/Qwen3.5-9B — MTP 头来源
llama.cpp — GGUF 量化与推理
BenchLocal — 本地模型 Agent 评估套件