🤖 关于 Agents-A1

Agents-A1 是 InternScience 提出的 35B 参数 Mixture-of-Experts Agentic 模型，在 Qwen3.5-35B-A3B 的基础上通过三阶段范式后训练得到：全域 SFT → 域级教师训练 → 多教师多域 on-policy 蒸馏。

尽管参数规模只有 ~35B，Agents-A1 在与 GPT-5.5、DeepSeek-V4-pro、Kimi-K2.6 等前沿大模型的对比中依然表现强劲——在 Seal-0 (56.4)、HiPhO (46.4)、FrontierScience-Olympiad (79.0)、IFBench (80.6)、IFEval (94.8) 达到 SOTA，同时在 BrowseComp (75.5)、XBench-DS-2510 (86.0)、GAIA (96.0)、SciCode (44.3)、HLE (47.6)、MolBench-bind (56.8) 等任务上于同尺寸模型中排名第一。

本 GGUF 包包含 mmproj-F16.gguf 视觉投影器（支持 llama.cpp 多模态）。MTP 层从 Qwen3.5-35B-A3B 中提取并注入到 Agents-A1 的 safetensors（详见 MTP 提取与注入 章节）。许可证：Apache-2.0。

🧠 模型详情

架构	Qwen3.5 MoE（Mixture of Experts）
参数规模	35B 总参数，每 token 激活 3B
专家数	256 个路由专家，每 token 激活 8 个
层数	40 层 Transformer + 1 层 MTP
上下文	262,144 tokens
MTP 来源	Qwen3.5-35B-A3B（1 层，785 个 tensor，注入）
Block Count	41（blk.0–39 + blk.40 MTP）
许可证	Apache-2.0

🔧 MTP 提取与注入

官方发布的 InternScience/Agents-A1 checkpoint 是一个 40 层 Qwen3.5-35B-A3B MoE，不包含 MTP（Multi-Token Prediction）层。为了在 llama.cpp 中启用 MTP 加速（长上下文生成提速 10–30%），我们 从 Qwen3.5-35B-A3B 中提取 1 层 MTP，注入到 Agents-A1 的 safetensors 中，再转 GGUF。

整个流程 4 步：(1) 从 Qwen3.5-35B-A3B 提取 785 个 MTP tensor（按 key 含 "mtp" 过滤）；(2) 追加为新分片 model-15-of-15.safetensors，更新 model.safetensors.index.json 的 metadata.total_size 和 weight_map（不修改原 14 分片）；(3) 用 master 版 llama.cpp 的 convert_hf_to_gguf.py 转 BF16 GGUF——master 版本自动识别 常规层 blk.0–39 + MTP 层 blk.40.nextn.*（785 个 tensor）；(4) 用 APEX llama-quantize 量化，qwen36_35b_mtp_*.txt 配置已包含 blk.40 override，所有档位 MTP 统一用 Q8_0，无需手动 patch。imatrix Qwen3.5-35B-A3B.imatrix.gguf 直接复用（同架构微调模型，权重兼容）。

复现命令（以 I-Compact 为例）

F:\llama.cpp\...\llama-quantize.exe ^
  --imatrix J:\Models\Qwen3.5-35B-A3B.imatrix.gguf ^
  --tensor-type-file E:\apex-quant\configs\qwen36_35b_mtp_compact.txt ^
  J:\Models\Agents-A1-MTP-GGUF\Agents-A1-MTP-BF16.gguf ^
  J:\Models\Agents-A1-MTP-GGUF\Agents-A1-MTP-APEX-I-Compact.gguf ^
  Q4_K_M

📊 BenchLocal 测试结果（APEX-I-Compact, 16.14 GB）

模式	ToolCall-15	BugFind-15	HermesAgent-20	能力上限	实用得分
思考	100	88	87	91.2	71.2
无思考	97	100	85	93.1	57.1

测试环境：RTX 5070 Ti 16GB + 128GB RAM · 无思考模式能力上限更高（BugFind +12），但复杂 agent 场景重试更多。

🚀 使用方法

llama.cpp（纯文本）

hf download SC117/Agents-A1-MTP-APEX-GGUF --include "*.gguf" --local-dir ./models
./llama-server -m ./models/Agents-A1-MTP-APEX-I-Compact.gguf -ngl 99 -c 131072

llama.cpp（视觉 + 文本）

./llama-server -m ./models/Agents-A1-MTP-APEX-I-Compact.gguf --mmproj ./models/mmproj-F16.gguf -ngl 99 -c 131072

vLLM

vllm serve SC117/Agents-A1-MTP-APEX-GGUF --port 8000 --tensor-parallel-size 1 --max-model-len 262144 --reasoning-parser qwen3
·
工具调用变体
vllm serve SC117/Agents-A1-MTP-APEX-GGUF --port 8000 --tensor-parallel-size 1 --max-model-len 262144 --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder

SGLang

python3 -m sglang.launch_server --model-path "SC117/Agents-A1-MTP-APEX-GGUF" --host 0.0.0.0 --port 30000

🎛️ 推荐采样参数

摘自官方 Agents-A1 模型卡：

temperature	0.85
top_p	0.95
top_k	20
min_p	0.0
presence_penalty	1.1
repetition_penalty	1.0

💡 什么是 APEX？

本仓库的 GGUF 文件使用 APEX 量化——一种 MoE 感知的混合精度量化技术。APEX 对每个 tensor 按角色分类（路由专家、共享专家、SSM、注意力），按层级应用精度梯度：边缘敏感层（含 MTP）更高精度，中间冗余层更激进压缩。

APEX 在文件大小减半的前提下，PPL 仍优于 Q8_0，在部分场景甚至优于 F16。

qwen36_35b_mtp_*.txt 配置已包含 blk.40（MTP 层）的 override，所有四个 I 档位均以 Q8_0 保留。imatrix Qwen3.5-35B-A3B.imatrix.gguf 直接复用（同架构、专家布局兼容）。

📦 APEX 量化档位

文件	大小	档位	适用场景
`*-APEX-I-Quality.gguf`	21.75 GB	I-Quality	高质量（Q6_K + iq4_xs 注意力）
`*-APEX-I-Balanced.gguf`	24.21 GB	I-Balanced	全能型（Q6_K + Q5_K 专家）
`*-APEX-I-Compact.gguf`	16.14 GB	I-Compact	质量/体积最佳平衡（Q4_K 默认）
`*-APEX-I-Mini.gguf`	13.36 GB	I-Mini	极致压缩，适配 16GB 显存（Q3_K + iq2_s）

BF16 源文件：Agents-A1-MTP-BF16.gguf（66.19 GB）。imatrix：Qwen3.5-35B-A3B.imatrix.gguf（从基座模型复用）。