Qwen3.5-0.8B GGUF

Conversión propia de Qwen/Qwen3.5-0.8B a GGUF para uso con llama.cpp.

Archivos

  • Qwen3.5-0.8B-fp16.gguf
  • Qwen3.5-0.8B-Q4_K_M.gguf

Notas

El archivo Q4_K_M fue cuantizado con llama.cpp. Algunos tensores requirieron fallback automático a otros formatos de cuantización por restricciones de forma.

Características del modelo

  • Parámetros: 0.8B
  • Arquitectura: híbrida Gated DeltaNet + atención completa (6 × bloques alternados)
  • Contexto: 262 144 tokens (256K)
  • Multimodal: soporta entrada de texto e imagen
  • Idiomas: 201 idiomas y dialectos
  • Licencia: Apache 2.0

Uso con llama.cpp

./llama-cli -m Qwen3.5-0.8B-Q4_K_M.gguf -cnv
Downloads last month
22
GGUF
Model size
0.8B params
Architecture
qwen35
Hardware compatibility
Log In to add your hardware

4-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rdrgzlng/Qwen3.5-0.8B-GGUF

Quantized
(155)
this model