--- license: apache-2.0 --- # What is this? Alibaba Cloudの思考/非思考ハイブリッドモデル、[Qwen3-32B](https://huggingface.co/Qwen/Qwen3-32B)を日本語imatrixで量子化したものです。 # imatrix dataset 日本語能力を重視し、日本語が多量に含まれる[TFMC/imatrix-dataset-for-japanese-llm](https://huggingface.co/datasets/TFMC/imatrix-dataset-for-japanese-llm)データセットを使用しました。 # Chat template ``` <|im_start|>system ここにSystem Promptを書きます。<|im_end|> <|im_start|>user ここにMessageを書きます。<|im_end|> <|im_start|>assistant ``` # Quants 各クオンツとそのベンチマークスコア(Gemini 2.0 Flash採点によるElyza_tasks 100)をまとめておきます。 - 思考あり |クオンツ|スコア|コメント| |---|---|---| |Q8_0|4.41|| |Q6_K|4.46|| |Q5_K_M|4.39|| |Q4_K_M|4.36|| |IQ4_XS|4.38|| - 思考なし |クオンツ|スコア|コメント| |---|---|---| |Q8_0|4.34|| |Q6_K|4.29|| |Q5_K_M|4.4|| |Q4_K_M|4.28|| |IQ4_XS|3.16|| # Environment Windows版llama.cpp-b5215および同時リリースのconvert-hf-to-gguf.pyを使用して量子化作業を実施しました。 # License Apache 2.0 # Developer Alibaba Cloud