# Kimi K2.6 DFlash — FP8 KV Cache (safe fallback)
# Uses Triton MoE instead of AITER MoE to completely avoid the
# 384-expert grid overflow. Slightly lower MoE throughput but
# eliminates any risk of AITER crash during profiling.
#
# Use this config if production-fp8kv.env crashes during startup.

# Target model
MODEL_DIR=/mnt/nvme5n1p1/hydra/models/Kimi-K2.6
DRAFT_MODEL_DIR=/mnt/nvme5n1p1/hydra/models/Kimi-K2.5-DFlash
IMAGE=vllm/vllm-openai-rocm:nightly
PORT=8262

# DFlash speculative decoding
SPEC_METHOD=dflash
NUM_SPECULATIVE_TOKENS=2
BLOCK_SIZE=16

# KV cache — fp8
KV_CACHE_DTYPE=fp8

# Scheduler
MAX_NUM_SEQS=64
MAX_NUM_BATCHED_TOKENS=32768
MAX_MODEL_LEN=262144
GPU_MEMORY_UTILIZATION=0.92

# Runtime — triton MoE backend bypasses AITER entirely for MoE
TENSOR_PARALLEL_SIZE=8
ENFORCE_EAGER=true
MOE_BACKEND=triton
OPTIMIZATION_LEVEL=2
PERFORMANCE_MODE=throughput
SAFETENSORS_LOAD_STRATEGY=lazy
ENABLE_PREFIX_CACHING=false
ENABLE_CHUNKED_PREFILL=true

# ROCm environment
PYTORCH_ROCM_ARCH=gfx942
AITER_ROCM_ARCH=gfx942
GPU_ARCHS=gfx942
VLLM_ROCM_USE_AITER=1
VLLM_ROCM_USE_AITER_MOE=0
VLLM_ROCM_QUICK_REDUCE_QUANTIZATION=INT4
VLLM_ROCM_USE_AITER_RMSNORM=0
HSA_ENABLE_SDMA=0
HSA_NO_SCRATCH_RECLAIM=1
OMP_NUM_THREADS=1