session-vault-qwen35-9b-gguf

Qwen 3.5 9B를 한국어 개발 세션 요약 태스크에 LoRA 파인튜닝한 모델의 GGUF 양자화 버전.

학습 정보

항목
Base model Qwen/Qwen3.5-9B
Method LoRA 16-bit (r=32, alpha=64)
Hardware NVIDIA H200 NVL x2 (287GB VRAM)
Dataset 196개 Claude 세션 요약 쌍 (avg quality 88.8)
Epochs 3
Loss 1.36 → 0.77
Training time ~530s
Quantization Q4_K_M (llama.cpp)

태스크

Claude Code 세션 로그(raw markdown)를 구조화된 한국어 요약으로 변환:

  • YAML frontmatter (프로젝트, 태그, 유형)
  • 본문 섹션: 목적 / 핵심 변경사항 / 결과 / 관련 파일

Ollama 사용법

# Modelfile
cat > Modelfile << 'EOF'
FROM ./session-vault-9b-q4_k_m.gguf
PARAMETER num_ctx 8192
PARAMETER num_predict 6144
PARAMETER temperature 0.7
PARAMETER top_p 0.8
PARAMETER top_k 20
PARAMETER repeat_penalty 1.0
EOF

ollama create session-vault:9b -f Modelfile
ollama run session-vault:9b

권장 파라미터

파라미터 비고
num_ctx 8192 4096은 타임아웃 유발
num_predict 6144 thinking 토큰 포함
temperature 0.7 Qwen 3.5 non-thinking 공식
top_p 0.8 공식 권장
top_k 20 공식 권장
repeat_penalty 1.0 공식: 항상 1.0
presence_penalty 1.5 /api/chat 전용
kv_cache_type q8_0 VRAM 절감 (12GB GPU 권장)

학습 데이터

session-vault에서 자동 생성:

  • scripts/build_finetune_dataset.py: raw/summary 매칭 + 품질 필터링
  • 에이전트/단기 세션 자동 제외, score >= 60 필터
  • Unsloth 호환 conversations 포맷 (system/user/assistant)

라이선스

Apache 2.0 (Qwen 3.5 라이선스 준수)

Downloads last month
8
GGUF
Model size
9B params
Architecture
qwen35
Hardware compatibility
Log In to add your hardware

4-bit

16-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for tellang/session-vault-qwen35-9b-gguf

Finetuned
Qwen/Qwen3.5-9B
Adapter
(377)
this model