---
license: other
license_name: vetjarvis-model-license-1.0-nc
license_link: LICENSE
language:
- ko
- en
base_model:
- choonok/VetJarvis-1.1-4B-Instruct
base_model_relation: quantized
pipeline_tag: text-generation
library_name: gguf
tags:
- veterinary
- companion-animal
- canine
- feline
- medical
- domain-specific
- qwen3.5
- gguf
- llama.cpp
- not-a-medical-device
---

# VetJarvis 1.1-4B-Instruct (GGUF)

[choonok/VetJarvis-1.1-4B-Instruct](https://huggingface.co/choonok/VetJarvis-1.1-4B-Instruct)를 GGUF 포맷으로 변환한 버전입니다.

llama.cpp, Ollama, LM Studio 등 로컬 추론 도구에서 사용할 수 있습니다.

This is a GGUF-converted version of [choonok/VetJarvis-1.1-4B-Instruct](https://huggingface.co/choonok/VetJarvis-1.1-4B-Instruct), suitable for local inference with llama.cpp, Ollama, LM Studio, etc.

## 제공 파일 / Files

| 파일 | 양자화 | 크기 | 권장 용도 |
|------|--------|------|----------|
| `VetJarvis-1.1-4B-Instruct-bf16.gguf` | BF16 | ~7.9 GB | 정확도 우선, 서버, GPU 16GB+ |
| `VetJarvis-1.1-4B-Instruct-q8_0.gguf` | Q8_0 | ~4.2 GB | 거의 무손실, 일반 사용 권장 |

## 추천 추론 파라미터 / Recommended Inference Parameters

| 파라미터 | 값 |
|---------|---|
| Temperature | **0.8** |
| Top-p | **0.9** |
| Max Tokens | **32,768** |
| Context Length | ≤ 262,144 |
| enable_thinking | **True** (권장) |

## 사용법 / Usage

### llama.cpp

```bash
./build/bin/llama-cli \
    -m VetJarvis-1.1-4B-Instruct-q8_0.gguf \
    --jinja \
    -ngl 99 \
    -sys "당신은 한국 수의사를 보조하는 AI 어시스턴트입니다. 반드시 한국어로 답변하세요." \
    -p "고양이 만성 신부전의 초기 증상은?" \
    -n 32768 \
    --temp 0.8 \
    --top-p 0.9
```

### Ollama

```
FROM ./VetJarvis-1.1-4B-Instruct-q8_0.gguf
PARAMETER temperature 0.8
PARAMETER top_p 0.9
PARAMETER num_ctx 32768
PARAMETER stop "<|im_end|>"
```

```bash
ollama create vetjarvis-1.1-4b-instruct -f Modelfile
ollama run vetjarvis-1.1-4b-instruct
```

### LM Studio

추후 사용법 가이드를 추가할 예정입니다. _Detailed LM Studio guide will be added later._

## 변환 정보 / Conversion Details

- 변환 도구: [llama.cpp](https://github.com/ggerganov/llama.cpp) `convert_hf_to_gguf.py`
- 원본 정밀도: BF16 (Qwen3.5-4B는 BF16으로 학습됨)
- 변환 시 BF16 → BF16 직접 변환 (정밀도 손실 없음)
- Q8_0은 원본에서 직접 양자화 생성

## 모델 아키텍처 / Architecture Note

이 모델은 Qwen3.5의 **Transformer + SSM 하이브리드 아키텍처**입니다. 256K 토큰의 긴 컨텍스트를 지원하며, llama.cpp에서 정상 동작이 확인되었습니다.

q4_K_M 같은 저비트 양자화는 SSM 레이어 손실이 일반 Transformer 모델보다 클 수 있으므로, **BF16 또는 Q8_0 사용을 권장**합니다.

## 라이선스 / License

원본 모델의 라이선스(`vetjarvis-model-license-1.0-nc`)를 그대로 따릅니다. **비상업적 용도**로만 사용 가능합니다. 자세한 내용은 동봉된 [LICENSE](LICENSE) 파일을 참고하세요.

This GGUF version inherits the original `vetjarvis-model-license-1.0-nc` license. **Non-commercial use only.** See the included [LICENSE](LICENSE) file for details.

## ⚠️ 의료기기 아님 / Not a Medical Device

본 모델은 **임상 의사결정을 보조하는 참고 도구**이며, 진단/처방을 대체하지 않습니다. 모든 임상 판단은 자격을 갖춘 수의사가 수행해야 합니다.

This model is a reference tool to support clinical decision-making. It is **not a medical device** and does not replace diagnosis or prescription by a qualified veterinarian.