--- license: other license_name: vetjarvis-model-license-1.0-nc license_link: LICENSE language: - ko - en base_model: - choonok/VetJarvis-1.1-4B-Instruct base_model_relation: quantized pipeline_tag: text-generation library_name: gguf tags: - veterinary - companion-animal - canine - feline - medical - domain-specific - qwen3.5 - gguf - llama.cpp - not-a-medical-device --- # VetJarvis 1.1-4B-Instruct (GGUF) [choonok/VetJarvis-1.1-4B-Instruct](https://huggingface.co/choonok/VetJarvis-1.1-4B-Instruct)를 GGUF 포맷으로 변환한 버전입니다. llama.cpp, Ollama, LM Studio 등 로컬 추론 도구에서 사용할 수 있습니다. This is a GGUF-converted version of [choonok/VetJarvis-1.1-4B-Instruct](https://huggingface.co/choonok/VetJarvis-1.1-4B-Instruct), suitable for local inference with llama.cpp, Ollama, LM Studio, etc. ## 제공 파일 / Files | 파일 | 양자화 | 크기 | 권장 용도 | |------|--------|------|----------| | `VetJarvis-1.1-4B-Instruct-bf16.gguf` | BF16 | ~7.9 GB | 정확도 우선, 서버, GPU 16GB+ | | `VetJarvis-1.1-4B-Instruct-q8_0.gguf` | Q8_0 | ~4.2 GB | 거의 무손실, 일반 사용 권장 | ## 추천 추론 파라미터 / Recommended Inference Parameters | 파라미터 | 값 | |---------|---| | Temperature | **0.8** | | Top-p | **0.9** | | Max Tokens | **32,768** | | Context Length | ≤ 262,144 | | enable_thinking | **True** (권장) | ## 사용법 / Usage ### llama.cpp ```bash ./build/bin/llama-cli \ -m VetJarvis-1.1-4B-Instruct-q8_0.gguf \ --jinja \ -ngl 99 \ -sys "당신은 한국 수의사를 보조하는 AI 어시스턴트입니다. 반드시 한국어로 답변하세요." \ -p "고양이 만성 신부전의 초기 증상은?" \ -n 32768 \ --temp 0.8 \ --top-p 0.9 ``` ### Ollama ``` FROM ./VetJarvis-1.1-4B-Instruct-q8_0.gguf PARAMETER temperature 0.8 PARAMETER top_p 0.9 PARAMETER num_ctx 32768 PARAMETER stop "<|im_end|>" ``` ```bash ollama create vetjarvis-1.1-4b-instruct -f Modelfile ollama run vetjarvis-1.1-4b-instruct ``` ### LM Studio 추후 사용법 가이드를 추가할 예정입니다. _Detailed LM Studio guide will be added later._ ## 변환 정보 / Conversion Details - 변환 도구: [llama.cpp](https://github.com/ggerganov/llama.cpp) `convert_hf_to_gguf.py` - 원본 정밀도: BF16 (Qwen3.5-4B는 BF16으로 학습됨) - 변환 시 BF16 → BF16 직접 변환 (정밀도 손실 없음) - Q8_0은 원본에서 직접 양자화 생성 ## 모델 아키텍처 / Architecture Note 이 모델은 Qwen3.5의 **Transformer + SSM 하이브리드 아키텍처**입니다. 256K 토큰의 긴 컨텍스트를 지원하며, llama.cpp에서 정상 동작이 확인되었습니다. q4_K_M 같은 저비트 양자화는 SSM 레이어 손실이 일반 Transformer 모델보다 클 수 있으므로, **BF16 또는 Q8_0 사용을 권장**합니다. ## 라이선스 / License 원본 모델의 라이선스(`vetjarvis-model-license-1.0-nc`)를 그대로 따릅니다. **비상업적 용도**로만 사용 가능합니다. 자세한 내용은 동봉된 [LICENSE](LICENSE) 파일을 참고하세요. This GGUF version inherits the original `vetjarvis-model-license-1.0-nc` license. **Non-commercial use only.** See the included [LICENSE](LICENSE) file for details. ## ⚠️ 의료기기 아님 / Not a Medical Device 본 모델은 **임상 의사결정을 보조하는 참고 도구**이며, 진단/처방을 대체하지 않습니다. 모든 임상 판단은 자격을 갖춘 수의사가 수행해야 합니다. This model is a reference tool to support clinical decision-making. It is **not a medical device** and does not replace diagnosis or prescription by a qualified veterinarian.