Instructions to use alkibijad/YugoGPT-GGUF with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- Transformers
How to use alkibijad/YugoGPT-GGUF with Transformers:
# Load model directly from transformers import AutoModel model = AutoModel.from_pretrained("alkibijad/YugoGPT-GGUF", dtype="auto") - llama-cpp-python
How to use alkibijad/YugoGPT-GGUF with llama-cpp-python:
# !pip install llama-cpp-python from llama_cpp import Llama llm = Llama.from_pretrained( repo_id="alkibijad/YugoGPT-GGUF", filename="YugoGPT.Q4_1.gguf", )
output = llm( "Once upon a time,", max_tokens=512, echo=True ) print(output)
- Notebooks
- Google Colab
- Kaggle
- Local Apps Settings
- llama.cpp
How to use alkibijad/YugoGPT-GGUF with llama.cpp:
Install from brew
brew install llama.cpp # Start a local OpenAI-compatible server with a web UI: llama-server -hf alkibijad/YugoGPT-GGUF:Q4_1 # Run inference directly in the terminal: llama-cli -hf alkibijad/YugoGPT-GGUF:Q4_1
Install from WinGet (Windows)
winget install llama.cpp # Start a local OpenAI-compatible server with a web UI: llama-server -hf alkibijad/YugoGPT-GGUF:Q4_1 # Run inference directly in the terminal: llama-cli -hf alkibijad/YugoGPT-GGUF:Q4_1
Use pre-built binary
# Download pre-built binary from: # https://github.com/ggerganov/llama.cpp/releases # Start a local OpenAI-compatible server with a web UI: ./llama-server -hf alkibijad/YugoGPT-GGUF:Q4_1 # Run inference directly in the terminal: ./llama-cli -hf alkibijad/YugoGPT-GGUF:Q4_1
Build from source code
git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp cmake -B build cmake --build build -j --target llama-server llama-cli # Start a local OpenAI-compatible server with a web UI: ./build/bin/llama-server -hf alkibijad/YugoGPT-GGUF:Q4_1 # Run inference directly in the terminal: ./build/bin/llama-cli -hf alkibijad/YugoGPT-GGUF:Q4_1
Use Docker
docker model run hf.co/alkibijad/YugoGPT-GGUF:Q4_1
- LM Studio
- Jan
- Ollama
How to use alkibijad/YugoGPT-GGUF with Ollama:
ollama run hf.co/alkibijad/YugoGPT-GGUF:Q4_1
- Unsloth Studio
How to use alkibijad/YugoGPT-GGUF with Unsloth Studio:
Install Unsloth Studio (macOS, Linux, WSL)
curl -fsSL https://unsloth.ai/install.sh | sh # Run unsloth studio unsloth studio -H 0.0.0.0 -p 8888 # Then open http://localhost:8888 in your browser # Search for alkibijad/YugoGPT-GGUF to start chatting
Install Unsloth Studio (Windows)
irm https://unsloth.ai/install.ps1 | iex # Run unsloth studio unsloth studio -H 0.0.0.0 -p 8888 # Then open http://localhost:8888 in your browser # Search for alkibijad/YugoGPT-GGUF to start chatting
Using HuggingFace Spaces for Unsloth
# No setup required # Open https://huggingface.co/spaces/unsloth/studio in your browser # Search for alkibijad/YugoGPT-GGUF to start chatting
- Atomic Chat new
- Docker Model Runner
How to use alkibijad/YugoGPT-GGUF with Docker Model Runner:
docker model run hf.co/alkibijad/YugoGPT-GGUF:Q4_1
- Lemonade
How to use alkibijad/YugoGPT-GGUF with Lemonade:
Pull the model
# Download Lemonade from https://lemonade-server.ai/ lemonade pull alkibijad/YugoGPT-GGUF:Q4_1
Run and chat with the model
lemonade run user.YugoGPT-GGUF-Q4_1
List all available models
lemonade list
O modelu
YugoGPT je trenutno najbolji "open source" model za srpski, hrvatski, bosanski... i sve ostale jezike na koje uspemo da se "podelimo" 🙂
Ovaj repozitorijum sadrži model u GGUF formatu, koji je pogodan za korišćenje modela u lokalu i ne zahteva skupe grafičke kartice.
Verzije modela
Da bi model radio brže, kompresovan je u nekoliko manjih verzija. Kompresijom se neznatno gubi na kvalitetu, ali se znatno dobija na brzini.
Preporučeno je koristiti Q4_1 verziju jer je najbrža.
| Naziv | Veličina (GB) | Napomena |
|---|---|---|
| Q4_1 | 4.55 | Težine su kompresovane na 4 bita. Najbrža verzija. |
| q8_0 | 7.7 | Težine su kompresovane na 8 bita. |
| fp16 | 14.5 | Težine se čuvaju kao 16 bita. |
| fp32 | 29 | Originalne, 32 bitne težine. Nepotrebno za korišćenje na lokalnom računaru |
Kako koristiti ovaj model na svom računaru?
LMStudio - najlakši način ⚡️
Najlakši način je da se prvo instalira LMStudio, program koji omogućuva veoma lako korišćenje LLM-ova.
- Nakon instalacije, u polju za pretragu ukucaj "alkibijad/YugoGPT":

- Izaberi neki od modela (preporučeno
Q4_1):
- Nakon što se model "skine", klikni na "chat" u levom delu ekrana i možeš da ćaskaš sa modelom.
- [Opciono] Možeš da podesiš "system prompt", npr. "Ti si AI asistent koji uvek želi da pomogne." ili kako god već hoćeš.

To je to!
llama.cpp - napredno 🤓
Ako si napredan korisnik i želiš da se petljaš sa komandnom linijom i naučiš više o GGUF formatu, idi na llama.cpp i pročitaj uputstva 🙂
Naredni koraci 🐾
Ovaj repozitorijum je plod mini projekta za upoznavanje sa GGUF formatom.
Ovo bi mogli biti naredni koraci, ali teško da će do njih doći:
- [] Konvertovanje u još neke od varijanti (npr. 5 bitova, 2 bita itd.) Ovo teško da ću raditi pošto je zapravo to već uradjeno ovde 🙌
- [] Kačenje koda za konverziju. U suštini dovoljno je pratiti ova uputstva.
- Downloads last month
- 118
4-bit
8-bit
16-bit
32-bit
Model tree for alkibijad/YugoGPT-GGUF
Base model
gordicaleksa/YugoGPT