SozKZ Core Llama 150M — Kazakh Base Model v1
A 152M parameter Kazakh language model trained from scratch on 9 billion tokens of cleaned Kazakh text. Llama architecture with SwiGLU, RoPE, and RMSNorm.
Key Results
| Metric | Value |
|---|---|
| Eval Loss | 2.985 |
| Perplexity | 19.78 |
| Parameters | 151.87M |
| Training tokens | ~9.0B |
| Training cost | ~$17 (2× RTX 4090, 26h) |
Architecture
| Parameter | Value |
|---|---|
| Type | LlamaForCausalLM |
| Parameters | 151.87M |
| Hidden size | 768 |
| Layers | 16 |
| Attention heads | 12 (MHA) |
| Intermediate (SwiGLU) | 2,048 |
| Vocab size | 50,257 |
| Context length | 1,024 |
| Tie embeddings | Yes |
| Positional encoding | RoPE |
| Normalization | RMSNorm |
Training Data
Trained on sozkz-corpus-clean-v3 — a large-scale cleaned and deduplicated Kazakh corpus:
| Metric | Value |
|---|---|
| Documents | 13.7M |
| Kazakh words | ~5.4 billion |
| Kazakh sentences | ~501 million |
| Characters | ~42.7 billion |
| Tokens (BPE 50K) | ~9.0 billion |
| Sources | 18 (CulturaX, HPLT, mC4, CC-100, MADLAD-400, Leipzig, Wikipedia, etc.) |
| Cleaning | 9-stage pipeline (NFC, min length, Kazakh chars, script profile, LID, dedup) |
| Pass rate | 48.2% (28.4M raw → 13.7M clean) |
Training
| Parameter | Value |
|---|---|
| Hardware | 2× NVIDIA RTX 4090 (vast.ai, DDP) |
| Effective batch | 240 (12/GPU × 10 grad_accum × 2 GPUs) |
| Learning rate | 3e-4 (cosine, 750 warmup steps) |
| Weight decay | 0.1 |
| Precision | bf16 |
| Steps | 36,616 |
| Duration | ~26 hours |
| Speed | 2.37 s/step |
Loss Curve
| Step | Train Loss | Perplexity |
|---|---|---|
| 50 | 8.800 | 6,634 |
| 200 | 6.782 | 879 |
| 400 | 5.504 | 246 |
| Final | ~2.98 | ~19.8 |
| Eval | 2.985 | 19.78 |
Usage
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_id = "stukenov/sozkz-core-llama-150m-kk-base-v1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.float32)
text = "Қазақстан Президенті"
inputs = tokenizer(text, return_tensors="pt")
output = model.generate(
**inputs,
max_new_tokens=150,
temperature=0.8,
top_p=0.9,
repetition_penalty=1.1,
do_sample=True,
)
print(tokenizer.decode(output[0], skip_special_tokens=True))
Sample Generations
📰 Политика / Жаңалықтар
Prompt: «Қазақстан Президенті»
Қазақстан Президенті Нұрсұлтан Назарбаев «Болашаққа бағдар: рухани жаңғыру» атты бағдарламалық мақаласында «Мен еліміз мықты, әрі жауапкершілігі жоғары Біртұтас Ұлт болу үшін болашаққа қалай қадам басатынымыз және бұқаралық сананы қалай өзгертетініміз туралы көзқарастарымды ортаға салуды жөн көрдім...»
💰 Экономика
Prompt: «Экономика министрлігі»
Экономика министрлігі хабарлағандай, Қазақстанда жалпы құны 96 миллиард теңгені құрайтын 350-ден астам инвестициялық жоба жүзеге асырылып жатыр. «Алынған мәліметтерге сәйкес, бүгінгі таңда 258 мың жұмыс орны ашылды...»
🎓 Білім / Образование
Prompt: «Білім беру жүйесі»
Білім беру жүйесі үшін ең маңызды нәрсе - мұғалімдер мен оқушыларға білім берудің сапасы. Нені және қалай оқыту керек? Мұғалімнің кәсіби құзіреттілігі - сапалы білімге қол жеткізудегі негізгі фактор...
☁️ Ауа райы / Погода
Prompt: «Ауа райы болжамы бойынша»
Ауа райы болжамы бойынша, еліміздің кей жерлерінде жаңбыр жауып, найзағай ойнайды. Кей жерлерде тұман түседі. Оңтүстікте шаңды дауыл тұрады деп күтіледі. Жел оңтүстік-шығыстан соғады, күндіз екпіні 15-20 м/с жетеді...
🏆 Спорт
Prompt: «Футбол чемпионаты»
Футбол чемпионаты мен Кубогында "Қайрат" сырт алаңда "Ақтөбеден" басым түсті. "Қайрат" футболшылары үш ұпаймен екінші орынға жайғасты...
🏥 Денсаулық / Здоровье
Prompt: «Денсаулық сақтау министрлігі»
Денсаулық сақтау министрлігі Қазақстан Республикасының Денсаулық сақтау министрі міндетін атқарушысының бұйрығымен бекітілген «Стационарлық деңгейде емдеумен және медициналық оңалтумен қамтамасыз ету қағидаларына» сәйкес медициналық көмек көрсету үшін іс-шараларды жүзеге асыру қажет...
🌍 Тарих / История
Prompt: «Қазақ халқының тарихы»
Қазақ халқының тарихы мен мәдениеті туралы сөз қозғағанда, ең алдымен еске алатындарыңыз осы. Қазақ халқы-тарихтың терең қойнауынан бастау алып, өз ұрпағының санасына сіңген ұлттық коды. Сондықтан да оның тарихы мен мәдениетін келер ұрпаққа аманаттау бүгінгі ұрпақтың парызы болмақ...
🤖 Технология
Prompt: «Жасанды интеллект технологиясы»
Жасанды интеллект технологиясы бойынша жасалған. Бұл құрылғы адам мен робот арасындағы байланысты жүзеге асырады, нәтижесінде жасанды интеллект адамды қоршаған орта жайлы ақпаратты өңдеуге мүмкіндік береді...
🏙️ Күнделікті өмір / Быт
Prompt: «Алматы қаласында бүгін»
Алматы қаласында бүгіннен бастап қалааралық автобустар уақытша жүрмейді. Бұл туралы қалалық жолаушылар көлігі және автомобиль жолдары бөлімінің басшысы Арман Әбдешов хабарлады...
Comparison with Previous Experiment
| exp013 (50M) | exp014 (150M) | |
|---|---|---|
| Parameters | 50.3M | 151.9M |
| Eval Loss | 3.185 | 2.985 |
| Perplexity | 24.2 | 19.78 |
| Training time | 12.5h | 26h |
| Cost | ~$7 | ~$17 |
Limitations
- Hallucination: The model generates plausible-sounding but factually incorrect information (names, numbers, dates)
- No instruction following: This is a base (completion) model, not fine-tuned for chat or instructions
- Context: 1,024 tokens maximum context length
- Knowledge cutoff: Reflects training data collected up to early 2026
Citation
@model{sozkz_llama_150m_2026,
title={SozKZ Core Llama 150M: Kazakh Language Model},
author={Saken Tukenov},
year={2026},
url={https://huggingface.co/stukenov/sozkz-core-llama-150m-kk-base-v1}
}
- Downloads last month
- -