You need to agree to share your contact information to access this model

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

Log in or Sign Up to review the conditions and access this model content.

SozKZ Core Llama 150M — Kazakh Base Model v1

A 152M parameter Kazakh language model trained from scratch on 9 billion tokens of cleaned Kazakh text. Llama architecture with SwiGLU, RoPE, and RMSNorm.

Key Results

Metric Value
Eval Loss 2.985
Perplexity 19.78
Parameters 151.87M
Training tokens ~9.0B
Training cost ~$17 (2× RTX 4090, 26h)

Architecture

Parameter Value
Type LlamaForCausalLM
Parameters 151.87M
Hidden size 768
Layers 16
Attention heads 12 (MHA)
Intermediate (SwiGLU) 2,048
Vocab size 50,257
Context length 1,024
Tie embeddings Yes
Positional encoding RoPE
Normalization RMSNorm

Training Data

Trained on sozkz-corpus-clean-v3 — a large-scale cleaned and deduplicated Kazakh corpus:

Metric Value
Documents 13.7M
Kazakh words ~5.4 billion
Kazakh sentences ~501 million
Characters ~42.7 billion
Tokens (BPE 50K) ~9.0 billion
Sources 18 (CulturaX, HPLT, mC4, CC-100, MADLAD-400, Leipzig, Wikipedia, etc.)
Cleaning 9-stage pipeline (NFC, min length, Kazakh chars, script profile, LID, dedup)
Pass rate 48.2% (28.4M raw → 13.7M clean)

Training

Parameter Value
Hardware 2× NVIDIA RTX 4090 (vast.ai, DDP)
Effective batch 240 (12/GPU × 10 grad_accum × 2 GPUs)
Learning rate 3e-4 (cosine, 750 warmup steps)
Weight decay 0.1
Precision bf16
Steps 36,616
Duration ~26 hours
Speed 2.37 s/step

Loss Curve

Step Train Loss Perplexity
50 8.800 6,634
200 6.782 879
400 5.504 246
Final ~2.98 ~19.8
Eval 2.985 19.78

Usage

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_id = "stukenov/sozkz-core-llama-150m-kk-base-v1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.float32)

text = "Қазақстан Президенті"
inputs = tokenizer(text, return_tensors="pt")
output = model.generate(
    **inputs,
    max_new_tokens=150,
    temperature=0.8,
    top_p=0.9,
    repetition_penalty=1.1,
    do_sample=True,
)
print(tokenizer.decode(output[0], skip_special_tokens=True))

Sample Generations

📰 Политика / Жаңалықтар

Prompt: «Қазақстан Президенті»

Қазақстан Президенті Нұрсұлтан Назарбаев «Болашаққа бағдар: рухани жаңғыру» атты бағдарламалық мақаласында «Мен еліміз мықты, әрі жауапкершілігі жоғары Біртұтас Ұлт болу үшін болашаққа қалай қадам басатынымыз және бұқаралық сананы қалай өзгертетініміз туралы көзқарастарымды ортаға салуды жөн көрдім...»

💰 Экономика

Prompt: «Экономика министрлігі»

Экономика министрлігі хабарлағандай, Қазақстанда жалпы құны 96 миллиард теңгені құрайтын 350-ден астам инвестициялық жоба жүзеге асырылып жатыр. «Алынған мәліметтерге сәйкес, бүгінгі таңда 258 мың жұмыс орны ашылды...»

🎓 Білім / Образование

Prompt: «Білім беру жүйесі»

Білім беру жүйесі үшін ең маңызды нәрсе - мұғалімдер мен оқушыларға білім берудің сапасы. Нені және қалай оқыту керек? Мұғалімнің кәсіби құзіреттілігі - сапалы білімге қол жеткізудегі негізгі фактор...

☁️ Ауа райы / Погода

Prompt: «Ауа райы болжамы бойынша»

Ауа райы болжамы бойынша, еліміздің кей жерлерінде жаңбыр жауып, найзағай ойнайды. Кей жерлерде тұман түседі. Оңтүстікте шаңды дауыл тұрады деп күтіледі. Жел оңтүстік-шығыстан соғады, күндіз екпіні 15-20 м/с жетеді...

🏆 Спорт

Prompt: «Футбол чемпионаты»

Футбол чемпионаты мен Кубогында "Қайрат" сырт алаңда "Ақтөбеден" басым түсті. "Қайрат" футболшылары үш ұпаймен екінші орынға жайғасты...

🏥 Денсаулық / Здоровье

Prompt: «Денсаулық сақтау министрлігі»

Денсаулық сақтау министрлігі Қазақстан Республикасының Денсаулық сақтау министрі міндетін атқарушысының бұйрығымен бекітілген «Стационарлық деңгейде емдеумен және медициналық оңалтумен қамтамасыз ету қағидаларына» сәйкес медициналық көмек көрсету үшін іс-шараларды жүзеге асыру қажет...

🌍 Тарих / История

Prompt: «Қазақ халқының тарихы»

Қазақ халқының тарихы мен мәдениеті туралы сөз қозғағанда, ең алдымен еске алатындарыңыз осы. Қазақ халқы-тарихтың терең қойнауынан бастау алып, өз ұрпағының санасына сіңген ұлттық коды. Сондықтан да оның тарихы мен мәдениетін келер ұрпаққа аманаттау бүгінгі ұрпақтың парызы болмақ...

🤖 Технология

Prompt: «Жасанды интеллект технологиясы»

Жасанды интеллект технологиясы бойынша жасалған. Бұл құрылғы адам мен робот арасындағы байланысты жүзеге асырады, нәтижесінде жасанды интеллект адамды қоршаған орта жайлы ақпаратты өңдеуге мүмкіндік береді...

🏙️ Күнделікті өмір / Быт

Prompt: «Алматы қаласында бүгін»

Алматы қаласында бүгіннен бастап қалааралық автобустар уақытша жүрмейді. Бұл туралы қалалық жолаушылар көлігі және автомобиль жолдары бөлімінің басшысы Арман Әбдешов хабарлады...

Comparison with Previous Experiment

exp013 (50M) exp014 (150M)
Parameters 50.3M 151.9M
Eval Loss 3.185 2.985
Perplexity 24.2 19.78
Training time 12.5h 26h
Cost ~$7 ~$17

Limitations

  • Hallucination: The model generates plausible-sounding but factually incorrect information (names, numbers, dates)
  • No instruction following: This is a base (completion) model, not fine-tuned for chat or instructions
  • Context: 1,024 tokens maximum context length
  • Knowledge cutoff: Reflects training data collected up to early 2026

Citation

@model{sozkz_llama_150m_2026,
  title={SozKZ Core Llama 150M: Kazakh Language Model},
  author={Saken Tukenov},
  year={2026},
  url={https://huggingface.co/stukenov/sozkz-core-llama-150m-kk-base-v1}
}
Downloads last month
-
Safetensors
Model size
0.2B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for stukenov/sozkz-core-llama-150m-kk-base-v1

Finetunes
2 models

Collection including stukenov/sozkz-core-llama-150m-kk-base-v1