--- language: kk license: apache-2.0 tags: - kazakh - language-model - causal-lm - from-scratch - llama pipeline_tag: text-generation --- # SozKZ Core Llama 150M — Kazakh Base Model v1 A 152M parameter Kazakh language model trained **from scratch** on 9 billion tokens of cleaned Kazakh text. Llama architecture with SwiGLU, RoPE, and RMSNorm. ## Key Results | Metric | Value | |--------|-------| | **Eval Loss** | 2.985 | | **Perplexity** | 19.78 | | **Parameters** | 151.87M | | **Training tokens** | ~9.0B | | **Training cost** | ~$17 (2× RTX 4090, 26h) | ## Architecture | Parameter | Value | |-----------|-------| | Type | LlamaForCausalLM | | Parameters | 151.87M | | Hidden size | 768 | | Layers | 16 | | Attention heads | 12 (MHA) | | Intermediate (SwiGLU) | 2,048 | | Vocab size | 50,257 | | Context length | 1,024 | | Tie embeddings | Yes | | Positional encoding | RoPE | | Normalization | RMSNorm | ## Training Data Trained on [sozkz-corpus-clean-v3](https://huggingface.co/datasets/stukenov/sozkz-corpus-clean-v3) — a large-scale cleaned and deduplicated Kazakh corpus: | Metric | Value | |--------|-------| | Documents | 13.7M | | Kazakh words | ~5.4 billion | | Kazakh sentences | ~501 million | | Characters | ~42.7 billion | | Tokens (BPE 50K) | ~9.0 billion | | Sources | 18 (CulturaX, HPLT, mC4, CC-100, MADLAD-400, Leipzig, Wikipedia, etc.) | | Cleaning | 9-stage pipeline (NFC, min length, Kazakh chars, script profile, LID, dedup) | | Pass rate | 48.2% (28.4M raw → 13.7M clean) | ## Training | Parameter | Value | |-----------|-------| | Hardware | 2× NVIDIA RTX 4090 (vast.ai, DDP) | | Effective batch | 240 (12/GPU × 10 grad_accum × 2 GPUs) | | Learning rate | 3e-4 (cosine, 750 warmup steps) | | Weight decay | 0.1 | | Precision | bf16 | | Steps | 36,616 | | Duration | ~26 hours | | Speed | 2.37 s/step | ### Loss Curve | Step | Train Loss | Perplexity | |------|-----------|------------| | 50 | 8.800 | 6,634 | | 200 | 6.782 | 879 | | 400 | 5.504 | 246 | | Final | ~2.98 | ~19.8 | | **Eval** | **2.985** | **19.78** | ## Usage ```python from transformers import AutoModelForCausalLM, AutoTokenizer import torch model_id = "stukenov/sozkz-core-llama-150m-kk-base-v1" tokenizer = AutoTokenizer.from_pretrained(model_id) model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.float32) text = "Қазақстан Президенті" inputs = tokenizer(text, return_tensors="pt") output = model.generate( **inputs, max_new_tokens=150, temperature=0.8, top_p=0.9, repetition_penalty=1.1, do_sample=True, ) print(tokenizer.decode(output[0], skip_special_tokens=True)) ``` ## Sample Generations ### 📰 Политика / Жаңалықтар **Prompt:** «Қазақстан Президенті» > Қазақстан Президенті Нұрсұлтан Назарбаев «Болашаққа бағдар: рухани жаңғыру» атты бағдарламалық мақаласында «Мен еліміз мықты, әрі жауапкершілігі жоғары Біртұтас Ұлт болу үшін болашаққа қалай қадам басатынымыз және бұқаралық сананы қалай өзгертетініміз туралы көзқарастарымды ортаға салуды жөн көрдім...» ### 💰 Экономика **Prompt:** «Экономика министрлігі» > Экономика министрлігі хабарлағандай, Қазақстанда жалпы құны 96 миллиард теңгені құрайтын 350-ден астам инвестициялық жоба жүзеге асырылып жатыр. «Алынған мәліметтерге сәйкес, бүгінгі таңда 258 мың жұмыс орны ашылды...» ### 🎓 Білім / Образование **Prompt:** «Білім беру жүйесі» > Білім беру жүйесі үшін ең маңызды нәрсе - мұғалімдер мен оқушыларға білім берудің сапасы. Нені және қалай оқыту керек? Мұғалімнің кәсіби құзіреттілігі - сапалы білімге қол жеткізудегі негізгі фактор... ### ☁️ Ауа райы / Погода **Prompt:** «Ауа райы болжамы бойынша» > Ауа райы болжамы бойынша, еліміздің кей жерлерінде жаңбыр жауып, найзағай ойнайды. Кей жерлерде тұман түседі. Оңтүстікте шаңды дауыл тұрады деп күтіледі. Жел оңтүстік-шығыстан соғады, күндіз екпіні 15-20 м/с жетеді... ### 🏆 Спорт **Prompt:** «Футбол чемпионаты» > Футбол чемпионаты мен Кубогында "Қайрат" сырт алаңда "Ақтөбеден" басым түсті. "Қайрат" футболшылары үш ұпаймен екінші орынға жайғасты... ### 🏥 Денсаулық / Здоровье **Prompt:** «Денсаулық сақтау министрлігі» > Денсаулық сақтау министрлігі Қазақстан Республикасының Денсаулық сақтау министрі міндетін атқарушысының бұйрығымен бекітілген «Стационарлық деңгейде емдеумен және медициналық оңалтумен қамтамасыз ету қағидаларына» сәйкес медициналық көмек көрсету үшін іс-шараларды жүзеге асыру қажет... ### 🌍 Тарих / История **Prompt:** «Қазақ халқының тарихы» > Қазақ халқының тарихы мен мәдениеті туралы сөз қозғағанда, ең алдымен еске алатындарыңыз осы. Қазақ халқы-тарихтың терең қойнауынан бастау алып, өз ұрпағының санасына сіңген ұлттық коды. Сондықтан да оның тарихы мен мәдениетін келер ұрпаққа аманаттау бүгінгі ұрпақтың парызы болмақ... ### 🤖 Технология **Prompt:** «Жасанды интеллект технологиясы» > Жасанды интеллект технологиясы бойынша жасалған. Бұл құрылғы адам мен робот арасындағы байланысты жүзеге асырады, нәтижесінде жасанды интеллект адамды қоршаған орта жайлы ақпаратты өңдеуге мүмкіндік береді... ### 🏙️ Күнделікті өмір / Быт **Prompt:** «Алматы қаласында бүгін» > Алматы қаласында бүгіннен бастап қалааралық автобустар уақытша жүрмейді. Бұл туралы қалалық жолаушылар көлігі және автомобиль жолдары бөлімінің басшысы Арман Әбдешов хабарлады... ## Comparison with Previous Experiment | | exp013 (50M) | **exp014 (150M)** | |---|---|---| | Parameters | 50.3M | **151.9M** | | Eval Loss | 3.185 | **2.985** | | Perplexity | 24.2 | **19.78** | | Training time | 12.5h | 26h | | Cost | ~$7 | ~$17 | ## Limitations - **Hallucination**: The model generates plausible-sounding but factually incorrect information (names, numbers, dates) - **No instruction following**: This is a base (completion) model, not fine-tuned for chat or instructions - **Context**: 1,024 tokens maximum context length - **Knowledge cutoff**: Reflects training data collected up to early 2026 ## Citation ```bibtex @model{sozkz_llama_150m_2026, title={SozKZ Core Llama 150M: Kazakh Language Model}, author={Saken Tukenov}, year={2026}, url={https://huggingface.co/stukenov/sozkz-core-llama-150m-kk-base-v1} } ```