--- license: apache-2.0 base_model: speakleash/Bielik-Minitron-7B-v3.0-Instruct language: - pl - en tags: - mlx - apple-silicon - bielik - speakleash - polish - text-generation library_name: mlx pipeline_tag: text-generation --- # Bielik-Minitron-7B-v3.0-Instruct — MLX 8bit Konwersja [`speakleash/Bielik-Minitron-7B-v3.0-Instruct`](https://huggingface.co/speakleash/Bielik-Minitron-7B-v3.0-Instruct) do formatu **MLX** (Apple Silicon), kwantyzacja **8bit**. Oryginalny model to skompresowana wersja **Bielika-11B-v3.0** (z 11.04B do 7.35B parametrów, -33%) przez structured pruning + knowledge distillation z użyciem NVIDIA Model Optimizer i NeMo Framework. Podejście inspirowane techniką Minitron. Paper: [arxiv.org/abs/2603.11881](https://arxiv.org/abs/2603.11881) ## Warianty kwantyzacji | Wariant | Rozmiar | Use case | |---|---|---| | [MLX-4bit](https://huggingface.co/agentGreg/Bielik-Minitron-7B-v3.0-Instruct-MLX-4bit) | ~4 GB | Edge / MacBook Air, ograniczona pamięć | | [MLX-6bit](https://huggingface.co/agentGreg/Bielik-Minitron-7B-v3.0-Instruct-MLX-6bit) | ~5.5 GB | Sweet spot quality/size | | [MLX-8bit](https://huggingface.co/agentGreg/Bielik-Minitron-7B-v3.0-Instruct-MLX-8bit) | ~8 GB | Wysoka jakość, blisko bf16 | | [MLX-bf16](https://huggingface.co/agentGreg/Bielik-Minitron-7B-v3.0-Instruct-MLX-bf16) | ~15 GB | Pełna precyzja, źródło do dalszych konwersji | **Aktualne repo: 8bit** (7.4 GB) ## Użycie Wymagane: macOS na Apple Silicon, Python 3.10+. ```bash pip install mlx-lm ``` ```python from mlx_lm import load, generate model, tokenizer = load("agentGreg/Bielik-Minitron-7B-v3.0-Instruct-MLX-8bit") messages = [ {"role": "user", "content": "Wyjaśnij prosto czym różni się prędkość od przyspieszenia."}, ] prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False) print(generate(model, tokenizer, prompt=prompt, max_tokens=400, verbose=True)) ``` ## Wydajność benchmarkowa Bielik-Minitron 7B został przetestowany na oficjalnym arkuszu CKE z **egzaminu ósmoklasisty z matematyki 2026** (12 maja 2026, 20 zadań, 30 pkt maksimum), w porównaniu z 7 innymi konfiguracjami modeli ~4-12B parametrów. **Wynik: 🥇 25/30 (83%)** — pierwsze miejsce w stawce, jedyny model który przekroczył 80%. | Pozycja | Model | Wynik | |---|---|---| | 🥇 | **Bielik-Minitron 7B v3 (MLX 8-bit)** | **25/30 (83%)** | | 🥈 | Bielik 4.5B v3 | 24/30 (80%) | | 🥈 | Gemma 4 E4B (text-only) | 24/30 (80%) | | 4 | Gemma 4 E4B (multimodal) | 23/30 (77%) | | 5 | Gemma 3 4B (text-only) | 18/30 (60%) | | 6 | Gemma 3 4B (multimodal) | 14/30 (47%) | | 7 | Llama-PLLuM 8B | 3/30 (10%) | | 7 | PLLuM 12B | 3/30 (10%) | Pełna metodyka, kod, klucz odpowiedzi i analiza per-zadaniowa: [github.com/agentGreg/egzamin-8-klasisty-maly-llm](https://github.com/agentGreg/egzamin-8-klasisty-maly-llm) ## Atrybucja - **Model bazowy:** [`speakleash/Bielik-Minitron-7B-v3.0-Instruct`](https://huggingface.co/speakleash/Bielik-Minitron-7B-v3.0-Instruct) — © SpeakLeash team - **Paper:** [_Compressing Polish LLMs with Hybrid Pruning and Distillation_](https://arxiv.org/abs/2603.11881) - **Konwersja do MLX:** [Grzegorz Brzezinka](mailto:greg@prosit.no) ([Prosit AS](https://prosit.no)), opublikowane za zgodą zespołu SpeakLeash - **Narzędzie konwersji:** [`mlx-lm`](https://github.com/ml-explore/mlx-lm) (0.31.3) ## Licencja Apache 2.0 — zgodnie z licencją oryginalnego modelu. ## Cytowanie Jeśli używasz tego modelu w pracy naukowej lub komercyjnej, cytuj oryginalny paper SpeakLeash: ``` @article{bielik_minitron_2026, title={Compressing Polish LLMs with Hybrid Pruning and Distillation}, author={SpeakLeash team}, journal={arXiv preprint arXiv:2603.11881}, year={2026} } ``` --- *Wagi MLX przygotowane w ramach benchmarku [Egzamin ósmoklasisty z matematyki 2026 — benchmark małych LLM-ów](https://github.com/agentGreg/egzamin-8-klasisty-maly-llm) by [Prosit AS](https://prosit.no).*