Any-to-Any
MLX
Safetensors
gemma4
apple-silicon
quantized
mxfp4
custom-mlx
audio
vision
dense
mixed-precision
affine-8bit-attention
Instructions to use NeoRoth/gemma-4-e4b-it-mxfp4-mlx with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- MLX
How to use NeoRoth/gemma-4-e4b-it-mxfp4-mlx with MLX:
# Download the model from the Hub pip install huggingface_hub[hf_xet] huggingface-cli download --local-dir gemma-4-e4b-it-mxfp4-mlx NeoRoth/gemma-4-e4b-it-mxfp4-mlx
- Notebooks
- Google Colab
- Kaggle
- Local Apps Settings
- LM Studio
gemma-4-e4b-it-mxfp4-mlx
Checkpoint MLX quantifie pour Apple Silicon, derive de google/gemma-4-E4B-it.
Ce depot publie une variante locale preparee pour Oriloq MLX. L'objectif n'est pas de reproduire a l'identique une quantification communautaire standard, mais de diffuser un checkpoint telechargeable tel quel par identifiant de repo Hugging Face.
Resume
- Famille : Gemma 4 E4B
- Base model :
google/gemma-4-E4B-it - Repo id conseille :
NeoRoth/gemma-4-e4b-it-mxfp4-mlx - Modalites : text, image, audio
- Architecture : dense
- Couches texte : 42
- Profil public de quantification : MXFP4 4-bit + attention affine 8-bit
- Quantification par defaut :
mxfp44-bit,group_size=32 - Overrides par couche : 168
- Taille totale des poids : 4.97 GB
- Plus gros shard : 4.97 GB
Ce qui differe des quantifications habituelles
- Quantification non uniforme : les projections d'attention utilisent 168 overrides par couche en affine 8-bit, alors que le mode global reste en MXFP4 4-bit.
- Les composants sensibles restent en haute precision quand c'est necessaire : tours vision/audio, projecteurs multimodaux, normes et router MoE ne sont pas traites comme de simples poids MXFP4 uniformes.
- Les embeddings token suivent la politique locale du checkpoint. Sur les variantes standard publiees ici, ils ne sont pas presentes comme une quantification HF canonique quelconque : il s'agit d'un export MLX prepare pour ce projet.
Fichiers de poids
model.safetensors
Format et compatibilite
- Format de repo :
safetensors+config.json+ tokenizer/chat template. - Ce depot est pense pour les chargeurs MLX capables de lire la section
quantizationdeconfig.json, y compris les overrides par couche. - Le repo est publie en tant que checkpoint MLX complet. Il ne s'agit pas d'un simple alias vers le modele Google original.
Telechargement
Python
from huggingface_hub import snapshot_download
local_path = snapshot_download("NeoRoth/gemma-4-e4b-it-mxfp4-mlx")
print(local_path)
CLI Hugging Face
hf download NeoRoth/gemma-4-e4b-it-mxfp4-mlx --local-dir ./models/gemma-4-e4b-it-mxfp4-mlx
Notes de publication
- Licence du checkpoint heritee du modele de base : Gemma Terms of Use.
- Attribution recommandee : mentionner
google/gemma-4-E4B-itcomme modele source. - Les differences de quantification sont documentees ici pour eviter de faire passer ce checkpoint pour une quantification MXFP4 "standard" ou "officielle".
Licence et conditions d'utilisation
Ce checkpoint est un dérivé de Gemma (modèle de base google/gemma-4-E4B-it) et reste
soumis aux Gemma Terms of Use. Il n'est pas sous licence Apache 2.0.
Gemma is provided under and subject to the Gemma Terms of Use found at ai.google.dev/gemma/terms
- Conditions complètes : https://ai.google.dev/gemma/terms
- Politique d'usage interdit (Prohibited Use Policy) : https://ai.google.dev/gemma/prohibited_use_policy
- Usage commercial autorisé dans le strict respect de ces conditions.
- En téléchargeant ou en utilisant ce checkpoint, vous acceptez les Gemma Terms of Use et la Prohibited Use Policy, qui se propagent à tout usage en aval.
Le fichier LICENSE de ce dépôt rappelle l'avis Gemma à transmettre aux
utilisateurs downstream.
- Downloads last month
- 94
Model size
2B params
Tensor type
BF16
·
U8 ·
U32 ·
Hardware compatibility
Log In to add your hardware
Quantized
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support