litert-community
/

gemma-4-E2B-it-litert-lm

LiteRT-LM

Model card Files Files and versions

xet

Community

marissaw commited on Apr 1

Commit

242c4cb

verified ·

1 Parent(s): 08ca8d1

Update README.md

Browse files

Files changed (1) hide show

README.md +24 -24

README.md CHANGED Viewed

@@ -44,46 +44,46 @@ It uses the Gemma quantization scheme that employs a mixture of 2bit, 4bit and 8
 *Note: On [supported Android devices](https://developers.google.com/ml-kit), Gemma 4 is available through Android AI Core as [Gemini Nano](https://developer.android.com/ai/gemini-nano#architecture), which is the recommended path for production applications.*
-| Device &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;| Backend | Quantization scheme | Prefill (tokens/sec) | Decode (tokens/sec) | Time-to-first-token (sec) | Model size (MB) | CPU Memory (MB) |
-| :---- | :---- | :---- | :---- | :---- | :---- | :---- | :---- |
-| **S26 Ultra** | CPU | TODO | TODO | TODO | TODO | TODO | TODO |
-| **S26 Ultra** | GPU | TODO | TODO | TODO | TODO | TODO | TODO |
 **iOS**
-| Device &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;| Backend | Quantization scheme | Prefill (tokens/sec) | Decode (tokens/sec) | Time-to-first-token (sec) | Model size (MB) | CPU Memory (MB) |
-| :---- | :---- | :---- | :---- | :---- | :---- | :---- | :---- |
-| **iPhone 17 Pro** | CPU | TODO | TODO | TODO | TODO | TODO | TODO |
-| **iPhone 17 Pro** | GPU | TODO | TODO | TODO | TODO | TODO | TODO |
 **Linux**
-| Device &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;| Backend | Quantization scheme | Prefill (tokens/sec) | Decode (tokens/sec) | Time-to-first-token (sec) | Model size (MB) | CPU Memory (MB) |
-| :---- | :---- | :---- | :---- | :---- | :---- | :---- | :---- |
-| **Arm 2.3 & 2.8GHz** | CPU | TODO | TODO | TODO | TODO | TODO | TODO |
-| **NVIDIA GeForce RTX 4090** | GPU | TODO | TODO | TODO | TODO | TODO | TODO |
 **macOS**
-| Device &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;| Backend | Quantization scheme | Prefill (tokens/sec) | Decode (tokens/sec) | Time-to-first-token (sec) | Model size (MB) | CPU Memory (MB) |
-| :---- | :---- | :---- | :---- | :---- | :---- | :---- | :---- |
-| **MacBook Pro M4** | CPU | TODO | TODO | TODO | TODO | TODO | TODO |
-| **MacBook Pro M4** | GPU | TODO | TODO | TODO | TODO | TODO | TODO |
 **Windows**
-| Device &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;| Backend | Quantization scheme | Prefill (tokens/sec) | Decode (tokens/sec) | Time-to-first-token (sec) | Model size (MB) | CPU Memory (MB) |
-| :---- | :---- | :---- | :---- | :---- | :---- | :---- | :---- |
-| **Windows** | CPU | TODO | TODO | TODO | TODO | TODO | TODO |
-| **Windows** | GPU | TODO | TODO | TODO | TODO | TODO | TODO |
 **IoT**
-| Device &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;| Backend | Quantization scheme | Prefill (tokens/sec) | Decode (tokens/sec) | Time-to-first-token (sec) | Model size (MB) | CPU Memory (MB) |
-| :---- | :---- | :---- | :---- | :---- | :---- | :---- | :---- |
-| **Raspberry Pi 5 16GB** | CPU | TODO | TODO | TODO | TODO | TODO | TODO |
-| **Qualcomm IQ-8275 EVK** | NPU | TODO | TODO | TODO | TODO | TODO | TODO |
 ## Gemma 4 E2B Performance on Web

 *Note: On [supported Android devices](https://developers.google.com/ml-kit), Gemma 4 is available through Android AI Core as [Gemini Nano](https://developer.android.com/ai/gemini-nano#architecture), which is the recommended path for production applications.*
+| Device &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;| Backend | Prefill (tokens/sec) | Decode (tokens/sec) | <span style="white-space: nowrap;">Time-to-first-token</span> (sec) | Model size (MB) | CPU Memory (MB) |
+| :---- | :---- | :---- | :---- | :---- | :---- | :---- |
+| **S26 Ultra** | CPU | TODO | TODO | TODO | TODO | TODO |
+| **S26 Ultra** | GPU | TODO | TODO | TODO | TODO | TODO |
 **iOS**
+| Device &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;| Backend | Prefill (tokens/sec) | Decode (tokens/sec) | <span style="white-space: nowrap;">Time-to-first-token</span> (sec) | Model size (MB) | CPU Memory (MB) |
+| :---- | :---- | :---- | :---- | :---- | :---- | :---- |
+| **iPhone 17 Pro** | CPU | TODO | TODO | TODO | TODO | TODO |
+| **iPhone 17 Pro** | GPU | TODO | TODO | TODO | TODO | TODO |
 **Linux**
+| Device &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;| Backend | Prefill (tokens/sec) | Decode (tokens/sec) | <span style="white-space: nowrap;">Time-to-first-token</span> (sec) | Model size (MB) | CPU Memory (MB) |
+| :---- | :---- | :---- | :---- | :---- | :---- | :---- |
+| **Arm 2.3 & 2.8GHz** | CPU | TODO | TODO | TODO | TODO | TODO |
+| **NVIDIA GeForce RTX 4090** | GPU | TODO | TODO | TODO | TODO | TODO |
 **macOS**
+| Device &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;| Backend | Prefill (tokens/sec) | Decode (tokens/sec) | <span style="white-space: nowrap;">Time-to-first-token</span> (sec) | Model size (MB) | CPU Memory (MB) |
+| :---- | :---- | :---- | :---- | :---- | :---- | :---- |
+| **MacBook Pro M4** | CPU | TODO | TODO | TODO | TODO | TODO |
+| **MacBook Pro M4** | GPU | TODO | TODO | TODO | TODO | TODO |
 **Windows**
+| Device &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;| Backend | Prefill (tokens/sec) | Decode (tokens/sec) | <span style="white-space: nowrap;">Time-to-first-token</span> (sec) | Model size (MB) | CPU Memory (MB) |
+| :---- | :---- | :---- | :---- | :---- | :---- | :---- |
+| **Windows** | CPU | TODO | TODO | TODO | TODO | TODO |
+| **Windows** | GPU | TODO | TODO | TODO | TODO | TODO |
 **IoT**
+| Device &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;| Backend | Prefill (tokens/sec) | Decode (tokens/sec) | <span style="white-space: nowrap;">Time-to-first-token</span> (sec) | Model size (MB) | CPU Memory (MB) |
+| :---- | :---- | :---- | :---- | :---- | :---- | :---- |
+| **Raspberry Pi 5 16GB** | CPU | TODO | TODO | TODO | TODO | TODO |
+| **Qualcomm IQ-8275 EVK** | NPU | TODO | TODO | TODO | TODO | TODO |
 ## Gemma 4 E2B Performance on Web