litert-community
/

gemma-4-E2B-it-litert-lm

LiteRT-LM

Model card Files Files and versions

xet

Community

marissaw commited on Apr 1

Commit

b2ddd6b

verified ·

1 Parent(s): a872a24

Update README.md

Browse files

Files changed (1) hide show

README.md +199 -0

README.md CHANGED Viewed

@@ -20,8 +20,90 @@ Main Model Card: [google/gemma-4-E2B-it](https://huggingface.co/google/gemma-4-E
 ## Build with Gemma 4 E2B and LiteRT-LM
 ## Gemma 4 E2B Performance on LiteRT-LM
 <table border="1">
   <tr>
    <th style="text-align: left">Backend</th>
@@ -51,7 +133,124 @@ Main Model Card: [google/gemma-4-E2B-it](https://huggingface.co/google/gemma-4-E
 <td><p style="text-align: right">TODO</p></td>
 <td><p style="text-align: right">TODO</p></td>
 </tr>
 </table>
 ## Gemma 4 E2B Performance on Web

 ## Build with Gemma 4 E2B and LiteRT-LM
+Ready to integrate this into your product? Get started [here](https://ai.google.dev/edge/litert-lm/overview).
 ## Gemma 4 E2B Performance on LiteRT-LM
+All benchmarks were taken using 1024 prefill tokens and 256 decode tokens with a context length of 2048 tokens via LiteRT-LM. The model can support up to 32k context length. The inference on CPU is accelerated via the LiteRT XNNPACK delegate with 4 threads. Time-to-first-token does not include load time. Benchmarks were run with caches enabled and initialized. During the first run, the latency and memory usage may differ. Model size is the size of the file on disk.
+CPU memory was measured using, rusage::ru_maxrss on Android, Linux and Raspberry Pi, task_vm_info::phys_footprint on iOS and MacBook and process_memory_counters::PrivateUsage on Windows.
+### Android
+Benchmarked on S26 Ultra.
+*Note: On [supported Android devices](https://developers.google.com/ml-kit), Gemma 4 is available through Android AI Core as [Gemini Nano](https://developer.android.com/ai/gemini-nano#architecture), which is the recommended path for production applications.*
+<table border="1">
+  <tr>
+   <th style="text-align: left">Backend</th>
+   <th style="text-align: left">Quantization scheme</th>
+   <th style="text-align: left">Prefill (tokens/sec)</th>
+   <th style="text-align: left">Decode (tokens/sec)</th>
+   <th style="text-align: left">Time-to-first-token (sec)</th>
+   <th style="text-align: left">Model size (MB)</th>
+   <th style="text-align: left">CPU Memory (RSS in MB)</th>
+   <th></th>
+  </tr>
+  <tr>
+<td><p style="text-align: left">CPU</p></td>
+<td><p style="text-align: left">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+</tr>
+  <tr>
+<td><p style="text-align: left">GPU</p></td>
+<td><p style="text-align: left">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+</tr>
+</table>
+### iOS
+Benchmarked on iPhone 17 Pro.
+<table border="1">
+  <tr>
+   <th style="text-align: left">Backend</th>
+   <th style="text-align: left">Quantization scheme</th>
+   <th style="text-align: left">Prefill (tokens/sec)</th>
+   <th style="text-align: left">Decode (tokens/sec)</th>
+   <th style="text-align: left">Time-to-first-token (sec)</th>
+   <th style="text-align: left">Model size (MB)</th>
+   <th style="text-align: left">CPU Memory (RSS in MB)</th>
+   <th></th>
+  </tr>
+  <tr>
+<td><p style="text-align: left">CPU</p></td>
+<td><p style="text-align: left">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+</tr>
+  <tr>
+<td><p style="text-align: left">GPU</p></td>
+<td><p style="text-align: left">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+</tr>
+</table>
+### Linux
+Benchmarked on NVIDIA GeForce RTX 4090.
 <table border="1">
   <tr>
    <th style="text-align: left">Backend</th>
 <td><p style="text-align: right">TODO</p></td>
 <td><p style="text-align: right">TODO</p></td>
 </tr>
+</table>
+### MacBook
+Benchmarked on MacBook Pro M4.
+<table border="1">
+  <tr>
+   <th style="text-align: left">Backend</th>
+   <th style="text-align: left">Quantization scheme</th>
+   <th style="text-align: left">Prefill (tokens/sec)</th>
+   <th style="text-align: left">Decode (tokens/sec)</th>
+   <th style="text-align: left">Time-to-first-token (sec)</th>
+   <th style="text-align: left">Model size (MB)</th>
+   <th style="text-align: left">CPU Memory (RSS in MB)</th>
+   <th></th>
+  </tr>
+  <tr>
+<td><p style="text-align: left">CPU</p></td>
+<td><p style="text-align: left">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+</tr>
+  <tr>
+<td><p style="text-align: left">GPU</p></td>
+<td><p style="text-align: left">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+</tr>
+</table>
+### Windows
+<table border="1">
+  <tr>
+   <th style="text-align: left">Backend</th>
+   <th style="text-align: left">Quantization scheme</th>
+   <th style="text-align: left">Prefill (tokens/sec)</th>
+   <th style="text-align: left">Decode (tokens/sec)</th>
+   <th style="text-align: left">Time-to-first-token (sec)</th>
+   <th style="text-align: left">Model size (MB)</th>
+   <th style="text-align: left">CPU Memory (RSS in MB)</th>
+   <th></th>
+  </tr>
+  <tr>
+<td><p style="text-align: left">CPU</p></td>
+<td><p style="text-align: left">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+</tr>
+  <tr>
+<td><p style="text-align: left">GPU</p></td>
+<td><p style="text-align: left">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+</tr>
+</table>
+### IoT
+Raspberry Pi 5 16GB
+<table border="1">
+  <tr>
+   <th style="text-align: left">Backend</th>
+   <th style="text-align: left">Quantization scheme</th>
+   <th style="text-align: left">Prefill (tokens/sec)</th>
+   <th style="text-align: left">Decode (tokens/sec)</th>
+   <th style="text-align: left">Time-to-first-token (sec)</th>
+   <th style="text-align: left">Model size (MB)</th>
+   <th style="text-align: left">CPU Memory (RSS in MB)</th>
+   <th></th>
+  </tr>
+  <tr>
+<td><p style="text-align: left">CPU</p></td>
+<td><p style="text-align: left">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+</tr>
+</table>
+Qualcomm IQ-8275 EVK
+<table border="1">
+  <tr>
+   <th style="text-align: left">Backend</th>
+   <th style="text-align: left">Quantization scheme</th>
+   <th style="text-align: left">Prefill (tokens/sec)</th>
+   <th style="text-align: left">Decode (tokens/sec)</th>
+   <th style="text-align: left">Time-to-first-token (sec)</th>
+   <th style="text-align: left">Model size (MB)</th>
+   <th style="text-align: left">CPU Memory (RSS in MB)</th>
+   <th></th>
+  </tr>
+  <tr>
+<td><p style="text-align: left">CPU</p></td>
+<td><p style="text-align: left">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+<td><p style="text-align: right">TODO</p></td>
+</tr>
 </table>
 ## Gemma 4 E2B Performance on Web