trfms-integration (#39)

- Upload processor (3a5abaf60ef0a67fae59b9e02dd3789290f08ce9)
- Upload ParakeetForTDT (c8f5c22ac90fb7d088227e148faa093e435e37c9)

Co-authored-by: Eustache Le Bihan <eustlb@users.noreply.huggingface.co>

Files changed (7) hide show

README.md +119 -134
config.json +49 -0
generation_config.json +15 -0
model.safetensors +3 -0
processor_config.json +16 -0
tokenizer.json +0 -0
tokenizer_config.json +9 -0

README.md CHANGED Viewed

@@ -27,13 +27,11 @@ language:
 - sv
 - ru
 - uk
 pipeline_tag: automatic-speech-recognition
 library_name: nemo
 datasets:
 - nvidia/Granary
 - nemo/asr-set-3.0
-thumbnail: null
 tags:
 - automatic-speech-recognition
 - speech
@@ -50,12 +48,14 @@ widget:
   src: https://cdn-media.huggingface.co/speech_samples/sample1.flac
 - example_title: Librispeech sample 2
   src: https://cdn-media.huggingface.co/speech_samples/sample2.flac
 model-index:
 - name: parakeet-tdt-0.6b-v3
   results:
   - task:
-      name: Automatic Speech Recognition
       type: automatic-speech-recognition
     dataset:
       name: AMI (Meetings test)
       type: edinburghcstr/ami
@@ -64,12 +64,12 @@ model-index:
       args:
         language: en
     metrics:
-    - name: Test WER
-      type: wer
       value: 11.31
   - task:
-      name: Automatic Speech Recognition
       type: automatic-speech-recognition
     dataset:
       name: Earnings-22
       type: revdotcom/earnings22
@@ -77,12 +77,12 @@ model-index:
       args:
         language: en
     metrics:
-    - name: Test WER
-      type: wer
       value: 11.42
   - task:
-      name: Automatic Speech Recognition
       type: automatic-speech-recognition
     dataset:
       name: GigaSpeech
       type: speechcolab/gigaspeech
@@ -90,12 +90,12 @@ model-index:
       args:
         language: en
     metrics:
-    - name: Test WER
-      type: wer
       value: 9.59
   - task:
-      name: Automatic Speech Recognition
       type: automatic-speech-recognition
     dataset:
       name: LibriSpeech (clean)
       type: librispeech_asr
@@ -104,23 +104,12 @@ model-index:
       args:
         language: en
     metrics:
-    - name: Test WER
-      type: wer
       value: 1.93
-  - task:
-      name: Automatic Speech Recognition
-      type: automatic-speech-recognition
-    dataset:
-      name: LibriSpeech (other)
-      type: librispeech_asr
-      config: other
-      split: test
-      args:
-        language: en
-    metrics:
-    - name: Test WER
-      type: wer
       value: 3.59
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -132,9 +121,9 @@ model-index:
       args:
         language: en
     metrics:
-    - name: Test WER
-      type: wer
       value: 3.97
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -146,12 +135,12 @@ model-index:
       args:
         language: en
     metrics:
-    - name: Test WER
-      type: wer
       value: 2.75
   - task:
-      name: Automatic Speech Recognition
       type: automatic-speech-recognition
     dataset:
       name: Vox Populi
       type: facebook/voxpopuli
@@ -160,9 +149,9 @@ model-index:
       args:
         language: en
     metrics:
-    - name: Test WER
-      type: wer
       value: 6.14
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -174,9 +163,9 @@ model-index:
       args:
         language: bg
     metrics:
-    - name: Test WER (Bg)
-      type: wer
       value: 12.64
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -188,9 +177,9 @@ model-index:
       args:
         language: cs
     metrics:
-    - name: Test WER (Cs)
-      type: wer
       value: 11.01
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -202,9 +191,9 @@ model-index:
       args:
         language: da
     metrics:
-    - name: Test WER (Da)
-      type: wer
       value: 18.41
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -216,9 +205,9 @@ model-index:
       args:
         language: de
     metrics:
-    - name: Test WER (De)
-      type: wer
       value: 5.04
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -230,9 +219,9 @@ model-index:
       args:
         language: el
     metrics:
-    - name: Test WER (El)
-      type: wer
-      value: 20.70
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -244,9 +233,9 @@ model-index:
       args:
         language: en
     metrics:
-    - name: Test WER (En)
-      type: wer
       value: 4.85
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -258,9 +247,9 @@ model-index:
       args:
         language: es
     metrics:
-    - name: Test WER (Es)
-      type: wer
       value: 3.45
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -272,9 +261,9 @@ model-index:
       args:
         language: et
     metrics:
-    - name: Test WER (Et)
-      type: wer
       value: 17.73
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -286,9 +275,9 @@ model-index:
       args:
         language: fi
     metrics:
-    - name: Test WER (Fi)
-      type: wer
       value: 13.21
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -300,9 +289,9 @@ model-index:
       args:
         language: fr
     metrics:
-    - name: Test WER (Fr)
-      type: wer
       value: 5.15
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -314,9 +303,9 @@ model-index:
       args:
         language: hr
     metrics:
-    - name: Test WER (Hr)
-      type: wer
       value: 12.46
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -328,9 +317,9 @@ model-index:
       args:
         language: hu
     metrics:
-    - name: Test WER (Hu)
-      type: wer
       value: 15.72
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -342,9 +331,9 @@ model-index:
       args:
         language: it
     metrics:
-    - name: Test WER (It)
-      type: wer
-      value: 3.00
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -356,9 +345,9 @@ model-index:
       args:
         language: lt
     metrics:
-    - name: Test WER (Lt)
-      type: wer
       value: 20.35
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -370,9 +359,9 @@ model-index:
       args:
         language: lv
     metrics:
-    - name: Test WER (Lv)
-      type: wer
       value: 22.84
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -384,9 +373,9 @@ model-index:
       args:
         language: mt
     metrics:
-    - name: Test WER (Mt)
-      type: wer
       value: 20.46
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -398,9 +387,9 @@ model-index:
       args:
         language: nl
     metrics:
-    - name: Test WER (Nl)
-      type: wer
       value: 7.48
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -412,9 +401,9 @@ model-index:
       args:
         language: pl
     metrics:
-    - name: Test WER (Pl)
-      type: wer
       value: 7.31
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -426,9 +415,9 @@ model-index:
       args:
         language: pt
     metrics:
-    - name: Test WER (Pt)
-      type: wer
       value: 4.76
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -440,9 +429,9 @@ model-index:
       args:
         language: ro
     metrics:
-    - name: Test WER (Ro)
-      type: wer
       value: 12.44
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -454,9 +443,9 @@ model-index:
       args:
         language: ru
     metrics:
-    - name: Test WER (Ru)
-      type: wer
       value: 5.51
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -468,9 +457,9 @@ model-index:
       args:
         language: sk
     metrics:
-    - name: Test WER (Sk)
-      type: wer
       value: 8.82
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -482,9 +471,9 @@ model-index:
       args:
         language: sl
     metrics:
-    - name: Test WER (Sl)
-      type: wer
       value: 24.03
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -496,9 +485,9 @@ model-index:
       args:
         language: sv
     metrics:
-    - name: Test WER (Sv)
-      type: wer
       value: 15.08
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -510,10 +499,9 @@ model-index:
       args:
         language: uk
     metrics:
-    - name: Test WER (Uk)
-      type: wer
       value: 6.79
-  # Multilingual LibriSpeech ASR Results
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -525,9 +513,9 @@ model-index:
       args:
         language: es
     metrics:
-    - name: Test WER (Es)
-      type: wer
       value: 4.39
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -539,9 +527,9 @@ model-index:
       args:
         language: fr
     metrics:
-    - name: Test WER (Fr)
-      type: wer
       value: 4.97
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -553,9 +541,9 @@ model-index:
       args:
         language: it
     metrics:
-    - name: Test WER (It)
-      type: wer
       value: 10.08
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -567,9 +555,9 @@ model-index:
       args:
         language: nl
     metrics:
-    - name: Test WER (Nl)
-      type: wer
       value: 12.78
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -581,9 +569,9 @@ model-index:
       args:
         language: pl
     metrics:
-    - name: Test WER (Pl)
-      type: wer
       value: 7.28
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -595,10 +583,9 @@ model-index:
       args:
         language: pt
     metrics:
-    - name: Test WER (Pt)
-      type: wer
-      value: 7.50
-  # CoVoST2 ASR Results
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -610,9 +597,9 @@ model-index:
       args:
         language: de
     metrics:
-    - name: Test WER (De)
-      type: wer
       value: 4.84
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -624,9 +611,9 @@ model-index:
       args:
         language: en
     metrics:
-    - name: Test WER (En)
-      type: wer
-      value: 6.80
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -638,9 +625,9 @@ model-index:
       args:
         language: es
     metrics:
-    - name: Test WER (Es)
-      type: wer
       value: 3.41
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -652,9 +639,9 @@ model-index:
       args:
         language: et
     metrics:
-    - name: Test WER (Et)
-      type: wer
       value: 22.04
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -666,9 +653,9 @@ model-index:
       args:
         language: fr
     metrics:
-    - name: Test WER (Fr)
-      type: wer
       value: 6.05
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -680,9 +667,9 @@ model-index:
       args:
         language: it
     metrics:
-    - name: Test WER (It)
-      type: wer
       value: 3.69
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -694,9 +681,9 @@ model-index:
       args:
         language: lv
     metrics:
-    - name: Test WER (Lv)
-      type: wer
       value: 38.36
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -708,9 +695,9 @@ model-index:
       args:
         language: nl
     metrics:
-    - name: Test WER (Nl)
-      type: wer
-      value: 6.50
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -722,9 +709,9 @@ model-index:
       args:
         language: pt
     metrics:
-    - name: Test WER (Pt)
-      type: wer
       value: 3.96
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -736,9 +723,9 @@ model-index:
       args:
         language: ru
     metrics:
-    - name: Test WER (Ru)
-      type: wer
-      value: 3.00
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -750,9 +737,9 @@ model-index:
       args:
         language: sl
     metrics:
-    - name: Test WER (Sl)
-      type: wer
-      value: 31.80
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -764,9 +751,9 @@ model-index:
       args:
         language: sv
     metrics:
-    - name: Test WER (Sv)
-      type: wer
       value: 20.16
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
@@ -778,11 +765,9 @@ model-index:
       args:
         language: uk
     metrics:
-    - name: Test WER (Uk)
-      type: wer
-      value: 5.10
-metrics:
-- wer
 ---
 # **<span style="color:#76b900;">🦜 parakeet-tdt-0.6b-v3: Multilingual Speech-to-Text Model</span>**

 - sv
 - ru
 - uk
 pipeline_tag: automatic-speech-recognition
 library_name: nemo
 datasets:
 - nvidia/Granary
 - nemo/asr-set-3.0
 tags:
 - automatic-speech-recognition
 - speech
   src: https://cdn-media.huggingface.co/speech_samples/sample1.flac
 - example_title: Librispeech sample 2
   src: https://cdn-media.huggingface.co/speech_samples/sample2.flac
+metrics:
+- wer
 model-index:
 - name: parakeet-tdt-0.6b-v3
   results:
   - task:
       type: automatic-speech-recognition
+      name: Automatic Speech Recognition
     dataset:
       name: AMI (Meetings test)
       type: edinburghcstr/ami
       args:
         language: en
     metrics:
+    - type: wer
       value: 11.31
+      name: Test WER
   - task:
       type: automatic-speech-recognition
+      name: Automatic Speech Recognition
     dataset:
       name: Earnings-22
       type: revdotcom/earnings22
       args:
         language: en
     metrics:
+    - type: wer
       value: 11.42
+      name: Test WER
   - task:
       type: automatic-speech-recognition
+      name: Automatic Speech Recognition
     dataset:
       name: GigaSpeech
       type: speechcolab/gigaspeech
       args:
         language: en
     metrics:
+    - type: wer
       value: 9.59
+      name: Test WER
   - task:
       type: automatic-speech-recognition
+      name: Automatic Speech Recognition
     dataset:
       name: LibriSpeech (clean)
       type: librispeech_asr
       args:
         language: en
     metrics:
+    - type: wer
       value: 1.93
+      name: Test WER
+    - type: wer
       value: 3.59
+      name: Test WER
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: en
     metrics:
+    - type: wer
       value: 3.97
+      name: Test WER
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: en
     metrics:
+    - type: wer
       value: 2.75
+      name: Test WER
   - task:
       type: automatic-speech-recognition
+      name: Automatic Speech Recognition
     dataset:
       name: Vox Populi
       type: facebook/voxpopuli
       args:
         language: en
     metrics:
+    - type: wer
       value: 6.14
+      name: Test WER
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: bg
     metrics:
+    - type: wer
       value: 12.64
+      name: Test WER (Bg)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: cs
     metrics:
+    - type: wer
       value: 11.01
+      name: Test WER (Cs)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: da
     metrics:
+    - type: wer
       value: 18.41
+      name: Test WER (Da)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: de
     metrics:
+    - type: wer
       value: 5.04
+      name: Test WER (De)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: el
     metrics:
+    - type: wer
+      value: 20.7
+      name: Test WER (El)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: en
     metrics:
+    - type: wer
       value: 4.85
+      name: Test WER (En)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: es
     metrics:
+    - type: wer
       value: 3.45
+      name: Test WER (Es)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: et
     metrics:
+    - type: wer
       value: 17.73
+      name: Test WER (Et)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: fi
     metrics:
+    - type: wer
       value: 13.21
+      name: Test WER (Fi)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: fr
     metrics:
+    - type: wer
       value: 5.15
+      name: Test WER (Fr)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: hr
     metrics:
+    - type: wer
       value: 12.46
+      name: Test WER (Hr)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: hu
     metrics:
+    - type: wer
       value: 15.72
+      name: Test WER (Hu)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: it
     metrics:
+    - type: wer
+      value: 3.0
+      name: Test WER (It)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: lt
     metrics:
+    - type: wer
       value: 20.35
+      name: Test WER (Lt)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: lv
     metrics:
+    - type: wer
       value: 22.84
+      name: Test WER (Lv)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: mt
     metrics:
+    - type: wer
       value: 20.46
+      name: Test WER (Mt)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: nl
     metrics:
+    - type: wer
       value: 7.48
+      name: Test WER (Nl)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: pl
     metrics:
+    - type: wer
       value: 7.31
+      name: Test WER (Pl)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: pt
     metrics:
+    - type: wer
       value: 4.76
+      name: Test WER (Pt)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: ro
     metrics:
+    - type: wer
       value: 12.44
+      name: Test WER (Ro)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: ru
     metrics:
+    - type: wer
       value: 5.51
+      name: Test WER (Ru)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: sk
     metrics:
+    - type: wer
       value: 8.82
+      name: Test WER (Sk)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: sl
     metrics:
+    - type: wer
       value: 24.03
+      name: Test WER (Sl)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: sv
     metrics:
+    - type: wer
       value: 15.08
+      name: Test WER (Sv)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: uk
     metrics:
+    - type: wer
       value: 6.79
+      name: Test WER (Uk)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: es
     metrics:
+    - type: wer
       value: 4.39
+      name: Test WER (Es)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: fr
     metrics:
+    - type: wer
       value: 4.97
+      name: Test WER (Fr)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: it
     metrics:
+    - type: wer
       value: 10.08
+      name: Test WER (It)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: nl
     metrics:
+    - type: wer
       value: 12.78
+      name: Test WER (Nl)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: pl
     metrics:
+    - type: wer
       value: 7.28
+      name: Test WER (Pl)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: pt
     metrics:
+    - type: wer
+      value: 7.5
+      name: Test WER (Pt)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: de
     metrics:
+    - type: wer
       value: 4.84
+      name: Test WER (De)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: en
     metrics:
+    - type: wer
+      value: 6.8
+      name: Test WER (En)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: es
     metrics:
+    - type: wer
       value: 3.41
+      name: Test WER (Es)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: et
     metrics:
+    - type: wer
       value: 22.04
+      name: Test WER (Et)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: fr
     metrics:
+    - type: wer
       value: 6.05
+      name: Test WER (Fr)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: it
     metrics:
+    - type: wer
       value: 3.69
+      name: Test WER (It)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: lv
     metrics:
+    - type: wer
       value: 38.36
+      name: Test WER (Lv)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: nl
     metrics:
+    - type: wer
+      value: 6.5
+      name: Test WER (Nl)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: pt
     metrics:
+    - type: wer
       value: 3.96
+      name: Test WER (Pt)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: ru
     metrics:
+    - type: wer
+      value: 3.0
+      name: Test WER (Ru)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: sl
     metrics:
+    - type: wer
+      value: 31.8
+      name: Test WER (Sl)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: sv
     metrics:
+    - type: wer
       value: 20.16
+      name: Test WER (Sv)
   - task:
       type: Automatic Speech Recognition
       name: automatic-speech-recognition
       args:
         language: uk
     metrics:
+    - type: wer
+      value: 5.1
+      name: Test WER (Uk)
 ---
 # **<span style="color:#76b900;">🦜 parakeet-tdt-0.6b-v3: Multilingual Speech-to-Text Model</span>**

config.json ADDED Viewed

	@@ -0,0 +1,49 @@

+{
+  "architectures": [
+    "ParakeetForTDT"
+  ],
+  "blank_token_id": 8192,
+  "decoder_hidden_size": 640,
+  "dtype": "float32",
+  "durations": [
+    0,
+    1,
+    2,
+    3,
+    4
+  ],
+  "encoder_config": {
+    "activation_dropout": 0.1,
+    "attention_bias": false,
+    "attention_dropout": 0.1,
+    "conv_kernel_size": 9,
+    "convolution_bias": false,
+    "dropout": 0.1,
+    "dropout_positions": 0.0,
+    "hidden_act": "silu",
+    "hidden_size": 1024,
+    "initializer_range": 0.02,
+    "intermediate_size": 4096,
+    "layerdrop": 0.1,
+    "max_position_embeddings": 5000,
+    "model_type": "parakeet_encoder",
+    "num_attention_heads": 8,
+    "num_hidden_layers": 24,
+    "num_key_value_heads": 8,
+    "num_mel_bins": 128,
+    "scale_input": false,
+    "subsampling_conv_channels": 256,
+    "subsampling_conv_kernel_size": 3,
+    "subsampling_conv_stride": 2,
+    "subsampling_factor": 8
+  },
+  "hidden_act": "relu",
+  "initializer_range": 0.02,
+  "is_encoder_decoder": true,
+  "max_symbols_per_step": 10,
+  "model_type": "parakeet_tdt",
+  "num_decoder_layers": 2,
+  "pad_token_id": 2,
+  "transformers_version": "5.6.0.dev0",
+  "vocab_size": 8193
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 8192,
+  "output_attentions": false,
+  "output_hidden_states": false,
+  "pad_token_id": 2,
+  "suppress_tokens": [
+    8193,
+    8194,
+    8195,
+    8196,
+    8197
+  ],
+  "transformers_version": "5.6.0.dev0"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3a2026366188c8c68598edbbff92f8d11590a08e0ae2e6775544e7b07d6a5e11
+size 2508311120

processor_config.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "blank_token": "<blank>",
+  "feature_extractor": {
+    "feature_extractor_type": "ParakeetFeatureExtractor",
+    "feature_size": 128,
+    "hop_length": 160,
+    "n_fft": 512,
+    "padding_side": "right",
+    "padding_value": 0.0,
+    "preemphasis": 0.97,
+    "return_attention_mask": true,
+    "sampling_rate": 16000,
+    "win_length": 400
+  },
+  "processor_class": "ParakeetProcessor"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "backend": "tokenizers",
+  "clean_up_tokenization_spaces": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "processor_class": "ParakeetProcessor",
+  "tokenizer_class": "ParakeetTokenizer",
+  "unk_token": "<unk>"
+}