testASRspace / README.md
eternalGenius's picture
Upload 3 files
0d5e279 verified
|
Raw
History Blame Contribute Delete
2.02 kB

A newer version of the Gradio SDK is available: 6.19.0

Upgrade
metadata
title: Russian ASR Benchmark
emoji: 🎙️
colorFrom: blue
colorTo: green
sdk: gradio
sdk_version: 5.29.0
app_file: app.py
pinned: false
license: mit

Russian ASR Benchmark

Hugging Face Space для сравнения двух моделей распознавания речи:

  • Sh1man/whisper-large-v3-russian-ties-podlodka-v1.2-ct
  • ai-sage/GigaAM-v3 с revision e2e_rnnt

Что умеет:

  • загрузка аудиофайла;
  • ввод эталонного текста вручную или загрузка .txt;
  • транскрибация обеими моделями в максимально близких к целевому инференсу конфигурациях;
  • расчёт WER и CER;
  • встроенный GigaAM transcribe_longform для длинных записей.

Notes

  • Первая загрузка будет долгой: Space скачивает веса моделей.
  • Для GigaAM v3 e2e_rnnt используется revision e2e_rnnt репозитория ai-sage/GigaAM-v3, как указано в model card.
  • Для GigaAM transcribe_longform нужен секрет HF_TOKEN в настройках Space и принятые условия доступа к pyannote/segmentation-3.0.
  • Whisper использует faster-whisper / CTranslate2 с моделью Sh1man/whisper-large-v3-russian-ties-podlodka-v1.2-ct.
  • Для Whisper включён BatchedInferencePipeline, используется VAD по умолчанию и beam_size=5.
  • Word timestamps и дополнительный alignment для Whisper не используются, чтобы не замедлять инференс.
  • GigaAM использует встроенный VAD-longform через transcribe_longform.
  • Метрики можно считать как в сыром виде, так и после нормализации текста.