--- title: Russian ASR Benchmark emoji: 🎙️ colorFrom: blue colorTo: green sdk: gradio sdk_version: 5.29.0 app_file: app.py pinned: false license: mit --- # Russian ASR Benchmark Hugging Face Space для сравнения двух моделей распознавания речи: - `Sh1man/whisper-large-v3-russian-ties-podlodka-v1.2-ct` - `ai-sage/GigaAM-v3` с revision `e2e_rnnt` Что умеет: - загрузка аудиофайла; - ввод эталонного текста вручную или загрузка `.txt`; - транскрибация обеими моделями в максимально близких к целевому инференсу конфигурациях; - расчёт `WER` и `CER`; - встроенный `GigaAM transcribe_longform` для длинных записей. ## Notes - Первая загрузка будет долгой: Space скачивает веса моделей. - Для `GigaAM v3 e2e_rnnt` используется revision `e2e_rnnt` репозитория `ai-sage/GigaAM-v3`, как указано в model card. - Для `GigaAM transcribe_longform` нужен секрет `HF_TOKEN` в настройках Space и принятые условия доступа к [`pyannote/segmentation-3.0`](https://huggingface.co/pyannote/segmentation-3.0). - `Whisper` использует `faster-whisper` / CTranslate2 с моделью `Sh1man/whisper-large-v3-russian-ties-podlodka-v1.2-ct`. - Для `Whisper` включён `BatchedInferencePipeline`, используется VAD по умолчанию и `beam_size=5`. - Word timestamps и дополнительный alignment для `Whisper` не используются, чтобы не замедлять инференс. - `GigaAM` использует встроенный VAD-longform через `transcribe_longform`. - Метрики можно считать как в сыром виде, так и после нормализации текста.