---
title: Russian ASR Benchmark
emoji: 🎙️
colorFrom: blue
colorTo: green
sdk: gradio
sdk_version: 5.29.0
app_file: app.py
pinned: false
license: mit
---

# Russian ASR Benchmark

Hugging Face Space для сравнения двух моделей распознавания речи:

- `Sh1man/whisper-large-v3-russian-ties-podlodka-v1.2-ct`
- `ai-sage/GigaAM-v3` с revision `e2e_rnnt`

Что умеет:

- загрузка аудиофайла;
- ввод эталонного текста вручную или загрузка `.txt`;
- транскрибация обеими моделями в максимально близких к целевому инференсу конфигурациях;
- расчёт `WER` и `CER`;
- встроенный `GigaAM transcribe_longform` для длинных записей.

## Notes

- Первая загрузка будет долгой: Space скачивает веса моделей.
- Для `GigaAM v3 e2e_rnnt` используется revision `e2e_rnnt` репозитория `ai-sage/GigaAM-v3`, как указано в model card.
- Для `GigaAM transcribe_longform` нужен секрет `HF_TOKEN` в настройках Space и принятые условия доступа к [`pyannote/segmentation-3.0`](https://huggingface.co/pyannote/segmentation-3.0).
- `Whisper` использует `faster-whisper` / CTranslate2 с моделью `Sh1man/whisper-large-v3-russian-ties-podlodka-v1.2-ct`.
- Для `Whisper` включён `BatchedInferencePipeline`, используется VAD по умолчанию и `beam_size=5`.
- Word timestamps и дополнительный alignment для `Whisper` не используются, чтобы не замедлять инференс.
- `GigaAM` использует встроенный VAD-longform через `transcribe_longform`.
- Метрики можно считать как в сыром виде, так и после нормализации текста.