Spaces:
Sleeping
Sleeping
A newer version of the Gradio SDK is available: 6.19.0
metadata
title: Russian ASR Benchmark
emoji: 🎙️
colorFrom: blue
colorTo: green
sdk: gradio
sdk_version: 5.29.0
app_file: app.py
pinned: false
license: mit
Russian ASR Benchmark
Hugging Face Space для сравнения двух моделей распознавания речи:
Sh1man/whisper-large-v3-russian-ties-podlodka-v1.2-ctai-sage/GigaAM-v3с revisione2e_rnnt
Что умеет:
- загрузка аудиофайла;
- ввод эталонного текста вручную или загрузка
.txt; - транскрибация обеими моделями в максимально близких к целевому инференсу конфигурациях;
- расчёт
WERиCER; - встроенный
GigaAM transcribe_longformдля длинных записей.
Notes
- Первая загрузка будет долгой: Space скачивает веса моделей.
- Для
GigaAM v3 e2e_rnntиспользуется revisione2e_rnntрепозиторияai-sage/GigaAM-v3, как указано в model card. - Для
GigaAM transcribe_longformнужен секретHF_TOKENв настройках Space и принятые условия доступа кpyannote/segmentation-3.0. Whisperиспользуетfaster-whisper/ CTranslate2 с модельюSh1man/whisper-large-v3-russian-ties-podlodka-v1.2-ct.- Для
WhisperвключёнBatchedInferencePipeline, используется VAD по умолчанию иbeam_size=5. - Word timestamps и дополнительный alignment для
Whisperне используются, чтобы не замедлять инференс. GigaAMиспользует встроенный VAD-longform черезtranscribe_longform.- Метрики можно считать как в сыром виде, так и после нормализации текста.