Spaces:

eternalGenius
/

testASRspace

Sleeping

testASRspace / README.md

Upload 3 files

0d5e279 verified about 1 month ago

2.02 kB

A newer version of the Gradio SDK is available: 6.19.0

title: Russian ASR Benchmark
emoji: 🎙️
colorFrom: blue
colorTo: green
sdk: gradio
sdk_version: 5.29.0
app_file: app.py
pinned: false
license: mit

Russian ASR Benchmark

Hugging Face Space для сравнения двух моделей распознавания речи:

Что умеет:

загрузка аудиофайла;
ввод эталонного текста вручную или загрузка .txt;
транскрибация обеими моделями в максимально близких к целевому инференсу конфигурациях;
расчёт WER и CER;
встроенный GigaAM transcribe_longform для длинных записей.

Первая загрузка будет долгой: Space скачивает веса моделей.
Для GigaAM v3 e2e_rnnt используется revision e2e_rnnt репозитория ai-sage/GigaAM-v3, как указано в model card.
Для GigaAM transcribe_longform нужен секрет HF_TOKEN в настройках Space и принятые условия доступа к pyannote/segmentation-3.0.
Whisper использует faster-whisper / CTranslate2 с моделью Sh1man/whisper-large-v3-russian-ties-podlodka-v1.2-ct.
Для Whisper включён BatchedInferencePipeline, используется VAD по умолчанию и beam_size=5.
Word timestamps и дополнительный alignment для Whisper не используются, чтобы не замедлять инференс.
GigaAM использует встроенный VAD-longform через transcribe_longform.
Метрики можно считать как в сыром виде, так и после нормализации текста.