Spaces:

mohas8
/

lexicore-shobdotori-demo

Runtime error

App Files Files Community

lexicore-shobdotori-demo / app.py

mohas8

Upload 2 files

f896e51 verified 8 months ago

Raw

History Blame Contribute Delete

2.35 kB

	import gradio as gr
	import torch
	import numpy as np
	import librosa
	from transformers import AutoModelForCTC, Wav2Vec2Processor

	MODEL_ID = "mohas8/wav2vec2-xlsr300m-shobdotori-ctc-lexicore"
	TARGET_SR = 16_000
	DEVICE = "cuda" if torch.cuda.is_available() else "cpu"

	# ---- Load processor & model once ----
	processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
	model = AutoModelForCTC.from_pretrained(MODEL_ID).to(DEVICE)
	model.eval()

	# ---- Optional simple normalization (lightweight) ----
	def normalize_bangla_text(s: str) -> str:
	if not isinstance(s, str):
	return ""
	s = s.replace("\n", " ").strip()
	# চাইলে এখানে আরও Bangla-specific cleaning করতে পারো
	return s

	END_SET = {"।", "!", "?", "."}

	def fix_punct(s: str) -> str:
	s = s.strip()
	if not s:
	return s
	last = s[-1]
	if last in END_SET:
	return s
	# খুব simple rule: default to '।'
	return s + "।"

	# ---- Gradio callback ----
	def transcribe(audio):
	# Gradio gives (sr, waveform)
	if audio is None:
	return ""
	sr, wav = audio
	wav = np.array(wav, dtype=np.float32)

	# stereo -> mono
	if wav.ndim > 1:
	wav = wav.mean(axis=-1)

	# resample to 16k if needed
	if sr != TARGET_SR:
	wav = librosa.resample(wav, orig_sr=sr, target_sr=TARGET_SR)

	inputs = processor(
	wav,
	sampling_rate=TARGET_SR,
	return_tensors="pt",
	padding=True,
	)

	with torch.no_grad():
	logits = model(inputs.input_values.to(DEVICE)).logits

	pred_ids = torch.argmax(logits, dim=-1)
	text = processor.batch_decode(pred_ids)[0]
	text = normalize_bangla_text(text)
	text = fix_punct(text)
	return text

	# ---- Gradio UI ----
	demo = gr.Interface(
	fn=transcribe,
	inputs=gr.Audio(sampling_rate=TARGET_SR, type="numpy", label="Upload or record Bangla dialect audio"),
	outputs=gr.Textbox(label="Standard Bangla transcription"),
	title="LexiCore – Shobdotori ASR (Wav2Vec2 XLS-R 300M CTC)",
	description=(
	"Dialectal Bangla → Standard Bangla transcription using "
	"mohas8/wav2vec2-xlsr300m-shobdotori-ctc-lexicore (greedy CTC decode)."
	),
	)

	if __name__ == "__main__":
	demo.launch()