audio-flamingo-next-etheroi

Paused

App Files Files Community

SreyanG-NVIDIA commited on Apr 9

Commit

a748c2f

1 Parent(s): a34b3bc

Add inference timing logs

Browse files

Files changed (1) hide show

app.py +15 -0

app.py CHANGED Viewed

@@ -435,6 +435,7 @@ def download_youtube_audio(url, force_reload=False):
 @spaces.GPU
 def infer(audio_path, youtube_url, prompt_text):
     try:
         device = "cuda" if torch.cuda.is_available() else "cpu"
         _log_cuda_runtime("infer")
@@ -481,14 +482,28 @@ def infer(audio_path, youtube_url, prompt_text):
         ).to(model.device)
         batch["input_features"] = batch["input_features"].to(model.dtype)
         gen_ids = model.generate(**batch, max_new_tokens=4096, repetition_penalty=1.2)
         inp_len = batch["input_ids"].shape[1]
         new_tokens = gen_ids[:, inp_len:]
         texts = processor.batch_decode(new_tokens, skip_special_tokens=True, clean_up_tokenization_spaces=False)
         result = texts[0] if texts else ""
         return f"{status_message}\n\n{result}"
     except Exception as e:
         return f"❌ Error: {str(e)}"

 @spaces.GPU
 def infer(audio_path, youtube_url, prompt_text):
+    infer_start = time.perf_counter()
     try:
         device = "cuda" if torch.cuda.is_available() else "cpu"
         _log_cuda_runtime("infer")
         ).to(model.device)
         batch["input_features"] = batch["input_features"].to(model.dtype)
+        input_token_count = int(batch["input_ids"].shape[1])
+        generation_start = time.perf_counter()
         gen_ids = model.generate(**batch, max_new_tokens=4096, repetition_penalty=1.2)
+        generation_elapsed = time.perf_counter() - generation_start
         inp_len = batch["input_ids"].shape[1]
         new_tokens = gen_ids[:, inp_len:]
+        generated_token_count = int(new_tokens.shape[1])
         texts = processor.batch_decode(new_tokens, skip_special_tokens=True, clean_up_tokenization_spaces=False)
         result = texts[0] if texts else ""
+        total_elapsed = time.perf_counter() - infer_start
+        tokens_per_second = generated_token_count / generation_elapsed if generation_elapsed > 0 else 0.0
+        print(
+            f"[infer] total_time_s={total_elapsed:.2f} generation_time_s={generation_elapsed:.2f} "
+            f"input_tokens={input_token_count} generated_tokens={generated_token_count} "
+            f"tokens_per_second={tokens_per_second:.2f}",
+            flush=True,
+        )
         return f"{status_message}\n\n{result}"
     except Exception as e:
+        total_elapsed = time.perf_counter() - infer_start
+        print(f"[infer] failed_after_s={total_elapsed:.2f} error={e}", flush=True)
         return f"❌ Error: {str(e)}"