Spaces:

UII-AI
/

MedVidBench-Leaderboard

Running

MedGRPO Team commited on Jan 13

Commit

18339c0

1 Parent(s): 5f41159

Fix evaluate_all_pai to pass --skip-llm-judge to task main() functions

CRITICAL FIX: The root cause of LLM judge still running despite --skip-llm-judge flag

Problem:
- _run_task_eval() was calling module.main() without any parameters
- main() functions had no way to receive the skip_llm_judge flag
- Result: Per-dataset evaluations ran LLM judge even when flag was set

Solution:
- Add skip_llm_judge parameter to _run_task_eval()
- Pass flag via sys.argv to main() functions
- main() functions (like eval_dvc.py) now parse --skip-llm-judge from sys.argv

Flow now works correctly:
1. app.py calls evaluate_predictions.py with --skip-llm-judge
2. evaluate_predictions.py calls evaluate_all_pai.run_evaluation(skip_llm_judge=True)
3. run_evaluation() calls _run_task_eval(task, file, skip_llm_judge=True)
4. _run_task_eval() sets sys.argv with --skip-llm-judge
5. module.main() parses sys.argv and correctly skips LLM judge

Tested: Per-dataset DVC evaluations now show 'Skipping LLM judge' message

Files changed (1) hide show

evaluation/evaluate_all_pai.py +51 -41

evaluation/evaluate_all_pai.py CHANGED Viewed

@@ -701,55 +701,68 @@ def print_overall_evaluation_results(output_file, tasks, all_task_results, skip_
             traceback.print_exc()
-def _run_task_eval(task, output_file):
     """Helper function to run a single task evaluation.
     Args:
         task: Task name (e.g., 'tal', 'stg')
         output_file: Path to results JSON
     Returns:
         Dictionary of evaluation results
     """
     import sys
-    if task == "dvc":
-        module = load_eval_module("eval_dvc")
-        task_results = module.main()
-    elif task == "tal":
-        module = load_eval_module("eval_tal")
-        task_results = module.main()
-    elif task == "next_action":
-        module = load_eval_module("eval_next_action")
-        task_results = module.main()
-    elif task == "stg":
-        module = load_eval_module("eval_stg")
-        task_results = module.main()
-    elif task == "rc":
-        module = load_eval_module("eval_caption_llm_judge")
-        # Evaluate region caption using LLM judge
-        task_results = module.evaluate_caption_task(output_file, "region_caption")
-    elif task == "vs":
-        module = load_eval_module("eval_caption_llm_judge")
-        # Evaluate video summary using LLM judge
-        task_results = module.evaluate_caption_task(output_file, "video_summary")
-    elif task == "skill_assessment":
-        module = load_eval_module("eval_skill_assessment")
-        task_results = module.main()
-    elif task == "cvs_assessment":
-        module = load_eval_module("eval_cvs_assessment")
-        task_results = module.main()
-    elif task == "gemini_structured":
-        module = load_eval_module("eval_gemini_structured")
-        task_results = module.main()
-    elif task == "gpt_structured":
-        module = load_eval_module("eval_gpt_structured")
-        task_results = module.main()
-    else:
-        print(f"Unknown task: {task}")
-        task_results = {}
-    return task_results
 def run_evaluation(output_file, tasks=None, grouping="per-dataset", silent_eval=False, skip_llm_judge=False):
@@ -848,14 +861,11 @@ def run_evaluation(output_file, tasks=None, grouping="per-dataset", silent_eval=
                 # Even in silent mode, show progress
                 print(f"Evaluating {task.upper()}...", flush=True)
-            # Set sys.argv for the task-specific main function
-            sys.argv = ["eval_script", output_file]
             # Load the module dynamically and call main to get results
             try:
                 # Optionally suppress output from eval modules
                 # Note: Disabled redirect to show metrics even in silent mode
-                task_results = _run_task_eval(task, output_file)
                 # Store the results for this task
                 all_task_results[task] = task_results if task_results else {}

             traceback.print_exc()
+def _run_task_eval(task, output_file, skip_llm_judge=False):
     """Helper function to run a single task evaluation.
     Args:
         task: Task name (e.g., 'tal', 'stg')
         output_file: Path to results JSON
+        skip_llm_judge: If True, skip LLM judge for caption tasks (DVC, VS, RC)
     Returns:
         Dictionary of evaluation results
     """
     import sys
+    # Save original sys.argv
+    original_argv = sys.argv.copy()
+    try:
+        # Set sys.argv for main() functions
+        sys.argv = ["eval_script", output_file]
+        if skip_llm_judge:
+            sys.argv.append("--skip-llm-judge")
+        if task == "dvc":
+            module = load_eval_module("eval_dvc")
+            task_results = module.main()
+        elif task == "tal":
+            module = load_eval_module("eval_tal")
+            task_results = module.main()
+        elif task == "next_action":
+            module = load_eval_module("eval_next_action")
+            task_results = module.main()
+        elif task == "stg":
+            module = load_eval_module("eval_stg")
+            task_results = module.main()
+        elif task == "rc":
+            module = load_eval_module("eval_caption_llm_judge")
+            # Evaluate region caption using LLM judge
+            task_results = module.evaluate_caption_task(output_file, "region_caption")
+        elif task == "vs":
+            module = load_eval_module("eval_caption_llm_judge")
+            # Evaluate video summary using LLM judge
+            task_results = module.evaluate_caption_task(output_file, "video_summary")
+        elif task == "skill_assessment":
+            module = load_eval_module("eval_skill_assessment")
+            task_results = module.main()
+        elif task == "cvs_assessment":
+            module = load_eval_module("eval_cvs_assessment")
+            task_results = module.main()
+        elif task == "gemini_structured":
+            module = load_eval_module("eval_gemini_structured")
+            task_results = module.main()
+        elif task == "gpt_structured":
+            module = load_eval_module("eval_gpt_structured")
+            task_results = module.main()
+        else:
+            print(f"Unknown task: {task}")
+            task_results = {}
+        return task_results
+    finally:
+        # Restore original sys.argv
+        sys.argv = original_argv
 def run_evaluation(output_file, tasks=None, grouping="per-dataset", silent_eval=False, skip_llm_judge=False):
                 # Even in silent mode, show progress
                 print(f"Evaluating {task.upper()}...", flush=True)
             # Load the module dynamically and call main to get results
             try:
                 # Optionally suppress output from eval modules
                 # Note: Disabled redirect to show metrics even in silent mode
+                task_results = _run_task_eval(task, output_file, skip_llm_judge=skip_llm_judge)
                 # Store the results for this task
                 all_task_results[task] = task_results if task_results else {}