Spaces:

UII-AI
/

MedVidBench-Leaderboard

Running

App Files Files Community

MedGRPO Team commited on Apr 13

Commit

05d6c42

1 Parent(s): e2b1040

update

Browse files

Files changed (1) hide show

app.py +193 -16

app.py CHANGED Viewed

@@ -90,6 +90,8 @@ if not GROUND_TRUTH_FILE.exists():
         json.dump(GROUND_TRUTH, f)
     print(f"✓ Ground truth saved to {GROUND_TRUTH_FILE}")
 # MedVidBench Metrics Definitions (10 metrics from 8 tasks)
 # Note: TAL has 2 metrics, DVC has 2 metrics, others have 1 metric each
 METRICS = {
@@ -129,18 +131,18 @@ METRICS = {
         "higher_better": True,
         "description": "Mean IoU at threshold 0.5 for temporal localization"
     },
-    "dvc_llm": {
-        "name": "DVC_llm",
-        "full_name": "Dense Video Captioning LLM Score",
-        "higher_better": True,
-        "description": "Caption quality score (LLM judge or semantic similarity)"
-    },
     "dvc_f1": {
         "name": "DVC_F1",
         "full_name": "Dense Video Captioning F1",
         "higher_better": True,
         "description": "F1 score for temporal segment localization"
     },
     "vs_llm": {
         "name": "VS_llm",
         "full_name": "Video Summary LLM Score",
@@ -391,6 +393,166 @@ def backup_results_to_repo(model_name: str, results_dir: Path):
         print(f"⚠️  Failed to backup results: {e}")
 # ============================================================================
 # Admin Functions
 # ============================================================================
@@ -1181,7 +1343,7 @@ def submit_model(file, model_name: str, organization: str, contact: str = "", pr
     new_entry = {
         "model_name": model_name,
         "organization": organization,
-        **{metric: round(metrics.get(metric, 0.0), 4) for metric in METRICS.keys()},
         "date": datetime.now().strftime("%Y-%m-%d"),
         "contact": contact
     }
@@ -1220,7 +1382,7 @@ def submit_model(file, model_name: str, organization: str, contact: str = "", pr
     success_msg += "\n### 📈 Metric Scores\n"
     for metric_key, metric_info in METRICS.items():
         score = metrics.get(metric_key, 0.0)
-        success_msg += f"- **{metric_info['name']}**: {score:.4f}\n"
     rank = df[df['model_name'] == model_name].index[0] + 1
     success_msg += f"\n### 🏆 Ranking\n**Rank**: #{rank} out of {len(df)} models\n"
@@ -1230,7 +1392,8 @@ def submit_model(file, model_name: str, organization: str, contact: str = "", pr
 def format_leaderboard_display(df: pd.DataFrame) -> pd.DataFrame:
-    """Format leaderboard dataframe for display with 10 metrics (no average)."""
     if df.empty:
         return df
@@ -1255,6 +1418,13 @@ def format_leaderboard_display(df: pd.DataFrame) -> pd.DataFrame:
     # Rename columns for display
     display_df = df[display_cols].copy()
     # Build column names
     column_names = []
     for col in display_cols:
@@ -1536,9 +1706,9 @@ Evaluation logs are being written to:
                     if dvc_llm > 0.0 or vs_llm > 0.0 or rc_llm > 0.0:
                         # Update leaderboard
                         df = load_leaderboard()
-                        df.loc[df['model_name'] == model_name, 'dvc_llm'] = round(dvc_llm, 4)
-                        df.loc[df['model_name'] == model_name, 'vs_llm'] = round(vs_llm, 4)
-                        df.loc[df['model_name'] == model_name, 'rc_llm'] = round(rc_llm, 4)
                         df = df.sort_values('cvs_acc', ascending=False).reset_index(drop=True)
                         save_leaderboard(df)
@@ -1546,7 +1716,7 @@ Evaluation logs are being written to:
                         update_llm_judge_status(
                             model_name,
                             'completed',
-                            f"DVC: {dvc_llm:.4f}, VS: {vs_llm:.4f}, RC: {rc_llm:.4f}"
                         )
                     else:
                         update_llm_judge_status(model_name, 'failed', 'Failed to extract metrics')
@@ -1619,9 +1789,9 @@ def check_llm_judge_evaluation_status(model_name: str) -> str:
 **Completed**: {msg}
 ### 📈 Caption Metrics
-- **DVC_llm**: {dvc:.4f}
-- **VS_llm**: {vs:.4f}
-- **RC_llm**: {rc:.4f}
 ✓ Leaderboard has been updated!
@@ -1643,6 +1813,13 @@ Please check the logs or try running the evaluation again.
     return f"ℹ️ **Status**: {status}\n\n{msg}"
 # Create Gradio interface
 with gr.Blocks(title="MedVidBench Leaderboard", theme=gr.themes.Soft()) as demo:

         json.dump(GROUND_TRUTH, f)
     print(f"✓ Ground truth saved to {GROUND_TRUTH_FILE}")
+# Note: Default leaderboard data is populated after all functions are defined (see below).
 # MedVidBench Metrics Definitions (10 metrics from 8 tasks)
 # Note: TAL has 2 metrics, DVC has 2 metrics, others have 1 metric each
 METRICS = {
         "higher_better": True,
         "description": "Mean IoU at threshold 0.5 for temporal localization"
     },
     "dvc_f1": {
         "name": "DVC_F1",
         "full_name": "Dense Video Captioning F1",
         "higher_better": True,
         "description": "F1 score for temporal segment localization"
     },
+    "dvc_llm": {
+        "name": "DVC_llm",
+        "full_name": "Dense Video Captioning LLM Score",
+        "higher_better": True,
+        "description": "Caption quality score (LLM judge or semantic similarity)"
+    },
     "vs_llm": {
         "name": "VS_llm",
         "full_name": "Video Summary LLM Score",
         print(f"⚠️  Failed to backup results: {e}")
+# ============================================================================
+# Default Data Population
+# ============================================================================
+# Default baseline entries from MedGRPO project page results table.
+# These are pre-computed evaluation results for known models.
+DEFAULT_LEADERBOARD_ENTRIES = [
+    # --- 2025 Off-the-shelf Baselines ---
+    {
+        "model_name": "GPT-4.1",
+        "organization": "OpenAI",
+        "cvs_acc": 0.018, "nap_acc": 0.250, "sa_acc": 0.087, "stg_miou": 0.014,
+        "tag_miou_03": 0.096, "tag_miou_05": 0.005,
+        "dvc_f1": 0.101, "dvc_llm": 2.438, "vs_llm": 2.490, "rc_llm": 2.080,
+        "date": "2025-01-14", "contact": "",
+    },
+    {
+        "model_name": "Gemini-2.5-Flash",
+        "organization": "Google",
+        "cvs_acc": 0.101, "nap_acc": 0.228, "sa_acc": 0.107, "stg_miou": 0.047,
+        "tag_miou_03": 0.045, "tag_miou_05": 0.021,
+        "dvc_f1": 0.084, "dvc_llm": 2.387, "vs_llm": 2.352, "rc_llm": 1.912,
+        "date": "2025-01-14", "contact": "",
+    },
+    {
+        "model_name": "VideoChat-R1.5-7B",
+        "organization": "OpenGVLab",
+        "cvs_acc": 0.000, "nap_acc": 0.270, "sa_acc": 0.006, "stg_miou": 0.000,
+        "tag_miou_03": 0.009, "tag_miou_05": 0.005,
+        "dvc_f1": 0.026, "dvc_llm": 1.723, "vs_llm": 3.034, "rc_llm": 3.086,
+        "date": "2025-01-14", "contact": "",
+    },
+    # --- 2025 Qwen2.5VL-7B ---
+    {
+        "model_name": "Qwen2.5VL-7B",
+        "organization": "Alibaba",
+        "cvs_acc": 0.105, "nap_acc": 0.151, "sa_acc": 0.010, "stg_miou": 0.020,
+        "tag_miou_03": 0.006, "tag_miou_05": 0.068,
+        "dvc_f1": 0.075, "dvc_llm": 2.512, "vs_llm": 2.452, "rc_llm": 2.090,
+        "date": "2025-01-14", "contact": "",
+    },
+    {
+        "model_name": "Qwen2.5VL-7B-Surg-CholecT50",
+        "organization": "NVIDIA",
+        "cvs_acc": 0.000, "nap_acc": 0.302, "sa_acc": 0.000, "stg_miou": 0.000,
+        "tag_miou_03": 0.019, "tag_miou_05": 0.013,
+        "dvc_f1": 0.051, "dvc_llm": 1.945, "vs_llm": 2.101, "rc_llm": 2.986,
+        "date": "2025-01-14", "contact": "",
+    },
+    {
+        "model_name": "Qwen2.5VL-7B-SFT",
+        "organization": "UII America (Ours)",
+        "cvs_acc": 0.894, "nap_acc": 0.442, "sa_acc": 0.218, "stg_miou": 0.177,
+        "tag_miou_03": 0.142, "tag_miou_05": 0.091,
+        "dvc_f1": 0.165, "dvc_llm": 3.665, "vs_llm": 3.596, "rc_llm": 2.757,
+        "date": "2025-01-14", "contact": "gaozhongpai@gmail.com",
+    },
+    {
+        "model_name": "Qwen2.5VL-7B-MedGRPO",
+        "organization": "UII America (Ours)",
+        "cvs_acc": 0.896, "nap_acc": 0.405, "sa_acc": 0.254, "stg_miou": 0.202,
+        "tag_miou_03": 0.216, "tag_miou_05": 0.156,
+        "dvc_f1": 0.214, "dvc_llm": 3.797, "vs_llm": 4.184, "rc_llm": 3.442,
+        "date": "2025-01-14", "contact": "gaozhongpai@gmail.com",
+    },
+    # --- 2025 Qwen3-VL-4B ---
+    {
+        "model_name": "Qwen3VL-4B",
+        "organization": "Alibaba",
+        "cvs_acc": 0.000, "nap_acc": 0.178, "sa_acc": 0.006, "stg_miou": 0.000,
+        "tag_miou_03": 0.039, "tag_miou_05": 0.034,
+        "dvc_f1": 0.128, "dvc_llm": 1.939, "vs_llm": 2.926, "rc_llm": 2.853,
+        "date": "2025-01-14", "contact": "",
+    },
+    {
+        "model_name": "Qwen3VL-4B-SFT",
+        "organization": "UII America (Ours)",
+        "cvs_acc": 0.895, "nap_acc": 0.466, "sa_acc": 0.270, "stg_miou": 0.133,
+        "tag_miou_03": 0.465, "tag_miou_05": 0.403,
+        "dvc_f1": 0.435, "dvc_llm": 3.862, "vs_llm": 4.180, "rc_llm": 3.752,
+        "date": "2025-01-14", "contact": "gaozhongpai@gmail.com",
+    },
+    {
+        "model_name": "Qwen3VL-4B-MedGRPO",
+        "organization": "UII America (Ours)",
+        "cvs_acc": 0.898, "nap_acc": 0.473, "sa_acc": 0.285, "stg_miou": 0.176,
+        "tag_miou_03": 0.504, "tag_miou_05": 0.441,
+        "dvc_f1": 0.480, "dvc_llm": 3.950, "vs_llm": 4.227, "rc_llm": 3.861,
+        "date": "2025-01-14", "contact": "gaozhongpai@gmail.com",
+    },
+    # --- 2026 Off-the-shelf Baselines & Qwen3.5-4B ---
+    {
+        "model_name": "GPT-5.4",
+        "organization": "OpenAI",
+        "cvs_acc": 0.164, "nap_acc": 0.393, "sa_acc": 0.267, "stg_miou": 0.004,
+        "tag_miou_03": 0.086, "tag_miou_05": 0.055,
+        "dvc_f1": 0.178, "dvc_llm": 3.403, "vs_llm": 3.976, "rc_llm": 3.714,
+        "date": "2026-04-13", "contact": "",
+    },
+    {
+        "model_name": "Gemini-3.1-flash-lite",
+        "organization": "Google",
+        "cvs_acc": 0.242, "nap_acc": 0.406, "sa_acc": 0.225, "stg_miou": 0.059,
+        "tag_miou_03": 0.072, "tag_miou_05": 0.049,
+        "dvc_f1": 0.174, "dvc_llm": 3.198, "vs_llm": 3.737, "rc_llm": 3.492,
+        "date": "2026-04-13", "contact": "",
+    },
+    {
+        "model_name": "Qwen3.5-4B",
+        "organization": "Alibaba",
+        "cvs_acc": 0.309, "nap_acc": 0.231, "sa_acc": 0.276, "stg_miou": 0.051,
+        "tag_miou_03": 0.074, "tag_miou_05": 0.040,
+        "dvc_f1": 0.142, "dvc_llm": 2.699, "vs_llm": 3.491, "rc_llm": 3.037,
+        "date": "2026-04-13", "contact": "",
+    },
+    {
+        "model_name": "Qwen3.5-4B-SFT",
+        "organization": "UII America (Ours)",
+        "cvs_acc": 0.897, "nap_acc": 0.576, "sa_acc": 0.354, "stg_miou": 0.190,
+        "tag_miou_03": 0.482, "tag_miou_05": 0.429,
+        "dvc_f1": 0.451, "dvc_llm": 3.741, "vs_llm": 4.238, "rc_llm": 3.746,
+        "date": "2026-04-13", "contact": "gaozhongpai@gmail.com",
+    },
+]
+def populate_default_data():
+    """
+    Populate leaderboard with default baseline entries if they are missing.
+    Called at startup to ensure all known models are present.
+    Only adds entries that don't already exist (by model_name).
+    """
+    df = load_leaderboard()
+    existing_names = set(df['model_name'].values) if not df.empty else set()
+    new_entries = []
+    for entry in DEFAULT_LEADERBOARD_ENTRIES:
+        if entry["model_name"] not in existing_names:
+            new_entries.append(entry)
+    if not new_entries:
+        print(f"✓ Default data check: all {len(DEFAULT_LEADERBOARD_ENTRIES)} baseline entries already present")
+        return
+    print(f"📋 Populating {len(new_entries)} default baseline entries...")
+    new_df = pd.DataFrame(new_entries)
+    if df.empty:
+        df = new_df
+    else:
+        df = pd.concat([df, new_df], ignore_index=True)
+    # Sort by cvs_acc descending (consistent with load_leaderboard)
+    if 'cvs_acc' in df.columns:
+        df = df.sort_values('cvs_acc', ascending=False).reset_index(drop=True)
+    save_leaderboard(df)
+    print(f"✓ Populated {len(new_entries)} default entries. Total: {len(df)} models")
 # ============================================================================
 # Admin Functions
 # ============================================================================
     new_entry = {
         "model_name": model_name,
         "organization": organization,
+        **{metric: round(metrics.get(metric, 0.0), 3) for metric in METRICS.keys()},
         "date": datetime.now().strftime("%Y-%m-%d"),
         "contact": contact
     }
     success_msg += "\n### 📈 Metric Scores\n"
     for metric_key, metric_info in METRICS.items():
         score = metrics.get(metric_key, 0.0)
+        success_msg += f"- **{metric_info['name']}**: {score:.3f}\n"
     rank = df[df['model_name'] == model_name].index[0] + 1
     success_msg += f"\n### 🏆 Ranking\n**Rank**: #{rank} out of {len(df)} models\n"
 def format_leaderboard_display(df: pd.DataFrame) -> pd.DataFrame:
+    """Format leaderboard dataframe for display with 10 metrics (no average).
+    All metric values are rounded to 3 decimal places to match the project page table."""
     if df.empty:
         return df
     # Rename columns for display
     display_df = df[display_cols].copy()
+    # Round all metric columns to 3 decimal places for consistent display
+    for metric_key in METRICS.keys():
+        if metric_key in display_df.columns:
+            display_df[metric_key] = display_df[metric_key].apply(
+                lambda x: round(float(x), 3) if pd.notna(x) else 0.0
+            )
     # Build column names
     column_names = []
     for col in display_cols:
                     if dvc_llm > 0.0 or vs_llm > 0.0 or rc_llm > 0.0:
                         # Update leaderboard
                         df = load_leaderboard()
+                        df.loc[df['model_name'] == model_name, 'dvc_llm'] = round(dvc_llm, 3)
+                        df.loc[df['model_name'] == model_name, 'vs_llm'] = round(vs_llm, 3)
+                        df.loc[df['model_name'] == model_name, 'rc_llm'] = round(rc_llm, 3)
                         df = df.sort_values('cvs_acc', ascending=False).reset_index(drop=True)
                         save_leaderboard(df)
                         update_llm_judge_status(
                             model_name,
                             'completed',
+                            f"DVC: {dvc_llm:.3f}, VS: {vs_llm:.3f}, RC: {rc_llm:.3f}"
                         )
                     else:
                         update_llm_judge_status(model_name, 'failed', 'Failed to extract metrics')
 **Completed**: {msg}
 ### 📈 Caption Metrics
+- **DVC_llm**: {dvc:.3f}
+- **VS_llm**: {vs:.3f}
+- **RC_llm**: {rc:.3f}
 ✓ Leaderboard has been updated!
     return f"ℹ️ **Status**: {status}\n\n{msg}"
+# Populate default baseline data on startup
+print("=" * 60)
+print("POPULATING DEFAULT LEADERBOARD DATA")
+print("=" * 60)
+populate_default_data()
+print("=" * 60)
 # Create Gradio interface
 with gr.Blocks(title="MedVidBench Leaderboard", theme=gr.themes.Soft()) as demo: