Spaces:

UII-AI
/

MedVidBench-Leaderboard

Running

MedGRPO Team Claude Opus 4.7 (1M context) commited on Apr 16

Commit

faf76da

1 Parent(s): a690dc6

Rank leaderboard by average rank across all 10 metrics

Previously sorted by cvs_acc only, which is misleading when top models
cluster within 0.004 on that single metric. The new sort computes each
model's rank per metric (1 = best; ties share smaller rank; NaN → last),
averages those ranks, and sorts ascending (lower avg rank = better).

- Add sort_by_avg_rank helper
- Replace all 7 sort_values('cvs_acc', ascending=False) call sites
- Add "How Models Are Ranked" section to the About tab
- Refresh stale CVS-sort comments

Robust to metric-scale differences (accuracy 0–1 vs LLM-judge 1–5) and
rewards models that are strong across tasks rather than exceptional
on one.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>

Files changed (1) hide show

app.py +44 -10

app.py CHANGED Viewed

@@ -216,6 +216,34 @@ TEST_SET_STATS = {
 }
 def load_leaderboard() -> pd.DataFrame:
     """
     Load leaderboard from private HuggingFace repo.
@@ -245,9 +273,9 @@ def load_leaderboard() -> pd.DataFrame:
                     if 'average' in df.columns:
                         df = df.drop('average', axis=1)
-                    # Sort by first metric (CVS_acc) descending
                     if 'cvs_acc' in df.columns:
-                        df = df.sort_values('cvs_acc', ascending=False).reset_index(drop=True)
                     print(f"✓ Loaded leaderboard from private repo: {len(df)} entries")
                     return df
@@ -268,9 +296,9 @@ def load_leaderboard() -> pd.DataFrame:
             if 'average' in df.columns:
                 df = df.drop('average', axis=1)
-            # Sort by first metric (CVS_acc) descending - no overall average
             if 'cvs_acc' in df.columns:
-                df = df.sort_values('cvs_acc', ascending=False).reset_index(drop=True)
             print(f"✓ Loaded leaderboard from local file: {len(df)} entries")
             return df
@@ -365,7 +393,7 @@ def load_official_leaderboard() -> pd.DataFrame:
                 if data:
                     df = pd.DataFrame(data)
                     if 'cvs_acc' in df.columns:
-                        df = df.sort_values('cvs_acc', ascending=False).reset_index(drop=True)
                     print(f"✓ Loaded official leaderboard from private repo: {len(df)} entries")
                     return df
             except Exception as e:
@@ -380,7 +408,7 @@ def load_official_leaderboard() -> pd.DataFrame:
         if data:
             df = pd.DataFrame(data)
             if 'cvs_acc' in df.columns:
-                df = df.sort_values('cvs_acc', ascending=False).reset_index(drop=True)
             print(f"✓ Loaded official leaderboard from local file: {len(df)} entries")
             return df
@@ -443,7 +471,7 @@ def add_to_official_leaderboard(model_name: str, organization: str, metrics: Dic
     }
     df = pd.concat([df, pd.DataFrame([new_entry])], ignore_index=True)
-    df = df.sort_values('cvs_acc', ascending=False).reset_index(drop=True)
     save_official_leaderboard(df)
     return True, f"✓ Added '{model_name}' to official leaderboard (rank #{df[df['model_name'] == model_name].index[0] + 1})"
@@ -1452,8 +1480,8 @@ def submit_model(file, model_name: str, organization: str, contact: str = "", mo
     }
     df = pd.concat([df, pd.DataFrame([new_entry])], ignore_index=True)
-    # Sort by first metric (CVS_acc)
-    df = df.sort_values('cvs_acc', ascending=False).reset_index(drop=True)
     save_leaderboard(df)
@@ -1946,7 +1974,7 @@ Evaluation logs are being written to:
                         df.loc[df['model_name'] == model_name, 'dvc_llm'] = round(dvc_llm, 3)
                         df.loc[df['model_name'] == model_name, 'vs_llm'] = round(vs_llm, 3)
                         df.loc[df['model_name'] == model_name, 'rc_llm'] = round(rc_llm, 3)
-                        df = df.sort_values('cvs_acc', ascending=False).reset_index(drop=True)
                         save_leaderboard(df)
                         # Update status to completed
@@ -2306,6 +2334,12 @@ with gr.Blocks(title="MedVidBench Leaderboard", theme=gr.themes.Soft()) as demo:
             ---
             ### Benchmark Tasks
             """)

 }
+def sort_by_avg_rank(df: pd.DataFrame) -> pd.DataFrame:
+    """Sort the leaderboard by average rank across all metrics.
+    Each metric is ranked descending (1 = best); missing values sort to the
+    bottom of that metric. A model's score is the mean rank across metrics —
+    lower is better. Ties in a given metric share the smaller rank
+    (competition ranking).
+    """
+    if df.empty:
+        return df.reset_index(drop=True)
+    metric_keys = [k for k in METRICS.keys() if k in df.columns]
+    if not metric_keys:
+        return df.reset_index(drop=True)
+    ranks = pd.DataFrame(index=df.index)
+    for m in metric_keys:
+        col = pd.to_numeric(df[m], errors="coerce")
+        # rank descending, ties share the smaller rank (method="min")
+        ranks[m] = col.rank(ascending=False, method="min", na_option="bottom")
+    df = df.copy()
+    df["_avg_rank"] = ranks.mean(axis=1)
+    df = df.sort_values("_avg_rank", ascending=True, kind="mergesort").reset_index(drop=True)
+    df = df.drop(columns=["_avg_rank"])
+    return df
 def load_leaderboard() -> pd.DataFrame:
     """
     Load leaderboard from private HuggingFace repo.
                     if 'average' in df.columns:
                         df = df.drop('average', axis=1)
+                    # Sort by average rank across all metrics (lower avg rank = better)
                     if 'cvs_acc' in df.columns:
+                        df = sort_by_avg_rank(df)
                     print(f"✓ Loaded leaderboard from private repo: {len(df)} entries")
                     return df
             if 'average' in df.columns:
                 df = df.drop('average', axis=1)
+            # Sort by average rank across all metrics (lower avg rank = better)
             if 'cvs_acc' in df.columns:
+                df = sort_by_avg_rank(df)
             print(f"✓ Loaded leaderboard from local file: {len(df)} entries")
             return df
                 if data:
                     df = pd.DataFrame(data)
                     if 'cvs_acc' in df.columns:
+                        df = sort_by_avg_rank(df)
                     print(f"✓ Loaded official leaderboard from private repo: {len(df)} entries")
                     return df
             except Exception as e:
         if data:
             df = pd.DataFrame(data)
             if 'cvs_acc' in df.columns:
+                df = sort_by_avg_rank(df)
             print(f"✓ Loaded official leaderboard from local file: {len(df)} entries")
             return df
     }
     df = pd.concat([df, pd.DataFrame([new_entry])], ignore_index=True)
+    df = sort_by_avg_rank(df)
     save_official_leaderboard(df)
     return True, f"✓ Added '{model_name}' to official leaderboard (rank #{df[df['model_name'] == model_name].index[0] + 1})"
     }
     df = pd.concat([df, pd.DataFrame([new_entry])], ignore_index=True)
+    # Sort by average rank across all metrics (lower avg rank = better)
+    df = sort_by_avg_rank(df)
     save_leaderboard(df)
                         df.loc[df['model_name'] == model_name, 'dvc_llm'] = round(dvc_llm, 3)
                         df.loc[df['model_name'] == model_name, 'vs_llm'] = round(vs_llm, 3)
                         df.loc[df['model_name'] == model_name, 'rc_llm'] = round(rc_llm, 3)
+                        df = sort_by_avg_rank(df)
                         save_leaderboard(df)
                         # Update status to completed
             ---
+            ### How Models Are Ranked
+            Models are ranked by **average rank across all 10 metrics** — lower average rank = better. For each metric we rank every model (1 = best; ties share the smaller rank), then average those per-metric ranks. This is robust to different metric scales (accuracy 0–1 vs. LLM-judge 1–5) and rewards models that are strong across tasks rather than exceptional on one.
+            ---
             ### Benchmark Tasks
             """)