{ "sampled_total": 84, "task_counts": { "": 12, "": 12, "": 60 }, "verify": { "accuracy": 0.5833333333333334, "macro_f1": 0.6666666666666666, "pred_label_dist": { "null": 3, "REFUTES": 3, "NEI": 3, "SUPPORTS": 3 }, "gold_label_dist": { "SUPPORTS": 4, "REFUTES": 4, "NEI": 4 }, "confusion_matrix": { "SUPPORTS": { "SUPPORTS": 2, "REFUTES": 1, "NEI": 0, "null": 1 }, "REFUTES": { "SUPPORTS": 0, "REFUTES": 2, "NEI": 0, "null": 2 }, "NEI": { "SUPPORTS": 1, "REFUTES": 0, "NEI": 3, "null": 0 } } }, "qa": { "accuracy": 0.6666666666666666, "pred_label_dist": { "yes": 7, "maybe": 2, "no": 3 }, "gold_label_dist": { "yes": 10, "no": 2 }, "majority_label": "yes", "majority_baseline": 0.8333333333333334 }, "rerank": { "pair_accuracy": 0.5666666666666667, "pred_label_dist": { "0": 31, "1": 17, "3": 4, "2": 8 }, "gold_label_dist": { "0": 31, "1": 23, "3": 3, "2": 3 }, "group_count": 6, "group_size_dist": { "10": 6 }, "groups": 6.0, "mrr_at_10": 0.4351851851851852, "recall_at_1": 0.16666666666666666, "recall_at_3": 0.6666666666666666, "recall_at_5": 0.6666666666666666 }, "elapsed_sec": 139.36915016174316 }