{ "sampled_total": 120, "task_counts": { "": 30, "": 30, "": 60 }, "verify": { "accuracy": 0.6666666666666666, "macro_f1": 0.6592481203007519, "pred_label_dist": { "SUPPORTS": 6, "null": 2, "NEI": 12, "REFUTES": 10 }, "gold_label_dist": { "SUPPORTS": 8, "REFUTES": 9, "NEI": 13 }, "confusion_matrix": { "SUPPORTS": { "SUPPORTS": 4, "REFUTES": 3, "NEI": 0, "null": 1 }, "REFUTES": { "SUPPORTS": 2, "REFUTES": 5, "NEI": 1, "null": 1 }, "NEI": { "SUPPORTS": 0, "REFUTES": 2, "NEI": 11, "null": 0 } } }, "qa": { "accuracy": 0.5333333333333333, "pred_label_dist": { "no": 12, "yes": 5, "maybe": 13 }, "gold_label_dist": { "maybe": 12, "no": 10, "yes": 8 }, "majority_label": "maybe", "majority_baseline": 0.4 }, "rerank": { "pair_accuracy": 0.4666666666666667, "pred_label_dist": { "2": 10, "1": 16, "0": 30, "3": 4 }, "gold_label_dist": { "1": 25, "0": 29, "3": 3, "2": 3 }, "group_count": 6, "group_size_dist": { "10": 6 }, "groups": 6.0, "mrr_at_10": 0.5708333333333333, "recall_at_1": 0.5, "recall_at_3": 0.5, "recall_at_5": 0.6666666666666666 }, "elapsed_sec": 216.93210816383362 }