leaderboard

Running on CPU Upgrade

nan commited on Oct 14, 2024

Commit

592bb62

1 Parent(s): e2d3123

refactor: remove the unnecessary variables

Files changed (3) hide show

src/display/utils.py CHANGED Viewed

@@ -80,6 +80,4 @@ TYPES_QA = [c.type for c in fields(AutoEvalColumnQA) if not c.hidden]
 TYPES_LONG_DOC = [c.type for c in fields(AutoEvalColumnLongDoc) if not c.hidden]
 COLS_LITE = [c.name for c in fields(AutoEvalColumnQA) if c.displayed_by_default and not c.hidden]
-QA_BENCHMARK_COLS = [t.value.col_name for t in BenchmarksQA]
-LONG_DOC_BENCHMARK_COLS = [t.value.col_name for t in BenchmarksLongDoc]


80	TYPES_LONG_DOC = [c.type for c in fields(AutoEvalColumnLongDoc) if not c.hidden]
81	COLS_LITE = [c.name for c in fields(AutoEvalColumnQA) if c.displayed_by_default and not c.hidden]
82

83

src/read_evals.py CHANGED Viewed

@@ -6,13 +6,8 @@ from typing import List
 import pandas as pd
-from src.benchmarks import get_safe_name
-from src.display.utils import (
-    COLS_QA,
-    QA_BENCHMARK_COLS,
-    COLS_LONG_DOC,
-    LONG_DOC_BENCHMARK_COLS
-)
 from src.display.column_names import COL_NAME_AVG, COL_NAME_RETRIEVAL_MODEL, COL_NAME_RERANKING_MODEL, \
     COL_NAME_RETRIEVAL_MODEL_LINK, COL_NAME_RERANKING_MODEL_LINK, COL_NAME_RANK, COL_NAME_REVISION, COL_NAME_TIMESTAMP, \
     COL_NAME_IS_ANONYMOUS
@@ -21,6 +16,7 @@ from src.display.formatting import make_clickable_model
 pd.options.mode.copy_on_write = True
 def calculate_mean(row):
     if pd.isna(row).any():
         return -1
@@ -189,10 +185,10 @@ def get_leaderboard_df(raw_data: List[FullEvalResult], task: str, metric: str) -
     cols = [COL_NAME_IS_ANONYMOUS, ]
     if task == "qa":
         cols += COLS_QA
-        benchmark_cols = QA_BENCHMARK_COLS
     elif task == "long-doc":
         cols += COLS_LONG_DOC
-        benchmark_cols = LONG_DOC_BENCHMARK_COLS
     else:
         raise NotImplemented
     all_data_json = []

 import pandas as pd
+from src.benchmarks import get_safe_name, BenchmarksQA, BenchmarksLongDoc
+from src.display.utils import COLS_QA, COLS_LONG_DOC
 from src.display.column_names import COL_NAME_AVG, COL_NAME_RETRIEVAL_MODEL, COL_NAME_RERANKING_MODEL, \
     COL_NAME_RETRIEVAL_MODEL_LINK, COL_NAME_RERANKING_MODEL_LINK, COL_NAME_RANK, COL_NAME_REVISION, COL_NAME_TIMESTAMP, \
     COL_NAME_IS_ANONYMOUS
 pd.options.mode.copy_on_write = True
 def calculate_mean(row):
     if pd.isna(row).any():
         return -1
     cols = [COL_NAME_IS_ANONYMOUS, ]
     if task == "qa":
         cols += COLS_QA
+        benchmark_cols = [t.value.col_name for t in BenchmarksQA]
     elif task == "long-doc":
         cols += COLS_LONG_DOC
+        benchmark_cols = [t.value.col_name for t in BenchmarksLongDoc]
     else:
         raise NotImplemented
     all_data_json = []

tests/src/display/test_utils.py CHANGED Viewed

@@ -1,5 +1,5 @@
 import pytest
-from src.display.utils import fields, AutoEvalColumnQA, COLS_QA, COLS_LONG_DOC, COLS_LITE, TYPES_QA, TYPES_LONG_DOC, QA_BENCHMARK_COLS, LONG_DOC_BENCHMARK_COLS, get_default_auto_eval_column_dict
 def test_fields():
@@ -13,8 +13,6 @@ def test_macro_variables():
     print(f'COLS_LITE: {COLS_LITE}')
     print(f'TYPES_QA: {TYPES_QA}')
     print(f'TYPES_LONG_DOC: {TYPES_LONG_DOC}')
-    print(f'QA_BENCHMARK_COLS: {QA_BENCHMARK_COLS}')
-    print(f'LONG_DOC_BENCHMARK_COLS: {LONG_DOC_BENCHMARK_COLS}')
 def test_get_default_auto_eval_column_dict():

 import pytest
+from src.display.utils import fields, AutoEvalColumnQA, COLS_QA, COLS_LONG_DOC, COLS_LITE, TYPES_QA, TYPES_LONG_DOC, get_default_auto_eval_column_dict
 def test_fields():
     print(f'COLS_LITE: {COLS_LITE}')
     print(f'TYPES_QA: {TYPES_QA}')
     print(f'TYPES_LONG_DOC: {TYPES_LONG_DOC}')
 def test_get_default_auto_eval_column_dict():