leaderboard

Running on CPU Upgrade

App Files Files Community

nan commited on May 11, 2024

Commit

de3c2ba

2 Parent(s): 516121c 7ff98ba

Merge branch 'fix-clickable-links-0511'

Browse files

Files changed (4) hide show

app.py +5 -0
src/display/formatting.py +5 -3
src/display/utils.py +3 -2
src/leaderboard/read_evals.py +9 -5

app.py CHANGED Viewed

@@ -14,6 +14,7 @@ from src.leaderboard.read_evals import get_raw_eval_results, get_leaderboard_df
 from src.envs import API, EVAL_RESULTS_PATH, REPO_ID, RESULTS_REPO, TOKEN
 from utils import update_table, update_metric, update_table_long_doc, upload_file, get_default_cols
 from src.benchmarks import DOMAIN_COLS_QA, LANG_COLS_QA, DOMAIN_COLS_LONG_DOC, LANG_COLS_LONG_DOC, metric_list
 def restart_space():
@@ -122,6 +123,7 @@ with demo:
             leaderboard_table = gr.components.Dataframe(
                 value=leaderboard_df_qa,
                 elem_id="leaderboard-table",
                 interactive=False,
                 visible=True,
@@ -130,6 +132,7 @@ with demo:
             # Dummy leaderboard for handling the case when the user uses backspace key
             hidden_leaderboard_table_for_search = gr.components.Dataframe(
                 value=leaderboard_df_qa,
                 # headers=COLS,
                 # datatype=TYPES,
                 visible=False,
@@ -229,6 +232,7 @@ with demo:
             leaderboard_table_long_doc = gr.components.Dataframe(
                 value=leaderboard_df_long_doc,
                 elem_id="leaderboard-table-long-doc",
                 interactive=False,
                 visible=True,
@@ -237,6 +241,7 @@ with demo:
             # Dummy leaderboard for handling the case when the user uses backspace key
             hidden_leaderboard_table_for_search = gr.components.Dataframe(
                 value=leaderboard_df_long_doc,
                 visible=False,
             )

 from src.envs import API, EVAL_RESULTS_PATH, REPO_ID, RESULTS_REPO, TOKEN
 from utils import update_table, update_metric, update_table_long_doc, upload_file, get_default_cols
 from src.benchmarks import DOMAIN_COLS_QA, LANG_COLS_QA, DOMAIN_COLS_LONG_DOC, LANG_COLS_LONG_DOC, metric_list
+from src.display.utils import TYPES_QA, TYPES_LONG_DOC
 def restart_space():
             leaderboard_table = gr.components.Dataframe(
                 value=leaderboard_df_qa,
+                datatype=TYPES_QA,
                 elem_id="leaderboard-table",
                 interactive=False,
                 visible=True,
             # Dummy leaderboard for handling the case when the user uses backspace key
             hidden_leaderboard_table_for_search = gr.components.Dataframe(
                 value=leaderboard_df_qa,
+                datatype=TYPES_QA,
                 # headers=COLS,
                 # datatype=TYPES,
                 visible=False,
             leaderboard_table_long_doc = gr.components.Dataframe(
                 value=leaderboard_df_long_doc,
+                datatype=TYPES_LONG_DOC,
                 elem_id="leaderboard-table-long-doc",
                 interactive=False,
                 visible=True,
             # Dummy leaderboard for handling the case when the user uses backspace key
             hidden_leaderboard_table_for_search = gr.components.Dataframe(
                 value=leaderboard_df_long_doc,
+                datatype=TYPES_LONG_DOC,
                 visible=False,
             )

src/display/formatting.py CHANGED Viewed

@@ -2,9 +2,11 @@ def model_hyperlink(link, model_name):
     return f'<a target="_blank" href="{link}" style="color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;">{model_name}</a>'
-def make_clickable_model(model_name):
-    link = f"https://huggingface.co/{model_name}"
-    return model_hyperlink(link, model_name)
 def styled_error(error):

     return f'<a target="_blank" href="{link}" style="color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;">{model_name}</a>'
+def make_clickable_model(model_name: str, model_link: str):
+    # link = f"https://huggingface.co/{model_name}"
+    if not model_link.startswith("https://"):
+        return model_name
+    return model_hyperlink(model_link, model_name)
 def styled_error(error):

src/display/utils.py CHANGED Viewed

@@ -66,9 +66,10 @@ AutoEvalColumnLongDoc = make_autoevalcolumn(
 # Column selection
 COLS_QA = [c.name for c in fields(AutoEvalColumnQA) if not c.hidden]
 COLS_LONG_DOC = [c.name for c in fields(AutoEvalColumnLongDoc) if not c.hidden]
-TYPES = [c.type for c in fields(AutoEvalColumnQA) if not c.hidden]
 COLS_LITE = [c.name for c in fields(AutoEvalColumnQA) if c.displayed_by_default and not c.hidden]
 QA_BENCHMARK_COLS = [t.value.col_name for t in BenchmarksQA]
-LONG_DOC_BENCHMARK_COLS = [t.value.col_name for t in BenchmarksLongDoc]

 # Column selection
 COLS_QA = [c.name for c in fields(AutoEvalColumnQA) if not c.hidden]
 COLS_LONG_DOC = [c.name for c in fields(AutoEvalColumnLongDoc) if not c.hidden]
+TYPES_QA = [c.type for c in fields(AutoEvalColumnQA) if not c.hidden]
+TYPES_LONG_DOC = [c.type for c in fields(AutoEvalColumnLongDoc) if not c.hidden]
 COLS_LITE = [c.name for c in fields(AutoEvalColumnQA) if c.displayed_by_default and not c.hidden]
 QA_BENCHMARK_COLS = [t.value.col_name for t in BenchmarksQA]
+LONG_DOC_BENCHMARK_COLS = [t.value.col_name for t in BenchmarksLongDoc]

src/leaderboard/read_evals.py CHANGED Viewed

@@ -4,7 +4,6 @@ from collections import defaultdict
 from dataclasses import dataclass
 from typing import List
-import dateutil.parser._parser
 import pandas as pd
 from src.benchmarks import get_safe_name
@@ -22,6 +21,8 @@ from src.display.utils import (
     COL_NAME_RANK
 )
 @dataclass
 class EvalResult:
@@ -100,8 +101,10 @@ class FullEvalResult:
             if eval_result.task != task:
                 continue
             results[eval_result.eval_name]["eval_name"] = eval_result.eval_name
-            results[eval_result.eval_name][COL_NAME_RETRIEVAL_MODEL] = self.retrieval_model
-            results[eval_result.eval_name][COL_NAME_RERANKING_MODEL] = self.reranking_model
             results[eval_result.eval_name][COL_NAME_RETRIEVAL_MODEL_LINK] = self.retrieval_model_link
             results[eval_result.eval_name][COL_NAME_RERANKING_MODEL_LINK] = self.reranking_model_link
@@ -177,16 +180,17 @@ def get_leaderboard_df(raw_data: List[FullEvalResult], task: str, metric: str) -
     df = pd.DataFrame.from_records(all_data_json)
     print(f'dataframe created: {df.shape}')
-    # calculate the average score for selected benchmarks
     _benchmark_cols = frozenset(benchmark_cols).intersection(frozenset(df.columns.to_list()))
     df[COL_NAME_AVG] = df[list(_benchmark_cols)].mean(axis=1).round(decimals=2)
     df.sort_values(by=[COL_NAME_AVG], ascending=False, inplace=True)
     df.reset_index(inplace=True, drop=True)
-    df[COL_NAME_RANK] = df[COL_NAME_AVG].rank(ascending=False, method="min")
     _cols = frozenset(cols).intersection(frozenset(df.columns.to_list()))
     df = df[_cols].round(decimals=2)
     # filter out if any of the benchmarks have not been produced
     df = df[has_no_nan_values(df, _benchmark_cols)]
     return df

 from dataclasses import dataclass
 from typing import List
 import pandas as pd
 from src.benchmarks import get_safe_name
     COL_NAME_RANK
 )
+from src.display.formatting import make_clickable_model
 @dataclass
 class EvalResult:
             if eval_result.task != task:
                 continue
             results[eval_result.eval_name]["eval_name"] = eval_result.eval_name
+            results[eval_result.eval_name][COL_NAME_RETRIEVAL_MODEL] = (
+                make_clickable_model(self.retrieval_model, self.retrieval_model_link))
+            results[eval_result.eval_name][COL_NAME_RERANKING_MODEL] = (
+                make_clickable_model(self.reranking_model, self.reranking_model_link))
             results[eval_result.eval_name][COL_NAME_RETRIEVAL_MODEL_LINK] = self.retrieval_model_link
             results[eval_result.eval_name][COL_NAME_RERANKING_MODEL_LINK] = self.reranking_model_link
     df = pd.DataFrame.from_records(all_data_json)
     print(f'dataframe created: {df.shape}')
     _benchmark_cols = frozenset(benchmark_cols).intersection(frozenset(df.columns.to_list()))
+    # calculate the average score for selected benchmarks
     df[COL_NAME_AVG] = df[list(_benchmark_cols)].mean(axis=1).round(decimals=2)
     df.sort_values(by=[COL_NAME_AVG], ascending=False, inplace=True)
     df.reset_index(inplace=True, drop=True)
     _cols = frozenset(cols).intersection(frozenset(df.columns.to_list()))
     df = df[_cols].round(decimals=2)
     # filter out if any of the benchmarks have not been produced
     df = df[has_no_nan_values(df, _benchmark_cols)]
+    df[COL_NAME_RANK] = df[COL_NAME_AVG].rank(ascending=False, method="min")
     return df