evalita_llm_leaderboard

Running

App Files Files Community

rzanoli commited on Aug 21

Commit

13fe545

1 Parent(s): af6e747

Add model positions in the ranking

Browse files

Files changed (3) hide show

app.py +35 -9
src/display/utils.py +2 -0
src/leaderboard/read_evals.py +5 -2

app.py CHANGED Viewed

@@ -108,10 +108,23 @@ def init_leaderboard(dataframe, default_selection=None, hidden_columns=None):
     if dataframe is None or dataframe.empty:
         raise ValueError("Leaderboard DataFrame is empty or None.")
     field_list = fields(AutoEvalColumn)
     return Leaderboard(
-        value=dataframe,
         datatype=[c.type for c in field_list],
         #select_columns=SelectColumns(
         #    default_selection=default_selection or [c.name for c in field_list if c.displayed_by_default],
@@ -144,6 +157,18 @@ def update_task_leaderboard(dataframe, default_selection=None, hidden_columns=No
     sorted_dataframe = dataframe.sort_values(by="Combined Performance", ascending=False)
     pd.set_option('display.max_colwidth', None)
     #print("========================", dataframe['Model'])
@@ -153,7 +178,8 @@ def update_task_leaderboard(dataframe, default_selection=None, hidden_columns=No
     return Leaderboard(
         value=sorted_dataframe,
-        datatype=[c.type for c in field_list],
         #select_columns=SelectColumns(
         #    default_selection=default_selection or [c.name for c in field_list if c.displayed_by_default],
         #    cant_deselect=[c.name for c in field_list if c.never_hidden],
@@ -211,7 +237,7 @@ download_snapshot(RESULTS_REPO, EVAL_RESULTS_PATH)
 # Load leaderboard data
 LEADERBOARD_DF = get_leaderboard_df(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH, COLS, BENCHMARK_COLS)
 finished_eval_queue_df, running_eval_queue_df, pending_eval_queue_df = get_evaluation_queue_df(EVAL_REQUESTS_PATH, EVAL_COLS)
-print(LEADERBOARD_DF.columns.tolist())
 # Prepare the main interface
 demo = gr.Blocks(css=custom_css)
@@ -242,8 +268,8 @@ with demo:
             leaderboard = init_leaderboard(
                 LEADERBOARD_DF,
-                default_selection=['FS', 'Model', "Avg. Combined Performance ⬆️", "TE", "SA", "HS", "AT", "WIC", "FAQ", "LS", "SU", "NER", "REL"],
-                hidden_columns=[col for col in LEADERBOARD_DF.columns if col not in ['FS', 'Model', "Avg. Combined Performance ⬆️", "TE", "SA", "HS", "AT", "WIC", "FAQ", "LS", "SU", "NER", "REL"]]
             )
         with gr.TabItem("📈 Charts"):
@@ -269,8 +295,8 @@ with demo:
                 leaderboard = update_task_leaderboard(
                     LEADERBOARD_DF.rename(columns={f"{task} Prompt Average": "Prompt Average", f"{task} Prompt Std": "Prompt Std", f"{task} Best Prompt": "Best Prompt", f"{task} Best Prompt Id": "Best Prompt Id", task: "Combined Performance"}),
-                    default_selection=['FS', 'Model', 'Combined Performance', 'Prompt Average', 'Prompt Std', 'Best Prompt', 'Best Prompt Id'],
-                    hidden_columns=[col for col in LEADERBOARD_DF.columns if col not in ['FS', 'Model', 'Combined Performance', 'Prompt Average', 'Prompt Std', 'Best Prompt', 'Best Prompt Id']]
                 )
         # About tab
@@ -289,10 +315,10 @@ with demo:
                                                    f"{task} Best Prompt": "Best Prompt",
                                                    f"{task} Best Prompt Id": "Best Prompt Id",
                                                    task: "Combined Performance"}),
-                    default_selection=['FS', 'Model', 'Combined Performance', 'Prompt Average', 'Prompt Std', 'Best Prompt',
                                        'Best Prompt Id'],
                     hidden_columns=[col for col in LEADERBOARD_DF.columns if
-                                    col not in ['FS', 'Model', 'Combined Performance', 'Prompt Average', 'Prompt Std',
                                                 'Best Prompt', 'Best Prompt Id']]
                 )

     if dataframe is None or dataframe.empty:
         raise ValueError("Leaderboard DataFrame is empty or None.")
+    sorted_dataframe = dataframe.sort_values(by="Avg. Combined Performance ⬆️", ascending=False)
+    sorted_dataframe = sorted_dataframe.reset_index(drop=True)
+    sorted_dataframe["rank"] = sorted_dataframe.index + 1
+    # aggiungi la corona accanto al nome del modello se il rank è 1
+    sorted_dataframe["Model"] = sorted_dataframe.apply(
+        lambda row: f"{row['Model']} 🥇" if row["rank"] == 1 else
+        (f"{row['Model']} 🥈" if row["rank"] == 2 else
+         (f"{row['Model']} 🥉" if row["rank"] == 3 else row["Model"])),
+        axis=1
+    )
     field_list = fields(AutoEvalColumn)
     return Leaderboard(
+        value=sorted_dataframe,
         datatype=[c.type for c in field_list],
         #select_columns=SelectColumns(
         #    default_selection=default_selection or [c.name for c in field_list if c.displayed_by_default],
     sorted_dataframe = dataframe.sort_values(by="Combined Performance", ascending=False)
+    # aggiungo la colonna rank in base alla posizione
+    sorted_dataframe = sorted_dataframe.reset_index(drop=True)
+    sorted_dataframe["rank"] = sorted_dataframe.index + 1
+    # aggiungi la corona accanto al nome del modello se il rank è 1
+    sorted_dataframe["Model"] = sorted_dataframe.apply(
+        lambda row: f"{row['Model']} 🥇" if row["rank"] == 1 else
+        (f"{row['Model']} 🥈" if row["rank"] == 2 else
+         (f"{row['Model']} 🥉" if row["rank"] == 3 else row["Model"])),
+        axis=1
+    )
     pd.set_option('display.max_colwidth', None)
     #print("========================", dataframe['Model'])
     return Leaderboard(
         value=sorted_dataframe,
+        #datatype=[c.type for c in field_list],
+        datatype=[c.type for c in field_list] + [int],
         #select_columns=SelectColumns(
         #    default_selection=default_selection or [c.name for c in field_list if c.displayed_by_default],
         #    cant_deselect=[c.name for c in field_list if c.never_hidden],
 # Load leaderboard data
 LEADERBOARD_DF = get_leaderboard_df(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH, COLS, BENCHMARK_COLS)
 finished_eval_queue_df, running_eval_queue_df, pending_eval_queue_df = get_evaluation_queue_df(EVAL_REQUESTS_PATH, EVAL_COLS)
+#print(LEADERBOARD_DF.columns.tolist())
 # Prepare the main interface
 demo = gr.Blocks(css=custom_css)
             leaderboard = init_leaderboard(
                 LEADERBOARD_DF,
+                default_selection=['rank', 'FS', 'Model', "Avg. Combined Performance ⬆️", "TE", "SA", "HS", "AT", "WIC", "FAQ", "LS", "SU", "NER", "REL"],
+                hidden_columns=[col for col in LEADERBOARD_DF.columns if col not in ['rank', 'FS', 'Model', "Avg. Combined Performance ⬆️", "TE", "SA", "HS", "AT", "WIC", "FAQ", "LS", "SU", "NER", "REL"]]
             )
         with gr.TabItem("📈 Charts"):
                 leaderboard = update_task_leaderboard(
                     LEADERBOARD_DF.rename(columns={f"{task} Prompt Average": "Prompt Average", f"{task} Prompt Std": "Prompt Std", f"{task} Best Prompt": "Best Prompt", f"{task} Best Prompt Id": "Best Prompt Id", task: "Combined Performance"}),
+                    default_selection=['rank', 'FS', 'Model', 'Combined Performance', 'Prompt Average', 'Prompt Std', 'Best Prompt', 'Best Prompt Id'],
+                    hidden_columns=[col for col in LEADERBOARD_DF.columns if col not in ['rank', 'FS', 'Model', 'Combined Performance', 'Prompt Average', 'Prompt Std', 'Best Prompt', 'Best Prompt Id']]
                 )
         # About tab
                                                    f"{task} Best Prompt": "Best Prompt",
                                                    f"{task} Best Prompt Id": "Best Prompt Id",
                                                    task: "Combined Performance"}),
+                    default_selection=['rank', 'FS', 'Model', 'Combined Performance', 'Prompt Average', 'Prompt Std', 'Best Prompt',
                                        'Best Prompt Id'],
                     hidden_columns=[col for col in LEADERBOARD_DF.columns if
+                                    col not in ['rank', 'FS', 'Model', 'Combined Performance', 'Prompt Average', 'Prompt Std',
                                                 'Best Prompt', 'Best Prompt Id']]
                 )

src/display/utils.py CHANGED Viewed

@@ -25,6 +25,8 @@ auto_eval_column_dict = []
 # Init
 #auto_eval_column_dict.append(["model_type_symbol", ColumnContent, ColumnContent("T", "str", True, never_hidden=True)])
 auto_eval_column_dict.append(["fewshot_symbol", ColumnContent, ColumnContent("FS", "str", True, never_hidden=True)])
 auto_eval_column_dict.append(["is_5fewshot", ColumnContent, ColumnContent("IS_FS", "bool", True)])

 # Init
 #auto_eval_column_dict.append(["model_type_symbol", ColumnContent, ColumnContent("T", "str", True, never_hidden=True)])
+auto_eval_column_dict.append(["rank", ColumnContent, ColumnContent("rank", "str", True, never_hidden=True)])
 auto_eval_column_dict.append(["fewshot_symbol", ColumnContent, ColumnContent("FS", "str", True, never_hidden=True)])
 auto_eval_column_dict.append(["is_5fewshot", ColumnContent, ColumnContent("IS_FS", "bool", True)])

src/leaderboard/read_evals.py CHANGED Viewed

@@ -2,7 +2,7 @@ import glob
 import json
 import math
 import os
-from dataclasses import dataclass
 import dateutil
 import numpy as np
@@ -34,6 +34,7 @@ class EvalResult:
     num_params: int = 0
     date: str = "" # submission date of request file
     still_on_hub: bool = False
     @classmethod
     def init_from_json_file(self, json_filepath):
@@ -117,7 +118,8 @@ class EvalResult:
             revision= config.get("model_sha", ""),
             still_on_hub=still_on_hub,
             architecture=architecture,
-            num_params=num_params
         )
     '''
@@ -164,6 +166,7 @@ class EvalResult:
             AutoEvalColumn.likes.name: self.likes,
             AutoEvalColumn.params.name: self.num_params,
             AutoEvalColumn.still_on_hub.name: self.still_on_hub,
         }
         for task in Tasks:

 import json
 import math
 import os
+from dataclasses import dataclass, field
 import dateutil
 import numpy as np
     num_params: int = 0
     date: str = "" # submission date of request file
     still_on_hub: bool = False
+    rank: int = field(default=0)  # 👈 nuovo campo con default = 0
     @classmethod
     def init_from_json_file(self, json_filepath):
             revision= config.get("model_sha", ""),
             still_on_hub=still_on_hub,
             architecture=architecture,
+            num_params=num_params,
+            rank = 0
         )
     '''
             AutoEvalColumn.likes.name: self.likes,
             AutoEvalColumn.params.name: self.num_params,
             AutoEvalColumn.still_on_hub.name: self.still_on_hub,
+            "rank": self.rank
         }
         for task in Tasks: