Spaces:

allenai
/

asta-bench-leaderboard

Running

asta-bench-leaderboard / data /1.0.0-dev1 /agenteval.json

Amber Tanaka

Asta Leaderboard First Draft (#3)

ee1b999 unverified 6 months ago

8.71 kB

	{
	"suite_config": {
	"name": "asta-bench",
	"version": "1.0.0-dev1",
	"splits": [
	{
	"name": "validation",
	"tasks": [
	{
	"name": "arxivdigestables_validation",
	"path": "astabench/arxivdigestables_validation",
	"primary_metric": "score_tables/mean",
	"tags": [
	"lit"
	]
	},
	{
	"name": "sqa_dev",
	"path": "astabench/sqa_dev",
	"primary_metric": "global_avg/mean",
	"tags": [
	"lit"
	]
	},
	{
	"name": "litqa2_validation",
	"path": "astabench/litqa2_validation",
	"primary_metric": "is_correct/accuracy",
	"tags": [
	"lit"
	]
	},
	{
	"name": "paper_finder_validation",
	"path": "astabench/paper_finder_validation",
	"primary_metric": "score_paper_finder/macro_avg",
	"tags": [
	"lit"
	]
	},
	{
	"name": "discoverybench_validation",
	"path": "astabench/discoverybench_validation",
	"primary_metric": "score_discoverybench/mean",
	"tags": [
	"data"
	]
	},
	{
	"name": "core_bench_validation",
	"path": "astabench/core_bench_validation",
	"primary_metric": "evaluate_task_questions/accuracy",
	"tags": [
	"code"
	]
	},
	{
	"name": "ds1000_validation",
	"path": "astabench/ds1000_validation",
	"primary_metric": "ds1000_scorer/accuracy",
	"tags": [
	"code"
	]
	},
	{
	"name": "e2e_discovery_validation",
	"path": "astabench/e2e_discovery_validation",
	"primary_metric": "score_rubric/accuracy",
	"tags": [
	"discovery"
	]
	},
	{
	"name": "super_validation",
	"path": "astabench/super_validation",
	"primary_metric": "check_super_execution/entrypoints",
	"tags": [
	"code"
	]
	}
	]
	},
	{
	"name": "test",
	"tasks": [
	{
	"name": "paper_finder_test",
	"path": "astabench/paper_finder_test",
	"primary_metric": "score_paper_finder/macro_avg",
	"tags": [
	"lit"
	]
	},
	{
	"name": "sqa_test",
	"path": "astabench/sqa_test",
	"primary_metric": "global_avg/mean",
	"tags": [
	"lit"
	]
	},
	{
	"name": "arxivdigestables_test",
	"path": "astabench/arxivdigestables_test",
	"primary_metric": "score_tables/mean",
	"tags": [
	"lit"
	]
	},
	{
	"name": "litqa2_test",
	"path": "astabench/litqa2_test",
	"primary_metric": "is_correct/accuracy",
	"tags": [
	"lit"
	]
	},
	{
	"name": "discoverybench_test",
	"path": "astabench/discoverybench_test",
	"primary_metric": "score_discoverybench/mean",
	"tags": [
	"data"
	]
	},
	{
	"name": "core_bench_test",
	"path": "astabench/core_bench_test",
	"primary_metric": "evaluate_task_questions/accuracy",
	"tags": [
	"code"
	]
	},
	{
	"name": "ds1000_test",
	"path": "astabench/ds1000_test",
	"primary_metric": "ds1000_scorer/accuracy",
	"tags": [
	"code"
	]
	},
	{
	"name": "e2e_discovery_test",
	"path": "astabench/e2e_discovery_test",
	"primary_metric": "score_rubric/accuracy",
	"tags": [
	"discovery"
	]
	},
	{
	"name": "super_test",
	"path": "astabench/super_test",
	"primary_metric": "check_super_execution/entrypoints",
	"tags": [
	"code"
	]
	}
	]
	}
	]
	},
	"split": "validation",
	"results": [
	{
	"task_name": "sqa_dev",
	"metrics": [
	{
	"name": "global_avg/mean",
	"value": 0.6215245045241414
	},
	{
	"name": "global_avg/stderr",
	"value": 0.02088486499225903
	},
	{
	"name": "ingredient_recall/mean",
	"value": 0.6029178145087237
	},
	{
	"name": "ingredient_recall/stderr",
	"value": 0.026215888361291618
	},
	{
	"name": "answer_precision/mean",
	"value": 0.7960436785436785
	},
	{
	"name": "answer_precision/stderr",
	"value": 0.027692773517249983
	},
	{
	"name": "citation_precision/mean",
	"value": 0.697849041353826
	},
	{
	"name": "citation_precision/stderr",
	"value": 0.026784164936602798
	},
	{
	"name": "citation_recall/mean",
	"value": 0.3892874836903378
	},
	{
	"name": "citation_recall/stderr",
	"value": 0.015094770200171756
	}
	],
	"model_costs": [
	1.3829150000000001,
	0.9759700000000001,
	2.2324650000000004,
	0.76631,
	0.9277900000000001,
	2.6388600000000006,
	0.8114100000000002,
	2.3263174999999996,
	2.5423725,
	1.2398675000000001,
	1.7387300000000003,
	1.2176599999999997,
	0.564655,
	0.9726750000000001,
	0.7675700000000001,
	1.5198850000000002,
	1.4726625000000002,
	2.1937650000000004,
	0.6907700000000001,
	1.39835,
	1.2598175,
	2.5373550000000002,
	2.19239,
	1.2508875000000006,
	2.2650550000000007,
	1.6047725,
	0.6525125000000003,
	1.4262200000000003,
	1.0533299999999999,
	1.7252375,
	1.407145,
	1.5408700000000004,
	2.8073224999999993,
	1.0448125000000006,
	1.7037300000000004,
	0.8650500000000001,
	1.0171225000000002,
	0.5697925000000001,
	2.7851025,
	1.0551425,
	2.9213775,
	1.7772975000000004,
	1.2753225000000001,
	0.8108325000000001,
	0.6958375000000001,
	0.8840950000000003,
	1.2028724999999998,
	1.2490475000000003,
	2.4272,
	1.95026,
	1.5352475,
	2.11181,
	2.3612249999999997,
	1.8619225000000004,
	0.7431075000000001,
	1.5189675000000002,
	1.089575,
	1.6103700000000003,
	1.4201450000000002,
	2.397835,
	1.469175,
	1.0723550000000004,
	0.7964050000000003,
	3.3733175,
	4.197085,
	4.2637675,
	1.2982124999999998,
	0.66146,
	1.1130475000000002,
	2.4393974999999997,
	2.582,
	1.7381725000000001,
	0.415025,
	1.6777325,
	1.0507825000000002,
	2.4627125000000003,
	1.017005,
	1.9210250000000002,
	1.5009025000000003,
	0.8283125000000001,
	2.9854425,
	0.4633375000000001,
	0.397685,
	1.2803425,
	3.0388200000000003,
	1.2610875000000004,
	1.798365,
	3.427287500000001,
	0.29307750000000005,
	0.37101249999999997,
	2.8046925000000003,
	0.35557000000000005,
	3.5481700000000007,
	1.1073975,
	1.5280825,
	1.1714900000000001,
	3.1791275000000003,
	3.8214725000000005,
	1.8440275,
	1.730515,
	1.9350675000000002,
	1.6592125000000002,
	1.9227124999999998,
	1.202885,
	1.2688150000000002,
	0.8819875000000001,
	0.6989325,
	1.965635,
	1.7467800000000002,
	1.6940625000000002
	]
	}
	],
	"submission": {
	"submit_time": "2025-06-09T20:55:35.869831Z",
	"username": "miked-ai",
	"agent_name": "Basic ReAct",
	"agent_description": null,
	"agent_url": null,
	"logs_url": "hf://datasets/allenai/asta-bench-internal-submissions/1.0.0-dev1/validation/miked-ai_Basic_ReAct__task_tools__report_editor__2025-06-09T20-55-35",
	"logs_url_public": null,
	"summary_url": null
	}
	}