synapti commited on 5 days ago

Commit

4caa504

verified ·

1 Parent(s): f763bfb

Retrained binary detector with corrected focal loss alpha weighting

Browse files

Files changed (27) hide show

checkpoint-200/config.json +54 -0
checkpoint-200/model.safetensors +3 -0
checkpoint-200/optimizer.pt +3 -0
checkpoint-200/rng_state.pth +3 -0
checkpoint-200/scaler.pt +3 -0
checkpoint-200/scheduler.pt +3 -0
checkpoint-200/trainer_state.json +139 -0
checkpoint-200/training_args.bin +3 -0
checkpoint-400/config.json +54 -0
checkpoint-400/model.safetensors +3 -0
checkpoint-400/optimizer.pt +3 -0
checkpoint-400/rng_state.pth +3 -0
checkpoint-400/scaler.pt +3 -0
checkpoint-400/scheduler.pt +3 -0
checkpoint-400/trainer_state.json +235 -0
checkpoint-400/training_args.bin +3 -0
checkpoint-600/config.json +54 -0
checkpoint-600/model.safetensors +3 -0
checkpoint-600/optimizer.pt +3 -0
checkpoint-600/rng_state.pth +3 -0
checkpoint-600/scaler.pt +3 -0
checkpoint-600/scheduler.pt +3 -0
checkpoint-600/trainer_state.json +331 -0
checkpoint-600/training_args.bin +3 -0
model.safetensors +3 -0
test_results.json +8 -8
training_args.bin +2 -2

checkpoint-200/config.json ADDED Viewed

	@@ -0,0 +1,54 @@

+{
+  "architectures": [
+    "ModernBertForSequenceClassification"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 50281,
+  "classifier_activation": "gelu",
+  "classifier_bias": false,
+  "classifier_dropout": 0.0,
+  "classifier_pooling": "mean",
+  "cls_token_id": 50281,
+  "decoder_bias": true,
+  "deterministic_flash_attn": false,
+  "dtype": "float32",
+  "embedding_dropout": 0.0,
+  "eos_token_id": 50282,
+  "global_attn_every_n_layers": 3,
+  "global_rope_theta": 160000.0,
+  "gradient_checkpointing": false,
+  "hidden_activation": "gelu",
+  "hidden_size": 768,
+  "id2label": {
+    "0": "no_propaganda",
+    "1": "has_propaganda"
+  },
+  "initializer_cutoff_factor": 2.0,
+  "initializer_range": 0.02,
+  "intermediate_size": 1152,
+  "label2id": {
+    "has_propaganda": 1,
+    "no_propaganda": 0
+  },
+  "layer_norm_eps": 1e-05,
+  "local_attention": 128,
+  "local_rope_theta": 10000.0,
+  "max_position_embeddings": 8192,
+  "mlp_bias": false,
+  "mlp_dropout": 0.0,
+  "model_type": "modernbert",
+  "norm_bias": false,
+  "norm_eps": 1e-05,
+  "num_attention_heads": 12,
+  "num_hidden_layers": 22,
+  "pad_token_id": 50283,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "repad_logits_with_grad": false,
+  "sep_token_id": 50282,
+  "sparse_pred_ignore_index": -100,
+  "sparse_prediction": false,
+  "transformers_version": "4.57.3",
+  "vocab_size": 50368
+}

checkpoint-200/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b2aae000f6b136f5ba37b84e00f9f4b3849f2c3ebbb9f15316a1658b785ec20c
+size 598439784

checkpoint-200/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2de83188c578a2771dba49cb1868183db64f2ccfcf87a8cfabbaa5259771db3c
+size 1196969803

checkpoint-200/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f4a9f217e852f439efa6bd32fde98d6867f11aa6ea13ddc021ba10af6a0b0934
+size 14645

checkpoint-200/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:17a0d72ed9080212eb9b54c712205e4caf5fd660e6ac2976551fc7e5c10f31bb
+size 1383

checkpoint-200/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c8fc52dc9b611603860209b456c0a27c6d5387c43752f103e88a490557670867
+size 1465

checkpoint-200/trainer_state.json ADDED Viewed

	@@ -0,0 +1,139 @@

+{
+  "best_global_step": 200,
+  "best_metric": 0.9974785678265254,
+  "best_model_checkpoint": "nci-binary-detector/checkpoint-200",
+  "epoch": 0.32679738562091504,
+  "eval_steps": 100,
+  "global_step": 200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.032679738562091505,
+      "grad_norm": 2.849823236465454,
+      "learning_rate": 1.2418300653594772e-06,
+      "loss": 0.1789,
+      "step": 20
+    },
+    {
+      "epoch": 0.06535947712418301,
+      "grad_norm": 1.1499906778335571,
+      "learning_rate": 2.549019607843137e-06,
+      "loss": 0.1045,
+      "step": 40
+    },
+    {
+      "epoch": 0.09803921568627451,
+      "grad_norm": 1.5816751718521118,
+      "learning_rate": 3.856209150326798e-06,
+      "loss": 0.0389,
+      "step": 60
+    },
+    {
+      "epoch": 0.13071895424836602,
+      "grad_norm": 0.3664398789405823,
+      "learning_rate": 5.163398692810458e-06,
+      "loss": 0.0164,
+      "step": 80
+    },
+    {
+      "epoch": 0.16339869281045752,
+      "grad_norm": 0.15663352608680725,
+      "learning_rate": 6.470588235294119e-06,
+      "loss": 0.0123,
+      "step": 100
+    },
+    {
+      "epoch": 0.16339869281045752,
+      "eval_accuracy": 0.9837869137232195,
+      "eval_f1": 0.9860279441117764,
+      "eval_loss": 0.005597150418907404,
+      "eval_precision": 0.9743589743589743,
+      "eval_recall": 0.997979797979798,
+      "eval_roc_auc": 0.9985759905705631,
+      "eval_runtime": 11.5844,
+      "eval_samples_per_second": 149.08,
+      "eval_steps_per_second": 4.661,
+      "step": 100
+    },
+    {
+      "epoch": 0.19607843137254902,
+      "grad_norm": 0.10866066068410873,
+      "learning_rate": 7.77777777777778e-06,
+      "loss": 0.0073,
+      "step": 120
+    },
+    {
+      "epoch": 0.22875816993464052,
+      "grad_norm": 0.06542709469795227,
+      "learning_rate": 9.084967320261438e-06,
+      "loss": 0.0019,
+      "step": 140
+    },
+    {
+      "epoch": 0.26143790849673204,
+      "grad_norm": 0.15572959184646606,
+      "learning_rate": 1.03921568627451e-05,
+      "loss": 0.0014,
+      "step": 160
+    },
+    {
+      "epoch": 0.29411764705882354,
+      "grad_norm": 0.009457970038056374,
+      "learning_rate": 1.169934640522876e-05,
+      "loss": 0.0066,
+      "step": 180
+    },
+    {
+      "epoch": 0.32679738562091504,
+      "grad_norm": 0.016104549169540405,
+      "learning_rate": 1.3006535947712419e-05,
+      "loss": 0.0007,
+      "step": 200
+    },
+    {
+      "epoch": 0.32679738562091504,
+      "eval_accuracy": 0.9971048060220035,
+      "eval_f1": 0.9974785678265254,
+      "eval_loss": 0.0025405457708984613,
+      "eval_precision": 0.9959718026183283,
+      "eval_recall": 0.998989898989899,
+      "eval_roc_auc": 0.998836396529748,
+      "eval_runtime": 8.7693,
+      "eval_samples_per_second": 196.936,
+      "eval_steps_per_second": 6.158,
+      "step": 200
+    }
+  ],
+  "logging_steps": 20,
+  "max_steps": 3060,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2180850214502400.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-200/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c1be75a7bbc1e87d42052a69bee01f6eaf1e6586d629ebf02cacfdf4eb951e52
+size 5841

checkpoint-400/config.json ADDED Viewed

	@@ -0,0 +1,54 @@

+{
+  "architectures": [
+    "ModernBertForSequenceClassification"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 50281,
+  "classifier_activation": "gelu",
+  "classifier_bias": false,
+  "classifier_dropout": 0.0,
+  "classifier_pooling": "mean",
+  "cls_token_id": 50281,
+  "decoder_bias": true,
+  "deterministic_flash_attn": false,
+  "dtype": "float32",
+  "embedding_dropout": 0.0,
+  "eos_token_id": 50282,
+  "global_attn_every_n_layers": 3,
+  "global_rope_theta": 160000.0,
+  "gradient_checkpointing": false,
+  "hidden_activation": "gelu",
+  "hidden_size": 768,
+  "id2label": {
+    "0": "no_propaganda",
+    "1": "has_propaganda"
+  },
+  "initializer_cutoff_factor": 2.0,
+  "initializer_range": 0.02,
+  "intermediate_size": 1152,
+  "label2id": {
+    "has_propaganda": 1,
+    "no_propaganda": 0
+  },
+  "layer_norm_eps": 1e-05,
+  "local_attention": 128,
+  "local_rope_theta": 10000.0,
+  "max_position_embeddings": 8192,
+  "mlp_bias": false,
+  "mlp_dropout": 0.0,
+  "model_type": "modernbert",
+  "norm_bias": false,
+  "norm_eps": 1e-05,
+  "num_attention_heads": 12,
+  "num_hidden_layers": 22,
+  "pad_token_id": 50283,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "repad_logits_with_grad": false,
+  "sep_token_id": 50282,
+  "sparse_pred_ignore_index": -100,
+  "sparse_prediction": false,
+  "transformers_version": "4.57.3",
+  "vocab_size": 50368
+}

checkpoint-400/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:606ea7da887dcedca22a8e326e47f5e00602fd243a036853988d022eb7e406c3
+size 598439784

checkpoint-400/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be1ab97a46359294ec6b5ffff2c8cad6f8fdc87bbf4fdc243126dddaa578a945
+size 1196969803

checkpoint-400/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:718a0f3db00824213036a2c0441849791319b7d9cf189065873bb26a7020738e
+size 14645

checkpoint-400/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:00a368419dfa117317e118dc1cc99dd02f7f47d2c85fd92b9bc06654abbfb3ca
+size 1383

checkpoint-400/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7934a8cae2282d33f468182cc96f87a5e2a1baf0ca87868dd26a10b5ddb95cf6
+size 1465

checkpoint-400/trainer_state.json ADDED Viewed

	@@ -0,0 +1,235 @@

+{
+  "best_global_step": 300,
+  "best_metric": 0.997979797979798,
+  "best_model_checkpoint": "nci-binary-detector/checkpoint-200",
+  "epoch": 0.6535947712418301,
+  "eval_steps": 100,
+  "global_step": 400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.032679738562091505,
+      "grad_norm": 2.849823236465454,
+      "learning_rate": 1.2418300653594772e-06,
+      "loss": 0.1789,
+      "step": 20
+    },
+    {
+      "epoch": 0.06535947712418301,
+      "grad_norm": 1.1499906778335571,
+      "learning_rate": 2.549019607843137e-06,
+      "loss": 0.1045,
+      "step": 40
+    },
+    {
+      "epoch": 0.09803921568627451,
+      "grad_norm": 1.5816751718521118,
+      "learning_rate": 3.856209150326798e-06,
+      "loss": 0.0389,
+      "step": 60
+    },
+    {
+      "epoch": 0.13071895424836602,
+      "grad_norm": 0.3664398789405823,
+      "learning_rate": 5.163398692810458e-06,
+      "loss": 0.0164,
+      "step": 80
+    },
+    {
+      "epoch": 0.16339869281045752,
+      "grad_norm": 0.15663352608680725,
+      "learning_rate": 6.470588235294119e-06,
+      "loss": 0.0123,
+      "step": 100
+    },
+    {
+      "epoch": 0.16339869281045752,
+      "eval_accuracy": 0.9837869137232195,
+      "eval_f1": 0.9860279441117764,
+      "eval_loss": 0.005597150418907404,
+      "eval_precision": 0.9743589743589743,
+      "eval_recall": 0.997979797979798,
+      "eval_roc_auc": 0.9985759905705631,
+      "eval_runtime": 11.5844,
+      "eval_samples_per_second": 149.08,
+      "eval_steps_per_second": 4.661,
+      "step": 100
+    },
+    {
+      "epoch": 0.19607843137254902,
+      "grad_norm": 0.10866066068410873,
+      "learning_rate": 7.77777777777778e-06,
+      "loss": 0.0073,
+      "step": 120
+    },
+    {
+      "epoch": 0.22875816993464052,
+      "grad_norm": 0.06542709469795227,
+      "learning_rate": 9.084967320261438e-06,
+      "loss": 0.0019,
+      "step": 140
+    },
+    {
+      "epoch": 0.26143790849673204,
+      "grad_norm": 0.15572959184646606,
+      "learning_rate": 1.03921568627451e-05,
+      "loss": 0.0014,
+      "step": 160
+    },
+    {
+      "epoch": 0.29411764705882354,
+      "grad_norm": 0.009457970038056374,
+      "learning_rate": 1.169934640522876e-05,
+      "loss": 0.0066,
+      "step": 180
+    },
+    {
+      "epoch": 0.32679738562091504,
+      "grad_norm": 0.016104549169540405,
+      "learning_rate": 1.3006535947712419e-05,
+      "loss": 0.0007,
+      "step": 200
+    },
+    {
+      "epoch": 0.32679738562091504,
+      "eval_accuracy": 0.9971048060220035,
+      "eval_f1": 0.9974785678265254,
+      "eval_loss": 0.0025405457708984613,
+      "eval_precision": 0.9959718026183283,
+      "eval_recall": 0.998989898989899,
+      "eval_roc_auc": 0.998836396529748,
+      "eval_runtime": 8.7693,
+      "eval_samples_per_second": 196.936,
+      "eval_steps_per_second": 6.158,
+      "step": 200
+    },
+    {
+      "epoch": 0.35947712418300654,
+      "grad_norm": 0.10450628399848938,
+      "learning_rate": 1.431372549019608e-05,
+      "loss": 0.0166,
+      "step": 220
+    },
+    {
+      "epoch": 0.39215686274509803,
+      "grad_norm": 0.11410112679004669,
+      "learning_rate": 1.562091503267974e-05,
+      "loss": 0.001,
+      "step": 240
+    },
+    {
+      "epoch": 0.42483660130718953,
+      "grad_norm": 0.056244976818561554,
+      "learning_rate": 1.69281045751634e-05,
+      "loss": 0.0044,
+      "step": 260
+    },
+    {
+      "epoch": 0.45751633986928103,
+      "grad_norm": 0.044668033719062805,
+      "learning_rate": 1.823529411764706e-05,
+      "loss": 0.0019,
+      "step": 280
+    },
+    {
+      "epoch": 0.49019607843137253,
+      "grad_norm": 0.004644064232707024,
+      "learning_rate": 1.954248366013072e-05,
+      "loss": 0.0004,
+      "step": 300
+    },
+    {
+      "epoch": 0.49019607843137253,
+      "eval_accuracy": 0.9976838448176027,
+      "eval_f1": 0.997979797979798,
+      "eval_loss": 0.002409732900559902,
+      "eval_precision": 0.997979797979798,
+      "eval_recall": 0.997979797979798,
+      "eval_roc_auc": 0.9996368022148212,
+      "eval_runtime": 8.7756,
+      "eval_samples_per_second": 196.796,
+      "eval_steps_per_second": 6.153,
+      "step": 300
+    },
+    {
+      "epoch": 0.5228758169934641,
+      "grad_norm": 0.31552189588546753,
+      "learning_rate": 1.990559186637618e-05,
+      "loss": 0.0033,
+      "step": 320
+    },
+    {
+      "epoch": 0.5555555555555556,
+      "grad_norm": 0.0014637637650594115,
+      "learning_rate": 1.9760348583877997e-05,
+      "loss": 0.0002,
+      "step": 340
+    },
+    {
+      "epoch": 0.5882352941176471,
+      "grad_norm": 2.498281955718994,
+      "learning_rate": 1.9615105301379813e-05,
+      "loss": 0.0008,
+      "step": 360
+    },
+    {
+      "epoch": 0.6209150326797386,
+      "grad_norm": 1.514452014816925e-05,
+      "learning_rate": 1.946986201888163e-05,
+      "loss": 0.0001,
+      "step": 380
+    },
+    {
+      "epoch": 0.6535947712418301,
+      "grad_norm": 0.016483725979924202,
+      "learning_rate": 1.9324618736383445e-05,
+      "loss": 0.0046,
+      "step": 400
+    },
+    {
+      "epoch": 0.6535947712418301,
+      "eval_accuracy": 0.9936305732484076,
+      "eval_f1": 0.994475138121547,
+      "eval_loss": 0.0015705447876825929,
+      "eval_precision": 0.989010989010989,
+      "eval_recall": 1.0,
+      "eval_roc_auc": 0.9999013198470458,
+      "eval_runtime": 8.774,
+      "eval_samples_per_second": 196.831,
+      "eval_steps_per_second": 6.155,
+      "step": 400
+    }
+  ],
+  "logging_steps": 20,
+  "max_steps": 3060,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 1
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4361700429004800.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-400/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c1be75a7bbc1e87d42052a69bee01f6eaf1e6586d629ebf02cacfdf4eb951e52
+size 5841

checkpoint-600/config.json ADDED Viewed

	@@ -0,0 +1,54 @@

+{
+  "architectures": [
+    "ModernBertForSequenceClassification"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 50281,
+  "classifier_activation": "gelu",
+  "classifier_bias": false,
+  "classifier_dropout": 0.0,
+  "classifier_pooling": "mean",
+  "cls_token_id": 50281,
+  "decoder_bias": true,
+  "deterministic_flash_attn": false,
+  "dtype": "float32",
+  "embedding_dropout": 0.0,
+  "eos_token_id": 50282,
+  "global_attn_every_n_layers": 3,
+  "global_rope_theta": 160000.0,
+  "gradient_checkpointing": false,
+  "hidden_activation": "gelu",
+  "hidden_size": 768,
+  "id2label": {
+    "0": "no_propaganda",
+    "1": "has_propaganda"
+  },
+  "initializer_cutoff_factor": 2.0,
+  "initializer_range": 0.02,
+  "intermediate_size": 1152,
+  "label2id": {
+    "has_propaganda": 1,
+    "no_propaganda": 0
+  },
+  "layer_norm_eps": 1e-05,
+  "local_attention": 128,
+  "local_rope_theta": 10000.0,
+  "max_position_embeddings": 8192,
+  "mlp_bias": false,
+  "mlp_dropout": 0.0,
+  "model_type": "modernbert",
+  "norm_bias": false,
+  "norm_eps": 1e-05,
+  "num_attention_heads": 12,
+  "num_hidden_layers": 22,
+  "pad_token_id": 50283,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "repad_logits_with_grad": false,
+  "sep_token_id": 50282,
+  "sparse_pred_ignore_index": -100,
+  "sparse_prediction": false,
+  "transformers_version": "4.57.3",
+  "vocab_size": 50368
+}

checkpoint-600/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f133a493cb63a16ccbeb38b71d01caf73ac23fc445fb95601f4f5dbc988cd9da
+size 598439784

checkpoint-600/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:08e19cbc488fe04403301c8fdd20a93d2aca52c250300e6def624c9a87c2f965
+size 1196969803

checkpoint-600/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f196323d7423b60f8e4ceb7dbf8715ee326c0d068e5ff164f13c63b279b9f1a0
+size 14645

checkpoint-600/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:78a1d1a5c8df0ff87f3d9a923fa98aa9b5f51a25e6518dd0f5b32d02e9a66dfd
+size 1383

checkpoint-600/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d9ed1fd0d4f00acf322bcd65b9233aaeae538bd83fe7c42e86772af6f795983
+size 1465

checkpoint-600/trainer_state.json ADDED Viewed

	@@ -0,0 +1,331 @@

+{
+  "best_global_step": 300,
+  "best_metric": 0.997979797979798,
+  "best_model_checkpoint": "nci-binary-detector/checkpoint-200",
+  "epoch": 0.9803921568627451,
+  "eval_steps": 100,
+  "global_step": 600,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.032679738562091505,
+      "grad_norm": 2.849823236465454,
+      "learning_rate": 1.2418300653594772e-06,
+      "loss": 0.1789,
+      "step": 20
+    },
+    {
+      "epoch": 0.06535947712418301,
+      "grad_norm": 1.1499906778335571,
+      "learning_rate": 2.549019607843137e-06,
+      "loss": 0.1045,
+      "step": 40
+    },
+    {
+      "epoch": 0.09803921568627451,
+      "grad_norm": 1.5816751718521118,
+      "learning_rate": 3.856209150326798e-06,
+      "loss": 0.0389,
+      "step": 60
+    },
+    {
+      "epoch": 0.13071895424836602,
+      "grad_norm": 0.3664398789405823,
+      "learning_rate": 5.163398692810458e-06,
+      "loss": 0.0164,
+      "step": 80
+    },
+    {
+      "epoch": 0.16339869281045752,
+      "grad_norm": 0.15663352608680725,
+      "learning_rate": 6.470588235294119e-06,
+      "loss": 0.0123,
+      "step": 100
+    },
+    {
+      "epoch": 0.16339869281045752,
+      "eval_accuracy": 0.9837869137232195,
+      "eval_f1": 0.9860279441117764,
+      "eval_loss": 0.005597150418907404,
+      "eval_precision": 0.9743589743589743,
+      "eval_recall": 0.997979797979798,
+      "eval_roc_auc": 0.9985759905705631,
+      "eval_runtime": 11.5844,
+      "eval_samples_per_second": 149.08,
+      "eval_steps_per_second": 4.661,
+      "step": 100
+    },
+    {
+      "epoch": 0.19607843137254902,
+      "grad_norm": 0.10866066068410873,
+      "learning_rate": 7.77777777777778e-06,
+      "loss": 0.0073,
+      "step": 120
+    },
+    {
+      "epoch": 0.22875816993464052,
+      "grad_norm": 0.06542709469795227,
+      "learning_rate": 9.084967320261438e-06,
+      "loss": 0.0019,
+      "step": 140
+    },
+    {
+      "epoch": 0.26143790849673204,
+      "grad_norm": 0.15572959184646606,
+      "learning_rate": 1.03921568627451e-05,
+      "loss": 0.0014,
+      "step": 160
+    },
+    {
+      "epoch": 0.29411764705882354,
+      "grad_norm": 0.009457970038056374,
+      "learning_rate": 1.169934640522876e-05,
+      "loss": 0.0066,
+      "step": 180
+    },
+    {
+      "epoch": 0.32679738562091504,
+      "grad_norm": 0.016104549169540405,
+      "learning_rate": 1.3006535947712419e-05,
+      "loss": 0.0007,
+      "step": 200
+    },
+    {
+      "epoch": 0.32679738562091504,
+      "eval_accuracy": 0.9971048060220035,
+      "eval_f1": 0.9974785678265254,
+      "eval_loss": 0.0025405457708984613,
+      "eval_precision": 0.9959718026183283,
+      "eval_recall": 0.998989898989899,
+      "eval_roc_auc": 0.998836396529748,
+      "eval_runtime": 8.7693,
+      "eval_samples_per_second": 196.936,
+      "eval_steps_per_second": 6.158,
+      "step": 200
+    },
+    {
+      "epoch": 0.35947712418300654,
+      "grad_norm": 0.10450628399848938,
+      "learning_rate": 1.431372549019608e-05,
+      "loss": 0.0166,
+      "step": 220
+    },
+    {
+      "epoch": 0.39215686274509803,
+      "grad_norm": 0.11410112679004669,
+      "learning_rate": 1.562091503267974e-05,
+      "loss": 0.001,
+      "step": 240
+    },
+    {
+      "epoch": 0.42483660130718953,
+      "grad_norm": 0.056244976818561554,
+      "learning_rate": 1.69281045751634e-05,
+      "loss": 0.0044,
+      "step": 260
+    },
+    {
+      "epoch": 0.45751633986928103,
+      "grad_norm": 0.044668033719062805,
+      "learning_rate": 1.823529411764706e-05,
+      "loss": 0.0019,
+      "step": 280
+    },
+    {
+      "epoch": 0.49019607843137253,
+      "grad_norm": 0.004644064232707024,
+      "learning_rate": 1.954248366013072e-05,
+      "loss": 0.0004,
+      "step": 300
+    },
+    {
+      "epoch": 0.49019607843137253,
+      "eval_accuracy": 0.9976838448176027,
+      "eval_f1": 0.997979797979798,
+      "eval_loss": 0.002409732900559902,
+      "eval_precision": 0.997979797979798,
+      "eval_recall": 0.997979797979798,
+      "eval_roc_auc": 0.9996368022148212,
+      "eval_runtime": 8.7756,
+      "eval_samples_per_second": 196.796,
+      "eval_steps_per_second": 6.153,
+      "step": 300
+    },
+    {
+      "epoch": 0.5228758169934641,
+      "grad_norm": 0.31552189588546753,
+      "learning_rate": 1.990559186637618e-05,
+      "loss": 0.0033,
+      "step": 320
+    },
+    {
+      "epoch": 0.5555555555555556,
+      "grad_norm": 0.0014637637650594115,
+      "learning_rate": 1.9760348583877997e-05,
+      "loss": 0.0002,
+      "step": 340
+    },
+    {
+      "epoch": 0.5882352941176471,
+      "grad_norm": 2.498281955718994,
+      "learning_rate": 1.9615105301379813e-05,
+      "loss": 0.0008,
+      "step": 360
+    },
+    {
+      "epoch": 0.6209150326797386,
+      "grad_norm": 1.514452014816925e-05,
+      "learning_rate": 1.946986201888163e-05,
+      "loss": 0.0001,
+      "step": 380
+    },
+    {
+      "epoch": 0.6535947712418301,
+      "grad_norm": 0.016483725979924202,
+      "learning_rate": 1.9324618736383445e-05,
+      "loss": 0.0046,
+      "step": 400
+    },
+    {
+      "epoch": 0.6535947712418301,
+      "eval_accuracy": 0.9936305732484076,
+      "eval_f1": 0.994475138121547,
+      "eval_loss": 0.0015705447876825929,
+      "eval_precision": 0.989010989010989,
+      "eval_recall": 1.0,
+      "eval_roc_auc": 0.9999013198470458,
+      "eval_runtime": 8.774,
+      "eval_samples_per_second": 196.831,
+      "eval_steps_per_second": 6.155,
+      "step": 400
+    },
+    {
+      "epoch": 0.6862745098039216,
+      "grad_norm": 0.006017300765961409,
+      "learning_rate": 1.9179375453885257e-05,
+      "loss": 0.0006,
+      "step": 420
+    },
+    {
+      "epoch": 0.7189542483660131,
+      "grad_norm": 0.0029072267934679985,
+      "learning_rate": 1.9034132171387073e-05,
+      "loss": 0.0008,
+      "step": 440
+    },
+    {
+      "epoch": 0.7516339869281046,
+      "grad_norm": 0.011737746186554432,
+      "learning_rate": 1.888888888888889e-05,
+      "loss": 0.0001,
+      "step": 460
+    },
+    {
+      "epoch": 0.7843137254901961,
+      "grad_norm": 0.043070435523986816,
+      "learning_rate": 1.8743645606390705e-05,
+      "loss": 0.0054,
+      "step": 480
+    },
+    {
+      "epoch": 0.8169934640522876,
+      "grad_norm": 0.0014130477793514729,
+      "learning_rate": 1.859840232389252e-05,
+      "loss": 0.0002,
+      "step": 500
+    },
+    {
+      "epoch": 0.8169934640522876,
+      "eval_accuracy": 0.9976838448176027,
+      "eval_f1": 0.997979797979798,
+      "eval_loss": 0.0020458686631172895,
+      "eval_precision": 0.997979797979798,
+      "eval_recall": 0.997979797979798,
+      "eval_roc_auc": 0.9999479188081631,
+      "eval_runtime": 8.7772,
+      "eval_samples_per_second": 196.761,
+      "eval_steps_per_second": 6.152,
+      "step": 500
+    },
+    {
+      "epoch": 0.8496732026143791,
+      "grad_norm": 0.1288619190454483,
+      "learning_rate": 1.8453159041394337e-05,
+      "loss": 0.0,
+      "step": 520
+    },
+    {
+      "epoch": 0.8823529411764706,
+      "grad_norm": 0.001577255199663341,
+      "learning_rate": 1.8307915758896153e-05,
+      "loss": 0.0036,
+      "step": 540
+    },
+    {
+      "epoch": 0.9150326797385621,
+      "grad_norm": 0.0329805426299572,
+      "learning_rate": 1.816267247639797e-05,
+      "loss": 0.0034,
+      "step": 560
+    },
+    {
+      "epoch": 0.9477124183006536,
+      "grad_norm": 0.0058128549717366695,
+      "learning_rate": 1.801742919389978e-05,
+      "loss": 0.0035,
+      "step": 580
+    },
+    {
+      "epoch": 0.9803921568627451,
+      "grad_norm": 0.00015560630708932877,
+      "learning_rate": 1.7872185911401597e-05,
+      "loss": 0.0008,
+      "step": 600
+    },
+    {
+      "epoch": 0.9803921568627451,
+      "eval_accuracy": 0.9971048060220035,
+      "eval_f1": 0.9974785678265254,
+      "eval_loss": 0.0012797409435734153,
+      "eval_precision": 0.9959718026183283,
+      "eval_recall": 0.998989898989899,
+      "eval_roc_auc": 0.9999218782122447,
+      "eval_runtime": 8.7835,
+      "eval_samples_per_second": 196.619,
+      "eval_steps_per_second": 6.148,
+      "step": 600
+    }
+  ],
+  "logging_steps": 20,
+  "max_steps": 3060,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 3
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6542550643507200.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-600/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c1be75a7bbc1e87d42052a69bee01f6eaf1e6586d629ebf02cacfdf4eb951e52
+size 5841

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b2aae000f6b136f5ba37b84e00f9f4b3849f2c3ebbb9f15316a1658b785ec20c
+size 598439784

test_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-  "eval_loss": 0.003097335109487176,
-  "eval_accuracy": 0.995373048004627,
-  "eval_f1": 0.9959432048681541,
-  "eval_precision": 0.9919191919191919,
   "eval_recall": 1.0,
-  "eval_roc_auc": 0.998592468993421,
-  "eval_runtime": 10.1758,
-  "eval_samples_per_second": 169.913,
-  "eval_steps_per_second": 5.405,
   "epoch": 0.9803921568627451
 }

 {
+  "eval_loss": 0.0017990026390179992,
+  "eval_accuracy": 0.9965297860034702,
+  "eval_f1": 0.9969543147208122,
+  "eval_precision": 0.9939271255060729,
   "eval_recall": 1.0,
+  "eval_roc_auc": 0.9992372749654421,
+  "eval_runtime": 10.1974,
+  "eval_samples_per_second": 169.553,
+  "eval_steps_per_second": 5.394,
   "epoch": 0.9803921568627451
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c102c64b10207311e1c05aa5b5e41a67e5313788a1c2852e9eba4ccf79d658f1
-size 5905

 version https://git-lfs.github.com/spec/v1
+oid sha256:c1be75a7bbc1e87d42052a69bee01f6eaf1e6586d629ebf02cacfdf4eb951e52
+size 5841