Training in progress, step 5000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +345 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9197a884173d9c36c93a016c2f30534c3f05c90874cb72eed644075307e2fce3
 size 5323528

 version https://git-lfs.github.com/spec/v1
+oid sha256:065b0553ba7b625058bbc54e3b3e27c491e8ccc08fd588730cb0ecf41b13d909
 size 5323528

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3eb84df5445e2433de304b15e77a1175375dd2d8c25dc61c78681c28414293e5
 size 10707706

 version https://git-lfs.github.com/spec/v1
+oid sha256:07c15daf481efa3729e5a025f1cd3f5b2786cecfaaa7fdaaaf1ae1c82d0daee5
 size 10707706

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:75f78ad885bfca269044336e349d57c368367d27fdbb75021a699360ecf7bb2b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c099333e451994d42ef6a1a4186a67f46e72967ddbe49de900a735186c809291
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48a8d4a8a8e577d9dbdb51f074c9b711b4edce95beedab354e7f35ce094aeb0d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd435f2d2df02dd69f00b4ffef1b8f08ed9d2c925d3492fd0d5a1484e32202ff
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.41941431164741516,
-  "best_model_checkpoint": "bart_lora_outputs\\checkpoint-4500",
-  "epoch": 7.3409461663947795,
   "eval_steps": 100,
-  "global_step": 4500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3067,13 +3067,353 @@
       "eval_samples_per_second": 91.356,
       "eval_steps_per_second": 11.468,
       "step": 4500
     }
   ],
   "logging_steps": 10,
   "max_steps": 6130,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 8507970531753984.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.4176868200302124,
+  "best_model_checkpoint": "bart_lora_outputs\\checkpoint-5000",
+  "epoch": 8.156606851549755,
   "eval_steps": 100,
+  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 91.356,
       "eval_steps_per_second": 11.468,
       "step": 4500
+    },
+    {
+      "epoch": 7.36,
+      "learning_rate": 0.0002877442273534636,
+      "loss": 0.4006,
+      "step": 4510
+    },
+    {
+      "epoch": 7.37,
+      "learning_rate": 0.00028596802841918297,
+      "loss": 0.4024,
+      "step": 4520
+    },
+    {
+      "epoch": 7.39,
+      "learning_rate": 0.0002841918294849023,
+      "loss": 0.3959,
+      "step": 4530
+    },
+    {
+      "epoch": 7.41,
+      "learning_rate": 0.0002824156305506217,
+      "loss": 0.3917,
+      "step": 4540
+    },
+    {
+      "epoch": 7.42,
+      "learning_rate": 0.00028063943161634104,
+      "loss": 0.3994,
+      "step": 4550
+    },
+    {
+      "epoch": 7.44,
+      "learning_rate": 0.0002788632326820604,
+      "loss": 0.4246,
+      "step": 4560
+    },
+    {
+      "epoch": 7.46,
+      "learning_rate": 0.00027708703374777977,
+      "loss": 0.3905,
+      "step": 4570
+    },
+    {
+      "epoch": 7.47,
+      "learning_rate": 0.0002753108348134991,
+      "loss": 0.4076,
+      "step": 4580
+    },
+    {
+      "epoch": 7.49,
+      "learning_rate": 0.00027353463587921845,
+      "loss": 0.3924,
+      "step": 4590
+    },
+    {
+      "epoch": 7.5,
+      "learning_rate": 0.00027175843694493784,
+      "loss": 0.3863,
+      "step": 4600
+    },
+    {
+      "epoch": 7.5,
+      "eval_loss": 0.4166851341724396,
+      "eval_runtime": 12.731,
+      "eval_samples_per_second": 91.98,
+      "eval_steps_per_second": 11.547,
+      "step": 4600
+    },
+    {
+      "epoch": 7.52,
+      "learning_rate": 0.0002699822380106572,
+      "loss": 0.3949,
+      "step": 4610
+    },
+    {
+      "epoch": 7.54,
+      "learning_rate": 0.0002682060390763766,
+      "loss": 0.3966,
+      "step": 4620
+    },
+    {
+      "epoch": 7.55,
+      "learning_rate": 0.0002664298401420959,
+      "loss": 0.3899,
+      "step": 4630
+    },
+    {
+      "epoch": 7.57,
+      "learning_rate": 0.00026465364120781525,
+      "loss": 0.41,
+      "step": 4640
+    },
+    {
+      "epoch": 7.59,
+      "learning_rate": 0.00026287744227353465,
+      "loss": 0.3993,
+      "step": 4650
+    },
+    {
+      "epoch": 7.6,
+      "learning_rate": 0.000261101243339254,
+      "loss": 0.4216,
+      "step": 4660
+    },
+    {
+      "epoch": 7.62,
+      "learning_rate": 0.0002593250444049733,
+      "loss": 0.4144,
+      "step": 4670
+    },
+    {
+      "epoch": 7.63,
+      "learning_rate": 0.0002575488454706927,
+      "loss": 0.4117,
+      "step": 4680
+    },
+    {
+      "epoch": 7.65,
+      "learning_rate": 0.00025577264653641206,
+      "loss": 0.4288,
+      "step": 4690
+    },
+    {
+      "epoch": 7.67,
+      "learning_rate": 0.0002539964476021314,
+      "loss": 0.3837,
+      "step": 4700
+    },
+    {
+      "epoch": 7.67,
+      "eval_loss": 0.4177791476249695,
+      "eval_runtime": 12.7781,
+      "eval_samples_per_second": 91.642,
+      "eval_steps_per_second": 11.504,
+      "step": 4700
+    },
+    {
+      "epoch": 7.68,
+      "learning_rate": 0.0002522202486678508,
+      "loss": 0.3894,
+      "step": 4710
+    },
+    {
+      "epoch": 7.7,
+      "learning_rate": 0.00025044404973357013,
+      "loss": 0.4109,
+      "step": 4720
+    },
+    {
+      "epoch": 7.72,
+      "learning_rate": 0.0002486678507992895,
+      "loss": 0.4211,
+      "step": 4730
+    },
+    {
+      "epoch": 7.73,
+      "learning_rate": 0.0002468916518650089,
+      "loss": 0.3984,
+      "step": 4740
+    },
+    {
+      "epoch": 7.75,
+      "learning_rate": 0.00024511545293072826,
+      "loss": 0.3988,
+      "step": 4750
+    },
+    {
+      "epoch": 7.77,
+      "learning_rate": 0.0002433392539964476,
+      "loss": 0.4185,
+      "step": 4760
+    },
+    {
+      "epoch": 7.78,
+      "learning_rate": 0.00024156305506216696,
+      "loss": 0.3986,
+      "step": 4770
+    },
+    {
+      "epoch": 7.8,
+      "learning_rate": 0.00023978685612788633,
+      "loss": 0.4035,
+      "step": 4780
+    },
+    {
+      "epoch": 7.81,
+      "learning_rate": 0.00023801065719360567,
+      "loss": 0.4028,
+      "step": 4790
+    },
+    {
+      "epoch": 7.83,
+      "learning_rate": 0.00023623445825932503,
+      "loss": 0.3998,
+      "step": 4800
+    },
+    {
+      "epoch": 7.83,
+      "eval_loss": 0.42066851258277893,
+      "eval_runtime": 12.801,
+      "eval_samples_per_second": 91.477,
+      "eval_steps_per_second": 11.483,
+      "step": 4800
+    },
+    {
+      "epoch": 7.85,
+      "learning_rate": 0.00023445825932504443,
+      "loss": 0.4137,
+      "step": 4810
+    },
+    {
+      "epoch": 7.86,
+      "learning_rate": 0.0002326820603907638,
+      "loss": 0.3972,
+      "step": 4820
+    },
+    {
+      "epoch": 7.88,
+      "learning_rate": 0.00023090586145648313,
+      "loss": 0.4158,
+      "step": 4830
+    },
+    {
+      "epoch": 7.9,
+      "learning_rate": 0.0002291296625222025,
+      "loss": 0.3972,
+      "step": 4840
+    },
+    {
+      "epoch": 7.91,
+      "learning_rate": 0.00022735346358792187,
+      "loss": 0.4246,
+      "step": 4850
+    },
+    {
+      "epoch": 7.93,
+      "learning_rate": 0.0002255772646536412,
+      "loss": 0.3866,
+      "step": 4860
+    },
+    {
+      "epoch": 7.94,
+      "learning_rate": 0.00022380106571936057,
+      "loss": 0.4359,
+      "step": 4870
+    },
+    {
+      "epoch": 7.96,
+      "learning_rate": 0.00022202486678507994,
+      "loss": 0.386,
+      "step": 4880
+    },
+    {
+      "epoch": 7.98,
+      "learning_rate": 0.0002202486678507993,
+      "loss": 0.38,
+      "step": 4890
+    },
+    {
+      "epoch": 7.99,
+      "learning_rate": 0.00021847246891651864,
+      "loss": 0.3936,
+      "step": 4900
+    },
+    {
+      "epoch": 7.99,
+      "eval_loss": 0.41456684470176697,
+      "eval_runtime": 12.7936,
+      "eval_samples_per_second": 91.53,
+      "eval_steps_per_second": 11.49,
+      "step": 4900
+    },
+    {
+      "epoch": 8.01,
+      "learning_rate": 0.000216696269982238,
+      "loss": 0.3634,
+      "step": 4910
+    },
+    {
+      "epoch": 8.03,
+      "learning_rate": 0.00021492007104795738,
+      "loss": 0.3883,
+      "step": 4920
+    },
+    {
+      "epoch": 8.04,
+      "learning_rate": 0.00021314387211367671,
+      "loss": 0.3864,
+      "step": 4930
+    },
+    {
+      "epoch": 8.06,
+      "learning_rate": 0.00021136767317939608,
+      "loss": 0.3848,
+      "step": 4940
+    },
+    {
+      "epoch": 8.08,
+      "learning_rate": 0.00020959147424511545,
+      "loss": 0.4164,
+      "step": 4950
+    },
+    {
+      "epoch": 8.09,
+      "learning_rate": 0.00020781527531083484,
+      "loss": 0.3963,
+      "step": 4960
+    },
+    {
+      "epoch": 8.11,
+      "learning_rate": 0.00020603907637655418,
+      "loss": 0.3873,
+      "step": 4970
+    },
+    {
+      "epoch": 8.12,
+      "learning_rate": 0.00020426287744227355,
+      "loss": 0.4306,
+      "step": 4980
+    },
+    {
+      "epoch": 8.14,
+      "learning_rate": 0.0002024866785079929,
+      "loss": 0.3966,
+      "step": 4990
+    },
+    {
+      "epoch": 8.16,
+      "learning_rate": 0.00020071047957371228,
+      "loss": 0.3672,
+      "step": 5000
+    },
+    {
+      "epoch": 8.16,
+      "eval_loss": 0.4176868200302124,
+      "eval_runtime": 12.7243,
+      "eval_samples_per_second": 92.029,
+      "eval_steps_per_second": 11.553,
+      "step": 5000
     }
   ],
   "logging_steps": 10,
   "max_steps": 6130,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 9451155609649152.0,
   "trial_name": null,
   "trial_params": null
 }