Training in progress, step 2500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +345 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:264ecec36fa0a7877a74e5bc90de5cfe426844837e851cd04e19bd3e592e07d9
 size 5323528

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa4cf5ab1fb087d029d4381bb5e28a055d9c817a87979d4b736175862d080f9b
 size 5323528

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9825a8978c13d22cdcc9972f981eca76a202db226c336284f26d0d6ae781e227
 size 10707706

 version https://git-lfs.github.com/spec/v1
+oid sha256:6572beb7bcdb366917f4d9b45d34f2485f10958107a6631df832abba4e4d9c9c
 size 10707706

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d122c28c5fc3f53d9d112345e4abc97c9cbf42b6d6c3da282213a9e89d67c386
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ff46ad6a9496f04d82a8799741e7a0a0edd57f04423aee3b129229a16b468b4
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c35dfe7906d79114431a0065ffa36a90ef274205cc0fefa7802dd197d609956
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a929be8c5a8f87235cd3c7ec1fa0db3faf4d300da6627139836df2b8a53bd9f3
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.45563551783561707,
-  "best_model_checkpoint": "bart_lora_outputs\\checkpoint-1500",
-  "epoch": 3.262642740619902,
   "eval_steps": 100,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1367,13 +1367,353 @@
       "eval_samples_per_second": 90.523,
       "eval_steps_per_second": 11.364,
       "step": 2000
     }
   ],
   "logging_steps": 10,
   "max_steps": 6130,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 3778253218971648.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.4399421811103821,
+  "best_model_checkpoint": "bart_lora_outputs\\checkpoint-2500",
+  "epoch": 4.078303425774878,
   "eval_steps": 100,
+  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 90.523,
       "eval_steps_per_second": 11.364,
       "step": 2000
+    },
+    {
+      "epoch": 3.28,
+      "learning_rate": 0.0007317939609236234,
+      "loss": 0.4824,
+      "step": 2010
+    },
+    {
+      "epoch": 3.3,
+      "learning_rate": 0.0007300177619893427,
+      "loss": 0.4741,
+      "step": 2020
+    },
+    {
+      "epoch": 3.31,
+      "learning_rate": 0.0007282415630550621,
+      "loss": 0.4649,
+      "step": 2030
+    },
+    {
+      "epoch": 3.33,
+      "learning_rate": 0.0007264653641207815,
+      "loss": 0.471,
+      "step": 2040
+    },
+    {
+      "epoch": 3.34,
+      "learning_rate": 0.0007246891651865008,
+      "loss": 0.4411,
+      "step": 2050
+    },
+    {
+      "epoch": 3.36,
+      "learning_rate": 0.0007229129662522202,
+      "loss": 0.4435,
+      "step": 2060
+    },
+    {
+      "epoch": 3.38,
+      "learning_rate": 0.0007211367673179397,
+      "loss": 0.4464,
+      "step": 2070
+    },
+    {
+      "epoch": 3.39,
+      "learning_rate": 0.000719360568383659,
+      "loss": 0.4268,
+      "step": 2080
+    },
+    {
+      "epoch": 3.41,
+      "learning_rate": 0.0007175843694493784,
+      "loss": 0.4648,
+      "step": 2090
+    },
+    {
+      "epoch": 3.43,
+      "learning_rate": 0.0007158081705150978,
+      "loss": 0.4746,
+      "step": 2100
+    },
+    {
+      "epoch": 3.43,
+      "eval_loss": 0.44933727383613586,
+      "eval_runtime": 12.9431,
+      "eval_samples_per_second": 90.473,
+      "eval_steps_per_second": 11.357,
+      "step": 2100
+    },
+    {
+      "epoch": 3.44,
+      "learning_rate": 0.0007140319715808172,
+      "loss": 0.4758,
+      "step": 2110
+    },
+    {
+      "epoch": 3.46,
+      "learning_rate": 0.0007122557726465364,
+      "loss": 0.4585,
+      "step": 2120
+    },
+    {
+      "epoch": 3.47,
+      "learning_rate": 0.0007104795737122558,
+      "loss": 0.4386,
+      "step": 2130
+    },
+    {
+      "epoch": 3.49,
+      "learning_rate": 0.0007087033747779752,
+      "loss": 0.4575,
+      "step": 2140
+    },
+    {
+      "epoch": 3.51,
+      "learning_rate": 0.0007069271758436945,
+      "loss": 0.46,
+      "step": 2150
+    },
+    {
+      "epoch": 3.52,
+      "learning_rate": 0.0007051509769094139,
+      "loss": 0.4529,
+      "step": 2160
+    },
+    {
+      "epoch": 3.54,
+      "learning_rate": 0.0007033747779751333,
+      "loss": 0.4723,
+      "step": 2170
+    },
+    {
+      "epoch": 3.56,
+      "learning_rate": 0.0007015985790408526,
+      "loss": 0.47,
+      "step": 2180
+    },
+    {
+      "epoch": 3.57,
+      "learning_rate": 0.000699822380106572,
+      "loss": 0.4952,
+      "step": 2190
+    },
+    {
+      "epoch": 3.59,
+      "learning_rate": 0.0006980461811722914,
+      "loss": 0.4488,
+      "step": 2200
+    },
+    {
+      "epoch": 3.59,
+      "eval_loss": 0.43646687269210815,
+      "eval_runtime": 13.2627,
+      "eval_samples_per_second": 88.293,
+      "eval_steps_per_second": 11.084,
+      "step": 2200
+    },
+    {
+      "epoch": 3.61,
+      "learning_rate": 0.0006962699822380107,
+      "loss": 0.4558,
+      "step": 2210
+    },
+    {
+      "epoch": 3.62,
+      "learning_rate": 0.0006944937833037301,
+      "loss": 0.4657,
+      "step": 2220
+    },
+    {
+      "epoch": 3.64,
+      "learning_rate": 0.0006927175843694495,
+      "loss": 0.4671,
+      "step": 2230
+    },
+    {
+      "epoch": 3.65,
+      "learning_rate": 0.0006909413854351687,
+      "loss": 0.5003,
+      "step": 2240
+    },
+    {
+      "epoch": 3.67,
+      "learning_rate": 0.0006891651865008881,
+      "loss": 0.4523,
+      "step": 2250
+    },
+    {
+      "epoch": 3.69,
+      "learning_rate": 0.0006873889875666075,
+      "loss": 0.4466,
+      "step": 2260
+    },
+    {
+      "epoch": 3.7,
+      "learning_rate": 0.0006856127886323268,
+      "loss": 0.4448,
+      "step": 2270
+    },
+    {
+      "epoch": 3.72,
+      "learning_rate": 0.0006838365896980462,
+      "loss": 0.4491,
+      "step": 2280
+    },
+    {
+      "epoch": 3.74,
+      "learning_rate": 0.0006820603907637656,
+      "loss": 0.4719,
+      "step": 2290
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 0.0006802841918294849,
+      "loss": 0.4742,
+      "step": 2300
+    },
+    {
+      "epoch": 3.75,
+      "eval_loss": 0.43938902020454407,
+      "eval_runtime": 13.1019,
+      "eval_samples_per_second": 89.376,
+      "eval_steps_per_second": 11.22,
+      "step": 2300
+    },
+    {
+      "epoch": 3.77,
+      "learning_rate": 0.0006785079928952043,
+      "loss": 0.4709,
+      "step": 2310
+    },
+    {
+      "epoch": 3.78,
+      "learning_rate": 0.0006767317939609237,
+      "loss": 0.4575,
+      "step": 2320
+    },
+    {
+      "epoch": 3.8,
+      "learning_rate": 0.000674955595026643,
+      "loss": 0.4688,
+      "step": 2330
+    },
+    {
+      "epoch": 3.82,
+      "learning_rate": 0.0006731793960923623,
+      "loss": 0.4552,
+      "step": 2340
+    },
+    {
+      "epoch": 3.83,
+      "learning_rate": 0.0006714031971580817,
+      "loss": 0.4515,
+      "step": 2350
+    },
+    {
+      "epoch": 3.85,
+      "learning_rate": 0.0006696269982238011,
+      "loss": 0.455,
+      "step": 2360
+    },
+    {
+      "epoch": 3.87,
+      "learning_rate": 0.0006678507992895204,
+      "loss": 0.4465,
+      "step": 2370
+    },
+    {
+      "epoch": 3.88,
+      "learning_rate": 0.0006660746003552398,
+      "loss": 0.479,
+      "step": 2380
+    },
+    {
+      "epoch": 3.9,
+      "learning_rate": 0.0006642984014209592,
+      "loss": 0.4492,
+      "step": 2390
+    },
+    {
+      "epoch": 3.92,
+      "learning_rate": 0.0006625222024866785,
+      "loss": 0.4465,
+      "step": 2400
+    },
+    {
+      "epoch": 3.92,
+      "eval_loss": 0.4411802589893341,
+      "eval_runtime": 12.9494,
+      "eval_samples_per_second": 90.429,
+      "eval_steps_per_second": 11.352,
+      "step": 2400
+    },
+    {
+      "epoch": 3.93,
+      "learning_rate": 0.0006607460035523979,
+      "loss": 0.4851,
+      "step": 2410
+    },
+    {
+      "epoch": 3.95,
+      "learning_rate": 0.0006589698046181173,
+      "loss": 0.4414,
+      "step": 2420
+    },
+    {
+      "epoch": 3.96,
+      "learning_rate": 0.0006571936056838366,
+      "loss": 0.4333,
+      "step": 2430
+    },
+    {
+      "epoch": 3.98,
+      "learning_rate": 0.000655417406749556,
+      "loss": 0.4733,
+      "step": 2440
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 0.0006536412078152753,
+      "loss": 0.4667,
+      "step": 2450
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 0.0006518650088809946,
+      "loss": 0.4381,
+      "step": 2460
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 0.000650088809946714,
+      "loss": 0.4267,
+      "step": 2470
+    },
+    {
+      "epoch": 4.05,
+      "learning_rate": 0.0006483126110124334,
+      "loss": 0.4361,
+      "step": 2480
+    },
+    {
+      "epoch": 4.06,
+      "learning_rate": 0.0006465364120781527,
+      "loss": 0.4636,
+      "step": 2490
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 0.0006447602131438721,
+      "loss": 0.4578,
+      "step": 2500
+    },
+    {
+      "epoch": 4.08,
+      "eval_loss": 0.4399421811103821,
+      "eval_runtime": 13.1521,
+      "eval_samples_per_second": 89.035,
+      "eval_steps_per_second": 11.177,
+      "step": 2500
     }
   ],
   "logging_steps": 10,
   "max_steps": 6130,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 4719092173406208.0,
   "trial_name": null,
   "trial_params": null
 }