Training in progress, step 3000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +345 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa4cf5ab1fb087d029d4381bb5e28a055d9c817a87979d4b736175862d080f9b
 size 5323528

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d9f1330624d49e1cfa068a1cfd37e35fba53b8c452104e1861364c4b2bcc193
 size 5323528

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6572beb7bcdb366917f4d9b45d34f2485f10958107a6631df832abba4e4d9c9c
 size 10707706

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e1273154004834ff66e75e29f96e8a925d89006ab79c55eac7eeca115990223
 size 10707706

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ff46ad6a9496f04d82a8799741e7a0a0edd57f04423aee3b129229a16b468b4
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:635c549447e6d040590768c59571f091ceb0002258d8b337cb9e12c5e9806440
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a929be8c5a8f87235cd3c7ec1fa0db3faf4d300da6627139836df2b8a53bd9f3
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:66074cbfdf1af5e0486634010580a05d2b8863ee9a8c7ccf5e54b33878144bd6
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.4399421811103821,
-  "best_model_checkpoint": "bart_lora_outputs\\checkpoint-2500",
-  "epoch": 4.078303425774878,
   "eval_steps": 100,
-  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1707,13 +1707,353 @@
       "eval_samples_per_second": 89.035,
       "eval_steps_per_second": 11.177,
       "step": 2500
     }
   ],
   "logging_steps": 10,
   "max_steps": 6130,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 4719092173406208.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.4271390736103058,
+  "best_model_checkpoint": "bart_lora_outputs\\checkpoint-3000",
+  "epoch": 4.893964110929853,
   "eval_steps": 100,
+  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 89.035,
       "eval_steps_per_second": 11.177,
       "step": 2500
+    },
+    {
+      "epoch": 4.09,
+      "learning_rate": 0.0006429840142095915,
+      "loss": 0.4375,
+      "step": 2510
+    },
+    {
+      "epoch": 4.11,
+      "learning_rate": 0.0006412078152753108,
+      "loss": 0.4485,
+      "step": 2520
+    },
+    {
+      "epoch": 4.13,
+      "learning_rate": 0.0006394316163410302,
+      "loss": 0.4633,
+      "step": 2530
+    },
+    {
+      "epoch": 4.14,
+      "learning_rate": 0.0006376554174067496,
+      "loss": 0.4457,
+      "step": 2540
+    },
+    {
+      "epoch": 4.16,
+      "learning_rate": 0.0006358792184724689,
+      "loss": 0.4504,
+      "step": 2550
+    },
+    {
+      "epoch": 4.18,
+      "learning_rate": 0.0006341030195381882,
+      "loss": 0.4719,
+      "step": 2560
+    },
+    {
+      "epoch": 4.19,
+      "learning_rate": 0.0006323268206039076,
+      "loss": 0.4223,
+      "step": 2570
+    },
+    {
+      "epoch": 4.21,
+      "learning_rate": 0.0006305506216696269,
+      "loss": 0.4481,
+      "step": 2580
+    },
+    {
+      "epoch": 4.23,
+      "learning_rate": 0.0006287744227353463,
+      "loss": 0.4371,
+      "step": 2590
+    },
+    {
+      "epoch": 4.24,
+      "learning_rate": 0.0006269982238010657,
+      "loss": 0.4284,
+      "step": 2600
+    },
+    {
+      "epoch": 4.24,
+      "eval_loss": 0.44260162115097046,
+      "eval_runtime": 13.1231,
+      "eval_samples_per_second": 89.232,
+      "eval_steps_per_second": 11.202,
+      "step": 2600
+    },
+    {
+      "epoch": 4.26,
+      "learning_rate": 0.0006252220248667851,
+      "loss": 0.4474,
+      "step": 2610
+    },
+    {
+      "epoch": 4.27,
+      "learning_rate": 0.0006234458259325044,
+      "loss": 0.4725,
+      "step": 2620
+    },
+    {
+      "epoch": 4.29,
+      "learning_rate": 0.0006216696269982238,
+      "loss": 0.4319,
+      "step": 2630
+    },
+    {
+      "epoch": 4.31,
+      "learning_rate": 0.0006198934280639432,
+      "loss": 0.4502,
+      "step": 2640
+    },
+    {
+      "epoch": 4.32,
+      "learning_rate": 0.0006181172291296625,
+      "loss": 0.4378,
+      "step": 2650
+    },
+    {
+      "epoch": 4.34,
+      "learning_rate": 0.0006163410301953819,
+      "loss": 0.4333,
+      "step": 2660
+    },
+    {
+      "epoch": 4.36,
+      "learning_rate": 0.0006145648312611012,
+      "loss": 0.4206,
+      "step": 2670
+    },
+    {
+      "epoch": 4.37,
+      "learning_rate": 0.0006127886323268205,
+      "loss": 0.4314,
+      "step": 2680
+    },
+    {
+      "epoch": 4.39,
+      "learning_rate": 0.00061101243339254,
+      "loss": 0.4083,
+      "step": 2690
+    },
+    {
+      "epoch": 4.4,
+      "learning_rate": 0.0006092362344582594,
+      "loss": 0.4416,
+      "step": 2700
+    },
+    {
+      "epoch": 4.4,
+      "eval_loss": 0.4252881109714508,
+      "eval_runtime": 13.1357,
+      "eval_samples_per_second": 89.146,
+      "eval_steps_per_second": 11.191,
+      "step": 2700
+    },
+    {
+      "epoch": 4.42,
+      "learning_rate": 0.0006074600355239787,
+      "loss": 0.452,
+      "step": 2710
+    },
+    {
+      "epoch": 4.44,
+      "learning_rate": 0.0006056838365896981,
+      "loss": 0.4075,
+      "step": 2720
+    },
+    {
+      "epoch": 4.45,
+      "learning_rate": 0.0006039076376554175,
+      "loss": 0.466,
+      "step": 2730
+    },
+    {
+      "epoch": 4.47,
+      "learning_rate": 0.0006021314387211368,
+      "loss": 0.4219,
+      "step": 2740
+    },
+    {
+      "epoch": 4.49,
+      "learning_rate": 0.0006003552397868562,
+      "loss": 0.4391,
+      "step": 2750
+    },
+    {
+      "epoch": 4.5,
+      "learning_rate": 0.0005985790408525756,
+      "loss": 0.4952,
+      "step": 2760
+    },
+    {
+      "epoch": 4.52,
+      "learning_rate": 0.0005968028419182949,
+      "loss": 0.4594,
+      "step": 2770
+    },
+    {
+      "epoch": 4.54,
+      "learning_rate": 0.0005950266429840142,
+      "loss": 0.4501,
+      "step": 2780
+    },
+    {
+      "epoch": 4.55,
+      "learning_rate": 0.0005932504440497336,
+      "loss": 0.4474,
+      "step": 2790
+    },
+    {
+      "epoch": 4.57,
+      "learning_rate": 0.0005914742451154529,
+      "loss": 0.4335,
+      "step": 2800
+    },
+    {
+      "epoch": 4.57,
+      "eval_loss": 0.43218302726745605,
+      "eval_runtime": 12.9197,
+      "eval_samples_per_second": 90.637,
+      "eval_steps_per_second": 11.378,
+      "step": 2800
+    },
+    {
+      "epoch": 4.58,
+      "learning_rate": 0.0005896980461811723,
+      "loss": 0.4498,
+      "step": 2810
+    },
+    {
+      "epoch": 4.6,
+      "learning_rate": 0.0005879218472468917,
+      "loss": 0.4228,
+      "step": 2820
+    },
+    {
+      "epoch": 4.62,
+      "learning_rate": 0.0005861456483126111,
+      "loss": 0.4399,
+      "step": 2830
+    },
+    {
+      "epoch": 4.63,
+      "learning_rate": 0.0005843694493783304,
+      "loss": 0.4561,
+      "step": 2840
+    },
+    {
+      "epoch": 4.65,
+      "learning_rate": 0.0005825932504440498,
+      "loss": 0.4394,
+      "step": 2850
+    },
+    {
+      "epoch": 4.67,
+      "learning_rate": 0.0005808170515097692,
+      "loss": 0.4641,
+      "step": 2860
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 0.0005790408525754885,
+      "loss": 0.4162,
+      "step": 2870
+    },
+    {
+      "epoch": 4.7,
+      "learning_rate": 0.0005772646536412079,
+      "loss": 0.4456,
+      "step": 2880
+    },
+    {
+      "epoch": 4.71,
+      "learning_rate": 0.0005754884547069273,
+      "loss": 0.4588,
+      "step": 2890
+    },
+    {
+      "epoch": 4.73,
+      "learning_rate": 0.0005737122557726465,
+      "loss": 0.4316,
+      "step": 2900
+    },
+    {
+      "epoch": 4.73,
+      "eval_loss": 0.428786039352417,
+      "eval_runtime": 12.9621,
+      "eval_samples_per_second": 90.341,
+      "eval_steps_per_second": 11.341,
+      "step": 2900
+    },
+    {
+      "epoch": 4.75,
+      "learning_rate": 0.0005719360568383659,
+      "loss": 0.4255,
+      "step": 2910
+    },
+    {
+      "epoch": 4.76,
+      "learning_rate": 0.0005701598579040853,
+      "loss": 0.4353,
+      "step": 2920
+    },
+    {
+      "epoch": 4.78,
+      "learning_rate": 0.0005683836589698046,
+      "loss": 0.4517,
+      "step": 2930
+    },
+    {
+      "epoch": 4.8,
+      "learning_rate": 0.000566607460035524,
+      "loss": 0.4747,
+      "step": 2940
+    },
+    {
+      "epoch": 4.81,
+      "learning_rate": 0.0005648312611012434,
+      "loss": 0.4213,
+      "step": 2950
+    },
+    {
+      "epoch": 4.83,
+      "learning_rate": 0.0005630550621669627,
+      "loss": 0.437,
+      "step": 2960
+    },
+    {
+      "epoch": 4.85,
+      "learning_rate": 0.0005612788632326821,
+      "loss": 0.4278,
+      "step": 2970
+    },
+    {
+      "epoch": 4.86,
+      "learning_rate": 0.0005595026642984015,
+      "loss": 0.428,
+      "step": 2980
+    },
+    {
+      "epoch": 4.88,
+      "learning_rate": 0.0005577264653641208,
+      "loss": 0.4256,
+      "step": 2990
+    },
+    {
+      "epoch": 4.89,
+      "learning_rate": 0.0005559502664298401,
+      "loss": 0.4509,
+      "step": 3000
+    },
+    {
+      "epoch": 4.89,
+      "eval_loss": 0.4271390736103058,
+      "eval_runtime": 12.8651,
+      "eval_samples_per_second": 91.022,
+      "eval_steps_per_second": 11.426,
+      "step": 3000
     }
   ],
   "logging_steps": 10,
   "max_steps": 6130,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 5664599237689344.0,
   "trial_name": null,
   "trial_params": null
 }