Training in progress, step 5500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +345 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:065b0553ba7b625058bbc54e3b3e27c491e8ccc08fd588730cb0ecf41b13d909
 size 5323528

 version https://git-lfs.github.com/spec/v1
+oid sha256:afdc7bd9d3bef6c5e894b53ed72a94b99726290b734e0bf561bc5081e613a3a5
 size 5323528

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:07c15daf481efa3729e5a025f1cd3f5b2786cecfaaa7fdaaaf1ae1c82d0daee5
 size 10707706

 version https://git-lfs.github.com/spec/v1
+oid sha256:8b8dc6e6ab63f8f2ab0a2ef7abcaaafacf3195f20706e2cf750f59052bce8207
 size 10707706

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c099333e451994d42ef6a1a4186a67f46e72967ddbe49de900a735186c809291
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab1e40e99fab0633bd87e6ef55b536c62fe829ab788d235ef7008de5c52a1ab6
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd435f2d2df02dd69f00b4ffef1b8f08ed9d2c925d3492fd0d5a1484e32202ff
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:30332e8503dd44f865572ef943e9da8b0c9c1c0a4084d30212d8b7e0b9a4d2d8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.4176868200302124,
-  "best_model_checkpoint": "bart_lora_outputs\\checkpoint-5000",
-  "epoch": 8.156606851549755,
   "eval_steps": 100,
-  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3407,13 +3407,353 @@
       "eval_samples_per_second": 92.029,
       "eval_steps_per_second": 11.553,
       "step": 5000
     }
   ],
   "logging_steps": 10,
   "max_steps": 6130,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 9451155609649152.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.417066365480423,
+  "best_model_checkpoint": "bart_lora_outputs\\checkpoint-5500",
+  "epoch": 8.97226753670473,
   "eval_steps": 100,
+  "global_step": 5500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 92.029,
       "eval_steps_per_second": 11.553,
       "step": 5000
+    },
+    {
+      "epoch": 8.17,
+      "learning_rate": 0.00019893428063943162,
+      "loss": 0.3893,
+      "step": 5010
+    },
+    {
+      "epoch": 8.19,
+      "learning_rate": 0.00019715808170515098,
+      "loss": 0.3948,
+      "step": 5020
+    },
+    {
+      "epoch": 8.21,
+      "learning_rate": 0.00019538188277087035,
+      "loss": 0.3831,
+      "step": 5030
+    },
+    {
+      "epoch": 8.22,
+      "learning_rate": 0.0001936056838365897,
+      "loss": 0.3828,
+      "step": 5040
+    },
+    {
+      "epoch": 8.24,
+      "learning_rate": 0.00019182948490230906,
+      "loss": 0.3986,
+      "step": 5050
+    },
+    {
+      "epoch": 8.25,
+      "learning_rate": 0.00019005328596802842,
+      "loss": 0.3826,
+      "step": 5060
+    },
+    {
+      "epoch": 8.27,
+      "learning_rate": 0.0001882770870337478,
+      "loss": 0.4053,
+      "step": 5070
+    },
+    {
+      "epoch": 8.29,
+      "learning_rate": 0.00018650088809946713,
+      "loss": 0.399,
+      "step": 5080
+    },
+    {
+      "epoch": 8.3,
+      "learning_rate": 0.0001847246891651865,
+      "loss": 0.4096,
+      "step": 5090
+    },
+    {
+      "epoch": 8.32,
+      "learning_rate": 0.00018294849023090586,
+      "loss": 0.3931,
+      "step": 5100
+    },
+    {
+      "epoch": 8.32,
+      "eval_loss": 0.4182140529155731,
+      "eval_runtime": 12.7337,
+      "eval_samples_per_second": 91.961,
+      "eval_steps_per_second": 11.544,
+      "step": 5100
+    },
+    {
+      "epoch": 8.34,
+      "learning_rate": 0.0001811722912966252,
+      "loss": 0.4117,
+      "step": 5110
+    },
+    {
+      "epoch": 8.35,
+      "learning_rate": 0.0001793960923623446,
+      "loss": 0.3754,
+      "step": 5120
+    },
+    {
+      "epoch": 8.37,
+      "learning_rate": 0.00017761989342806396,
+      "loss": 0.3688,
+      "step": 5130
+    },
+    {
+      "epoch": 8.38,
+      "learning_rate": 0.00017584369449378333,
+      "loss": 0.4199,
+      "step": 5140
+    },
+    {
+      "epoch": 8.4,
+      "learning_rate": 0.00017406749555950267,
+      "loss": 0.4011,
+      "step": 5150
+    },
+    {
+      "epoch": 8.42,
+      "learning_rate": 0.00017229129662522203,
+      "loss": 0.4013,
+      "step": 5160
+    },
+    {
+      "epoch": 8.43,
+      "learning_rate": 0.0001705150976909414,
+      "loss": 0.414,
+      "step": 5170
+    },
+    {
+      "epoch": 8.45,
+      "learning_rate": 0.00016873889875666074,
+      "loss": 0.3682,
+      "step": 5180
+    },
+    {
+      "epoch": 8.47,
+      "learning_rate": 0.0001669626998223801,
+      "loss": 0.377,
+      "step": 5190
+    },
+    {
+      "epoch": 8.48,
+      "learning_rate": 0.00016518650088809947,
+      "loss": 0.3904,
+      "step": 5200
+    },
+    {
+      "epoch": 8.48,
+      "eval_loss": 0.41562286019325256,
+      "eval_runtime": 12.9077,
+      "eval_samples_per_second": 90.721,
+      "eval_steps_per_second": 11.389,
+      "step": 5200
+    },
+    {
+      "epoch": 8.5,
+      "learning_rate": 0.00016341030195381884,
+      "loss": 0.3955,
+      "step": 5210
+    },
+    {
+      "epoch": 8.52,
+      "learning_rate": 0.00016163410301953818,
+      "loss": 0.386,
+      "step": 5220
+    },
+    {
+      "epoch": 8.53,
+      "learning_rate": 0.00015985790408525754,
+      "loss": 0.3862,
+      "step": 5230
+    },
+    {
+      "epoch": 8.55,
+      "learning_rate": 0.0001580817051509769,
+      "loss": 0.3979,
+      "step": 5240
+    },
+    {
+      "epoch": 8.56,
+      "learning_rate": 0.00015630550621669628,
+      "loss": 0.381,
+      "step": 5250
+    },
+    {
+      "epoch": 8.58,
+      "learning_rate": 0.00015452930728241561,
+      "loss": 0.4016,
+      "step": 5260
+    },
+    {
+      "epoch": 8.6,
+      "learning_rate": 0.000152753108348135,
+      "loss": 0.4191,
+      "step": 5270
+    },
+    {
+      "epoch": 8.61,
+      "learning_rate": 0.00015097690941385437,
+      "loss": 0.3832,
+      "step": 5280
+    },
+    {
+      "epoch": 8.63,
+      "learning_rate": 0.00014920071047957371,
+      "loss": 0.3934,
+      "step": 5290
+    },
+    {
+      "epoch": 8.65,
+      "learning_rate": 0.00014742451154529308,
+      "loss": 0.3968,
+      "step": 5300
+    },
+    {
+      "epoch": 8.65,
+      "eval_loss": 0.41458660364151,
+      "eval_runtime": 12.7995,
+      "eval_samples_per_second": 91.488,
+      "eval_steps_per_second": 11.485,
+      "step": 5300
+    },
+    {
+      "epoch": 8.66,
+      "learning_rate": 0.00014564831261101245,
+      "loss": 0.409,
+      "step": 5310
+    },
+    {
+      "epoch": 8.68,
+      "learning_rate": 0.0001438721136767318,
+      "loss": 0.3797,
+      "step": 5320
+    },
+    {
+      "epoch": 8.69,
+      "learning_rate": 0.00014209591474245115,
+      "loss": 0.3895,
+      "step": 5330
+    },
+    {
+      "epoch": 8.71,
+      "learning_rate": 0.00014031971580817052,
+      "loss": 0.3722,
+      "step": 5340
+    },
+    {
+      "epoch": 8.73,
+      "learning_rate": 0.00013854351687388988,
+      "loss": 0.4083,
+      "step": 5350
+    },
+    {
+      "epoch": 8.74,
+      "learning_rate": 0.00013676731793960922,
+      "loss": 0.4032,
+      "step": 5360
+    },
+    {
+      "epoch": 8.76,
+      "learning_rate": 0.0001349911190053286,
+      "loss": 0.3985,
+      "step": 5370
+    },
+    {
+      "epoch": 8.78,
+      "learning_rate": 0.00013321492007104796,
+      "loss": 0.3894,
+      "step": 5380
+    },
+    {
+      "epoch": 8.79,
+      "learning_rate": 0.00013143872113676732,
+      "loss": 0.3924,
+      "step": 5390
+    },
+    {
+      "epoch": 8.81,
+      "learning_rate": 0.00012966252220248666,
+      "loss": 0.3677,
+      "step": 5400
+    },
+    {
+      "epoch": 8.81,
+      "eval_loss": 0.41405031085014343,
+      "eval_runtime": 12.6828,
+      "eval_samples_per_second": 92.33,
+      "eval_steps_per_second": 11.591,
+      "step": 5400
+    },
+    {
+      "epoch": 8.83,
+      "learning_rate": 0.00012788632326820603,
+      "loss": 0.3836,
+      "step": 5410
+    },
+    {
+      "epoch": 8.84,
+      "learning_rate": 0.0001261101243339254,
+      "loss": 0.4018,
+      "step": 5420
+    },
+    {
+      "epoch": 8.86,
+      "learning_rate": 0.00012433392539964476,
+      "loss": 0.4,
+      "step": 5430
+    },
+    {
+      "epoch": 8.87,
+      "learning_rate": 0.00012255772646536413,
+      "loss": 0.3869,
+      "step": 5440
+    },
+    {
+      "epoch": 8.89,
+      "learning_rate": 0.00012078152753108348,
+      "loss": 0.4168,
+      "step": 5450
+    },
+    {
+      "epoch": 8.91,
+      "learning_rate": 0.00011900532859680283,
+      "loss": 0.3929,
+      "step": 5460
+    },
+    {
+      "epoch": 8.92,
+      "learning_rate": 0.00011722912966252221,
+      "loss": 0.4153,
+      "step": 5470
+    },
+    {
+      "epoch": 8.94,
+      "learning_rate": 0.00011545293072824157,
+      "loss": 0.4017,
+      "step": 5480
+    },
+    {
+      "epoch": 8.96,
+      "learning_rate": 0.00011367673179396093,
+      "loss": 0.3844,
+      "step": 5490
+    },
+    {
+      "epoch": 8.97,
+      "learning_rate": 0.00011190053285968029,
+      "loss": 0.3823,
+      "step": 5500
+    },
+    {
+      "epoch": 8.97,
+      "eval_loss": 0.417066365480423,
+      "eval_runtime": 12.7641,
+      "eval_samples_per_second": 91.742,
+      "eval_steps_per_second": 11.517,
+      "step": 5500
     }
   ],
   "logging_steps": 10,
   "max_steps": 6130,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 1.039214421393408e+16,
   "trial_name": null,
   "trial_params": null
 }