Training in progress, step 3500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +343 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d9f1330624d49e1cfa068a1cfd37e35fba53b8c452104e1861364c4b2bcc193
 size 5323528

 version https://git-lfs.github.com/spec/v1
+oid sha256:cdb65aad7f5881ab6c4f55f41fa5aa18d8451e3142560b840323390718fbf1c0
 size 5323528

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e1273154004834ff66e75e29f96e8a925d89006ab79c55eac7eeca115990223
 size 10707706

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed6c83118141e829ba55ae59bd3661bdfd7b741a28a938857f067ee13bda6e1f
 size 10707706

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:635c549447e6d040590768c59571f091ceb0002258d8b337cb9e12c5e9806440
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3cd6b45f83835221dcdf23f243180950e962516b14dd7ff28fbb69bb83387d6c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66074cbfdf1af5e0486634010580a05d2b8863ee9a8c7ccf5e54b33878144bd6
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:15c59c2a801a017f8138f2d9ac3b94589723ddfbbf1ae570418aa9bfac089535
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.4271390736103058,
   "best_model_checkpoint": "bart_lora_outputs\\checkpoint-3000",
-  "epoch": 4.893964110929853,
   "eval_steps": 100,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2047,13 +2047,353 @@
       "eval_samples_per_second": 91.022,
       "eval_steps_per_second": 11.426,
       "step": 3000
     }
   ],
   "logging_steps": 10,
   "max_steps": 6130,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 5664599237689344.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": 0.4271390736103058,
   "best_model_checkpoint": "bart_lora_outputs\\checkpoint-3000",
+  "epoch": 5.709624796084829,
   "eval_steps": 100,
+  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 91.022,
       "eval_steps_per_second": 11.426,
       "step": 3000
+    },
+    {
+      "epoch": 4.91,
+      "learning_rate": 0.0005541740674955595,
+      "loss": 0.4681,
+      "step": 3010
+    },
+    {
+      "epoch": 4.93,
+      "learning_rate": 0.0005523978685612788,
+      "loss": 0.4466,
+      "step": 3020
+    },
+    {
+      "epoch": 4.94,
+      "learning_rate": 0.0005506216696269982,
+      "loss": 0.4146,
+      "step": 3030
+    },
+    {
+      "epoch": 4.96,
+      "learning_rate": 0.0005488454706927176,
+      "loss": 0.4909,
+      "step": 3040
+    },
+    {
+      "epoch": 4.98,
+      "learning_rate": 0.0005470692717584369,
+      "loss": 0.4382,
+      "step": 3050
+    },
+    {
+      "epoch": 4.99,
+      "learning_rate": 0.0005452930728241563,
+      "loss": 0.4615,
+      "step": 3060
+    },
+    {
+      "epoch": 5.01,
+      "learning_rate": 0.0005435168738898757,
+      "loss": 0.4114,
+      "step": 3070
+    },
+    {
+      "epoch": 5.02,
+      "learning_rate": 0.0005417406749555951,
+      "loss": 0.4365,
+      "step": 3080
+    },
+    {
+      "epoch": 5.04,
+      "learning_rate": 0.0005399644760213144,
+      "loss": 0.4459,
+      "step": 3090
+    },
+    {
+      "epoch": 5.06,
+      "learning_rate": 0.0005381882770870338,
+      "loss": 0.4326,
+      "step": 3100
+    },
+    {
+      "epoch": 5.06,
+      "eval_loss": 0.42266643047332764,
+      "eval_runtime": 12.9188,
+      "eval_samples_per_second": 90.643,
+      "eval_steps_per_second": 11.379,
+      "step": 3100
+    },
+    {
+      "epoch": 5.07,
+      "learning_rate": 0.0005364120781527531,
+      "loss": 0.4261,
+      "step": 3110
+    },
+    {
+      "epoch": 5.09,
+      "learning_rate": 0.0005346358792184724,
+      "loss": 0.4112,
+      "step": 3120
+    },
+    {
+      "epoch": 5.11,
+      "learning_rate": 0.0005328596802841918,
+      "loss": 0.4144,
+      "step": 3130
+    },
+    {
+      "epoch": 5.12,
+      "learning_rate": 0.0005310834813499112,
+      "loss": 0.4119,
+      "step": 3140
+    },
+    {
+      "epoch": 5.14,
+      "learning_rate": 0.0005293072824156305,
+      "loss": 0.3985,
+      "step": 3150
+    },
+    {
+      "epoch": 5.15,
+      "learning_rate": 0.0005275310834813499,
+      "loss": 0.4249,
+      "step": 3160
+    },
+    {
+      "epoch": 5.17,
+      "learning_rate": 0.0005257548845470693,
+      "loss": 0.4289,
+      "step": 3170
+    },
+    {
+      "epoch": 5.19,
+      "learning_rate": 0.0005239786856127886,
+      "loss": 0.446,
+      "step": 3180
+    },
+    {
+      "epoch": 5.2,
+      "learning_rate": 0.000522202486678508,
+      "loss": 0.4505,
+      "step": 3190
+    },
+    {
+      "epoch": 5.22,
+      "learning_rate": 0.0005204262877442274,
+      "loss": 0.4613,
+      "step": 3200
+    },
+    {
+      "epoch": 5.22,
+      "eval_loss": 0.4256543815135956,
+      "eval_runtime": 12.7792,
+      "eval_samples_per_second": 91.634,
+      "eval_steps_per_second": 11.503,
+      "step": 3200
+    },
+    {
+      "epoch": 5.24,
+      "learning_rate": 0.0005186500888099467,
+      "loss": 0.4168,
+      "step": 3210
+    },
+    {
+      "epoch": 5.25,
+      "learning_rate": 0.000516873889875666,
+      "loss": 0.4754,
+      "step": 3220
+    },
+    {
+      "epoch": 5.27,
+      "learning_rate": 0.0005150976909413854,
+      "loss": 0.4053,
+      "step": 3230
+    },
+    {
+      "epoch": 5.29,
+      "learning_rate": 0.0005133214920071047,
+      "loss": 0.4463,
+      "step": 3240
+    },
+    {
+      "epoch": 5.3,
+      "learning_rate": 0.0005115452930728241,
+      "loss": 0.4651,
+      "step": 3250
+    },
+    {
+      "epoch": 5.32,
+      "learning_rate": 0.0005097690941385435,
+      "loss": 0.4347,
+      "step": 3260
+    },
+    {
+      "epoch": 5.33,
+      "learning_rate": 0.0005079928952042628,
+      "loss": 0.4227,
+      "step": 3270
+    },
+    {
+      "epoch": 5.35,
+      "learning_rate": 0.0005062166962699822,
+      "loss": 0.4292,
+      "step": 3280
+    },
+    {
+      "epoch": 5.37,
+      "learning_rate": 0.0005044404973357016,
+      "loss": 0.4408,
+      "step": 3290
+    },
+    {
+      "epoch": 5.38,
+      "learning_rate": 0.0005026642984014209,
+      "loss": 0.446,
+      "step": 3300
+    },
+    {
+      "epoch": 5.38,
+      "eval_loss": 0.4269155263900757,
+      "eval_runtime": 12.9043,
+      "eval_samples_per_second": 90.745,
+      "eval_steps_per_second": 11.392,
+      "step": 3300
+    },
+    {
+      "epoch": 5.4,
+      "learning_rate": 0.0005008880994671403,
+      "loss": 0.4059,
+      "step": 3310
+    },
+    {
+      "epoch": 5.42,
+      "learning_rate": 0.0004991119005328598,
+      "loss": 0.4111,
+      "step": 3320
+    },
+    {
+      "epoch": 5.43,
+      "learning_rate": 0.000497335701598579,
+      "loss": 0.3952,
+      "step": 3330
+    },
+    {
+      "epoch": 5.45,
+      "learning_rate": 0.0004955595026642984,
+      "loss": 0.4449,
+      "step": 3340
+    },
+    {
+      "epoch": 5.46,
+      "learning_rate": 0.0004937833037300178,
+      "loss": 0.4312,
+      "step": 3350
+    },
+    {
+      "epoch": 5.48,
+      "learning_rate": 0.0004920071047957371,
+      "loss": 0.428,
+      "step": 3360
+    },
+    {
+      "epoch": 5.5,
+      "learning_rate": 0.0004902309058614565,
+      "loss": 0.4202,
+      "step": 3370
+    },
+    {
+      "epoch": 5.51,
+      "learning_rate": 0.0004884547069271759,
+      "loss": 0.4164,
+      "step": 3380
+    },
+    {
+      "epoch": 5.53,
+      "learning_rate": 0.0004866785079928952,
+      "loss": 0.407,
+      "step": 3390
+    },
+    {
+      "epoch": 5.55,
+      "learning_rate": 0.0004849023090586146,
+      "loss": 0.4,
+      "step": 3400
+    },
+    {
+      "epoch": 5.55,
+      "eval_loss": 0.4314885437488556,
+      "eval_runtime": 13.0675,
+      "eval_samples_per_second": 89.612,
+      "eval_steps_per_second": 11.249,
+      "step": 3400
+    },
+    {
+      "epoch": 5.56,
+      "learning_rate": 0.0004831261101243339,
+      "loss": 0.4138,
+      "step": 3410
+    },
+    {
+      "epoch": 5.58,
+      "learning_rate": 0.00048134991119005326,
+      "loss": 0.4223,
+      "step": 3420
+    },
+    {
+      "epoch": 5.6,
+      "learning_rate": 0.00047957371225577266,
+      "loss": 0.4108,
+      "step": 3430
+    },
+    {
+      "epoch": 5.61,
+      "learning_rate": 0.000477797513321492,
+      "loss": 0.4065,
+      "step": 3440
+    },
+    {
+      "epoch": 5.63,
+      "learning_rate": 0.00047602131438721133,
+      "loss": 0.4481,
+      "step": 3450
+    },
+    {
+      "epoch": 5.64,
+      "learning_rate": 0.00047424511545293073,
+      "loss": 0.4273,
+      "step": 3460
+    },
+    {
+      "epoch": 5.66,
+      "learning_rate": 0.00047246891651865007,
+      "loss": 0.4267,
+      "step": 3470
+    },
+    {
+      "epoch": 5.68,
+      "learning_rate": 0.00047069271758436946,
+      "loss": 0.4626,
+      "step": 3480
+    },
+    {
+      "epoch": 5.69,
+      "learning_rate": 0.00046891651865008885,
+      "loss": 0.4441,
+      "step": 3490
+    },
+    {
+      "epoch": 5.71,
+      "learning_rate": 0.0004671403197158082,
+      "loss": 0.4086,
+      "step": 3500
+    },
+    {
+      "epoch": 5.71,
+      "eval_loss": 0.4278687536716461,
+      "eval_runtime": 12.9778,
+      "eval_samples_per_second": 90.231,
+      "eval_steps_per_second": 11.327,
+      "step": 3500
     }
   ],
   "logging_steps": 10,
   "max_steps": 6130,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 6614658553872384.0,
   "trial_name": null,
   "trial_params": null
 }