Training in progress, step 4000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +345 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cdb65aad7f5881ab6c4f55f41fa5aa18d8451e3142560b840323390718fbf1c0
 size 5323528

 version https://git-lfs.github.com/spec/v1
+oid sha256:9835ad6bb2b08ae316f9f11b0e8d1d3ebd81d56c95ce6836b93250c69a0da6c1
 size 5323528

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed6c83118141e829ba55ae59bd3661bdfd7b741a28a938857f067ee13bda6e1f
 size 10707706

 version https://git-lfs.github.com/spec/v1
+oid sha256:d58d2d3f9f8d82b76b4b01cc178bb373ee5e5c36fe33fa652a1d1f1d22485e65
 size 10707706

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3cd6b45f83835221dcdf23f243180950e962516b14dd7ff28fbb69bb83387d6c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5ed3dd25bda0e52429ee4870ac2ba7e5a4f0851368f27ee87285fe0a5714834
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15c59c2a801a017f8138f2d9ac3b94589723ddfbbf1ae570418aa9bfac089535
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f019f73cf3f7accb65e9b564bf8a83e5db913dbd19c9517ca220494d620a381
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.4271390736103058,
-  "best_model_checkpoint": "bart_lora_outputs\\checkpoint-3000",
-  "epoch": 5.709624796084829,
   "eval_steps": 100,
-  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2387,13 +2387,353 @@
       "eval_samples_per_second": 90.231,
       "eval_steps_per_second": 11.327,
       "step": 3500
     }
   ],
   "logging_steps": 10,
   "max_steps": 6130,
   "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 6614658553872384.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.42139747738838196,
+  "best_model_checkpoint": "bart_lora_outputs\\checkpoint-4000",
+  "epoch": 6.525285481239804,
   "eval_steps": 100,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 90.231,
       "eval_steps_per_second": 11.327,
       "step": 3500
+    },
+    {
+      "epoch": 5.73,
+      "learning_rate": 0.0004653641207815276,
+      "loss": 0.4377,
+      "step": 3510
+    },
+    {
+      "epoch": 5.74,
+      "learning_rate": 0.0004635879218472469,
+      "loss": 0.4315,
+      "step": 3520
+    },
+    {
+      "epoch": 5.76,
+      "learning_rate": 0.00046181172291296627,
+      "loss": 0.4392,
+      "step": 3530
+    },
+    {
+      "epoch": 5.77,
+      "learning_rate": 0.00046003552397868566,
+      "loss": 0.4151,
+      "step": 3540
+    },
+    {
+      "epoch": 5.79,
+      "learning_rate": 0.000458259325044405,
+      "loss": 0.3884,
+      "step": 3550
+    },
+    {
+      "epoch": 5.81,
+      "learning_rate": 0.00045648312611012434,
+      "loss": 0.4362,
+      "step": 3560
+    },
+    {
+      "epoch": 5.82,
+      "learning_rate": 0.00045470692717584373,
+      "loss": 0.4401,
+      "step": 3570
+    },
+    {
+      "epoch": 5.84,
+      "learning_rate": 0.00045293072824156307,
+      "loss": 0.4199,
+      "step": 3580
+    },
+    {
+      "epoch": 5.86,
+      "learning_rate": 0.0004511545293072824,
+      "loss": 0.4,
+      "step": 3590
+    },
+    {
+      "epoch": 5.87,
+      "learning_rate": 0.0004493783303730018,
+      "loss": 0.4056,
+      "step": 3600
+    },
+    {
+      "epoch": 5.87,
+      "eval_loss": 0.42200714349746704,
+      "eval_runtime": 13.1531,
+      "eval_samples_per_second": 89.029,
+      "eval_steps_per_second": 11.176,
+      "step": 3600
+    },
+    {
+      "epoch": 5.89,
+      "learning_rate": 0.00044760213143872114,
+      "loss": 0.4444,
+      "step": 3610
+    },
+    {
+      "epoch": 5.91,
+      "learning_rate": 0.0004458259325044405,
+      "loss": 0.4229,
+      "step": 3620
+    },
+    {
+      "epoch": 5.92,
+      "learning_rate": 0.0004440497335701599,
+      "loss": 0.4206,
+      "step": 3630
+    },
+    {
+      "epoch": 5.94,
+      "learning_rate": 0.0004422735346358792,
+      "loss": 0.4243,
+      "step": 3640
+    },
+    {
+      "epoch": 5.95,
+      "learning_rate": 0.0004404973357015986,
+      "loss": 0.4117,
+      "step": 3650
+    },
+    {
+      "epoch": 5.97,
+      "learning_rate": 0.00043872113676731795,
+      "loss": 0.4375,
+      "step": 3660
+    },
+    {
+      "epoch": 5.99,
+      "learning_rate": 0.0004369449378330373,
+      "loss": 0.4372,
+      "step": 3670
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 0.0004351687388987567,
+      "loss": 0.4045,
+      "step": 3680
+    },
+    {
+      "epoch": 6.02,
+      "learning_rate": 0.000433392539964476,
+      "loss": 0.3872,
+      "step": 3690
+    },
+    {
+      "epoch": 6.04,
+      "learning_rate": 0.00043161634103019536,
+      "loss": 0.4049,
+      "step": 3700
+    },
+    {
+      "epoch": 6.04,
+      "eval_loss": 0.4243859648704529,
+      "eval_runtime": 12.9291,
+      "eval_samples_per_second": 90.571,
+      "eval_steps_per_second": 11.37,
+      "step": 3700
+    },
+    {
+      "epoch": 6.05,
+      "learning_rate": 0.00042984014209591475,
+      "loss": 0.4333,
+      "step": 3710
+    },
+    {
+      "epoch": 6.07,
+      "learning_rate": 0.0004280639431616341,
+      "loss": 0.4061,
+      "step": 3720
+    },
+    {
+      "epoch": 6.08,
+      "learning_rate": 0.00042628774422735343,
+      "loss": 0.3993,
+      "step": 3730
+    },
+    {
+      "epoch": 6.1,
+      "learning_rate": 0.0004245115452930728,
+      "loss": 0.3988,
+      "step": 3740
+    },
+    {
+      "epoch": 6.12,
+      "learning_rate": 0.00042273534635879216,
+      "loss": 0.3962,
+      "step": 3750
+    },
+    {
+      "epoch": 6.13,
+      "learning_rate": 0.00042095914742451156,
+      "loss": 0.3863,
+      "step": 3760
+    },
+    {
+      "epoch": 6.15,
+      "learning_rate": 0.0004191829484902309,
+      "loss": 0.4184,
+      "step": 3770
+    },
+    {
+      "epoch": 6.17,
+      "learning_rate": 0.00041740674955595023,
+      "loss": 0.4171,
+      "step": 3780
+    },
+    {
+      "epoch": 6.18,
+      "learning_rate": 0.0004156305506216697,
+      "loss": 0.416,
+      "step": 3790
+    },
+    {
+      "epoch": 6.2,
+      "learning_rate": 0.000413854351687389,
+      "loss": 0.4311,
+      "step": 3800
+    },
+    {
+      "epoch": 6.2,
+      "eval_loss": 0.42171674966812134,
+      "eval_runtime": 13.1531,
+      "eval_samples_per_second": 89.029,
+      "eval_steps_per_second": 11.176,
+      "step": 3800
+    },
+    {
+      "epoch": 6.22,
+      "learning_rate": 0.00041207815275310836,
+      "loss": 0.4266,
+      "step": 3810
+    },
+    {
+      "epoch": 6.23,
+      "learning_rate": 0.00041030195381882775,
+      "loss": 0.3933,
+      "step": 3820
+    },
+    {
+      "epoch": 6.25,
+      "learning_rate": 0.0004085257548845471,
+      "loss": 0.4154,
+      "step": 3830
+    },
+    {
+      "epoch": 6.26,
+      "learning_rate": 0.00040674955595026643,
+      "loss": 0.4321,
+      "step": 3840
+    },
+    {
+      "epoch": 6.28,
+      "learning_rate": 0.0004049733570159858,
+      "loss": 0.4338,
+      "step": 3850
+    },
+    {
+      "epoch": 6.3,
+      "learning_rate": 0.00040319715808170517,
+      "loss": 0.4204,
+      "step": 3860
+    },
+    {
+      "epoch": 6.31,
+      "learning_rate": 0.00040142095914742456,
+      "loss": 0.4274,
+      "step": 3870
+    },
+    {
+      "epoch": 6.33,
+      "learning_rate": 0.0003996447602131439,
+      "loss": 0.3985,
+      "step": 3880
+    },
+    {
+      "epoch": 6.35,
+      "learning_rate": 0.00039786856127886324,
+      "loss": 0.4232,
+      "step": 3890
+    },
+    {
+      "epoch": 6.36,
+      "learning_rate": 0.00039609236234458263,
+      "loss": 0.3799,
+      "step": 3900
+    },
+    {
+      "epoch": 6.36,
+      "eval_loss": 0.4199593961238861,
+      "eval_runtime": 12.9106,
+      "eval_samples_per_second": 90.7,
+      "eval_steps_per_second": 11.386,
+      "step": 3900
+    },
+    {
+      "epoch": 6.38,
+      "learning_rate": 0.00039431616341030197,
+      "loss": 0.4061,
+      "step": 3910
+    },
+    {
+      "epoch": 6.39,
+      "learning_rate": 0.0003925399644760213,
+      "loss": 0.398,
+      "step": 3920
+    },
+    {
+      "epoch": 6.41,
+      "learning_rate": 0.0003907637655417407,
+      "loss": 0.3987,
+      "step": 3930
+    },
+    {
+      "epoch": 6.43,
+      "learning_rate": 0.00038898756660746004,
+      "loss": 0.3811,
+      "step": 3940
+    },
+    {
+      "epoch": 6.44,
+      "learning_rate": 0.0003872113676731794,
+      "loss": 0.4133,
+      "step": 3950
+    },
+    {
+      "epoch": 6.46,
+      "learning_rate": 0.0003854351687388988,
+      "loss": 0.4053,
+      "step": 3960
+    },
+    {
+      "epoch": 6.48,
+      "learning_rate": 0.0003836589698046181,
+      "loss": 0.4046,
+      "step": 3970
+    },
+    {
+      "epoch": 6.49,
+      "learning_rate": 0.00038188277087033745,
+      "loss": 0.3875,
+      "step": 3980
+    },
+    {
+      "epoch": 6.51,
+      "learning_rate": 0.00038010657193605685,
+      "loss": 0.4017,
+      "step": 3990
+    },
+    {
+      "epoch": 6.53,
+      "learning_rate": 0.0003783303730017762,
+      "loss": 0.4281,
+      "step": 4000
+    },
+    {
+      "epoch": 6.53,
+      "eval_loss": 0.42139747738838196,
+      "eval_runtime": 13.202,
+      "eval_samples_per_second": 88.699,
+      "eval_steps_per_second": 11.135,
+      "step": 4000
     }
   ],
   "logging_steps": 10,
   "max_steps": 6130,
   "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 7559248409395200.0,
   "trial_name": null,
   "trial_params": null
 }