{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 2.9950248756218905,
  "eval_steps": 500,
  "global_step": 375,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.03980099502487562,
      "grad_norm": 1.660474181175232,
      "learning_rate": 4.997807075247146e-05,
      "loss": 4.5494,
      "num_input_tokens_seen": 8048,
      "step": 5
    },
    {
      "epoch": 0.07960199004975124,
      "grad_norm": 1.2094064950942993,
      "learning_rate": 4.991232148123761e-05,
      "loss": 4.5269,
      "num_input_tokens_seen": 14000,
      "step": 10
    },
    {
      "epoch": 0.11940298507462686,
      "grad_norm": 2.039947032928467,
      "learning_rate": 4.980286753286195e-05,
      "loss": 4.0421,
      "num_input_tokens_seen": 20800,
      "step": 15
    },
    {
      "epoch": 0.15920398009950248,
      "grad_norm": 1.0324708223342896,
      "learning_rate": 4.964990092676263e-05,
      "loss": 3.8231,
      "num_input_tokens_seen": 28992,
      "step": 20
    },
    {
      "epoch": 0.19900497512437812,
      "grad_norm": 0.9932226538658142,
      "learning_rate": 4.9453690018345144e-05,
      "loss": 3.5978,
      "num_input_tokens_seen": 34336,
      "step": 25
    },
    {
      "epoch": 0.23880597014925373,
      "grad_norm": 1.027048945426941,
      "learning_rate": 4.9214579028215776e-05,
      "loss": 3.5563,
      "num_input_tokens_seen": 39456,
      "step": 30
    },
    {
      "epoch": 0.27860696517412936,
      "grad_norm": 1.1643048524856567,
      "learning_rate": 4.893298743830168e-05,
      "loss": 3.7193,
      "num_input_tokens_seen": 45280,
      "step": 35
    },
    {
      "epoch": 0.31840796019900497,
      "grad_norm": 0.9160460829734802,
      "learning_rate": 4.860940925593703e-05,
      "loss": 3.4887,
      "num_input_tokens_seen": 51104,
      "step": 40
    },
    {
      "epoch": 0.3582089552238806,
      "grad_norm": 0.8983442783355713,
      "learning_rate": 4.8244412147206284e-05,
      "loss": 3.4482,
      "num_input_tokens_seen": 56672,
      "step": 45
    },
    {
      "epoch": 0.39800995024875624,
      "grad_norm": 1.1248815059661865,
      "learning_rate": 4.783863644106502e-05,
      "loss": 3.5251,
      "num_input_tokens_seen": 61680,
      "step": 50
    },
    {
      "epoch": 0.43781094527363185,
      "grad_norm": 0.7155267596244812,
      "learning_rate": 4.7392794005985326e-05,
      "loss": 3.4091,
      "num_input_tokens_seen": 68928,
      "step": 55
    },
    {
      "epoch": 0.47761194029850745,
      "grad_norm": 0.987359881401062,
      "learning_rate": 4.690766700109659e-05,
      "loss": 3.4556,
      "num_input_tokens_seen": 77056,
      "step": 60
    },
    {
      "epoch": 0.5174129353233831,
      "grad_norm": 0.8892150521278381,
      "learning_rate": 4.638410650401267e-05,
      "loss": 3.3753,
      "num_input_tokens_seen": 84368,
      "step": 65
    },
    {
      "epoch": 0.5572139303482587,
      "grad_norm": 0.7842346429824829,
      "learning_rate": 4.5823031017752485e-05,
      "loss": 3.3786,
      "num_input_tokens_seen": 90272,
      "step": 70
    },
    {
      "epoch": 0.5970149253731343,
      "grad_norm": 1.263541579246521,
      "learning_rate": 4.522542485937369e-05,
      "loss": 3.4089,
      "num_input_tokens_seen": 95600,
      "step": 75
    },
    {
      "epoch": 0.6368159203980099,
      "grad_norm": 1.5767709016799927,
      "learning_rate": 4.4592336433146e-05,
      "loss": 3.4508,
      "num_input_tokens_seen": 102928,
      "step": 80
    },
    {
      "epoch": 0.6766169154228856,
      "grad_norm": 1.70329749584198,
      "learning_rate": 4.3924876391293915e-05,
      "loss": 3.333,
      "num_input_tokens_seen": 109584,
      "step": 85
    },
    {
      "epoch": 0.7164179104477612,
      "grad_norm": 1.2080343961715698,
      "learning_rate": 4.3224215685535294e-05,
      "loss": 3.3651,
      "num_input_tokens_seen": 117312,
      "step": 90
    },
    {
      "epoch": 0.7562189054726368,
      "grad_norm": 1.652740478515625,
      "learning_rate": 4.249158351283414e-05,
      "loss": 3.285,
      "num_input_tokens_seen": 123312,
      "step": 95
    },
    {
      "epoch": 0.7960199004975125,
      "grad_norm": 1.2327072620391846,
      "learning_rate": 4.172826515897146e-05,
      "loss": 3.3726,
      "num_input_tokens_seen": 129664,
      "step": 100
    },
    {
      "epoch": 0.835820895522388,
      "grad_norm": 0.9110429286956787,
      "learning_rate": 4.093559974371725e-05,
      "loss": 3.349,
      "num_input_tokens_seen": 138128,
      "step": 105
    },
    {
      "epoch": 0.8756218905472637,
      "grad_norm": 1.3581809997558594,
      "learning_rate": 4.011497787155938e-05,
      "loss": 3.3335,
      "num_input_tokens_seen": 144064,
      "step": 110
    },
    {
      "epoch": 0.9154228855721394,
      "grad_norm": 1.4135611057281494,
      "learning_rate": 3.92678391921108e-05,
      "loss": 3.3096,
      "num_input_tokens_seen": 149760,
      "step": 115
    },
    {
      "epoch": 0.9552238805970149,
      "grad_norm": 1.2543668746948242,
      "learning_rate": 3.8395669874474915e-05,
      "loss": 3.2696,
      "num_input_tokens_seen": 155088,
      "step": 120
    },
    {
      "epoch": 0.9950248756218906,
      "grad_norm": 1.23209547996521,
      "learning_rate": 3.7500000000000003e-05,
      "loss": 3.3071,
      "num_input_tokens_seen": 163328,
      "step": 125
    },
    {
      "epoch": 1.0398009950248757,
      "grad_norm": 1.7540336847305298,
      "learning_rate": 3.6582400877996546e-05,
      "loss": 3.8956,
      "num_input_tokens_seen": 168832,
      "step": 130
    },
    {
      "epoch": 1.0796019900497513,
      "grad_norm": 1.619620680809021,
      "learning_rate": 3.564448228912682e-05,
      "loss": 3.2505,
      "num_input_tokens_seen": 174544,
      "step": 135
    },
    {
      "epoch": 1.1194029850746268,
      "grad_norm": 1.514601230621338,
      "learning_rate": 3.4687889661302576e-05,
      "loss": 3.249,
      "num_input_tokens_seen": 182176,
      "step": 140
    },
    {
      "epoch": 1.1592039800995024,
      "grad_norm": 1.6307106018066406,
      "learning_rate": 3.3714301183045385e-05,
      "loss": 3.1777,
      "num_input_tokens_seen": 187680,
      "step": 145
    },
    {
      "epoch": 1.199004975124378,
      "grad_norm": 2.23348331451416,
      "learning_rate": 3.272542485937369e-05,
      "loss": 3.2005,
      "num_input_tokens_seen": 194176,
      "step": 150
    },
    {
      "epoch": 1.2388059701492538,
      "grad_norm": 2.122501850128174,
      "learning_rate": 3.172299551538164e-05,
      "loss": 3.1882,
      "num_input_tokens_seen": 201904,
      "step": 155
    },
    {
      "epoch": 1.2786069651741294,
      "grad_norm": 1.8795195817947388,
      "learning_rate": 3.0708771752766394e-05,
      "loss": 3.2861,
      "num_input_tokens_seen": 207344,
      "step": 160
    },
    {
      "epoch": 1.3184079601990049,
      "grad_norm": 2.0966134071350098,
      "learning_rate": 2.9684532864643122e-05,
      "loss": 3.2012,
      "num_input_tokens_seen": 212480,
      "step": 165
    },
    {
      "epoch": 1.3582089552238805,
      "grad_norm": 1.3658726215362549,
      "learning_rate": 2.8652075714060295e-05,
      "loss": 3.1424,
      "num_input_tokens_seen": 219840,
      "step": 170
    },
    {
      "epoch": 1.3980099502487562,
      "grad_norm": 1.7803125381469727,
      "learning_rate": 2.761321158169134e-05,
      "loss": 3.1061,
      "num_input_tokens_seen": 224544,
      "step": 175
    },
    {
      "epoch": 1.4378109452736318,
      "grad_norm": 2.324481964111328,
      "learning_rate": 2.656976298823284e-05,
      "loss": 3.1739,
      "num_input_tokens_seen": 231760,
      "step": 180
    },
    {
      "epoch": 1.4776119402985075,
      "grad_norm": 1.5387252569198608,
      "learning_rate": 2.5523560497083926e-05,
      "loss": 3.1692,
      "num_input_tokens_seen": 239056,
      "step": 185
    },
    {
      "epoch": 1.517412935323383,
      "grad_norm": 2.545790433883667,
      "learning_rate": 2.447643950291608e-05,
      "loss": 3.2116,
      "num_input_tokens_seen": 246576,
      "step": 190
    },
    {
      "epoch": 1.5572139303482588,
      "grad_norm": 1.913610577583313,
      "learning_rate": 2.3430237011767167e-05,
      "loss": 3.3134,
      "num_input_tokens_seen": 253360,
      "step": 195
    },
    {
      "epoch": 1.5970149253731343,
      "grad_norm": 2.4905383586883545,
      "learning_rate": 2.238678841830867e-05,
      "loss": 3.2215,
      "num_input_tokens_seen": 260240,
      "step": 200
    },
    {
      "epoch": 1.63681592039801,
      "grad_norm": 2.024183511734009,
      "learning_rate": 2.1347924285939714e-05,
      "loss": 3.0594,
      "num_input_tokens_seen": 265520,
      "step": 205
    },
    {
      "epoch": 1.6766169154228856,
      "grad_norm": 1.0908023118972778,
      "learning_rate": 2.031546713535688e-05,
      "loss": 3.1452,
      "num_input_tokens_seen": 274144,
      "step": 210
    },
    {
      "epoch": 1.716417910447761,
      "grad_norm": 1.8009971380233765,
      "learning_rate": 1.9291228247233605e-05,
      "loss": 3.2481,
      "num_input_tokens_seen": 281024,
      "step": 215
    },
    {
      "epoch": 1.756218905472637,
      "grad_norm": 2.282066583633423,
      "learning_rate": 1.827700448461836e-05,
      "loss": 3.1269,
      "num_input_tokens_seen": 290608,
      "step": 220
    },
    {
      "epoch": 1.7960199004975124,
      "grad_norm": 1.8747786283493042,
      "learning_rate": 1.7274575140626318e-05,
      "loss": 3.1888,
      "num_input_tokens_seen": 298064,
      "step": 225
    },
    {
      "epoch": 1.835820895522388,
      "grad_norm": 2.49768328666687,
      "learning_rate": 1.6285698816954624e-05,
      "loss": 3.2137,
      "num_input_tokens_seen": 303456,
      "step": 230
    },
    {
      "epoch": 1.8756218905472637,
      "grad_norm": 1.6736963987350464,
      "learning_rate": 1.5312110338697426e-05,
      "loss": 3.1926,
      "num_input_tokens_seen": 308528,
      "step": 235
    },
    {
      "epoch": 1.9154228855721394,
      "grad_norm": 1.7098288536071777,
      "learning_rate": 1.4355517710873184e-05,
      "loss": 3.2949,
      "num_input_tokens_seen": 314816,
      "step": 240
    },
    {
      "epoch": 1.955223880597015,
      "grad_norm": 1.8934247493743896,
      "learning_rate": 1.3417599122003464e-05,
      "loss": 3.1559,
      "num_input_tokens_seen": 320224,
      "step": 245
    },
    {
      "epoch": 1.9950248756218905,
      "grad_norm": 1.7036914825439453,
      "learning_rate": 1.2500000000000006e-05,
      "loss": 3.1411,
      "num_input_tokens_seen": 326032,
      "step": 250
    },
    {
      "epoch": 2.0398009950248754,
      "grad_norm": 2.040653705596924,
      "learning_rate": 1.1604330125525079e-05,
      "loss": 3.5418,
      "num_input_tokens_seen": 331440,
      "step": 255
    },
    {
      "epoch": 2.0796019900497513,
      "grad_norm": 2.3218231201171875,
      "learning_rate": 1.0732160807889211e-05,
      "loss": 3.0061,
      "num_input_tokens_seen": 337056,
      "step": 260
    },
    {
      "epoch": 2.1194029850746268,
      "grad_norm": 1.8058701753616333,
      "learning_rate": 9.88502212844063e-06,
      "loss": 3.102,
      "num_input_tokens_seen": 342064,
      "step": 265
    },
    {
      "epoch": 2.1592039800995027,
      "grad_norm": 2.413458824157715,
      "learning_rate": 9.064400256282757e-06,
      "loss": 2.9862,
      "num_input_tokens_seen": 347152,
      "step": 270
    },
    {
      "epoch": 2.199004975124378,
      "grad_norm": 2.1168735027313232,
      "learning_rate": 8.271734841028553e-06,
      "loss": 3.0803,
      "num_input_tokens_seen": 355152,
      "step": 275
    },
    {
      "epoch": 2.2388059701492535,
      "grad_norm": 2.024158239364624,
      "learning_rate": 7.508416487165862e-06,
      "loss": 3.1944,
      "num_input_tokens_seen": 361328,
      "step": 280
    },
    {
      "epoch": 2.2786069651741294,
      "grad_norm": 1.3230586051940918,
      "learning_rate": 6.775784314464717e-06,
      "loss": 3.1717,
      "num_input_tokens_seen": 369648,
      "step": 285
    },
    {
      "epoch": 2.318407960199005,
      "grad_norm": 1.2918930053710938,
      "learning_rate": 6.075123608706093e-06,
      "loss": 3.2106,
      "num_input_tokens_seen": 377664,
      "step": 290
    },
    {
      "epoch": 2.3582089552238807,
      "grad_norm": 2.0795865058898926,
      "learning_rate": 5.4076635668540075e-06,
      "loss": 3.0577,
      "num_input_tokens_seen": 385184,
      "step": 295
    },
    {
      "epoch": 2.398009950248756,
      "grad_norm": 1.6303638219833374,
      "learning_rate": 4.7745751406263165e-06,
      "loss": 3.1227,
      "num_input_tokens_seen": 391536,
      "step": 300
    },
    {
      "epoch": 2.4378109452736316,
      "grad_norm": 1.9387825727462769,
      "learning_rate": 4.176968982247514e-06,
      "loss": 3.1015,
      "num_input_tokens_seen": 397408,
      "step": 305
    },
    {
      "epoch": 2.4776119402985075,
      "grad_norm": 1.4628335237503052,
      "learning_rate": 3.6158934959873353e-06,
      "loss": 3.0393,
      "num_input_tokens_seen": 403712,
      "step": 310
    },
    {
      "epoch": 2.517412935323383,
      "grad_norm": 1.7818697690963745,
      "learning_rate": 3.092332998903416e-06,
      "loss": 2.9964,
      "num_input_tokens_seen": 409632,
      "step": 315
    },
    {
      "epoch": 2.557213930348259,
      "grad_norm": 2.8102335929870605,
      "learning_rate": 2.6072059940146775e-06,
      "loss": 3.1617,
      "num_input_tokens_seen": 416704,
      "step": 320
    },
    {
      "epoch": 2.5970149253731343,
      "grad_norm": 1.5898032188415527,
      "learning_rate": 2.1613635589349756e-06,
      "loss": 3.0388,
      "num_input_tokens_seen": 425056,
      "step": 325
    },
    {
      "epoch": 2.6368159203980097,
      "grad_norm": 2.6500918865203857,
      "learning_rate": 1.7555878527937164e-06,
      "loss": 3.158,
      "num_input_tokens_seen": 430816,
      "step": 330
    },
    {
      "epoch": 2.6766169154228856,
      "grad_norm": 2.318143844604492,
      "learning_rate": 1.3905907440629752e-06,
      "loss": 3.0348,
      "num_input_tokens_seen": 437456,
      "step": 335
    },
    {
      "epoch": 2.716417910447761,
      "grad_norm": 2.366307020187378,
      "learning_rate": 1.067012561698319e-06,
      "loss": 3.1515,
      "num_input_tokens_seen": 442976,
      "step": 340
    },
    {
      "epoch": 2.756218905472637,
      "grad_norm": 1.3784323930740356,
      "learning_rate": 7.854209717842231e-07,
      "loss": 3.0978,
      "num_input_tokens_seen": 450688,
      "step": 345
    },
    {
      "epoch": 2.7960199004975124,
      "grad_norm": 1.7502210140228271,
      "learning_rate": 5.463099816548579e-07,
      "loss": 3.051,
      "num_input_tokens_seen": 457344,
      "step": 350
    },
    {
      "epoch": 2.835820895522388,
      "grad_norm": 1.6103492975234985,
      "learning_rate": 3.5009907323737825e-07,
      "loss": 3.0632,
      "num_input_tokens_seen": 463584,
      "step": 355
    },
    {
      "epoch": 2.8756218905472637,
      "grad_norm": 3.220888376235962,
      "learning_rate": 1.9713246713805588e-07,
      "loss": 3.0875,
      "num_input_tokens_seen": 468400,
      "step": 360
    },
    {
      "epoch": 2.9154228855721396,
      "grad_norm": 1.726335048675537,
      "learning_rate": 8.767851876239074e-08,
      "loss": 3.1218,
      "num_input_tokens_seen": 476128,
      "step": 365
    },
    {
      "epoch": 2.955223880597015,
      "grad_norm": 3.062647819519043,
      "learning_rate": 2.192924752854042e-08,
      "loss": 3.0581,
      "num_input_tokens_seen": 484320,
      "step": 370
    },
    {
      "epoch": 2.9950248756218905,
      "grad_norm": 1.9430413246154785,
      "learning_rate": 0.0,
      "loss": 2.9967,
      "num_input_tokens_seen": 489472,
      "step": 375
    },
    {
      "epoch": 2.9950248756218905,
      "num_input_tokens_seen": 489472,
      "step": 375,
      "total_flos": 2.082450075077837e+16,
      "train_loss": 3.2915359853108725,
      "train_runtime": 1375.5479,
      "train_samples_per_second": 4.382,
      "train_steps_per_second": 0.273
    }
  ],
  "logging_steps": 5,
  "max_steps": 375,
  "num_input_tokens_seen": 489472,
  "num_train_epochs": 3,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2.082450075077837e+16,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}