{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.75,
  "eval_steps": 500,
  "global_step": 1500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.005,
      "grad_norm": 53.94755554199219,
      "learning_rate": 2.6999999999999996e-05,
      "loss": 26.115,
      "step": 10
    },
    {
      "epoch": 0.01,
      "grad_norm": 11.3975191116333,
      "learning_rate": 5.6999999999999996e-05,
      "loss": 12.5099,
      "step": 20
    },
    {
      "epoch": 0.015,
      "grad_norm": 13.352740287780762,
      "learning_rate": 8.699999999999999e-05,
      "loss": 11.5997,
      "step": 30
    },
    {
      "epoch": 0.02,
      "grad_norm": 8.22486400604248,
      "learning_rate": 0.000117,
      "loss": 11.0894,
      "step": 40
    },
    {
      "epoch": 0.025,
      "grad_norm": 6.599037170410156,
      "learning_rate": 0.000147,
      "loss": 10.2273,
      "step": 50
    },
    {
      "epoch": 0.03,
      "grad_norm": 12.686646461486816,
      "learning_rate": 0.00017699999999999997,
      "loss": 9.5605,
      "step": 60
    },
    {
      "epoch": 0.035,
      "grad_norm": 9.526597023010254,
      "learning_rate": 0.00020699999999999996,
      "loss": 9.3932,
      "step": 70
    },
    {
      "epoch": 0.04,
      "grad_norm": 7.044199466705322,
      "learning_rate": 0.000237,
      "loss": 9.8737,
      "step": 80
    },
    {
      "epoch": 0.045,
      "grad_norm": 7.538876056671143,
      "learning_rate": 0.000267,
      "loss": 10.0198,
      "step": 90
    },
    {
      "epoch": 0.05,
      "grad_norm": 10.840659141540527,
      "learning_rate": 0.00029699999999999996,
      "loss": 10.4149,
      "step": 100
    },
    {
      "epoch": 0.055,
      "grad_norm": 9.758448600769043,
      "learning_rate": 0.00029857894736842104,
      "loss": 10.4368,
      "step": 110
    },
    {
      "epoch": 0.06,
      "grad_norm": 6.318181037902832,
      "learning_rate": 0.00029699999999999996,
      "loss": 8.3996,
      "step": 120
    },
    {
      "epoch": 0.065,
      "grad_norm": 13.915440559387207,
      "learning_rate": 0.0002954210526315789,
      "loss": 8.8513,
      "step": 130
    },
    {
      "epoch": 0.07,
      "grad_norm": 9.88852310180664,
      "learning_rate": 0.00029384210526315783,
      "loss": 9.4877,
      "step": 140
    },
    {
      "epoch": 0.075,
      "grad_norm": 4.668610095977783,
      "learning_rate": 0.00029226315789473685,
      "loss": 8.1337,
      "step": 150
    },
    {
      "epoch": 0.08,
      "grad_norm": 29.449243545532227,
      "learning_rate": 0.00029068421052631577,
      "loss": 9.273,
      "step": 160
    },
    {
      "epoch": 0.085,
      "grad_norm": 6.467507839202881,
      "learning_rate": 0.00028910526315789473,
      "loss": 8.8419,
      "step": 170
    },
    {
      "epoch": 0.09,
      "grad_norm": 19.543132781982422,
      "learning_rate": 0.00028752631578947364,
      "loss": 8.3971,
      "step": 180
    },
    {
      "epoch": 0.095,
      "grad_norm": 13.156903266906738,
      "learning_rate": 0.0002859473684210526,
      "loss": 9.5291,
      "step": 190
    },
    {
      "epoch": 0.1,
      "grad_norm": 8.885478019714355,
      "learning_rate": 0.0002843684210526315,
      "loss": 7.7914,
      "step": 200
    },
    {
      "epoch": 0.105,
      "grad_norm": 11.896453857421875,
      "learning_rate": 0.0002827894736842105,
      "loss": 9.8313,
      "step": 210
    },
    {
      "epoch": 0.11,
      "grad_norm": 10.915274620056152,
      "learning_rate": 0.00028121052631578945,
      "loss": 8.8191,
      "step": 220
    },
    {
      "epoch": 0.115,
      "grad_norm": 7.6407856941223145,
      "learning_rate": 0.0002796315789473684,
      "loss": 6.8206,
      "step": 230
    },
    {
      "epoch": 0.12,
      "grad_norm": 12.518260955810547,
      "learning_rate": 0.00027805263157894733,
      "loss": 8.636,
      "step": 240
    },
    {
      "epoch": 0.125,
      "grad_norm": 11.432880401611328,
      "learning_rate": 0.0002764736842105263,
      "loss": 7.1465,
      "step": 250
    },
    {
      "epoch": 0.13,
      "grad_norm": 8.826226234436035,
      "learning_rate": 0.0002748947368421052,
      "loss": 7.1283,
      "step": 260
    },
    {
      "epoch": 0.135,
      "grad_norm": 7.593420505523682,
      "learning_rate": 0.0002733157894736842,
      "loss": 7.6144,
      "step": 270
    },
    {
      "epoch": 0.14,
      "grad_norm": 10.628589630126953,
      "learning_rate": 0.00027173684210526314,
      "loss": 7.6943,
      "step": 280
    },
    {
      "epoch": 0.145,
      "grad_norm": 56.44780349731445,
      "learning_rate": 0.0002701578947368421,
      "loss": 9.6015,
      "step": 290
    },
    {
      "epoch": 0.15,
      "grad_norm": 10.86131763458252,
      "learning_rate": 0.000268578947368421,
      "loss": 8.1787,
      "step": 300
    },
    {
      "epoch": 0.155,
      "grad_norm": 20.813161849975586,
      "learning_rate": 0.000267,
      "loss": 7.7316,
      "step": 310
    },
    {
      "epoch": 0.16,
      "grad_norm": 55.12717056274414,
      "learning_rate": 0.0002654210526315789,
      "loss": 7.5353,
      "step": 320
    },
    {
      "epoch": 0.165,
      "grad_norm": 10.096261024475098,
      "learning_rate": 0.00026384210526315786,
      "loss": 7.3492,
      "step": 330
    },
    {
      "epoch": 0.17,
      "grad_norm": 9.356606483459473,
      "learning_rate": 0.00026226315789473683,
      "loss": 7.0889,
      "step": 340
    },
    {
      "epoch": 0.175,
      "grad_norm": 9.701301574707031,
      "learning_rate": 0.00026068421052631574,
      "loss": 6.9922,
      "step": 350
    },
    {
      "epoch": 0.18,
      "grad_norm": 7.172627925872803,
      "learning_rate": 0.0002591052631578947,
      "loss": 7.3025,
      "step": 360
    },
    {
      "epoch": 0.185,
      "grad_norm": 10.241826057434082,
      "learning_rate": 0.00025752631578947367,
      "loss": 6.6179,
      "step": 370
    },
    {
      "epoch": 0.19,
      "grad_norm": 6.638657569885254,
      "learning_rate": 0.00025594736842105264,
      "loss": 8.2226,
      "step": 380
    },
    {
      "epoch": 0.195,
      "grad_norm": 11.518302917480469,
      "learning_rate": 0.00025436842105263155,
      "loss": 6.3692,
      "step": 390
    },
    {
      "epoch": 0.2,
      "grad_norm": 10.524480819702148,
      "learning_rate": 0.0002527894736842105,
      "loss": 8.131,
      "step": 400
    },
    {
      "epoch": 0.205,
      "grad_norm": 10.748291969299316,
      "learning_rate": 0.00025121052631578943,
      "loss": 8.4304,
      "step": 410
    },
    {
      "epoch": 0.21,
      "grad_norm": 12.697006225585938,
      "learning_rate": 0.0002496315789473684,
      "loss": 6.512,
      "step": 420
    },
    {
      "epoch": 0.215,
      "grad_norm": 7.661844730377197,
      "learning_rate": 0.00024805263157894736,
      "loss": 7.6016,
      "step": 430
    },
    {
      "epoch": 0.22,
      "grad_norm": 11.028185844421387,
      "learning_rate": 0.0002464736842105263,
      "loss": 6.144,
      "step": 440
    },
    {
      "epoch": 0.225,
      "grad_norm": 10.651000022888184,
      "learning_rate": 0.00024489473684210524,
      "loss": 5.9826,
      "step": 450
    },
    {
      "epoch": 0.23,
      "grad_norm": 9.832489013671875,
      "learning_rate": 0.00024331578947368418,
      "loss": 6.3437,
      "step": 460
    },
    {
      "epoch": 0.235,
      "grad_norm": 11.302276611328125,
      "learning_rate": 0.00024173684210526312,
      "loss": 6.6576,
      "step": 470
    },
    {
      "epoch": 0.24,
      "grad_norm": 8.565763473510742,
      "learning_rate": 0.00024015789473684208,
      "loss": 5.7402,
      "step": 480
    },
    {
      "epoch": 0.245,
      "grad_norm": 11.632065773010254,
      "learning_rate": 0.00023857894736842105,
      "loss": 6.4514,
      "step": 490
    },
    {
      "epoch": 0.25,
      "grad_norm": 9.037233352661133,
      "learning_rate": 0.000237,
      "loss": 6.7493,
      "step": 500
    },
    {
      "epoch": 0.255,
      "grad_norm": 13.482627868652344,
      "learning_rate": 0.00023542105263157893,
      "loss": 5.6632,
      "step": 510
    },
    {
      "epoch": 0.26,
      "grad_norm": 10.946409225463867,
      "learning_rate": 0.00023384210526315787,
      "loss": 6.1602,
      "step": 520
    },
    {
      "epoch": 0.265,
      "grad_norm": 10.61089038848877,
      "learning_rate": 0.0002322631578947368,
      "loss": 7.3882,
      "step": 530
    },
    {
      "epoch": 0.27,
      "grad_norm": 11.012020111083984,
      "learning_rate": 0.00023068421052631577,
      "loss": 6.7398,
      "step": 540
    },
    {
      "epoch": 0.275,
      "grad_norm": 8.845987319946289,
      "learning_rate": 0.0002291052631578947,
      "loss": 7.0205,
      "step": 550
    },
    {
      "epoch": 0.28,
      "grad_norm": 9.243446350097656,
      "learning_rate": 0.00022752631578947368,
      "loss": 5.535,
      "step": 560
    },
    {
      "epoch": 0.285,
      "grad_norm": 6.976236820220947,
      "learning_rate": 0.00022594736842105261,
      "loss": 6.3107,
      "step": 570
    },
    {
      "epoch": 0.29,
      "grad_norm": 11.282112121582031,
      "learning_rate": 0.00022436842105263155,
      "loss": 6.4338,
      "step": 580
    },
    {
      "epoch": 0.295,
      "grad_norm": 12.507245063781738,
      "learning_rate": 0.00022278947368421052,
      "loss": 6.2523,
      "step": 590
    },
    {
      "epoch": 0.3,
      "grad_norm": 9.16707992553711,
      "learning_rate": 0.00022121052631578946,
      "loss": 5.1103,
      "step": 600
    },
    {
      "epoch": 0.305,
      "grad_norm": 6.331278324127197,
      "learning_rate": 0.0002196315789473684,
      "loss": 6.561,
      "step": 610
    },
    {
      "epoch": 0.31,
      "grad_norm": 9.432160377502441,
      "learning_rate": 0.00021805263157894734,
      "loss": 7.2152,
      "step": 620
    },
    {
      "epoch": 0.315,
      "grad_norm": 10.932201385498047,
      "learning_rate": 0.0002164736842105263,
      "loss": 6.3478,
      "step": 630
    },
    {
      "epoch": 0.32,
      "grad_norm": 8.170024871826172,
      "learning_rate": 0.00021489473684210524,
      "loss": 7.1665,
      "step": 640
    },
    {
      "epoch": 0.325,
      "grad_norm": 12.445239067077637,
      "learning_rate": 0.0002133157894736842,
      "loss": 5.9956,
      "step": 650
    },
    {
      "epoch": 0.33,
      "grad_norm": 12.555913925170898,
      "learning_rate": 0.00021173684210526315,
      "loss": 6.7039,
      "step": 660
    },
    {
      "epoch": 0.335,
      "grad_norm": 10.212902069091797,
      "learning_rate": 0.00021015789473684208,
      "loss": 6.3633,
      "step": 670
    },
    {
      "epoch": 0.34,
      "grad_norm": 8.006694793701172,
      "learning_rate": 0.00020857894736842102,
      "loss": 7.2624,
      "step": 680
    },
    {
      "epoch": 0.345,
      "grad_norm": 9.131366729736328,
      "learning_rate": 0.00020699999999999996,
      "loss": 6.1719,
      "step": 690
    },
    {
      "epoch": 0.35,
      "grad_norm": 15.563868522644043,
      "learning_rate": 0.00020542105263157893,
      "loss": 5.8857,
      "step": 700
    },
    {
      "epoch": 0.355,
      "grad_norm": 9.895964622497559,
      "learning_rate": 0.0002038421052631579,
      "loss": 6.6569,
      "step": 710
    },
    {
      "epoch": 0.36,
      "grad_norm": 6.801018714904785,
      "learning_rate": 0.00020226315789473683,
      "loss": 6.4785,
      "step": 720
    },
    {
      "epoch": 0.365,
      "grad_norm": 8.72229290008545,
      "learning_rate": 0.00020068421052631577,
      "loss": 5.3763,
      "step": 730
    },
    {
      "epoch": 0.37,
      "grad_norm": 8.640310287475586,
      "learning_rate": 0.0001991052631578947,
      "loss": 5.7271,
      "step": 740
    },
    {
      "epoch": 0.375,
      "grad_norm": 13.315818786621094,
      "learning_rate": 0.00019752631578947365,
      "loss": 6.2416,
      "step": 750
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.7069995403289795,
      "learning_rate": 0.00019594736842105264,
      "loss": 6.0895,
      "step": 760
    },
    {
      "epoch": 0.385,
      "grad_norm": 11.817346572875977,
      "learning_rate": 0.00019436842105263158,
      "loss": 6.4639,
      "step": 770
    },
    {
      "epoch": 0.39,
      "grad_norm": 6.935391426086426,
      "learning_rate": 0.00019278947368421052,
      "loss": 6.9848,
      "step": 780
    },
    {
      "epoch": 0.395,
      "grad_norm": 4.711079120635986,
      "learning_rate": 0.00019121052631578946,
      "loss": 5.5295,
      "step": 790
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.8401641845703125,
      "learning_rate": 0.0001896315789473684,
      "loss": 5.6227,
      "step": 800
    },
    {
      "epoch": 0.405,
      "grad_norm": 10.418253898620605,
      "learning_rate": 0.00018805263157894734,
      "loss": 6.1825,
      "step": 810
    },
    {
      "epoch": 0.41,
      "grad_norm": 7.468499660491943,
      "learning_rate": 0.00018647368421052628,
      "loss": 6.9214,
      "step": 820
    },
    {
      "epoch": 0.415,
      "grad_norm": 8.36676025390625,
      "learning_rate": 0.00018489473684210527,
      "loss": 5.6362,
      "step": 830
    },
    {
      "epoch": 0.42,
      "grad_norm": 5.0770392417907715,
      "learning_rate": 0.0001833157894736842,
      "loss": 6.571,
      "step": 840
    },
    {
      "epoch": 0.425,
      "grad_norm": 15.624354362487793,
      "learning_rate": 0.00018173684210526315,
      "loss": 7.6336,
      "step": 850
    },
    {
      "epoch": 0.43,
      "grad_norm": 15.162675857543945,
      "learning_rate": 0.0001801578947368421,
      "loss": 6.7955,
      "step": 860
    },
    {
      "epoch": 0.435,
      "grad_norm": 9.743088722229004,
      "learning_rate": 0.00017857894736842103,
      "loss": 5.4599,
      "step": 870
    },
    {
      "epoch": 0.44,
      "grad_norm": 9.73693561553955,
      "learning_rate": 0.00017699999999999997,
      "loss": 6.0081,
      "step": 880
    },
    {
      "epoch": 0.445,
      "grad_norm": 5.465635776519775,
      "learning_rate": 0.0001754210526315789,
      "loss": 7.0656,
      "step": 890
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.205047369003296,
      "learning_rate": 0.0001738421052631579,
      "loss": 5.9353,
      "step": 900
    },
    {
      "epoch": 0.455,
      "grad_norm": 9.32066535949707,
      "learning_rate": 0.00017226315789473684,
      "loss": 7.1441,
      "step": 910
    },
    {
      "epoch": 0.46,
      "grad_norm": 12.949300765991211,
      "learning_rate": 0.00017068421052631578,
      "loss": 6.4508,
      "step": 920
    },
    {
      "epoch": 0.465,
      "grad_norm": 8.177252769470215,
      "learning_rate": 0.00016910526315789471,
      "loss": 6.0847,
      "step": 930
    },
    {
      "epoch": 0.47,
      "grad_norm": 5.945886135101318,
      "learning_rate": 0.00016752631578947365,
      "loss": 5.7599,
      "step": 940
    },
    {
      "epoch": 0.475,
      "grad_norm": 7.926685810089111,
      "learning_rate": 0.00016594736842105262,
      "loss": 7.261,
      "step": 950
    },
    {
      "epoch": 0.48,
      "grad_norm": 9.434368133544922,
      "learning_rate": 0.00016436842105263156,
      "loss": 6.7638,
      "step": 960
    },
    {
      "epoch": 0.485,
      "grad_norm": 9.134793281555176,
      "learning_rate": 0.00016278947368421052,
      "loss": 7.0167,
      "step": 970
    },
    {
      "epoch": 0.49,
      "grad_norm": 10.619525909423828,
      "learning_rate": 0.00016121052631578946,
      "loss": 6.9734,
      "step": 980
    },
    {
      "epoch": 0.495,
      "grad_norm": 10.44985580444336,
      "learning_rate": 0.0001596315789473684,
      "loss": 5.5139,
      "step": 990
    },
    {
      "epoch": 0.5,
      "grad_norm": 9.743708610534668,
      "learning_rate": 0.00015805263157894734,
      "loss": 6.2291,
      "step": 1000
    },
    {
      "epoch": 0.505,
      "grad_norm": 4.079898834228516,
      "learning_rate": 0.0001564736842105263,
      "loss": 5.7743,
      "step": 1010
    },
    {
      "epoch": 0.51,
      "grad_norm": 15.110444068908691,
      "learning_rate": 0.00015489473684210525,
      "loss": 6.4432,
      "step": 1020
    },
    {
      "epoch": 0.515,
      "grad_norm": 9.87468433380127,
      "learning_rate": 0.00015331578947368419,
      "loss": 6.4737,
      "step": 1030
    },
    {
      "epoch": 0.52,
      "grad_norm": 8.487386703491211,
      "learning_rate": 0.00015173684210526315,
      "loss": 6.8038,
      "step": 1040
    },
    {
      "epoch": 0.525,
      "grad_norm": 13.89244270324707,
      "learning_rate": 0.0001501578947368421,
      "loss": 5.861,
      "step": 1050
    },
    {
      "epoch": 0.53,
      "grad_norm": 5.0271711349487305,
      "learning_rate": 0.00014857894736842103,
      "loss": 6.0973,
      "step": 1060
    },
    {
      "epoch": 0.535,
      "grad_norm": 13.944864273071289,
      "learning_rate": 0.000147,
      "loss": 7.2229,
      "step": 1070
    },
    {
      "epoch": 0.54,
      "grad_norm": 11.327110290527344,
      "learning_rate": 0.00014542105263157893,
      "loss": 5.645,
      "step": 1080
    },
    {
      "epoch": 0.545,
      "grad_norm": 11.51246452331543,
      "learning_rate": 0.00014384210526315787,
      "loss": 4.5969,
      "step": 1090
    },
    {
      "epoch": 0.55,
      "grad_norm": 6.9547624588012695,
      "learning_rate": 0.00014226315789473684,
      "loss": 5.3187,
      "step": 1100
    },
    {
      "epoch": 0.555,
      "grad_norm": 4.5951995849609375,
      "learning_rate": 0.00014068421052631578,
      "loss": 5.4452,
      "step": 1110
    },
    {
      "epoch": 0.56,
      "grad_norm": 7.044490337371826,
      "learning_rate": 0.00013910526315789474,
      "loss": 5.8196,
      "step": 1120
    },
    {
      "epoch": 0.565,
      "grad_norm": 5.957108497619629,
      "learning_rate": 0.00013752631578947368,
      "loss": 6.1073,
      "step": 1130
    },
    {
      "epoch": 0.57,
      "grad_norm": 8.093610763549805,
      "learning_rate": 0.00013594736842105262,
      "loss": 5.5731,
      "step": 1140
    },
    {
      "epoch": 0.575,
      "grad_norm": 11.078412055969238,
      "learning_rate": 0.0001343684210526316,
      "loss": 6.7678,
      "step": 1150
    },
    {
      "epoch": 0.58,
      "grad_norm": 4.7904133796691895,
      "learning_rate": 0.00013278947368421053,
      "loss": 5.5891,
      "step": 1160
    },
    {
      "epoch": 0.585,
      "grad_norm": 6.466845512390137,
      "learning_rate": 0.00013121052631578947,
      "loss": 5.8488,
      "step": 1170
    },
    {
      "epoch": 0.59,
      "grad_norm": 6.9840922355651855,
      "learning_rate": 0.0001296315789473684,
      "loss": 6.2465,
      "step": 1180
    },
    {
      "epoch": 0.595,
      "grad_norm": 9.122848510742188,
      "learning_rate": 0.00012805263157894737,
      "loss": 7.0481,
      "step": 1190
    },
    {
      "epoch": 0.6,
      "grad_norm": 9.476122856140137,
      "learning_rate": 0.0001264736842105263,
      "loss": 6.6299,
      "step": 1200
    },
    {
      "epoch": 0.605,
      "grad_norm": 4.769547462463379,
      "learning_rate": 0.00012489473684210525,
      "loss": 4.4049,
      "step": 1210
    },
    {
      "epoch": 0.61,
      "grad_norm": 11.937010765075684,
      "learning_rate": 0.00012331578947368421,
      "loss": 5.7009,
      "step": 1220
    },
    {
      "epoch": 0.615,
      "grad_norm": 5.662721633911133,
      "learning_rate": 0.00012173684210526315,
      "loss": 6.8112,
      "step": 1230
    },
    {
      "epoch": 0.62,
      "grad_norm": 8.745271682739258,
      "learning_rate": 0.00012015789473684209,
      "loss": 5.956,
      "step": 1240
    },
    {
      "epoch": 0.625,
      "grad_norm": 11.694770812988281,
      "learning_rate": 0.00011857894736842103,
      "loss": 5.635,
      "step": 1250
    },
    {
      "epoch": 0.63,
      "grad_norm": 12.576383590698242,
      "learning_rate": 0.000117,
      "loss": 6.6435,
      "step": 1260
    },
    {
      "epoch": 0.635,
      "grad_norm": 11.117959976196289,
      "learning_rate": 0.00011542105263157894,
      "loss": 5.6533,
      "step": 1270
    },
    {
      "epoch": 0.64,
      "grad_norm": 6.086808681488037,
      "learning_rate": 0.00011384210526315788,
      "loss": 6.147,
      "step": 1280
    },
    {
      "epoch": 0.645,
      "grad_norm": 5.031323432922363,
      "learning_rate": 0.00011226315789473684,
      "loss": 6.0361,
      "step": 1290
    },
    {
      "epoch": 0.65,
      "grad_norm": 10.029598236083984,
      "learning_rate": 0.00011068421052631578,
      "loss": 6.1938,
      "step": 1300
    },
    {
      "epoch": 0.655,
      "grad_norm": 9.102313041687012,
      "learning_rate": 0.00010910526315789472,
      "loss": 5.7654,
      "step": 1310
    },
    {
      "epoch": 0.66,
      "grad_norm": 8.28632926940918,
      "learning_rate": 0.00010752631578947369,
      "loss": 6.2164,
      "step": 1320
    },
    {
      "epoch": 0.665,
      "grad_norm": 7.555177688598633,
      "learning_rate": 0.00010594736842105262,
      "loss": 6.2955,
      "step": 1330
    },
    {
      "epoch": 0.67,
      "grad_norm": 7.858890533447266,
      "learning_rate": 0.00010436842105263156,
      "loss": 5.4419,
      "step": 1340
    },
    {
      "epoch": 0.675,
      "grad_norm": 9.47352123260498,
      "learning_rate": 0.00010278947368421052,
      "loss": 5.878,
      "step": 1350
    },
    {
      "epoch": 0.68,
      "grad_norm": 5.735633373260498,
      "learning_rate": 0.00010121052631578947,
      "loss": 5.2803,
      "step": 1360
    },
    {
      "epoch": 0.685,
      "grad_norm": 5.728670597076416,
      "learning_rate": 9.963157894736841e-05,
      "loss": 5.9334,
      "step": 1370
    },
    {
      "epoch": 0.69,
      "grad_norm": 9.471277236938477,
      "learning_rate": 9.805263157894736e-05,
      "loss": 6.172,
      "step": 1380
    },
    {
      "epoch": 0.695,
      "grad_norm": 10.102209091186523,
      "learning_rate": 9.647368421052631e-05,
      "loss": 5.4889,
      "step": 1390
    },
    {
      "epoch": 0.7,
      "grad_norm": 8.452800750732422,
      "learning_rate": 9.489473684210525e-05,
      "loss": 6.0632,
      "step": 1400
    },
    {
      "epoch": 0.705,
      "grad_norm": 6.8025898933410645,
      "learning_rate": 9.33157894736842e-05,
      "loss": 5.6116,
      "step": 1410
    },
    {
      "epoch": 0.71,
      "grad_norm": 6.024433612823486,
      "learning_rate": 9.173684210526314e-05,
      "loss": 5.6093,
      "step": 1420
    },
    {
      "epoch": 0.715,
      "grad_norm": 6.203394889831543,
      "learning_rate": 9.01578947368421e-05,
      "loss": 4.9379,
      "step": 1430
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.7379953861236572,
      "learning_rate": 8.857894736842105e-05,
      "loss": 5.1323,
      "step": 1440
    },
    {
      "epoch": 0.725,
      "grad_norm": 11.372900009155273,
      "learning_rate": 8.699999999999999e-05,
      "loss": 4.727,
      "step": 1450
    },
    {
      "epoch": 0.73,
      "grad_norm": 9.120123863220215,
      "learning_rate": 8.542105263157894e-05,
      "loss": 5.387,
      "step": 1460
    },
    {
      "epoch": 0.735,
      "grad_norm": 6.839603424072266,
      "learning_rate": 8.384210526315789e-05,
      "loss": 5.794,
      "step": 1470
    },
    {
      "epoch": 0.74,
      "grad_norm": 9.580937385559082,
      "learning_rate": 8.226315789473683e-05,
      "loss": 6.2431,
      "step": 1480
    },
    {
      "epoch": 0.745,
      "grad_norm": 6.182724952697754,
      "learning_rate": 8.068421052631578e-05,
      "loss": 5.729,
      "step": 1490
    },
    {
      "epoch": 0.75,
      "grad_norm": 11.157108306884766,
      "learning_rate": 7.910526315789474e-05,
      "loss": 5.7552,
      "step": 1500
    }
  ],
  "logging_steps": 10,
  "max_steps": 2000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.866970968076585e+17,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}