{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 2.0,
  "eval_steps": 20000,
  "global_step": 12652,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.003161555485298767,
      "grad_norm": 223.9337615966797,
      "learning_rate": 5.00526870389884e-07,
      "loss": 51.0224,
      "sparse_loss": 51.0224,
      "step": 20
    },
    {
      "epoch": 0.006323110970597534,
      "grad_norm": 556.0209350585938,
      "learning_rate": 1.0273972602739725e-06,
      "loss": 46.0819,
      "sparse_loss": 46.0819,
      "step": 40
    },
    {
      "epoch": 0.0094846664558963,
      "grad_norm": 282.47222900390625,
      "learning_rate": 1.554267650158061e-06,
      "loss": 46.7506,
      "sparse_loss": 46.7506,
      "step": 60
    },
    {
      "epoch": 0.012646221941195067,
      "grad_norm": 227.4056854248047,
      "learning_rate": 2.08113804004215e-06,
      "loss": 40.6976,
      "sparse_loss": 40.6976,
      "step": 80
    },
    {
      "epoch": 0.015807777426493835,
      "grad_norm": NaN,
      "learning_rate": 2.6080084299262384e-06,
      "loss": 35.4491,
      "sparse_loss": 35.4491,
      "step": 100
    },
    {
      "epoch": 0.0189693329117926,
      "grad_norm": 473.9236145019531,
      "learning_rate": 3.1348788198103265e-06,
      "loss": 34.5721,
      "sparse_loss": 34.5721,
      "step": 120
    },
    {
      "epoch": 0.022130888397091368,
      "grad_norm": 399.96624755859375,
      "learning_rate": 3.661749209694415e-06,
      "loss": 28.963,
      "sparse_loss": 28.963,
      "step": 140
    },
    {
      "epoch": 0.025292443882390134,
      "grad_norm": 575.5248413085938,
      "learning_rate": 4.188619599578504e-06,
      "loss": 19.6304,
      "sparse_loss": 19.6304,
      "step": 160
    },
    {
      "epoch": 0.028453999367688904,
      "grad_norm": 488.50384521484375,
      "learning_rate": 4.715489989462593e-06,
      "loss": 10.9879,
      "sparse_loss": 10.9879,
      "step": 180
    },
    {
      "epoch": 0.03161555485298767,
      "grad_norm": 222.39341735839844,
      "learning_rate": 5.242360379346681e-06,
      "loss": 9.5982,
      "sparse_loss": 9.5982,
      "step": 200
    },
    {
      "epoch": 0.034777110338286434,
      "grad_norm": 237.00723266601562,
      "learning_rate": 5.76923076923077e-06,
      "loss": 9.2003,
      "sparse_loss": 9.2003,
      "step": 220
    },
    {
      "epoch": 0.0379386658235852,
      "grad_norm": 145.98585510253906,
      "learning_rate": 6.296101159114858e-06,
      "loss": 6.7052,
      "sparse_loss": 6.7052,
      "step": 240
    },
    {
      "epoch": 0.04110022130888397,
      "grad_norm": 174.68678283691406,
      "learning_rate": 6.822971548998947e-06,
      "loss": 4.6554,
      "sparse_loss": 4.6554,
      "step": 260
    },
    {
      "epoch": 0.044261776794182736,
      "grad_norm": 112.58751678466797,
      "learning_rate": 7.349841938883036e-06,
      "loss": 4.086,
      "sparse_loss": 4.086,
      "step": 280
    },
    {
      "epoch": 0.047423332279481506,
      "grad_norm": 72.35580444335938,
      "learning_rate": 7.876712328767124e-06,
      "loss": 4.087,
      "sparse_loss": 4.087,
      "step": 300
    },
    {
      "epoch": 0.05058488776478027,
      "grad_norm": 61.87331771850586,
      "learning_rate": 8.403582718651212e-06,
      "loss": 3.3029,
      "sparse_loss": 3.3029,
      "step": 320
    },
    {
      "epoch": 0.05374644325007904,
      "grad_norm": 85.9976806640625,
      "learning_rate": 8.930453108535302e-06,
      "loss": 2.1971,
      "sparse_loss": 2.1971,
      "step": 340
    },
    {
      "epoch": 0.05690799873537781,
      "grad_norm": 33.73524856567383,
      "learning_rate": 9.457323498419388e-06,
      "loss": 2.0595,
      "sparse_loss": 2.0595,
      "step": 360
    },
    {
      "epoch": 0.06006955422067657,
      "grad_norm": 24.866230010986328,
      "learning_rate": 9.984193888303478e-06,
      "loss": 1.8372,
      "sparse_loss": 1.8372,
      "step": 380
    },
    {
      "epoch": 0.06323110970597534,
      "grad_norm": 114.34111785888672,
      "learning_rate": 1.0511064278187566e-05,
      "loss": 1.9924,
      "sparse_loss": 1.9924,
      "step": 400
    },
    {
      "epoch": 0.06639266519127411,
      "grad_norm": 143.39649963378906,
      "learning_rate": 1.1037934668071655e-05,
      "loss": 1.7445,
      "sparse_loss": 1.7445,
      "step": 420
    },
    {
      "epoch": 0.06955422067657287,
      "grad_norm": 101.5459213256836,
      "learning_rate": 1.1564805057955744e-05,
      "loss": 1.8178,
      "sparse_loss": 1.8178,
      "step": 440
    },
    {
      "epoch": 0.07271577616187164,
      "grad_norm": 54.70426940917969,
      "learning_rate": 1.209167544783983e-05,
      "loss": 1.8642,
      "sparse_loss": 1.8642,
      "step": 460
    },
    {
      "epoch": 0.0758773316471704,
      "grad_norm": 50.74599838256836,
      "learning_rate": 1.2618545837723922e-05,
      "loss": 1.8262,
      "sparse_loss": 1.8262,
      "step": 480
    },
    {
      "epoch": 0.07903888713246918,
      "grad_norm": 41.99839401245117,
      "learning_rate": 1.3145416227608009e-05,
      "loss": 1.8874,
      "sparse_loss": 1.8874,
      "step": 500
    },
    {
      "epoch": 0.08220044261776795,
      "grad_norm": 34.70006561279297,
      "learning_rate": 1.3672286617492097e-05,
      "loss": 1.7832,
      "sparse_loss": 1.7832,
      "step": 520
    },
    {
      "epoch": 0.0853619981030667,
      "grad_norm": 22.705781936645508,
      "learning_rate": 1.4199157007376185e-05,
      "loss": 1.8586,
      "sparse_loss": 1.8586,
      "step": 540
    },
    {
      "epoch": 0.08852355358836547,
      "grad_norm": 46.2180290222168,
      "learning_rate": 1.4726027397260275e-05,
      "loss": 1.6379,
      "sparse_loss": 1.6379,
      "step": 560
    },
    {
      "epoch": 0.09168510907366424,
      "grad_norm": 52.948280334472656,
      "learning_rate": 1.5252897787144363e-05,
      "loss": 1.6858,
      "sparse_loss": 1.6858,
      "step": 580
    },
    {
      "epoch": 0.09484666455896301,
      "grad_norm": 35.355796813964844,
      "learning_rate": 1.577976817702845e-05,
      "loss": 1.725,
      "sparse_loss": 1.725,
      "step": 600
    },
    {
      "epoch": 0.09800822004426178,
      "grad_norm": 82.35926818847656,
      "learning_rate": 1.630663856691254e-05,
      "loss": 1.4646,
      "sparse_loss": 1.4646,
      "step": 620
    },
    {
      "epoch": 0.10116977552956054,
      "grad_norm": 17.509288787841797,
      "learning_rate": 1.683350895679663e-05,
      "loss": 1.6582,
      "sparse_loss": 1.6582,
      "step": 640
    },
    {
      "epoch": 0.10433133101485931,
      "grad_norm": 17.46040916442871,
      "learning_rate": 1.7360379346680716e-05,
      "loss": 1.6422,
      "sparse_loss": 1.6422,
      "step": 660
    },
    {
      "epoch": 0.10749288650015808,
      "grad_norm": 21.395687103271484,
      "learning_rate": 1.7887249736564805e-05,
      "loss": 1.7781,
      "sparse_loss": 1.7781,
      "step": 680
    },
    {
      "epoch": 0.11065444198545685,
      "grad_norm": 17.463903427124023,
      "learning_rate": 1.8414120126448895e-05,
      "loss": 1.6323,
      "sparse_loss": 1.6323,
      "step": 700
    },
    {
      "epoch": 0.11381599747075562,
      "grad_norm": 25.760133743286133,
      "learning_rate": 1.894099051633298e-05,
      "loss": 1.4226,
      "sparse_loss": 1.4226,
      "step": 720
    },
    {
      "epoch": 0.11697755295605437,
      "grad_norm": 16.57865333557129,
      "learning_rate": 1.946786090621707e-05,
      "loss": 1.6825,
      "sparse_loss": 1.6825,
      "step": 740
    },
    {
      "epoch": 0.12013910844135314,
      "grad_norm": 14.197876930236816,
      "learning_rate": 1.999473129610116e-05,
      "loss": 1.4768,
      "sparse_loss": 1.4768,
      "step": 760
    },
    {
      "epoch": 0.12330066392665191,
      "grad_norm": 17.482818603515625,
      "learning_rate": 2.0521601685985248e-05,
      "loss": 1.4108,
      "sparse_loss": 1.4108,
      "step": 780
    },
    {
      "epoch": 0.12646221941195068,
      "grad_norm": 58.54528045654297,
      "learning_rate": 2.1048472075869338e-05,
      "loss": 1.5973,
      "sparse_loss": 1.5973,
      "step": 800
    },
    {
      "epoch": 0.12962377489724944,
      "grad_norm": 10.157083511352539,
      "learning_rate": 2.1575342465753427e-05,
      "loss": 2.1262,
      "sparse_loss": 2.1262,
      "step": 820
    },
    {
      "epoch": 0.13278533038254822,
      "grad_norm": 15.434162139892578,
      "learning_rate": 2.2102212855637514e-05,
      "loss": 1.6433,
      "sparse_loss": 1.6433,
      "step": 840
    },
    {
      "epoch": 0.13594688586784698,
      "grad_norm": 11.59064769744873,
      "learning_rate": 2.2629083245521604e-05,
      "loss": 1.4942,
      "sparse_loss": 1.4942,
      "step": 860
    },
    {
      "epoch": 0.13910844135314573,
      "grad_norm": 8.916706085205078,
      "learning_rate": 2.315595363540569e-05,
      "loss": 1.428,
      "sparse_loss": 1.428,
      "step": 880
    },
    {
      "epoch": 0.14226999683844452,
      "grad_norm": 13.459222793579102,
      "learning_rate": 2.368282402528978e-05,
      "loss": 1.4673,
      "sparse_loss": 1.4673,
      "step": 900
    },
    {
      "epoch": 0.14543155232374327,
      "grad_norm": 7.533480167388916,
      "learning_rate": 2.420969441517387e-05,
      "loss": 1.6073,
      "sparse_loss": 1.6073,
      "step": 920
    },
    {
      "epoch": 0.14859310780904206,
      "grad_norm": 12.587985038757324,
      "learning_rate": 2.4736564805057956e-05,
      "loss": 1.5121,
      "sparse_loss": 1.5121,
      "step": 940
    },
    {
      "epoch": 0.1517546632943408,
      "grad_norm": 8.026968955993652,
      "learning_rate": 2.5263435194942046e-05,
      "loss": 1.4637,
      "sparse_loss": 1.4637,
      "step": 960
    },
    {
      "epoch": 0.15491621877963957,
      "grad_norm": 14.449393272399902,
      "learning_rate": 2.5790305584826136e-05,
      "loss": 1.4504,
      "sparse_loss": 1.4504,
      "step": 980
    },
    {
      "epoch": 0.15807777426493835,
      "grad_norm": 9.616941452026367,
      "learning_rate": 2.6317175974710222e-05,
      "loss": 1.3666,
      "sparse_loss": 1.3666,
      "step": 1000
    },
    {
      "epoch": 0.1612393297502371,
      "grad_norm": 11.157898902893066,
      "learning_rate": 2.6844046364594312e-05,
      "loss": 1.2478,
      "sparse_loss": 1.2478,
      "step": 1020
    },
    {
      "epoch": 0.1644008852355359,
      "grad_norm": 34.19327926635742,
      "learning_rate": 2.73709167544784e-05,
      "loss": 1.4773,
      "sparse_loss": 1.4773,
      "step": 1040
    },
    {
      "epoch": 0.16756244072083465,
      "grad_norm": 226.38059997558594,
      "learning_rate": 2.7897787144362485e-05,
      "loss": 1.3332,
      "sparse_loss": 1.3332,
      "step": 1060
    },
    {
      "epoch": 0.1707239962061334,
      "grad_norm": 25.833351135253906,
      "learning_rate": 2.842465753424658e-05,
      "loss": 1.5554,
      "sparse_loss": 1.5554,
      "step": 1080
    },
    {
      "epoch": 0.1738855516914322,
      "grad_norm": 31.7310791015625,
      "learning_rate": 2.8951527924130668e-05,
      "loss": 1.4678,
      "sparse_loss": 1.4678,
      "step": 1100
    },
    {
      "epoch": 0.17704710717673094,
      "grad_norm": 20.010997772216797,
      "learning_rate": 2.9478398314014755e-05,
      "loss": 1.5669,
      "sparse_loss": 1.5669,
      "step": 1120
    },
    {
      "epoch": 0.18020866266202973,
      "grad_norm": 26.388545989990234,
      "learning_rate": 3.000526870389884e-05,
      "loss": 1.5097,
      "sparse_loss": 1.5097,
      "step": 1140
    },
    {
      "epoch": 0.18337021814732848,
      "grad_norm": 8.96036434173584,
      "learning_rate": 3.053213909378293e-05,
      "loss": 1.522,
      "sparse_loss": 1.522,
      "step": 1160
    },
    {
      "epoch": 0.18653177363262724,
      "grad_norm": 26.25072479248047,
      "learning_rate": 3.105900948366702e-05,
      "loss": 1.4468,
      "sparse_loss": 1.4468,
      "step": 1180
    },
    {
      "epoch": 0.18969332911792602,
      "grad_norm": 76.05484771728516,
      "learning_rate": 3.1585879873551104e-05,
      "loss": 1.9428,
      "sparse_loss": 1.9428,
      "step": 1200
    },
    {
      "epoch": 0.19285488460322478,
      "grad_norm": 9.114641189575195,
      "learning_rate": 3.21127502634352e-05,
      "loss": 1.465,
      "sparse_loss": 1.465,
      "step": 1220
    },
    {
      "epoch": 0.19601644008852356,
      "grad_norm": 8.508830070495605,
      "learning_rate": 3.2639620653319283e-05,
      "loss": 1.2246,
      "sparse_loss": 1.2246,
      "step": 1240
    },
    {
      "epoch": 0.19917799557382232,
      "grad_norm": 32.03292465209961,
      "learning_rate": 3.316649104320337e-05,
      "loss": 1.2841,
      "sparse_loss": 1.2841,
      "step": 1260
    },
    {
      "epoch": 0.20233955105912108,
      "grad_norm": 222.09027099609375,
      "learning_rate": 3.369336143308746e-05,
      "loss": 1.9893,
      "sparse_loss": 1.9893,
      "step": 1280
    },
    {
      "epoch": 0.20550110654441986,
      "grad_norm": 16.181154251098633,
      "learning_rate": 3.4220231822971546e-05,
      "loss": 1.8857,
      "sparse_loss": 1.8857,
      "step": 1300
    },
    {
      "epoch": 0.20866266202971862,
      "grad_norm": 238.5854034423828,
      "learning_rate": 3.4747102212855636e-05,
      "loss": 1.9589,
      "sparse_loss": 1.9589,
      "step": 1320
    },
    {
      "epoch": 0.2118242175150174,
      "grad_norm": 37.885066986083984,
      "learning_rate": 3.527397260273973e-05,
      "loss": 2.6501,
      "sparse_loss": 2.6501,
      "step": 1340
    },
    {
      "epoch": 0.21498577300031615,
      "grad_norm": 25.77109718322754,
      "learning_rate": 3.5800842992623816e-05,
      "loss": 1.7995,
      "sparse_loss": 1.7995,
      "step": 1360
    },
    {
      "epoch": 0.2181473284856149,
      "grad_norm": 9.609249114990234,
      "learning_rate": 3.6327713382507905e-05,
      "loss": 1.6703,
      "sparse_loss": 1.6703,
      "step": 1380
    },
    {
      "epoch": 0.2213088839709137,
      "grad_norm": 22.792469024658203,
      "learning_rate": 3.6854583772391995e-05,
      "loss": 1.7977,
      "sparse_loss": 1.7977,
      "step": 1400
    },
    {
      "epoch": 0.22447043945621245,
      "grad_norm": 1927.930908203125,
      "learning_rate": 3.738145416227608e-05,
      "loss": 9.0095,
      "sparse_loss": 9.0095,
      "step": 1420
    },
    {
      "epoch": 0.22763199494151123,
      "grad_norm": 25.243473052978516,
      "learning_rate": 3.790832455216017e-05,
      "loss": 4.4864,
      "sparse_loss": 4.4864,
      "step": 1440
    },
    {
      "epoch": 0.23079355042681,
      "grad_norm": 36.72218704223633,
      "learning_rate": 3.843519494204426e-05,
      "loss": 1.8035,
      "sparse_loss": 1.8035,
      "step": 1460
    },
    {
      "epoch": 0.23395510591210875,
      "grad_norm": 24.56575584411621,
      "learning_rate": 3.896206533192835e-05,
      "loss": 1.8827,
      "sparse_loss": 1.8827,
      "step": 1480
    },
    {
      "epoch": 0.23711666139740753,
      "grad_norm": 34.336585998535156,
      "learning_rate": 3.948893572181244e-05,
      "loss": 1.6785,
      "sparse_loss": 1.6785,
      "step": 1500
    },
    {
      "epoch": 0.24027821688270629,
      "grad_norm": 26.481231689453125,
      "learning_rate": 4.001580611169653e-05,
      "loss": 1.6785,
      "sparse_loss": 1.6785,
      "step": 1520
    },
    {
      "epoch": 0.24343977236800507,
      "grad_norm": 22.079912185668945,
      "learning_rate": 4.054267650158061e-05,
      "loss": 1.4908,
      "sparse_loss": 1.4908,
      "step": 1540
    },
    {
      "epoch": 0.24660132785330383,
      "grad_norm": 19.326143264770508,
      "learning_rate": 4.10695468914647e-05,
      "loss": 1.7944,
      "sparse_loss": 1.7944,
      "step": 1560
    },
    {
      "epoch": 0.24976288333860258,
      "grad_norm": 29.412248611450195,
      "learning_rate": 4.159641728134879e-05,
      "loss": 1.4897,
      "sparse_loss": 1.4897,
      "step": 1580
    },
    {
      "epoch": 0.25292443882390137,
      "grad_norm": 18.24951934814453,
      "learning_rate": 4.212328767123288e-05,
      "loss": 1.4564,
      "sparse_loss": 1.4564,
      "step": 1600
    },
    {
      "epoch": 0.25608599430920015,
      "grad_norm": 9.759858131408691,
      "learning_rate": 4.265015806111697e-05,
      "loss": 1.6748,
      "sparse_loss": 1.6748,
      "step": 1620
    },
    {
      "epoch": 0.2592475497944989,
      "grad_norm": 6.376245975494385,
      "learning_rate": 4.317702845100105e-05,
      "loss": 2.0216,
      "sparse_loss": 2.0216,
      "step": 1640
    },
    {
      "epoch": 0.26240910527979766,
      "grad_norm": 16.2062931060791,
      "learning_rate": 4.370389884088514e-05,
      "loss": 1.8719,
      "sparse_loss": 1.8719,
      "step": 1660
    },
    {
      "epoch": 0.26557066076509644,
      "grad_norm": 34.300968170166016,
      "learning_rate": 4.423076923076923e-05,
      "loss": 1.6885,
      "sparse_loss": 1.6885,
      "step": 1680
    },
    {
      "epoch": 0.2687322162503952,
      "grad_norm": 20.79122543334961,
      "learning_rate": 4.4757639620653316e-05,
      "loss": 1.6456,
      "sparse_loss": 1.6456,
      "step": 1700
    },
    {
      "epoch": 0.27189377173569396,
      "grad_norm": 17.881168365478516,
      "learning_rate": 4.528451001053741e-05,
      "loss": 2.705,
      "sparse_loss": 2.705,
      "step": 1720
    },
    {
      "epoch": 0.27505532722099274,
      "grad_norm": 47.98954772949219,
      "learning_rate": 4.58113804004215e-05,
      "loss": 1.5988,
      "sparse_loss": 1.5988,
      "step": 1740
    },
    {
      "epoch": 0.27821688270629147,
      "grad_norm": 12.354046821594238,
      "learning_rate": 4.6338250790305585e-05,
      "loss": 2.2147,
      "sparse_loss": 2.2147,
      "step": 1760
    },
    {
      "epoch": 0.28137843819159025,
      "grad_norm": 6.852696418762207,
      "learning_rate": 4.6865121180189675e-05,
      "loss": 1.6379,
      "sparse_loss": 1.6379,
      "step": 1780
    },
    {
      "epoch": 0.28453999367688904,
      "grad_norm": 938.673828125,
      "learning_rate": 4.7391991570073765e-05,
      "loss": 4.3891,
      "sparse_loss": 4.3891,
      "step": 1800
    },
    {
      "epoch": 0.2877015491621878,
      "grad_norm": 4959.98876953125,
      "learning_rate": 4.791886195995785e-05,
      "loss": 2.0351,
      "sparse_loss": 2.0351,
      "step": 1820
    },
    {
      "epoch": 0.29086310464748655,
      "grad_norm": 8.796480178833008,
      "learning_rate": 4.8445732349841945e-05,
      "loss": 5.2546,
      "sparse_loss": 5.2546,
      "step": 1840
    },
    {
      "epoch": 0.29402466013278533,
      "grad_norm": 20.682435989379883,
      "learning_rate": 4.8972602739726034e-05,
      "loss": 1.9242,
      "sparse_loss": 1.9242,
      "step": 1860
    },
    {
      "epoch": 0.2971862156180841,
      "grad_norm": 68.57591247558594,
      "learning_rate": 4.949947312961012e-05,
      "loss": 1.7494,
      "sparse_loss": 1.7494,
      "step": 1880
    },
    {
      "epoch": 0.30034777110338284,
      "grad_norm": 34.03446960449219,
      "learning_rate": 4.999999893323271e-05,
      "loss": 1.6151,
      "sparse_loss": 1.6151,
      "step": 1900
    },
    {
      "epoch": 0.3035093265886816,
      "grad_norm": 12.471686363220215,
      "learning_rate": 4.999952955709672e-05,
      "loss": 1.4176,
      "sparse_loss": 1.4176,
      "step": 1920
    },
    {
      "epoch": 0.3066708820739804,
      "grad_norm": 12.306586265563965,
      "learning_rate": 4.999820678560873e-05,
      "loss": 1.437,
      "sparse_loss": 1.437,
      "step": 1940
    },
    {
      "epoch": 0.30983243755927914,
      "grad_norm": 28.8568172454834,
      "learning_rate": 4.999603066392346e-05,
      "loss": 1.4542,
      "sparse_loss": 1.4542,
      "step": 1960
    },
    {
      "epoch": 0.3129939930445779,
      "grad_norm": 11.614716529846191,
      "learning_rate": 4.999300126632601e-05,
      "loss": 1.3772,
      "sparse_loss": 1.3772,
      "step": 1980
    },
    {
      "epoch": 0.3161555485298767,
      "grad_norm": 24.48689842224121,
      "learning_rate": 4.998911869622926e-05,
      "loss": 1.2476,
      "sparse_loss": 1.2476,
      "step": 2000
    },
    {
      "epoch": 0.3193171040151755,
      "grad_norm": 6.504310131072998,
      "learning_rate": 4.998438308617042e-05,
      "loss": 1.2809,
      "sparse_loss": 1.2809,
      "step": 2020
    },
    {
      "epoch": 0.3224786595004742,
      "grad_norm": 13.010087966918945,
      "learning_rate": 4.997879459780641e-05,
      "loss": 1.4377,
      "sparse_loss": 1.4377,
      "step": 2040
    },
    {
      "epoch": 0.325640214985773,
      "grad_norm": 47.92807388305664,
      "learning_rate": 4.997235342190843e-05,
      "loss": 1.3807,
      "sparse_loss": 1.3807,
      "step": 2060
    },
    {
      "epoch": 0.3288017704710718,
      "grad_norm": 499.7860107421875,
      "learning_rate": 4.996505977835541e-05,
      "loss": 1.6717,
      "sparse_loss": 1.6717,
      "step": 2080
    },
    {
      "epoch": 0.3319633259563705,
      "grad_norm": 10.738300323486328,
      "learning_rate": 4.995691391612649e-05,
      "loss": 1.9828,
      "sparse_loss": 1.9828,
      "step": 2100
    },
    {
      "epoch": 0.3351248814416693,
      "grad_norm": 7.549389362335205,
      "learning_rate": 4.994791611329253e-05,
      "loss": 1.6067,
      "sparse_loss": 1.6067,
      "step": 2120
    },
    {
      "epoch": 0.3382864369269681,
      "grad_norm": 5.8298420906066895,
      "learning_rate": 4.9938066677006644e-05,
      "loss": 1.5362,
      "sparse_loss": 1.5362,
      "step": 2140
    },
    {
      "epoch": 0.3414479924122668,
      "grad_norm": 8.118027687072754,
      "learning_rate": 4.9927365943493686e-05,
      "loss": 1.7725,
      "sparse_loss": 1.7725,
      "step": 2160
    },
    {
      "epoch": 0.3446095478975656,
      "grad_norm": 5.788919448852539,
      "learning_rate": 4.991581427803879e-05,
      "loss": 2.0667,
      "sparse_loss": 2.0667,
      "step": 2180
    },
    {
      "epoch": 0.3477711033828644,
      "grad_norm": 131.45350646972656,
      "learning_rate": 4.990341207497485e-05,
      "loss": 2.0853,
      "sparse_loss": 2.0853,
      "step": 2200
    },
    {
      "epoch": 0.35093265886816316,
      "grad_norm": 8.813980102539062,
      "learning_rate": 4.989015975766916e-05,
      "loss": 1.9987,
      "sparse_loss": 1.9987,
      "step": 2220
    },
    {
      "epoch": 0.3540942143534619,
      "grad_norm": 21.46935272216797,
      "learning_rate": 4.987605777850886e-05,
      "loss": 2.992,
      "sparse_loss": 2.992,
      "step": 2240
    },
    {
      "epoch": 0.3572557698387607,
      "grad_norm": 183.06045532226562,
      "learning_rate": 4.986110661888555e-05,
      "loss": 1.8463,
      "sparse_loss": 1.8463,
      "step": 2260
    },
    {
      "epoch": 0.36041732532405946,
      "grad_norm": 57.89506149291992,
      "learning_rate": 4.9845306789178833e-05,
      "loss": 3.1545,
      "sparse_loss": 3.1545,
      "step": 2280
    },
    {
      "epoch": 0.3635788808093582,
      "grad_norm": 380.9645080566406,
      "learning_rate": 4.982865882873893e-05,
      "loss": 15.7637,
      "sparse_loss": 15.7637,
      "step": 2300
    },
    {
      "epoch": 0.36674043629465697,
      "grad_norm": 26.238088607788086,
      "learning_rate": 4.9811163305868185e-05,
      "loss": 1.9978,
      "sparse_loss": 1.9978,
      "step": 2320
    },
    {
      "epoch": 0.36990199177995575,
      "grad_norm": 286.219482421875,
      "learning_rate": 4.9792820817801776e-05,
      "loss": 1.945,
      "sparse_loss": 1.945,
      "step": 2340
    },
    {
      "epoch": 0.3730635472652545,
      "grad_norm": 219.23345947265625,
      "learning_rate": 4.977363199068724e-05,
      "loss": 1.5158,
      "sparse_loss": 1.5158,
      "step": 2360
    },
    {
      "epoch": 0.37622510275055326,
      "grad_norm": 227.23385620117188,
      "learning_rate": 4.9753597479563135e-05,
      "loss": 1.5513,
      "sparse_loss": 1.5513,
      "step": 2380
    },
    {
      "epoch": 0.37938665823585205,
      "grad_norm": 25.954042434692383,
      "learning_rate": 4.9732717968336684e-05,
      "loss": 1.6189,
      "sparse_loss": 1.6189,
      "step": 2400
    },
    {
      "epoch": 0.38254821372115083,
      "grad_norm": 5.236332416534424,
      "learning_rate": 4.971099416976041e-05,
      "loss": 1.207,
      "sparse_loss": 1.207,
      "step": 2420
    },
    {
      "epoch": 0.38570976920644956,
      "grad_norm": 7.044079303741455,
      "learning_rate": 4.968842682540782e-05,
      "loss": 1.3031,
      "sparse_loss": 1.3031,
      "step": 2440
    },
    {
      "epoch": 0.38887132469174834,
      "grad_norm": 5.361602783203125,
      "learning_rate": 4.966501670564807e-05,
      "loss": 1.4802,
      "sparse_loss": 1.4802,
      "step": 2460
    },
    {
      "epoch": 0.3920328801770471,
      "grad_norm": 120.72686004638672,
      "learning_rate": 4.964076460961971e-05,
      "loss": 1.3991,
      "sparse_loss": 1.3991,
      "step": 2480
    },
    {
      "epoch": 0.39519443566234586,
      "grad_norm": 68.84916687011719,
      "learning_rate": 4.961567136520335e-05,
      "loss": 1.8346,
      "sparse_loss": 1.8346,
      "step": 2500
    },
    {
      "epoch": 0.39835599114764464,
      "grad_norm": 273.9652404785156,
      "learning_rate": 4.958973782899344e-05,
      "loss": 1.5484,
      "sparse_loss": 1.5484,
      "step": 2520
    },
    {
      "epoch": 0.4015175466329434,
      "grad_norm": 8.64890193939209,
      "learning_rate": 4.9562964886269005e-05,
      "loss": 2.2428,
      "sparse_loss": 2.2428,
      "step": 2540
    },
    {
      "epoch": 0.40467910211824215,
      "grad_norm": 993.7579345703125,
      "learning_rate": 4.953535345096344e-05,
      "loss": 2.14,
      "sparse_loss": 2.14,
      "step": 2560
    },
    {
      "epoch": 0.40784065760354093,
      "grad_norm": 170.66693115234375,
      "learning_rate": 4.95069044656333e-05,
      "loss": 2.0932,
      "sparse_loss": 2.0932,
      "step": 2580
    },
    {
      "epoch": 0.4110022130888397,
      "grad_norm": 17.60846519470215,
      "learning_rate": 4.947761890142615e-05,
      "loss": 2.209,
      "sparse_loss": 2.209,
      "step": 2600
    },
    {
      "epoch": 0.4141637685741385,
      "grad_norm": 7.935824394226074,
      "learning_rate": 4.9447497758047354e-05,
      "loss": 1.4263,
      "sparse_loss": 1.4263,
      "step": 2620
    },
    {
      "epoch": 0.41732532405943723,
      "grad_norm": 7.391518592834473,
      "learning_rate": 4.941654206372602e-05,
      "loss": 2.3412,
      "sparse_loss": 2.3412,
      "step": 2640
    },
    {
      "epoch": 0.420486879544736,
      "grad_norm": 8.032608985900879,
      "learning_rate": 4.9384752875179876e-05,
      "loss": 1.4003,
      "sparse_loss": 1.4003,
      "step": 2660
    },
    {
      "epoch": 0.4236484350300348,
      "grad_norm": 5.332473278045654,
      "learning_rate": 4.9352131277579144e-05,
      "loss": 1.5189,
      "sparse_loss": 1.5189,
      "step": 2680
    },
    {
      "epoch": 0.4268099905153335,
      "grad_norm": 24.433975219726562,
      "learning_rate": 4.931867838450959e-05,
      "loss": 1.4755,
      "sparse_loss": 1.4755,
      "step": 2700
    },
    {
      "epoch": 0.4299715460006323,
      "grad_norm": 180.6294708251953,
      "learning_rate": 4.928439533793443e-05,
      "loss": 1.3064,
      "sparse_loss": 1.3064,
      "step": 2720
    },
    {
      "epoch": 0.4331331014859311,
      "grad_norm": 11.593613624572754,
      "learning_rate": 4.92492833081554e-05,
      "loss": 1.4582,
      "sparse_loss": 1.4582,
      "step": 2740
    },
    {
      "epoch": 0.4362946569712298,
      "grad_norm": 8.812865257263184,
      "learning_rate": 4.921334349377277e-05,
      "loss": 1.2775,
      "sparse_loss": 1.2775,
      "step": 2760
    },
    {
      "epoch": 0.4394562124565286,
      "grad_norm": 4.146777153015137,
      "learning_rate": 4.917657712164445e-05,
      "loss": 1.3225,
      "sparse_loss": 1.3225,
      "step": 2780
    },
    {
      "epoch": 0.4426177679418274,
      "grad_norm": 14.081722259521484,
      "learning_rate": 4.91389854468441e-05,
      "loss": 1.5367,
      "sparse_loss": 1.5367,
      "step": 2800
    },
    {
      "epoch": 0.4457793234271262,
      "grad_norm": 28.49843406677246,
      "learning_rate": 4.910056975261829e-05,
      "loss": 1.2568,
      "sparse_loss": 1.2568,
      "step": 2820
    },
    {
      "epoch": 0.4489408789124249,
      "grad_norm": 284.7271728515625,
      "learning_rate": 4.906133135034269e-05,
      "loss": 1.7647,
      "sparse_loss": 1.7647,
      "step": 2840
    },
    {
      "epoch": 0.4521024343977237,
      "grad_norm": 54.260929107666016,
      "learning_rate": 4.902127157947732e-05,
      "loss": 1.7597,
      "sparse_loss": 1.7597,
      "step": 2860
    },
    {
      "epoch": 0.45526398988302247,
      "grad_norm": 33.842323303222656,
      "learning_rate": 4.898039180752079e-05,
      "loss": 4.7062,
      "sparse_loss": 4.7062,
      "step": 2880
    },
    {
      "epoch": 0.4584255453683212,
      "grad_norm": 248.00698852539062,
      "learning_rate": 4.893869342996367e-05,
      "loss": 1.8907,
      "sparse_loss": 1.8907,
      "step": 2900
    },
    {
      "epoch": 0.46158710085362,
      "grad_norm": 9.994763374328613,
      "learning_rate": 4.889617787024079e-05,
      "loss": 1.7383,
      "sparse_loss": 1.7383,
      "step": 2920
    },
    {
      "epoch": 0.46474865633891876,
      "grad_norm": 10.934534072875977,
      "learning_rate": 4.885284657968272e-05,
      "loss": 1.7114,
      "sparse_loss": 1.7114,
      "step": 2940
    },
    {
      "epoch": 0.4679102118242175,
      "grad_norm": 62.895023345947266,
      "learning_rate": 4.880870103746617e-05,
      "loss": 3.4897,
      "sparse_loss": 3.4897,
      "step": 2960
    },
    {
      "epoch": 0.4710717673095163,
      "grad_norm": 7.052189826965332,
      "learning_rate": 4.8763742750563515e-05,
      "loss": 2.5594,
      "sparse_loss": 2.5594,
      "step": 2980
    },
    {
      "epoch": 0.47423332279481506,
      "grad_norm": 85.82020568847656,
      "learning_rate": 4.8717973253691365e-05,
      "loss": 1.5845,
      "sparse_loss": 1.5845,
      "step": 3000
    },
    {
      "epoch": 0.47739487828011384,
      "grad_norm": 9.584964752197266,
      "learning_rate": 4.867139410925815e-05,
      "loss": 1.8826,
      "sparse_loss": 1.8826,
      "step": 3020
    },
    {
      "epoch": 0.48055643376541257,
      "grad_norm": 6.3470892906188965,
      "learning_rate": 4.8624006907310804e-05,
      "loss": 1.3545,
      "sparse_loss": 1.3545,
      "step": 3040
    },
    {
      "epoch": 0.48371798925071136,
      "grad_norm": 12.4341402053833,
      "learning_rate": 4.857581326548049e-05,
      "loss": 1.1237,
      "sparse_loss": 1.1237,
      "step": 3060
    },
    {
      "epoch": 0.48687954473601014,
      "grad_norm": 10.418906211853027,
      "learning_rate": 4.852681482892735e-05,
      "loss": 1.2711,
      "sparse_loss": 1.2711,
      "step": 3080
    },
    {
      "epoch": 0.49004110022130887,
      "grad_norm": 5.9690165519714355,
      "learning_rate": 4.847701327028439e-05,
      "loss": 1.3153,
      "sparse_loss": 1.3153,
      "step": 3100
    },
    {
      "epoch": 0.49320265570660765,
      "grad_norm": 7.987347602844238,
      "learning_rate": 4.8426410289600356e-05,
      "loss": 1.1831,
      "sparse_loss": 1.1831,
      "step": 3120
    },
    {
      "epoch": 0.49636421119190643,
      "grad_norm": 17.732255935668945,
      "learning_rate": 4.837500761428167e-05,
      "loss": 1.0836,
      "sparse_loss": 1.0836,
      "step": 3140
    },
    {
      "epoch": 0.49952576667720516,
      "grad_norm": 4.911253929138184,
      "learning_rate": 4.832280699903355e-05,
      "loss": 1.1604,
      "sparse_loss": 1.1604,
      "step": 3160
    },
    {
      "epoch": 0.502687322162504,
      "grad_norm": 3.2856101989746094,
      "learning_rate": 4.826981022580001e-05,
      "loss": 1.1936,
      "sparse_loss": 1.1936,
      "step": 3180
    },
    {
      "epoch": 0.5058488776478027,
      "grad_norm": 7.562950134277344,
      "learning_rate": 4.821601910370308e-05,
      "loss": 1.1445,
      "sparse_loss": 1.1445,
      "step": 3200
    },
    {
      "epoch": 0.5090104331331015,
      "grad_norm": 5.956111431121826,
      "learning_rate": 4.8161435468981074e-05,
      "loss": 1.1684,
      "sparse_loss": 1.1684,
      "step": 3220
    },
    {
      "epoch": 0.5121719886184003,
      "grad_norm": 614.4342651367188,
      "learning_rate": 4.8106061184925856e-05,
      "loss": 1.4851,
      "sparse_loss": 1.4851,
      "step": 3240
    },
    {
      "epoch": 0.515333544103699,
      "grad_norm": 4.990788459777832,
      "learning_rate": 4.804989814181926e-05,
      "loss": 1.0159,
      "sparse_loss": 1.0159,
      "step": 3260
    },
    {
      "epoch": 0.5184950995889978,
      "grad_norm": 8.095596313476562,
      "learning_rate": 4.799294825686855e-05,
      "loss": 1.0514,
      "sparse_loss": 1.0513,
      "step": 3280
    },
    {
      "epoch": 0.5216566550742966,
      "grad_norm": 6.044830799102783,
      "learning_rate": 4.793521347414102e-05,
      "loss": 1.5337,
      "sparse_loss": 1.5337,
      "step": 3300
    },
    {
      "epoch": 0.5248182105595953,
      "grad_norm": 6.847081184387207,
      "learning_rate": 4.787669576449755e-05,
      "loss": 1.1051,
      "sparse_loss": 1.1051,
      "step": 3320
    },
    {
      "epoch": 0.527979766044894,
      "grad_norm": 5.170745849609375,
      "learning_rate": 4.781739712552539e-05,
      "loss": 0.993,
      "sparse_loss": 0.993,
      "step": 3340
    },
    {
      "epoch": 0.5311413215301929,
      "grad_norm": 17.068679809570312,
      "learning_rate": 4.775731958146995e-05,
      "loss": 1.0731,
      "sparse_loss": 1.0731,
      "step": 3360
    },
    {
      "epoch": 0.5343028770154916,
      "grad_norm": 69.15762329101562,
      "learning_rate": 4.769646518316568e-05,
      "loss": 1.1315,
      "sparse_loss": 1.1315,
      "step": 3380
    },
    {
      "epoch": 0.5374644325007903,
      "grad_norm": 19.43610191345215,
      "learning_rate": 4.763483600796612e-05,
      "loss": 1.2055,
      "sparse_loss": 1.2055,
      "step": 3400
    },
    {
      "epoch": 0.5406259879860892,
      "grad_norm": 592.229736328125,
      "learning_rate": 4.757243415967291e-05,
      "loss": 1.2663,
      "sparse_loss": 1.2663,
      "step": 3420
    },
    {
      "epoch": 0.5437875434713879,
      "grad_norm": 8.833722114562988,
      "learning_rate": 4.750926176846404e-05,
      "loss": 1.1961,
      "sparse_loss": 1.1961,
      "step": 3440
    },
    {
      "epoch": 0.5469490989566866,
      "grad_norm": 5.126863956451416,
      "learning_rate": 4.744532099082107e-05,
      "loss": 1.1168,
      "sparse_loss": 1.1168,
      "step": 3460
    },
    {
      "epoch": 0.5501106544419855,
      "grad_norm": 5.161972522735596,
      "learning_rate": 4.7380614009455595e-05,
      "loss": 1.1537,
      "sparse_loss": 1.1537,
      "step": 3480
    },
    {
      "epoch": 0.5532722099272842,
      "grad_norm": 7.829414367675781,
      "learning_rate": 4.7315143033234654e-05,
      "loss": 1.0855,
      "sparse_loss": 1.0855,
      "step": 3500
    },
    {
      "epoch": 0.5564337654125829,
      "grad_norm": 20.601045608520508,
      "learning_rate": 4.724891029710537e-05,
      "loss": 1.0889,
      "sparse_loss": 1.0889,
      "step": 3520
    },
    {
      "epoch": 0.5595953208978818,
      "grad_norm": 13.474952697753906,
      "learning_rate": 4.7181918062018674e-05,
      "loss": 1.2653,
      "sparse_loss": 1.2653,
      "step": 3540
    },
    {
      "epoch": 0.5627568763831805,
      "grad_norm": 4.993555545806885,
      "learning_rate": 4.7114168614852064e-05,
      "loss": 1.1322,
      "sparse_loss": 1.1322,
      "step": 3560
    },
    {
      "epoch": 0.5659184318684793,
      "grad_norm": 8.072465896606445,
      "learning_rate": 4.70456642683316e-05,
      "loss": 1.1083,
      "sparse_loss": 1.1083,
      "step": 3580
    },
    {
      "epoch": 0.5690799873537781,
      "grad_norm": 11.905704498291016,
      "learning_rate": 4.697640736095292e-05,
      "loss": 1.2111,
      "sparse_loss": 1.2111,
      "step": 3600
    },
    {
      "epoch": 0.5722415428390768,
      "grad_norm": 5.329150199890137,
      "learning_rate": 4.690640025690143e-05,
      "loss": 1.0297,
      "sparse_loss": 1.0297,
      "step": 3620
    },
    {
      "epoch": 0.5754030983243756,
      "grad_norm": 8.231212615966797,
      "learning_rate": 4.683564534597159e-05,
      "loss": 1.0228,
      "sparse_loss": 1.0228,
      "step": 3640
    },
    {
      "epoch": 0.5785646538096744,
      "grad_norm": 6.305401802062988,
      "learning_rate": 4.676414504348533e-05,
      "loss": 1.1103,
      "sparse_loss": 1.1103,
      "step": 3660
    },
    {
      "epoch": 0.5817262092949731,
      "grad_norm": 5.535843372344971,
      "learning_rate": 4.669190179020962e-05,
      "loss": 1.0392,
      "sparse_loss": 1.0392,
      "step": 3680
    },
    {
      "epoch": 0.5848877647802719,
      "grad_norm": 4.352124214172363,
      "learning_rate": 4.661891805227313e-05,
      "loss": 2.0697,
      "sparse_loss": 2.0697,
      "step": 3700
    },
    {
      "epoch": 0.5880493202655707,
      "grad_norm": 6.4807586669921875,
      "learning_rate": 4.654519632108204e-05,
      "loss": 1.1245,
      "sparse_loss": 1.1245,
      "step": 3720
    },
    {
      "epoch": 0.5912108757508694,
      "grad_norm": 14.390230178833008,
      "learning_rate": 4.6470739113235026e-05,
      "loss": 1.3946,
      "sparse_loss": 1.3946,
      "step": 3740
    },
    {
      "epoch": 0.5943724312361682,
      "grad_norm": 6.272542953491211,
      "learning_rate": 4.639554897043731e-05,
      "loss": 1.2791,
      "sparse_loss": 1.2791,
      "step": 3760
    },
    {
      "epoch": 0.597533986721467,
      "grad_norm": 36.29432678222656,
      "learning_rate": 4.6319628459413946e-05,
      "loss": 1.3011,
      "sparse_loss": 1.3011,
      "step": 3780
    },
    {
      "epoch": 0.6006955422067657,
      "grad_norm": 416.0614318847656,
      "learning_rate": 4.6242980171822134e-05,
      "loss": 2.201,
      "sparse_loss": 2.201,
      "step": 3800
    },
    {
      "epoch": 0.6038570976920645,
      "grad_norm": 26.68282127380371,
      "learning_rate": 4.6165606724162816e-05,
      "loss": 1.7853,
      "sparse_loss": 1.7853,
      "step": 3820
    },
    {
      "epoch": 0.6070186531773633,
      "grad_norm": 31.798444747924805,
      "learning_rate": 4.608751075769131e-05,
      "loss": 2.4911,
      "sparse_loss": 2.4911,
      "step": 3840
    },
    {
      "epoch": 0.610180208662662,
      "grad_norm": 67.2938003540039,
      "learning_rate": 4.600869493832718e-05,
      "loss": 1.4009,
      "sparse_loss": 1.4009,
      "step": 3860
    },
    {
      "epoch": 0.6133417641479608,
      "grad_norm": 22.735836029052734,
      "learning_rate": 4.592916195656322e-05,
      "loss": 1.5732,
      "sparse_loss": 1.5732,
      "step": 3880
    },
    {
      "epoch": 0.6165033196332595,
      "grad_norm": 9.694625854492188,
      "learning_rate": 4.5848914527373574e-05,
      "loss": 1.6166,
      "sparse_loss": 1.6166,
      "step": 3900
    },
    {
      "epoch": 0.6196648751185583,
      "grad_norm": 11.566657066345215,
      "learning_rate": 4.576795539012114e-05,
      "loss": 1.3355,
      "sparse_loss": 1.3355,
      "step": 3920
    },
    {
      "epoch": 0.6228264306038571,
      "grad_norm": 5.8545942306518555,
      "learning_rate": 4.568628730846397e-05,
      "loss": 1.3077,
      "sparse_loss": 1.3077,
      "step": 3940
    },
    {
      "epoch": 0.6259879860891558,
      "grad_norm": 10.191502571105957,
      "learning_rate": 4.560391307026097e-05,
      "loss": 1.3978,
      "sparse_loss": 1.3978,
      "step": 3960
    },
    {
      "epoch": 0.6291495415744547,
      "grad_norm": 8.807720184326172,
      "learning_rate": 4.5520835487476753e-05,
      "loss": 1.217,
      "sparse_loss": 1.217,
      "step": 3980
    },
    {
      "epoch": 0.6323110970597534,
      "grad_norm": 12.620327949523926,
      "learning_rate": 4.5437057396085584e-05,
      "loss": 1.1321,
      "sparse_loss": 1.1321,
      "step": 4000
    },
    {
      "epoch": 0.6354726525450521,
      "grad_norm": 30.105321884155273,
      "learning_rate": 4.535258165597465e-05,
      "loss": 1.2489,
      "sparse_loss": 1.2489,
      "step": 4020
    },
    {
      "epoch": 0.638634208030351,
      "grad_norm": 12.699020385742188,
      "learning_rate": 4.526741115084636e-05,
      "loss": 1.4003,
      "sparse_loss": 1.4003,
      "step": 4040
    },
    {
      "epoch": 0.6417957635156497,
      "grad_norm": 36.02022171020508,
      "learning_rate": 4.518154878811997e-05,
      "loss": 1.2856,
      "sparse_loss": 1.2856,
      "step": 4060
    },
    {
      "epoch": 0.6449573190009484,
      "grad_norm": 17.365991592407227,
      "learning_rate": 4.509499749883226e-05,
      "loss": 1.2755,
      "sparse_loss": 1.2755,
      "step": 4080
    },
    {
      "epoch": 0.6481188744862473,
      "grad_norm": 303.3236083984375,
      "learning_rate": 4.5007760237537566e-05,
      "loss": 1.359,
      "sparse_loss": 1.359,
      "step": 4100
    },
    {
      "epoch": 0.651280429971546,
      "grad_norm": 29.847890853881836,
      "learning_rate": 4.491983998220686e-05,
      "loss": 1.2831,
      "sparse_loss": 1.2831,
      "step": 4120
    },
    {
      "epoch": 0.6544419854568447,
      "grad_norm": 10.234504699707031,
      "learning_rate": 4.483123973412611e-05,
      "loss": 2.1854,
      "sparse_loss": 2.1854,
      "step": 4140
    },
    {
      "epoch": 0.6576035409421436,
      "grad_norm": 65.26250457763672,
      "learning_rate": 4.474196251779381e-05,
      "loss": 1.4309,
      "sparse_loss": 1.4309,
      "step": 4160
    },
    {
      "epoch": 0.6607650964274423,
      "grad_norm": 12.639811515808105,
      "learning_rate": 4.465201138081778e-05,
      "loss": 1.2369,
      "sparse_loss": 1.2369,
      "step": 4180
    },
    {
      "epoch": 0.663926651912741,
      "grad_norm": 14.298196792602539,
      "learning_rate": 4.4561389393811096e-05,
      "loss": 1.8062,
      "sparse_loss": 1.8062,
      "step": 4200
    },
    {
      "epoch": 0.6670882073980399,
      "grad_norm": 10.456524848937988,
      "learning_rate": 4.4470099650287255e-05,
      "loss": 1.1089,
      "sparse_loss": 1.1089,
      "step": 4220
    },
    {
      "epoch": 0.6702497628833386,
      "grad_norm": 39.26142883300781,
      "learning_rate": 4.4378145266554625e-05,
      "loss": 1.298,
      "sparse_loss": 1.298,
      "step": 4240
    },
    {
      "epoch": 0.6734113183686373,
      "grad_norm": 13.79429817199707,
      "learning_rate": 4.428552938161002e-05,
      "loss": 1.856,
      "sparse_loss": 1.856,
      "step": 4260
    },
    {
      "epoch": 0.6765728738539362,
      "grad_norm": 16.494983673095703,
      "learning_rate": 4.419225515703155e-05,
      "loss": 1.0942,
      "sparse_loss": 1.0942,
      "step": 4280
    },
    {
      "epoch": 0.6797344293392349,
      "grad_norm": 11.896316528320312,
      "learning_rate": 4.4098325776870734e-05,
      "loss": 1.2997,
      "sparse_loss": 1.2997,
      "step": 4300
    },
    {
      "epoch": 0.6828959848245336,
      "grad_norm": 14.740196228027344,
      "learning_rate": 4.400374444754376e-05,
      "loss": 1.2618,
      "sparse_loss": 1.2618,
      "step": 4320
    },
    {
      "epoch": 0.6860575403098325,
      "grad_norm": 17.178991317749023,
      "learning_rate": 4.3908514397722064e-05,
      "loss": 1.2454,
      "sparse_loss": 1.2454,
      "step": 4340
    },
    {
      "epoch": 0.6892190957951312,
      "grad_norm": 5.44791316986084,
      "learning_rate": 4.3812638878222095e-05,
      "loss": 1.2287,
      "sparse_loss": 1.2287,
      "step": 4360
    },
    {
      "epoch": 0.69238065128043,
      "grad_norm": 9.359633445739746,
      "learning_rate": 4.371612116189434e-05,
      "loss": 1.0574,
      "sparse_loss": 1.0574,
      "step": 4380
    },
    {
      "epoch": 0.6955422067657288,
      "grad_norm": 14.497800827026367,
      "learning_rate": 4.361896454351162e-05,
      "loss": 1.2485,
      "sparse_loss": 1.2485,
      "step": 4400
    },
    {
      "epoch": 0.6987037622510275,
      "grad_norm": 14.254651069641113,
      "learning_rate": 4.3521172339656616e-05,
      "loss": 1.1999,
      "sparse_loss": 1.1999,
      "step": 4420
    },
    {
      "epoch": 0.7018653177363263,
      "grad_norm": 4.423797607421875,
      "learning_rate": 4.342274788860863e-05,
      "loss": 1.365,
      "sparse_loss": 1.365,
      "step": 4440
    },
    {
      "epoch": 0.705026873221625,
      "grad_norm": 5.07338285446167,
      "learning_rate": 4.332369455022965e-05,
      "loss": 1.1399,
      "sparse_loss": 1.1399,
      "step": 4460
    },
    {
      "epoch": 0.7081884287069238,
      "grad_norm": 10.794282913208008,
      "learning_rate": 4.322401570584965e-05,
      "loss": 1.1749,
      "sparse_loss": 1.1749,
      "step": 4480
    },
    {
      "epoch": 0.7113499841922226,
      "grad_norm": 16.60503578186035,
      "learning_rate": 4.312371475815116e-05,
      "loss": 0.9975,
      "sparse_loss": 0.9975,
      "step": 4500
    },
    {
      "epoch": 0.7145115396775213,
      "grad_norm": 71.56282043457031,
      "learning_rate": 4.3022795131053104e-05,
      "loss": 1.091,
      "sparse_loss": 1.091,
      "step": 4520
    },
    {
      "epoch": 0.7176730951628201,
      "grad_norm": 17.93544578552246,
      "learning_rate": 4.2921260269593954e-05,
      "loss": 1.1958,
      "sparse_loss": 1.1958,
      "step": 4540
    },
    {
      "epoch": 0.7208346506481189,
      "grad_norm": 11.52933120727539,
      "learning_rate": 4.281911363981407e-05,
      "loss": 1.2429,
      "sparse_loss": 1.2429,
      "step": 4560
    },
    {
      "epoch": 0.7239962061334176,
      "grad_norm": 14.131742477416992,
      "learning_rate": 4.271635872863744e-05,
      "loss": 1.0754,
      "sparse_loss": 1.0754,
      "step": 4580
    },
    {
      "epoch": 0.7271577616187164,
      "grad_norm": 30.15178108215332,
      "learning_rate": 4.261299904375261e-05,
      "loss": 1.1375,
      "sparse_loss": 1.1375,
      "step": 4600
    },
    {
      "epoch": 0.7303193171040152,
      "grad_norm": 21.15327262878418,
      "learning_rate": 4.250903811349297e-05,
      "loss": 0.9687,
      "sparse_loss": 0.9687,
      "step": 4620
    },
    {
      "epoch": 0.7334808725893139,
      "grad_norm": 41.31047439575195,
      "learning_rate": 4.240447948671628e-05,
      "loss": 1.1116,
      "sparse_loss": 1.1116,
      "step": 4640
    },
    {
      "epoch": 0.7366424280746127,
      "grad_norm": 13.551464080810547,
      "learning_rate": 4.2299326732683555e-05,
      "loss": 1.1247,
      "sparse_loss": 1.1247,
      "step": 4660
    },
    {
      "epoch": 0.7398039835599115,
      "grad_norm": 43.86207580566406,
      "learning_rate": 4.219358344093719e-05,
      "loss": 1.0041,
      "sparse_loss": 1.0041,
      "step": 4680
    },
    {
      "epoch": 0.7429655390452102,
      "grad_norm": 17.543773651123047,
      "learning_rate": 4.208725322117848e-05,
      "loss": 1.1475,
      "sparse_loss": 1.1475,
      "step": 4700
    },
    {
      "epoch": 0.746127094530509,
      "grad_norm": 92.07748413085938,
      "learning_rate": 4.1980339703144325e-05,
      "loss": 1.009,
      "sparse_loss": 1.009,
      "step": 4720
    },
    {
      "epoch": 0.7492886500158078,
      "grad_norm": 20.017066955566406,
      "learning_rate": 4.1872846536483377e-05,
      "loss": 1.0766,
      "sparse_loss": 1.0766,
      "step": 4740
    },
    {
      "epoch": 0.7524502055011065,
      "grad_norm": 8.482087135314941,
      "learning_rate": 4.176477739063146e-05,
      "loss": 1.0439,
      "sparse_loss": 1.0439,
      "step": 4760
    },
    {
      "epoch": 0.7556117609864053,
      "grad_norm": 27.649871826171875,
      "learning_rate": 4.165613595468624e-05,
      "loss": 1.0375,
      "sparse_loss": 1.0375,
      "step": 4780
    },
    {
      "epoch": 0.7587733164717041,
      "grad_norm": 65.03596496582031,
      "learning_rate": 4.1546925937281376e-05,
      "loss": 1.1947,
      "sparse_loss": 1.1947,
      "step": 4800
    },
    {
      "epoch": 0.7619348719570028,
      "grad_norm": 42.12314224243164,
      "learning_rate": 4.143715106645986e-05,
      "loss": 1.1056,
      "sparse_loss": 1.1056,
      "step": 4820
    },
    {
      "epoch": 0.7650964274423017,
      "grad_norm": 28.16912078857422,
      "learning_rate": 4.13268150895468e-05,
      "loss": 1.1536,
      "sparse_loss": 1.1536,
      "step": 4840
    },
    {
      "epoch": 0.7682579829276004,
      "grad_norm": 8.850347518920898,
      "learning_rate": 4.121592177302147e-05,
      "loss": 1.1331,
      "sparse_loss": 1.1331,
      "step": 4860
    },
    {
      "epoch": 0.7714195384128991,
      "grad_norm": 78.75447082519531,
      "learning_rate": 4.1104474902388734e-05,
      "loss": 1.2056,
      "sparse_loss": 1.2056,
      "step": 4880
    },
    {
      "epoch": 0.774581093898198,
      "grad_norm": 6.0812087059021,
      "learning_rate": 4.099247828204984e-05,
      "loss": 1.1386,
      "sparse_loss": 1.1386,
      "step": 4900
    },
    {
      "epoch": 0.7777426493834967,
      "grad_norm": 11.306120872497559,
      "learning_rate": 4.0879935735172526e-05,
      "loss": 1.1071,
      "sparse_loss": 1.1071,
      "step": 4920
    },
    {
      "epoch": 0.7809042048687954,
      "grad_norm": 11.683663368225098,
      "learning_rate": 4.076685110356057e-05,
      "loss": 1.1398,
      "sparse_loss": 1.1398,
      "step": 4940
    },
    {
      "epoch": 0.7840657603540943,
      "grad_norm": 9.103506088256836,
      "learning_rate": 4.0653228247522545e-05,
      "loss": 1.0538,
      "sparse_loss": 1.0538,
      "step": 4960
    },
    {
      "epoch": 0.787227315839393,
      "grad_norm": 47.86374282836914,
      "learning_rate": 4.053907104574016e-05,
      "loss": 1.1586,
      "sparse_loss": 1.1586,
      "step": 4980
    },
    {
      "epoch": 0.7903888713246917,
      "grad_norm": 10.370777130126953,
      "learning_rate": 4.042438339513573e-05,
      "loss": 1.1045,
      "sparse_loss": 1.1045,
      "step": 5000
    },
    {
      "epoch": 0.7935504268099906,
      "grad_norm": 25.273862838745117,
      "learning_rate": 4.030916921073926e-05,
      "loss": 1.3062,
      "sparse_loss": 1.3062,
      "step": 5020
    },
    {
      "epoch": 0.7967119822952893,
      "grad_norm": 17.170133590698242,
      "learning_rate": 4.019343242555474e-05,
      "loss": 1.0418,
      "sparse_loss": 1.0418,
      "step": 5040
    },
    {
      "epoch": 0.799873537780588,
      "grad_norm": 6.37692403793335,
      "learning_rate": 4.00771769904259e-05,
      "loss": 1.0489,
      "sparse_loss": 1.0489,
      "step": 5060
    },
    {
      "epoch": 0.8030350932658868,
      "grad_norm": 7.968815803527832,
      "learning_rate": 3.9960406873901335e-05,
      "loss": 1.1749,
      "sparse_loss": 1.1749,
      "step": 5080
    },
    {
      "epoch": 0.8061966487511856,
      "grad_norm": 5.585686206817627,
      "learning_rate": 3.984312606209904e-05,
      "loss": 1.1846,
      "sparse_loss": 1.1846,
      "step": 5100
    },
    {
      "epoch": 0.8093582042364843,
      "grad_norm": 32.71650314331055,
      "learning_rate": 3.9725338558570335e-05,
      "loss": 1.0213,
      "sparse_loss": 1.0213,
      "step": 5120
    },
    {
      "epoch": 0.8125197597217831,
      "grad_norm": 54.680442810058594,
      "learning_rate": 3.960704838416321e-05,
      "loss": 1.0913,
      "sparse_loss": 1.0913,
      "step": 5140
    },
    {
      "epoch": 0.8156813152070819,
      "grad_norm": 31.221025466918945,
      "learning_rate": 3.948825957688506e-05,
      "loss": 1.0274,
      "sparse_loss": 1.0274,
      "step": 5160
    },
    {
      "epoch": 0.8188428706923806,
      "grad_norm": 177.74365234375,
      "learning_rate": 3.9368976191764806e-05,
      "loss": 1.1513,
      "sparse_loss": 1.1513,
      "step": 5180
    },
    {
      "epoch": 0.8220044261776794,
      "grad_norm": 13.722731590270996,
      "learning_rate": 3.924920230071456e-05,
      "loss": 1.1334,
      "sparse_loss": 1.1334,
      "step": 5200
    },
    {
      "epoch": 0.8251659816629782,
      "grad_norm": 11.911484718322754,
      "learning_rate": 3.912894199239052e-05,
      "loss": 0.983,
      "sparse_loss": 0.983,
      "step": 5220
    },
    {
      "epoch": 0.828327537148277,
      "grad_norm": 126.11477661132812,
      "learning_rate": 3.900819937205348e-05,
      "loss": 1.1193,
      "sparse_loss": 1.1193,
      "step": 5240
    },
    {
      "epoch": 0.8314890926335757,
      "grad_norm": 13.672600746154785,
      "learning_rate": 3.888697856142861e-05,
      "loss": 1.1365,
      "sparse_loss": 1.1365,
      "step": 5260
    },
    {
      "epoch": 0.8346506481188745,
      "grad_norm": 48.400428771972656,
      "learning_rate": 3.876528369856486e-05,
      "loss": 1.0199,
      "sparse_loss": 1.0199,
      "step": 5280
    },
    {
      "epoch": 0.8378122036041733,
      "grad_norm": 10.33804702758789,
      "learning_rate": 3.864311893769361e-05,
      "loss": 1.0998,
      "sparse_loss": 1.0998,
      "step": 5300
    },
    {
      "epoch": 0.840973759089472,
      "grad_norm": 5.3767170906066895,
      "learning_rate": 3.85204884490869e-05,
      "loss": 1.0869,
      "sparse_loss": 1.0869,
      "step": 5320
    },
    {
      "epoch": 0.8441353145747708,
      "grad_norm": 7.348404407501221,
      "learning_rate": 3.839739641891506e-05,
      "loss": 1.0876,
      "sparse_loss": 1.0876,
      "step": 5340
    },
    {
      "epoch": 0.8472968700600696,
      "grad_norm": 13.106389045715332,
      "learning_rate": 3.8273847049103816e-05,
      "loss": 0.98,
      "sparse_loss": 0.98,
      "step": 5360
    },
    {
      "epoch": 0.8504584255453683,
      "grad_norm": 11.407404899597168,
      "learning_rate": 3.8149844557190855e-05,
      "loss": 0.9861,
      "sparse_loss": 0.9861,
      "step": 5380
    },
    {
      "epoch": 0.853619981030667,
      "grad_norm": 42.19675064086914,
      "learning_rate": 3.802539317618185e-05,
      "loss": 0.9734,
      "sparse_loss": 0.9734,
      "step": 5400
    },
    {
      "epoch": 0.8567815365159659,
      "grad_norm": 11.629385948181152,
      "learning_rate": 3.790049715440592e-05,
      "loss": 1.0592,
      "sparse_loss": 1.0592,
      "step": 5420
    },
    {
      "epoch": 0.8599430920012646,
      "grad_norm": 26.300296783447266,
      "learning_rate": 3.7775160755370695e-05,
      "loss": 0.9645,
      "sparse_loss": 0.9645,
      "step": 5440
    },
    {
      "epoch": 0.8631046474865633,
      "grad_norm": 8.988509178161621,
      "learning_rate": 3.764938825761671e-05,
      "loss": 1.0039,
      "sparse_loss": 1.0039,
      "step": 5460
    },
    {
      "epoch": 0.8662662029718622,
      "grad_norm": 295.61614990234375,
      "learning_rate": 3.7523183954571336e-05,
      "loss": 1.0924,
      "sparse_loss": 1.0924,
      "step": 5480
    },
    {
      "epoch": 0.8694277584571609,
      "grad_norm": 13.747784614562988,
      "learning_rate": 3.739655215440228e-05,
      "loss": 0.992,
      "sparse_loss": 0.992,
      "step": 5500
    },
    {
      "epoch": 0.8725893139424596,
      "grad_norm": 13.838094711303711,
      "learning_rate": 3.726949717987048e-05,
      "loss": 0.9431,
      "sparse_loss": 0.9431,
      "step": 5520
    },
    {
      "epoch": 0.8757508694277585,
      "grad_norm": 19.276710510253906,
      "learning_rate": 3.714202336818252e-05,
      "loss": 0.9863,
      "sparse_loss": 0.9863,
      "step": 5540
    },
    {
      "epoch": 0.8789124249130572,
      "grad_norm": 36.31848907470703,
      "learning_rate": 3.701413507084264e-05,
      "loss": 1.1285,
      "sparse_loss": 1.1285,
      "step": 5560
    },
    {
      "epoch": 0.8820739803983559,
      "grad_norm": 28.601837158203125,
      "learning_rate": 3.6885836653504124e-05,
      "loss": 1.1716,
      "sparse_loss": 1.1716,
      "step": 5580
    },
    {
      "epoch": 0.8852355358836548,
      "grad_norm": 15.385210037231445,
      "learning_rate": 3.675713249582031e-05,
      "loss": 1.3165,
      "sparse_loss": 1.3165,
      "step": 5600
    },
    {
      "epoch": 0.8883970913689535,
      "grad_norm": 101.89783477783203,
      "learning_rate": 3.662802699129508e-05,
      "loss": 0.9794,
      "sparse_loss": 0.9794,
      "step": 5620
    },
    {
      "epoch": 0.8915586468542523,
      "grad_norm": 16.65896224975586,
      "learning_rate": 3.649852454713286e-05,
      "loss": 0.9701,
      "sparse_loss": 0.9701,
      "step": 5640
    },
    {
      "epoch": 0.8947202023395511,
      "grad_norm": 11.692317008972168,
      "learning_rate": 3.636862958408818e-05,
      "loss": 1.0022,
      "sparse_loss": 1.0022,
      "step": 5660
    },
    {
      "epoch": 0.8978817578248498,
      "grad_norm": 71.89360809326172,
      "learning_rate": 3.6238346536314815e-05,
      "loss": 0.9852,
      "sparse_loss": 0.9852,
      "step": 5680
    },
    {
      "epoch": 0.9010433133101486,
      "grad_norm": 23.09519386291504,
      "learning_rate": 3.610767985121433e-05,
      "loss": 1.0187,
      "sparse_loss": 1.0187,
      "step": 5700
    },
    {
      "epoch": 0.9042048687954474,
      "grad_norm": 8.693390846252441,
      "learning_rate": 3.597663398928435e-05,
      "loss": 1.1792,
      "sparse_loss": 1.1792,
      "step": 5720
    },
    {
      "epoch": 0.9073664242807461,
      "grad_norm": 12.239470481872559,
      "learning_rate": 3.584521342396623e-05,
      "loss": 1.0148,
      "sparse_loss": 1.0148,
      "step": 5740
    },
    {
      "epoch": 0.9105279797660449,
      "grad_norm": 22.732627868652344,
      "learning_rate": 3.5713422641492355e-05,
      "loss": 1.0235,
      "sparse_loss": 1.0235,
      "step": 5760
    },
    {
      "epoch": 0.9136895352513437,
      "grad_norm": 9.759695053100586,
      "learning_rate": 3.558126614073305e-05,
      "loss": 1.1205,
      "sparse_loss": 1.1205,
      "step": 5780
    },
    {
      "epoch": 0.9168510907366424,
      "grad_norm": 14.44389820098877,
      "learning_rate": 3.544874843304294e-05,
      "loss": 1.0007,
      "sparse_loss": 1.0007,
      "step": 5800
    },
    {
      "epoch": 0.9200126462219412,
      "grad_norm": 14.257927894592285,
      "learning_rate": 3.5315874042107e-05,
      "loss": 1.0862,
      "sparse_loss": 1.0862,
      "step": 5820
    },
    {
      "epoch": 0.92317420170724,
      "grad_norm": 12.86129093170166,
      "learning_rate": 3.518264750378606e-05,
      "loss": 1.1729,
      "sparse_loss": 1.1729,
      "step": 5840
    },
    {
      "epoch": 0.9263357571925387,
      "grad_norm": 18.850473403930664,
      "learning_rate": 3.5049073365962065e-05,
      "loss": 1.0947,
      "sparse_loss": 1.0947,
      "step": 5860
    },
    {
      "epoch": 0.9294973126778375,
      "grad_norm": 27.031129837036133,
      "learning_rate": 3.491515618838275e-05,
      "loss": 1.2138,
      "sparse_loss": 1.2138,
      "step": 5880
    },
    {
      "epoch": 0.9326588681631363,
      "grad_norm": 24.457199096679688,
      "learning_rate": 3.4780900542506e-05,
      "loss": 1.1355,
      "sparse_loss": 1.1355,
      "step": 5900
    },
    {
      "epoch": 0.935820423648435,
      "grad_norm": 22.789108276367188,
      "learning_rate": 3.464631101134385e-05,
      "loss": 1.0611,
      "sparse_loss": 1.0611,
      "step": 5920
    },
    {
      "epoch": 0.9389819791337338,
      "grad_norm": 18.64689826965332,
      "learning_rate": 3.451139218930595e-05,
      "loss": 1.0897,
      "sparse_loss": 1.0897,
      "step": 5940
    },
    {
      "epoch": 0.9421435346190326,
      "grad_norm": 22.228113174438477,
      "learning_rate": 3.43761486820428e-05,
      "loss": 1.1935,
      "sparse_loss": 1.1935,
      "step": 5960
    },
    {
      "epoch": 0.9453050901043313,
      "grad_norm": 8.970458984375,
      "learning_rate": 3.424058510628849e-05,
      "loss": 1.0426,
      "sparse_loss": 1.0426,
      "step": 5980
    },
    {
      "epoch": 0.9484666455896301,
      "grad_norm": 16.447965621948242,
      "learning_rate": 3.410470608970313e-05,
      "loss": 1.0054,
      "sparse_loss": 1.0054,
      "step": 6000
    },
    {
      "epoch": 0.9516282010749288,
      "grad_norm": 13.273979187011719,
      "learning_rate": 3.396851627071484e-05,
      "loss": 0.9846,
      "sparse_loss": 0.9846,
      "step": 6020
    },
    {
      "epoch": 0.9547897565602277,
      "grad_norm": 10.422012329101562,
      "learning_rate": 3.383202029836145e-05,
      "loss": 1.1063,
      "sparse_loss": 1.1063,
      "step": 6040
    },
    {
      "epoch": 0.9579513120455264,
      "grad_norm": 12.439324378967285,
      "learning_rate": 3.369522283213179e-05,
      "loss": 1.1182,
      "sparse_loss": 1.1182,
      "step": 6060
    },
    {
      "epoch": 0.9611128675308251,
      "grad_norm": 15.639971733093262,
      "learning_rate": 3.3558128541806586e-05,
      "loss": 1.1038,
      "sparse_loss": 1.1038,
      "step": 6080
    },
    {
      "epoch": 0.964274423016124,
      "grad_norm": 5.3994646072387695,
      "learning_rate": 3.3420742107299117e-05,
      "loss": 0.9971,
      "sparse_loss": 0.9971,
      "step": 6100
    },
    {
      "epoch": 0.9674359785014227,
      "grad_norm": 5.156837463378906,
      "learning_rate": 3.328306821849542e-05,
      "loss": 1.0664,
      "sparse_loss": 1.0664,
      "step": 6120
    },
    {
      "epoch": 0.9705975339867214,
      "grad_norm": 8.047260284423828,
      "learning_rate": 3.314511157509422e-05,
      "loss": 0.9269,
      "sparse_loss": 0.9269,
      "step": 6140
    },
    {
      "epoch": 0.9737590894720203,
      "grad_norm": 14.939179420471191,
      "learning_rate": 3.300687688644644e-05,
      "loss": 0.9931,
      "sparse_loss": 0.9931,
      "step": 6160
    },
    {
      "epoch": 0.976920644957319,
      "grad_norm": 3.9887309074401855,
      "learning_rate": 3.286836887139454e-05,
      "loss": 1.1571,
      "sparse_loss": 1.1571,
      "step": 6180
    },
    {
      "epoch": 0.9800822004426177,
      "grad_norm": 11.51159381866455,
      "learning_rate": 3.272959225811132e-05,
      "loss": 0.9641,
      "sparse_loss": 0.9641,
      "step": 6200
    },
    {
      "epoch": 0.9832437559279166,
      "grad_norm": 21.757701873779297,
      "learning_rate": 3.259055178393859e-05,
      "loss": 1.0037,
      "sparse_loss": 1.0037,
      "step": 6220
    },
    {
      "epoch": 0.9864053114132153,
      "grad_norm": 9.004413604736328,
      "learning_rate": 3.2451252195225476e-05,
      "loss": 0.9284,
      "sparse_loss": 0.9284,
      "step": 6240
    },
    {
      "epoch": 0.989566866898514,
      "grad_norm": 8.694558143615723,
      "learning_rate": 3.231169824716628e-05,
      "loss": 0.9384,
      "sparse_loss": 0.9384,
      "step": 6260
    },
    {
      "epoch": 0.9927284223838129,
      "grad_norm": 22.50912094116211,
      "learning_rate": 3.2171894703638306e-05,
      "loss": 0.9436,
      "sparse_loss": 0.9436,
      "step": 6280
    },
    {
      "epoch": 0.9958899778691116,
      "grad_norm": 5.219246864318848,
      "learning_rate": 3.2031846337039105e-05,
      "loss": 1.1286,
      "sparse_loss": 1.1286,
      "step": 6300
    },
    {
      "epoch": 0.9990515333544103,
      "grad_norm": 11.889341354370117,
      "learning_rate": 3.189155792812366e-05,
      "loss": 0.99,
      "sparse_loss": 0.99,
      "step": 6320
    },
    {
      "epoch": 1.0022130888397092,
      "grad_norm": 8.415122985839844,
      "learning_rate": 3.175103426584113e-05,
      "loss": 0.9625,
      "sparse_loss": 0.9625,
      "step": 6340
    },
    {
      "epoch": 1.005374644325008,
      "grad_norm": 7.745153427124023,
      "learning_rate": 3.161028014717138e-05,
      "loss": 0.9904,
      "sparse_loss": 0.9904,
      "step": 6360
    },
    {
      "epoch": 1.0085361998103066,
      "grad_norm": 4.556952476501465,
      "learning_rate": 3.146930037696127e-05,
      "loss": 1.1067,
      "sparse_loss": 1.1067,
      "step": 6380
    },
    {
      "epoch": 1.0116977552956055,
      "grad_norm": 73.73928833007812,
      "learning_rate": 3.1328099767760584e-05,
      "loss": 0.9747,
      "sparse_loss": 0.9747,
      "step": 6400
    },
    {
      "epoch": 1.0148593107809043,
      "grad_norm": 26.82009506225586,
      "learning_rate": 3.118668313965775e-05,
      "loss": 1.0062,
      "sparse_loss": 1.0062,
      "step": 6420
    },
    {
      "epoch": 1.018020866266203,
      "grad_norm": 12.366084098815918,
      "learning_rate": 3.1045055320115356e-05,
      "loss": 1.0048,
      "sparse_loss": 1.0048,
      "step": 6440
    },
    {
      "epoch": 1.0211824217515018,
      "grad_norm": 9.410070419311523,
      "learning_rate": 3.090322114380528e-05,
      "loss": 1.0333,
      "sparse_loss": 1.0333,
      "step": 6460
    },
    {
      "epoch": 1.0243439772368006,
      "grad_norm": 13.021483421325684,
      "learning_rate": 3.076118545244371e-05,
      "loss": 0.9388,
      "sparse_loss": 0.9388,
      "step": 6480
    },
    {
      "epoch": 1.0275055327220992,
      "grad_norm": 18.227083206176758,
      "learning_rate": 3.0618953094625856e-05,
      "loss": 1.0325,
      "sparse_loss": 1.0325,
      "step": 6500
    },
    {
      "epoch": 1.030667088207398,
      "grad_norm": 8.906317710876465,
      "learning_rate": 3.0476528925660382e-05,
      "loss": 1.2297,
      "sparse_loss": 1.2297,
      "step": 6520
    },
    {
      "epoch": 1.033828643692697,
      "grad_norm": 5.832286357879639,
      "learning_rate": 3.033391780740374e-05,
      "loss": 0.8533,
      "sparse_loss": 0.8533,
      "step": 6540
    },
    {
      "epoch": 1.0369901991779955,
      "grad_norm": 8.909089088439941,
      "learning_rate": 3.019112460809415e-05,
      "loss": 1.2967,
      "sparse_loss": 1.2967,
      "step": 6560
    },
    {
      "epoch": 1.0401517546632943,
      "grad_norm": 10.473612785339355,
      "learning_rate": 3.0048154202185452e-05,
      "loss": 0.8525,
      "sparse_loss": 0.8525,
      "step": 6580
    },
    {
      "epoch": 1.0433133101485932,
      "grad_norm": 7.281223773956299,
      "learning_rate": 2.9905011470180683e-05,
      "loss": 0.8978,
      "sparse_loss": 0.8978,
      "step": 6600
    },
    {
      "epoch": 1.0464748656338918,
      "grad_norm": 8.010832786560059,
      "learning_rate": 2.9761701298465465e-05,
      "loss": 0.8544,
      "sparse_loss": 0.8544,
      "step": 6620
    },
    {
      "epoch": 1.0496364211191906,
      "grad_norm": 8.506680488586426,
      "learning_rate": 2.9618228579141244e-05,
      "loss": 0.9956,
      "sparse_loss": 0.9956,
      "step": 6640
    },
    {
      "epoch": 1.0527979766044895,
      "grad_norm": 10.331910133361816,
      "learning_rate": 2.9474598209858262e-05,
      "loss": 0.891,
      "sparse_loss": 0.891,
      "step": 6660
    },
    {
      "epoch": 1.055959532089788,
      "grad_norm": 5.099006652832031,
      "learning_rate": 2.9330815093648344e-05,
      "loss": 0.9151,
      "sparse_loss": 0.9151,
      "step": 6680
    },
    {
      "epoch": 1.059121087575087,
      "grad_norm": 13.737760543823242,
      "learning_rate": 2.9186884138757596e-05,
      "loss": 0.9331,
      "sparse_loss": 0.9331,
      "step": 6700
    },
    {
      "epoch": 1.0622826430603858,
      "grad_norm": 6.100811004638672,
      "learning_rate": 2.9042810258478785e-05,
      "loss": 0.9102,
      "sparse_loss": 0.9102,
      "step": 6720
    },
    {
      "epoch": 1.0654441985456844,
      "grad_norm": 6.194526195526123,
      "learning_rate": 2.8898598370983642e-05,
      "loss": 1.0807,
      "sparse_loss": 1.0807,
      "step": 6740
    },
    {
      "epoch": 1.0686057540309832,
      "grad_norm": 9.199577331542969,
      "learning_rate": 2.8754253399154995e-05,
      "loss": 0.9404,
      "sparse_loss": 0.9404,
      "step": 6760
    },
    {
      "epoch": 1.071767309516282,
      "grad_norm": 6.769420623779297,
      "learning_rate": 2.8609780270418684e-05,
      "loss": 1.0642,
      "sparse_loss": 1.0642,
      "step": 6780
    },
    {
      "epoch": 1.0749288650015807,
      "grad_norm": 10.869714736938477,
      "learning_rate": 2.846518391657538e-05,
      "loss": 0.9148,
      "sparse_loss": 0.9148,
      "step": 6800
    },
    {
      "epoch": 1.0780904204868795,
      "grad_norm": 5.622011661529541,
      "learning_rate": 2.832046927363221e-05,
      "loss": 1.59,
      "sparse_loss": 1.59,
      "step": 6820
    },
    {
      "epoch": 1.0812519759721784,
      "grad_norm": 31.00326156616211,
      "learning_rate": 2.8175641281634285e-05,
      "loss": 0.9959,
      "sparse_loss": 0.9959,
      "step": 6840
    },
    {
      "epoch": 1.084413531457477,
      "grad_norm": 9.600606918334961,
      "learning_rate": 2.8030704884496056e-05,
      "loss": 0.899,
      "sparse_loss": 0.899,
      "step": 6860
    },
    {
      "epoch": 1.0875750869427758,
      "grad_norm": 7.86152458190918,
      "learning_rate": 2.7885665029832515e-05,
      "loss": 0.7978,
      "sparse_loss": 0.7978,
      "step": 6880
    },
    {
      "epoch": 1.0907366424280747,
      "grad_norm": 5.131598949432373,
      "learning_rate": 2.7740526668790355e-05,
      "loss": 0.89,
      "sparse_loss": 0.89,
      "step": 6900
    },
    {
      "epoch": 1.0938981979133733,
      "grad_norm": 20.09906005859375,
      "learning_rate": 2.7595294755878914e-05,
      "loss": 0.8647,
      "sparse_loss": 0.8647,
      "step": 6920
    },
    {
      "epoch": 1.0970597533986721,
      "grad_norm": 12.753592491149902,
      "learning_rate": 2.744997424880107e-05,
      "loss": 0.8467,
      "sparse_loss": 0.8467,
      "step": 6940
    },
    {
      "epoch": 1.100221308883971,
      "grad_norm": 8.265316009521484,
      "learning_rate": 2.7304570108283978e-05,
      "loss": 0.885,
      "sparse_loss": 0.885,
      "step": 6960
    },
    {
      "epoch": 1.1033828643692696,
      "grad_norm": 5.110544204711914,
      "learning_rate": 2.715908729790974e-05,
      "loss": 0.88,
      "sparse_loss": 0.88,
      "step": 6980
    },
    {
      "epoch": 1.1065444198545684,
      "grad_norm": 6.256911277770996,
      "learning_rate": 2.701353078394599e-05,
      "loss": 1.0521,
      "sparse_loss": 1.0521,
      "step": 7000
    },
    {
      "epoch": 1.1097059753398673,
      "grad_norm": 6.454010963439941,
      "learning_rate": 2.686790553517632e-05,
      "loss": 0.8291,
      "sparse_loss": 0.8291,
      "step": 7020
    },
    {
      "epoch": 1.112867530825166,
      "grad_norm": 6.668047904968262,
      "learning_rate": 2.6722216522730693e-05,
      "loss": 0.8833,
      "sparse_loss": 0.8833,
      "step": 7040
    },
    {
      "epoch": 1.1160290863104647,
      "grad_norm": 9.039273262023926,
      "learning_rate": 2.657646871991575e-05,
      "loss": 0.848,
      "sparse_loss": 0.848,
      "step": 7060
    },
    {
      "epoch": 1.1191906417957636,
      "grad_norm": 7.254537582397461,
      "learning_rate": 2.6430667102044994e-05,
      "loss": 1.117,
      "sparse_loss": 1.117,
      "step": 7080
    },
    {
      "epoch": 1.1223521972810624,
      "grad_norm": 4.930202007293701,
      "learning_rate": 2.628481664626901e-05,
      "loss": 0.8781,
      "sparse_loss": 0.8781,
      "step": 7100
    },
    {
      "epoch": 1.125513752766361,
      "grad_norm": 8.629707336425781,
      "learning_rate": 2.6138922331405545e-05,
      "loss": 0.8427,
      "sparse_loss": 0.8427,
      "step": 7120
    },
    {
      "epoch": 1.1286753082516598,
      "grad_norm": 8.589194297790527,
      "learning_rate": 2.5992989137769512e-05,
      "loss": 0.9338,
      "sparse_loss": 0.9338,
      "step": 7140
    },
    {
      "epoch": 1.1318368637369587,
      "grad_norm": 5.959052085876465,
      "learning_rate": 2.5847022047003016e-05,
      "loss": 0.92,
      "sparse_loss": 0.92,
      "step": 7160
    },
    {
      "epoch": 1.1349984192222573,
      "grad_norm": 11.835456848144531,
      "learning_rate": 2.5701026041905306e-05,
      "loss": 0.8026,
      "sparse_loss": 0.8026,
      "step": 7180
    },
    {
      "epoch": 1.1381599747075561,
      "grad_norm": 12.220736503601074,
      "learning_rate": 2.555500610626264e-05,
      "loss": 1.0017,
      "sparse_loss": 1.0017,
      "step": 7200
    },
    {
      "epoch": 1.141321530192855,
      "grad_norm": 5.280122756958008,
      "learning_rate": 2.5408967224678203e-05,
      "loss": 0.7907,
      "sparse_loss": 0.7907,
      "step": 7220
    },
    {
      "epoch": 1.1444830856781536,
      "grad_norm": 6.409539222717285,
      "learning_rate": 2.5262914382401908e-05,
      "loss": 0.9046,
      "sparse_loss": 0.9046,
      "step": 7240
    },
    {
      "epoch": 1.1476446411634524,
      "grad_norm": 6.715089321136475,
      "learning_rate": 2.5116852565160253e-05,
      "loss": 0.8531,
      "sparse_loss": 0.8531,
      "step": 7260
    },
    {
      "epoch": 1.1508061966487513,
      "grad_norm": 22.261945724487305,
      "learning_rate": 2.4970786758986098e-05,
      "loss": 0.8682,
      "sparse_loss": 0.8682,
      "step": 7280
    },
    {
      "epoch": 1.15396775213405,
      "grad_norm": 22.84038543701172,
      "learning_rate": 2.482472195004847e-05,
      "loss": 0.8476,
      "sparse_loss": 0.8476,
      "step": 7300
    },
    {
      "epoch": 1.1571293076193487,
      "grad_norm": 4.806115627288818,
      "learning_rate": 2.4678663124482358e-05,
      "loss": 0.9424,
      "sparse_loss": 0.9424,
      "step": 7320
    },
    {
      "epoch": 1.1602908631046476,
      "grad_norm": 6.685258865356445,
      "learning_rate": 2.4532615268218503e-05,
      "loss": 1.1001,
      "sparse_loss": 1.1001,
      "step": 7340
    },
    {
      "epoch": 1.1634524185899462,
      "grad_norm": 31.80987548828125,
      "learning_rate": 2.438658336681319e-05,
      "loss": 0.8698,
      "sparse_loss": 0.8698,
      "step": 7360
    },
    {
      "epoch": 1.166613974075245,
      "grad_norm": 5.920325756072998,
      "learning_rate": 2.4240572405278065e-05,
      "loss": 0.8657,
      "sparse_loss": 0.8657,
      "step": 7380
    },
    {
      "epoch": 1.1697755295605439,
      "grad_norm": 16.486330032348633,
      "learning_rate": 2.4094587367909942e-05,
      "loss": 1.1927,
      "sparse_loss": 1.1927,
      "step": 7400
    },
    {
      "epoch": 1.1729370850458425,
      "grad_norm": 530.2625732421875,
      "learning_rate": 2.394863323812072e-05,
      "loss": 0.8589,
      "sparse_loss": 0.8589,
      "step": 7420
    },
    {
      "epoch": 1.1760986405311413,
      "grad_norm": 4.4798150062561035,
      "learning_rate": 2.3802714998267177e-05,
      "loss": 0.9243,
      "sparse_loss": 0.9243,
      "step": 7440
    },
    {
      "epoch": 1.1792601960164402,
      "grad_norm": 7.21895694732666,
      "learning_rate": 2.365683762948094e-05,
      "loss": 0.8303,
      "sparse_loss": 0.8303,
      "step": 7460
    },
    {
      "epoch": 1.1824217515017388,
      "grad_norm": 14.980921745300293,
      "learning_rate": 2.3511006111498486e-05,
      "loss": 0.8336,
      "sparse_loss": 0.8336,
      "step": 7480
    },
    {
      "epoch": 1.1855833069870376,
      "grad_norm": 6.2907490730285645,
      "learning_rate": 2.3365225422491045e-05,
      "loss": 0.9096,
      "sparse_loss": 0.9096,
      "step": 7500
    },
    {
      "epoch": 1.1887448624723365,
      "grad_norm": 7.315894603729248,
      "learning_rate": 2.3219500538894796e-05,
      "loss": 0.8451,
      "sparse_loss": 0.8451,
      "step": 7520
    },
    {
      "epoch": 1.191906417957635,
      "grad_norm": 64.5635757446289,
      "learning_rate": 2.307383643524085e-05,
      "loss": 0.9047,
      "sparse_loss": 0.9047,
      "step": 7540
    },
    {
      "epoch": 1.195067973442934,
      "grad_norm": 5.218479633331299,
      "learning_rate": 2.292823808398554e-05,
      "loss": 0.8424,
      "sparse_loss": 0.8424,
      "step": 7560
    },
    {
      "epoch": 1.1982295289282328,
      "grad_norm": 6.936710834503174,
      "learning_rate": 2.2782710455340666e-05,
      "loss": 1.0648,
      "sparse_loss": 1.0648,
      "step": 7580
    },
    {
      "epoch": 1.2013910844135314,
      "grad_norm": 6.14973258972168,
      "learning_rate": 2.2637258517103754e-05,
      "loss": 0.8298,
      "sparse_loss": 0.8298,
      "step": 7600
    },
    {
      "epoch": 1.2045526398988302,
      "grad_norm": 35.78010559082031,
      "learning_rate": 2.249188723448859e-05,
      "loss": 0.8947,
      "sparse_loss": 0.8947,
      "step": 7620
    },
    {
      "epoch": 1.207714195384129,
      "grad_norm": 6.5252814292907715,
      "learning_rate": 2.2346601569955622e-05,
      "loss": 0.9452,
      "sparse_loss": 0.9452,
      "step": 7640
    },
    {
      "epoch": 1.2108757508694277,
      "grad_norm": 19.40590476989746,
      "learning_rate": 2.2201406483042592e-05,
      "loss": 0.8179,
      "sparse_loss": 0.8179,
      "step": 7660
    },
    {
      "epoch": 1.2140373063547265,
      "grad_norm": 8.337347030639648,
      "learning_rate": 2.205630693019529e-05,
      "loss": 0.8432,
      "sparse_loss": 0.8432,
      "step": 7680
    },
    {
      "epoch": 1.2171988618400253,
      "grad_norm": 22.674333572387695,
      "learning_rate": 2.1911307864598253e-05,
      "loss": 0.9081,
      "sparse_loss": 0.9081,
      "step": 7700
    },
    {
      "epoch": 1.220360417325324,
      "grad_norm": 6.722830295562744,
      "learning_rate": 2.1766414236005795e-05,
      "loss": 0.8813,
      "sparse_loss": 0.8813,
      "step": 7720
    },
    {
      "epoch": 1.2235219728106228,
      "grad_norm": 4.187692642211914,
      "learning_rate": 2.162163099057295e-05,
      "loss": 0.931,
      "sparse_loss": 0.931,
      "step": 7740
    },
    {
      "epoch": 1.2266835282959216,
      "grad_norm": 11.065973281860352,
      "learning_rate": 2.1476963070686658e-05,
      "loss": 1.0365,
      "sparse_loss": 1.0365,
      "step": 7760
    },
    {
      "epoch": 1.2298450837812203,
      "grad_norm": 5.060721397399902,
      "learning_rate": 2.1332415414797083e-05,
      "loss": 0.8473,
      "sparse_loss": 0.8473,
      "step": 7780
    },
    {
      "epoch": 1.233006639266519,
      "grad_norm": 16.102251052856445,
      "learning_rate": 2.1187992957248975e-05,
      "loss": 0.9272,
      "sparse_loss": 0.9272,
      "step": 7800
    },
    {
      "epoch": 1.236168194751818,
      "grad_norm": 8.70519733428955,
      "learning_rate": 2.1043700628113274e-05,
      "loss": 0.9343,
      "sparse_loss": 0.9343,
      "step": 7820
    },
    {
      "epoch": 1.2393297502371166,
      "grad_norm": 30.63554573059082,
      "learning_rate": 2.0899543353018792e-05,
      "loss": 0.9044,
      "sparse_loss": 0.9044,
      "step": 7840
    },
    {
      "epoch": 1.2424913057224154,
      "grad_norm": 7.579323768615723,
      "learning_rate": 2.0755526052984048e-05,
      "loss": 1.0213,
      "sparse_loss": 1.0213,
      "step": 7860
    },
    {
      "epoch": 1.2456528612077142,
      "grad_norm": 8.772518157958984,
      "learning_rate": 2.0611653644249363e-05,
      "loss": 1.0027,
      "sparse_loss": 1.0027,
      "step": 7880
    },
    {
      "epoch": 1.2488144166930129,
      "grad_norm": 608.9864501953125,
      "learning_rate": 2.0467931038108933e-05,
      "loss": 0.7587,
      "sparse_loss": 0.7587,
      "step": 7900
    },
    {
      "epoch": 1.2519759721783117,
      "grad_norm": 77.13789367675781,
      "learning_rate": 2.032436314074326e-05,
      "loss": 0.8479,
      "sparse_loss": 0.8479,
      "step": 7920
    },
    {
      "epoch": 1.2551375276636105,
      "grad_norm": 8.513879776000977,
      "learning_rate": 2.01809548530516e-05,
      "loss": 0.9856,
      "sparse_loss": 0.9856,
      "step": 7940
    },
    {
      "epoch": 1.2582990831489091,
      "grad_norm": 24.255075454711914,
      "learning_rate": 2.003771107048474e-05,
      "loss": 0.9362,
      "sparse_loss": 0.9362,
      "step": 7960
    },
    {
      "epoch": 1.261460638634208,
      "grad_norm": 24.499977111816406,
      "learning_rate": 1.9894636682877812e-05,
      "loss": 0.7739,
      "sparse_loss": 0.7739,
      "step": 7980
    },
    {
      "epoch": 1.2646221941195068,
      "grad_norm": 8.228259086608887,
      "learning_rate": 1.9751736574283416e-05,
      "loss": 0.8295,
      "sparse_loss": 0.8295,
      "step": 8000
    },
    {
      "epoch": 1.2677837496048054,
      "grad_norm": 6.35807991027832,
      "learning_rate": 1.96090156228049e-05,
      "loss": 0.8763,
      "sparse_loss": 0.8763,
      "step": 8020
    },
    {
      "epoch": 1.2709453050901043,
      "grad_norm": 12.160694122314453,
      "learning_rate": 1.9466478700429793e-05,
      "loss": 0.8687,
      "sparse_loss": 0.8687,
      "step": 8040
    },
    {
      "epoch": 1.2741068605754031,
      "grad_norm": 8.095381736755371,
      "learning_rate": 1.932413067286355e-05,
      "loss": 0.8208,
      "sparse_loss": 0.8208,
      "step": 8060
    },
    {
      "epoch": 1.2772684160607017,
      "grad_norm": 22.499439239501953,
      "learning_rate": 1.9181976399363415e-05,
      "loss": 0.8885,
      "sparse_loss": 0.8885,
      "step": 8080
    },
    {
      "epoch": 1.2804299715460006,
      "grad_norm": 140.0051727294922,
      "learning_rate": 1.904002073257254e-05,
      "loss": 0.7502,
      "sparse_loss": 0.7502,
      "step": 8100
    },
    {
      "epoch": 1.2835915270312994,
      "grad_norm": 10.05199909210205,
      "learning_rate": 1.8898268518354383e-05,
      "loss": 0.8033,
      "sparse_loss": 0.8033,
      "step": 8120
    },
    {
      "epoch": 1.286753082516598,
      "grad_norm": 7.187979698181152,
      "learning_rate": 1.8756724595627207e-05,
      "loss": 0.7889,
      "sparse_loss": 0.7889,
      "step": 8140
    },
    {
      "epoch": 1.2899146380018969,
      "grad_norm": 8.619535446166992,
      "learning_rate": 1.861539379619899e-05,
      "loss": 0.877,
      "sparse_loss": 0.877,
      "step": 8160
    },
    {
      "epoch": 1.2930761934871957,
      "grad_norm": 7.000120639801025,
      "learning_rate": 1.84742809446024e-05,
      "loss": 0.8265,
      "sparse_loss": 0.8265,
      "step": 8180
    },
    {
      "epoch": 1.2962377489724943,
      "grad_norm": 5.973320960998535,
      "learning_rate": 1.8333390857930144e-05,
      "loss": 0.7398,
      "sparse_loss": 0.7398,
      "step": 8200
    },
    {
      "epoch": 1.2993993044577932,
      "grad_norm": 30.42940902709961,
      "learning_rate": 1.8192728345670547e-05,
      "loss": 0.8153,
      "sparse_loss": 0.8153,
      "step": 8220
    },
    {
      "epoch": 1.302560859943092,
      "grad_norm": 13.388432502746582,
      "learning_rate": 1.8052298209543315e-05,
      "loss": 0.8907,
      "sparse_loss": 0.8907,
      "step": 8240
    },
    {
      "epoch": 1.3057224154283908,
      "grad_norm": 10.09288215637207,
      "learning_rate": 1.7912105243335687e-05,
      "loss": 0.8414,
      "sparse_loss": 0.8414,
      "step": 8260
    },
    {
      "epoch": 1.3088839709136895,
      "grad_norm": 8.059022903442383,
      "learning_rate": 1.7772154232738745e-05,
      "loss": 0.8596,
      "sparse_loss": 0.8596,
      "step": 8280
    },
    {
      "epoch": 1.3120455263989883,
      "grad_norm": 17.471878051757812,
      "learning_rate": 1.763244995518406e-05,
      "loss": 0.8089,
      "sparse_loss": 0.8089,
      "step": 8300
    },
    {
      "epoch": 1.3152070818842871,
      "grad_norm": 7.412807941436768,
      "learning_rate": 1.749299717968063e-05,
      "loss": 0.901,
      "sparse_loss": 0.901,
      "step": 8320
    },
    {
      "epoch": 1.3183686373695858,
      "grad_norm": 7.064301490783691,
      "learning_rate": 1.7353800666652046e-05,
      "loss": 0.85,
      "sparse_loss": 0.85,
      "step": 8340
    },
    {
      "epoch": 1.3215301928548846,
      "grad_norm": 55.2897834777832,
      "learning_rate": 1.721486516777402e-05,
      "loss": 0.7995,
      "sparse_loss": 0.7995,
      "step": 8360
    },
    {
      "epoch": 1.3246917483401834,
      "grad_norm": 86.5616455078125,
      "learning_rate": 1.707619542581215e-05,
      "loss": 0.8041,
      "sparse_loss": 0.8041,
      "step": 8380
    },
    {
      "epoch": 1.327853303825482,
      "grad_norm": 29.855533599853516,
      "learning_rate": 1.6937796174460044e-05,
      "loss": 0.8245,
      "sparse_loss": 0.8245,
      "step": 8400
    },
    {
      "epoch": 1.331014859310781,
      "grad_norm": 26.87603187561035,
      "learning_rate": 1.6799672138177726e-05,
      "loss": 0.841,
      "sparse_loss": 0.841,
      "step": 8420
    },
    {
      "epoch": 1.3341764147960797,
      "grad_norm": 30.7967472076416,
      "learning_rate": 1.6661828032030334e-05,
      "loss": 0.8057,
      "sparse_loss": 0.8057,
      "step": 8440
    },
    {
      "epoch": 1.3373379702813786,
      "grad_norm": 9.461882591247559,
      "learning_rate": 1.652426856152721e-05,
      "loss": 0.8006,
      "sparse_loss": 0.8006,
      "step": 8460
    },
    {
      "epoch": 1.3404995257666772,
      "grad_norm": 16.229339599609375,
      "learning_rate": 1.638699842246121e-05,
      "loss": 0.8628,
      "sparse_loss": 0.8628,
      "step": 8480
    },
    {
      "epoch": 1.343661081251976,
      "grad_norm": 7.4370808601379395,
      "learning_rate": 1.6250022300748486e-05,
      "loss": 0.7639,
      "sparse_loss": 0.7639,
      "step": 8500
    },
    {
      "epoch": 1.3468226367372749,
      "grad_norm": 20.91265869140625,
      "learning_rate": 1.611334487226842e-05,
      "loss": 0.7358,
      "sparse_loss": 0.7358,
      "step": 8520
    },
    {
      "epoch": 1.3499841922225735,
      "grad_norm": 15.036089897155762,
      "learning_rate": 1.5976970802704106e-05,
      "loss": 0.8402,
      "sparse_loss": 0.8402,
      "step": 8540
    },
    {
      "epoch": 1.3531457477078723,
      "grad_norm": 11.161441802978516,
      "learning_rate": 1.584090474738305e-05,
      "loss": 0.7555,
      "sparse_loss": 0.7555,
      "step": 8560
    },
    {
      "epoch": 1.3563073031931712,
      "grad_norm": 5.101526737213135,
      "learning_rate": 1.5705151351118192e-05,
      "loss": 0.7543,
      "sparse_loss": 0.7543,
      "step": 8580
    },
    {
      "epoch": 1.3594688586784698,
      "grad_norm": 8.429973602294922,
      "learning_rate": 1.5569715248049457e-05,
      "loss": 0.9256,
      "sparse_loss": 0.9256,
      "step": 8600
    },
    {
      "epoch": 1.3626304141637686,
      "grad_norm": 11.650717735290527,
      "learning_rate": 1.5434601061485477e-05,
      "loss": 0.7734,
      "sparse_loss": 0.7734,
      "step": 8620
    },
    {
      "epoch": 1.3657919696490675,
      "grad_norm": 7.932246685028076,
      "learning_rate": 1.5299813403745777e-05,
      "loss": 0.847,
      "sparse_loss": 0.847,
      "step": 8640
    },
    {
      "epoch": 1.368953525134366,
      "grad_norm": 7.4337663650512695,
      "learning_rate": 1.5165356876003395e-05,
      "loss": 0.9097,
      "sparse_loss": 0.9097,
      "step": 8660
    },
    {
      "epoch": 1.372115080619665,
      "grad_norm": 14.479243278503418,
      "learning_rate": 1.5031236068127701e-05,
      "loss": 0.8403,
      "sparse_loss": 0.8403,
      "step": 8680
    },
    {
      "epoch": 1.3752766361049638,
      "grad_norm": 25.176061630249023,
      "learning_rate": 1.4897455558527845e-05,
      "loss": 0.8301,
      "sparse_loss": 0.8301,
      "step": 8700
    },
    {
      "epoch": 1.3784381915902624,
      "grad_norm": 10.226485252380371,
      "learning_rate": 1.4764019913996355e-05,
      "loss": 0.8291,
      "sparse_loss": 0.8291,
      "step": 8720
    },
    {
      "epoch": 1.3815997470755612,
      "grad_norm": 9.828337669372559,
      "learning_rate": 1.463093368955328e-05,
      "loss": 0.7924,
      "sparse_loss": 0.7924,
      "step": 8740
    },
    {
      "epoch": 1.38476130256086,
      "grad_norm": 17.12833023071289,
      "learning_rate": 1.4498201428290759e-05,
      "loss": 0.7367,
      "sparse_loss": 0.7367,
      "step": 8760
    },
    {
      "epoch": 1.3879228580461587,
      "grad_norm": 6.645817279815674,
      "learning_rate": 1.4365827661217815e-05,
      "loss": 0.7882,
      "sparse_loss": 0.7882,
      "step": 8780
    },
    {
      "epoch": 1.3910844135314575,
      "grad_norm": 13.416703224182129,
      "learning_rate": 1.4233816907105808e-05,
      "loss": 0.7488,
      "sparse_loss": 0.7488,
      "step": 8800
    },
    {
      "epoch": 1.3942459690167563,
      "grad_norm": 10.752888679504395,
      "learning_rate": 1.4102173672334087e-05,
      "loss": 0.7537,
      "sparse_loss": 0.7537,
      "step": 8820
    },
    {
      "epoch": 1.397407524502055,
      "grad_norm": 105.49725341796875,
      "learning_rate": 1.3970902450736207e-05,
      "loss": 0.8685,
      "sparse_loss": 0.8685,
      "step": 8840
    },
    {
      "epoch": 1.4005690799873538,
      "grad_norm": 12.97473430633545,
      "learning_rate": 1.3840007723446497e-05,
      "loss": 0.8137,
      "sparse_loss": 0.8137,
      "step": 8860
    },
    {
      "epoch": 1.4037306354726526,
      "grad_norm": 7.531087875366211,
      "learning_rate": 1.3709493958747114e-05,
      "loss": 0.7575,
      "sparse_loss": 0.7575,
      "step": 8880
    },
    {
      "epoch": 1.4068921909579513,
      "grad_norm": 12.29619026184082,
      "learning_rate": 1.3579365611915517e-05,
      "loss": 0.7976,
      "sparse_loss": 0.7976,
      "step": 8900
    },
    {
      "epoch": 1.41005374644325,
      "grad_norm": 5.929440021514893,
      "learning_rate": 1.3449627125072348e-05,
      "loss": 0.8409,
      "sparse_loss": 0.8409,
      "step": 8920
    },
    {
      "epoch": 1.413215301928549,
      "grad_norm": 7.029795169830322,
      "learning_rate": 1.3320282927029806e-05,
      "loss": 0.9513,
      "sparse_loss": 0.9513,
      "step": 8940
    },
    {
      "epoch": 1.4163768574138476,
      "grad_norm": 6.505377769470215,
      "learning_rate": 1.3191337433140477e-05,
      "loss": 0.8705,
      "sparse_loss": 0.8705,
      "step": 8960
    },
    {
      "epoch": 1.4195384128991464,
      "grad_norm": 6.605830669403076,
      "learning_rate": 1.3062795045146586e-05,
      "loss": 0.7999,
      "sparse_loss": 0.7999,
      "step": 8980
    },
    {
      "epoch": 1.4226999683844452,
      "grad_norm": 31.33685874938965,
      "learning_rate": 1.2934660151029787e-05,
      "loss": 0.7624,
      "sparse_loss": 0.7624,
      "step": 9000
    },
    {
      "epoch": 1.4258615238697439,
      "grad_norm": 7.086496353149414,
      "learning_rate": 1.280693712486129e-05,
      "loss": 0.7974,
      "sparse_loss": 0.7974,
      "step": 9020
    },
    {
      "epoch": 1.4290230793550427,
      "grad_norm": 37.66407012939453,
      "learning_rate": 1.2679630326652637e-05,
      "loss": 0.8693,
      "sparse_loss": 0.8693,
      "step": 9040
    },
    {
      "epoch": 1.4321846348403415,
      "grad_norm": 11.656618118286133,
      "learning_rate": 1.2552744102206795e-05,
      "loss": 0.8127,
      "sparse_loss": 0.8127,
      "step": 9060
    },
    {
      "epoch": 1.4353461903256401,
      "grad_norm": 8.537095069885254,
      "learning_rate": 1.2426282782969817e-05,
      "loss": 0.7921,
      "sparse_loss": 0.7921,
      "step": 9080
    },
    {
      "epoch": 1.438507745810939,
      "grad_norm": 7.377892017364502,
      "learning_rate": 1.2300250685883045e-05,
      "loss": 0.7481,
      "sparse_loss": 0.7481,
      "step": 9100
    },
    {
      "epoch": 1.4416693012962378,
      "grad_norm": 15.187288284301758,
      "learning_rate": 1.2174652113235651e-05,
      "loss": 0.7952,
      "sparse_loss": 0.7952,
      "step": 9120
    },
    {
      "epoch": 1.4448308567815364,
      "grad_norm": 15.630692481994629,
      "learning_rate": 1.2049491352517866e-05,
      "loss": 0.8285,
      "sparse_loss": 0.8285,
      "step": 9140
    },
    {
      "epoch": 1.4479924122668353,
      "grad_norm": 11.588231086730957,
      "learning_rate": 1.1924772676274546e-05,
      "loss": 0.8434,
      "sparse_loss": 0.8434,
      "step": 9160
    },
    {
      "epoch": 1.4511539677521341,
      "grad_norm": 5.584624290466309,
      "learning_rate": 1.1800500341959317e-05,
      "loss": 0.7587,
      "sparse_loss": 0.7587,
      "step": 9180
    },
    {
      "epoch": 1.4543155232374327,
      "grad_norm": 9.781766891479492,
      "learning_rate": 1.1676678591789341e-05,
      "loss": 0.7393,
      "sparse_loss": 0.7393,
      "step": 9200
    },
    {
      "epoch": 1.4574770787227316,
      "grad_norm": 29.749448776245117,
      "learning_rate": 1.155331165260038e-05,
      "loss": 0.7814,
      "sparse_loss": 0.7814,
      "step": 9220
    },
    {
      "epoch": 1.4606386342080304,
      "grad_norm": 11.76217269897461,
      "learning_rate": 1.1430403735702599e-05,
      "loss": 0.7562,
      "sparse_loss": 0.7562,
      "step": 9240
    },
    {
      "epoch": 1.463800189693329,
      "grad_norm": 15.988398551940918,
      "learning_rate": 1.1307959036736754e-05,
      "loss": 0.7386,
      "sparse_loss": 0.7386,
      "step": 9260
    },
    {
      "epoch": 1.4669617451786279,
      "grad_norm": 111.05418395996094,
      "learning_rate": 1.1185981735530945e-05,
      "loss": 0.8138,
      "sparse_loss": 0.8138,
      "step": 9280
    },
    {
      "epoch": 1.4701233006639267,
      "grad_norm": 9.973881721496582,
      "learning_rate": 1.1064475995958035e-05,
      "loss": 0.7142,
      "sparse_loss": 0.7142,
      "step": 9300
    },
    {
      "epoch": 1.4732848561492253,
      "grad_norm": 8.802769660949707,
      "learning_rate": 1.0943445965793391e-05,
      "loss": 0.8692,
      "sparse_loss": 0.8692,
      "step": 9320
    },
    {
      "epoch": 1.4764464116345242,
      "grad_norm": 7.312722682952881,
      "learning_rate": 1.0822895776573386e-05,
      "loss": 0.8034,
      "sparse_loss": 0.8034,
      "step": 9340
    },
    {
      "epoch": 1.479607967119823,
      "grad_norm": 5.954249858856201,
      "learning_rate": 1.0702829543454295e-05,
      "loss": 0.717,
      "sparse_loss": 0.717,
      "step": 9360
    },
    {
      "epoch": 1.4827695226051216,
      "grad_norm": 26.72382164001465,
      "learning_rate": 1.0583251365071856e-05,
      "loss": 0.836,
      "sparse_loss": 0.836,
      "step": 9380
    },
    {
      "epoch": 1.4859310780904205,
      "grad_norm": 4.3275227546691895,
      "learning_rate": 1.0464165323401348e-05,
      "loss": 0.7148,
      "sparse_loss": 0.7148,
      "step": 9400
    },
    {
      "epoch": 1.4890926335757193,
      "grad_norm": 10.727595329284668,
      "learning_rate": 1.0345575483618236e-05,
      "loss": 0.7679,
      "sparse_loss": 0.7679,
      "step": 9420
    },
    {
      "epoch": 1.492254189061018,
      "grad_norm": 25.736143112182617,
      "learning_rate": 1.022748589395944e-05,
      "loss": 0.8217,
      "sparse_loss": 0.8217,
      "step": 9440
    },
    {
      "epoch": 1.4954157445463168,
      "grad_norm": 8.893316268920898,
      "learning_rate": 1.0109900585585089e-05,
      "loss": 0.7525,
      "sparse_loss": 0.7525,
      "step": 9460
    },
    {
      "epoch": 1.4985773000316156,
      "grad_norm": 5.61313009262085,
      "learning_rate": 9.992823572440936e-06,
      "loss": 0.86,
      "sparse_loss": 0.86,
      "step": 9480
    },
    {
      "epoch": 1.5017388555169142,
      "grad_norm": 8.482938766479492,
      "learning_rate": 9.876258851121342e-06,
      "loss": 0.7942,
      "sparse_loss": 0.7942,
      "step": 9500
    },
    {
      "epoch": 1.504900411002213,
      "grad_norm": 6.65461540222168,
      "learning_rate": 9.760210400732837e-06,
      "loss": 0.8041,
      "sparse_loss": 0.8041,
      "step": 9520
    },
    {
      "epoch": 1.508061966487512,
      "grad_norm": 15.308067321777344,
      "learning_rate": 9.644682182758306e-06,
      "loss": 0.799,
      "sparse_loss": 0.799,
      "step": 9540
    },
    {
      "epoch": 1.5112235219728105,
      "grad_norm": 21.560001373291016,
      "learning_rate": 9.529678140921721e-06,
      "loss": 0.756,
      "sparse_loss": 0.756,
      "step": 9560
    },
    {
      "epoch": 1.5143850774581094,
      "grad_norm": 8.017501831054688,
      "learning_rate": 9.415202201053553e-06,
      "loss": 0.837,
      "sparse_loss": 0.837,
      "step": 9580
    },
    {
      "epoch": 1.5175466329434082,
      "grad_norm": 9.3192777633667,
      "learning_rate": 9.301258270956733e-06,
      "loss": 0.8749,
      "sparse_loss": 0.8749,
      "step": 9600
    },
    {
      "epoch": 1.5207081884287068,
      "grad_norm": 5.969386577606201,
      "learning_rate": 9.187850240273263e-06,
      "loss": 0.7633,
      "sparse_loss": 0.7633,
      "step": 9620
    },
    {
      "epoch": 1.5238697439140056,
      "grad_norm": 6.785816192626953,
      "learning_rate": 9.074981980351461e-06,
      "loss": 0.7509,
      "sparse_loss": 0.7509,
      "step": 9640
    },
    {
      "epoch": 1.5270312993993045,
      "grad_norm": 10.92318058013916,
      "learning_rate": 8.962657344113756e-06,
      "loss": 0.8159,
      "sparse_loss": 0.8159,
      "step": 9660
    },
    {
      "epoch": 1.530192854884603,
      "grad_norm": 9.379345893859863,
      "learning_rate": 8.850880165925198e-06,
      "loss": 0.7781,
      "sparse_loss": 0.7781,
      "step": 9680
    },
    {
      "epoch": 1.533354410369902,
      "grad_norm": 4.756458759307861,
      "learning_rate": 8.73965426146257e-06,
      "loss": 0.7599,
      "sparse_loss": 0.7599,
      "step": 9700
    },
    {
      "epoch": 1.5365159658552008,
      "grad_norm": 48.54868698120117,
      "learning_rate": 8.628983427584104e-06,
      "loss": 0.6982,
      "sparse_loss": 0.6982,
      "step": 9720
    },
    {
      "epoch": 1.5396775213404994,
      "grad_norm": 10.289945602416992,
      "learning_rate": 8.518871442199916e-06,
      "loss": 0.8073,
      "sparse_loss": 0.8073,
      "step": 9740
    },
    {
      "epoch": 1.5428390768257982,
      "grad_norm": 7.174871444702148,
      "learning_rate": 8.40932206414299e-06,
      "loss": 0.6966,
      "sparse_loss": 0.6966,
      "step": 9760
    },
    {
      "epoch": 1.546000632311097,
      "grad_norm": 14.822118759155273,
      "learning_rate": 8.300339033040908e-06,
      "loss": 0.7164,
      "sparse_loss": 0.7164,
      "step": 9780
    },
    {
      "epoch": 1.5491621877963957,
      "grad_norm": 8.465911865234375,
      "learning_rate": 8.191926069188155e-06,
      "loss": 0.7268,
      "sparse_loss": 0.7268,
      "step": 9800
    },
    {
      "epoch": 1.5523237432816948,
      "grad_norm": 17.636220932006836,
      "learning_rate": 8.084086873419144e-06,
      "loss": 0.7747,
      "sparse_loss": 0.7747,
      "step": 9820
    },
    {
      "epoch": 1.5554852987669934,
      "grad_norm": 9.04919147491455,
      "learning_rate": 7.976825126981907e-06,
      "loss": 0.7624,
      "sparse_loss": 0.7624,
      "step": 9840
    },
    {
      "epoch": 1.558646854252292,
      "grad_norm": 6.665080547332764,
      "learning_rate": 7.87014449141236e-06,
      "loss": 0.8413,
      "sparse_loss": 0.8413,
      "step": 9860
    },
    {
      "epoch": 1.561808409737591,
      "grad_norm": 12.075695037841797,
      "learning_rate": 7.764048608409394e-06,
      "loss": 0.8059,
      "sparse_loss": 0.8059,
      "step": 9880
    },
    {
      "epoch": 1.5649699652228897,
      "grad_norm": 14.120219230651855,
      "learning_rate": 7.65854109971048e-06,
      "loss": 0.7293,
      "sparse_loss": 0.7293,
      "step": 9900
    },
    {
      "epoch": 1.5681315207081883,
      "grad_norm": 4.473010540008545,
      "learning_rate": 7.553625566968092e-06,
      "loss": 0.7917,
      "sparse_loss": 0.7917,
      "step": 9920
    },
    {
      "epoch": 1.5712930761934873,
      "grad_norm": 11.657509803771973,
      "learning_rate": 7.44930559162676e-06,
      "loss": 0.7425,
      "sparse_loss": 0.7425,
      "step": 9940
    },
    {
      "epoch": 1.574454631678786,
      "grad_norm": 18.03643035888672,
      "learning_rate": 7.345584734800764e-06,
      "loss": 0.8199,
      "sparse_loss": 0.8199,
      "step": 9960
    },
    {
      "epoch": 1.5776161871640846,
      "grad_norm": 10.986200332641602,
      "learning_rate": 7.242466537152639e-06,
      "loss": 0.6358,
      "sparse_loss": 0.6358,
      "step": 9980
    },
    {
      "epoch": 1.5807777426493836,
      "grad_norm": 12.271347999572754,
      "learning_rate": 7.139954518772227e-06,
      "loss": 0.8382,
      "sparse_loss": 0.8382,
      "step": 10000
    },
    {
      "epoch": 1.5839392981346823,
      "grad_norm": 22.056842803955078,
      "learning_rate": 7.038052179056573e-06,
      "loss": 0.6819,
      "sparse_loss": 0.6819,
      "step": 10020
    },
    {
      "epoch": 1.5871008536199809,
      "grad_norm": 7.699281215667725,
      "learning_rate": 6.936762996590482e-06,
      "loss": 0.7629,
      "sparse_loss": 0.7629,
      "step": 10040
    },
    {
      "epoch": 1.59026240910528,
      "grad_norm": 19.419221878051758,
      "learning_rate": 6.8360904290276975e-06,
      "loss": 0.7251,
      "sparse_loss": 0.7251,
      "step": 10060
    },
    {
      "epoch": 1.5934239645905786,
      "grad_norm": 16.863842010498047,
      "learning_rate": 6.736037912972967e-06,
      "loss": 0.6862,
      "sparse_loss": 0.6862,
      "step": 10080
    },
    {
      "epoch": 1.5965855200758772,
      "grad_norm": 8.078667640686035,
      "learning_rate": 6.6366088638646154e-06,
      "loss": 0.6728,
      "sparse_loss": 0.6728,
      "step": 10100
    },
    {
      "epoch": 1.5997470755611762,
      "grad_norm": 6.295583724975586,
      "learning_rate": 6.537806675858066e-06,
      "loss": 0.7256,
      "sparse_loss": 0.7256,
      "step": 10120
    },
    {
      "epoch": 1.6029086310464749,
      "grad_norm": 12.264827728271484,
      "learning_rate": 6.439634721709905e-06,
      "loss": 0.6446,
      "sparse_loss": 0.6446,
      "step": 10140
    },
    {
      "epoch": 1.6060701865317735,
      "grad_norm": 11.201923370361328,
      "learning_rate": 6.34209635266276e-06,
      "loss": 0.7801,
      "sparse_loss": 0.7801,
      "step": 10160
    },
    {
      "epoch": 1.6092317420170725,
      "grad_norm": 10.4365873336792,
      "learning_rate": 6.245194898330933e-06,
      "loss": 0.7446,
      "sparse_loss": 0.7446,
      "step": 10180
    },
    {
      "epoch": 1.6123932975023711,
      "grad_norm": 7.781992435455322,
      "learning_rate": 6.148933666586693e-06,
      "loss": 0.7957,
      "sparse_loss": 0.7957,
      "step": 10200
    },
    {
      "epoch": 1.61555485298767,
      "grad_norm": 19.98124122619629,
      "learning_rate": 6.0533159434473825e-06,
      "loss": 0.6786,
      "sparse_loss": 0.6786,
      "step": 10220
    },
    {
      "epoch": 1.6187164084729688,
      "grad_norm": 11.609354972839355,
      "learning_rate": 5.958344992963247e-06,
      "loss": 0.777,
      "sparse_loss": 0.777,
      "step": 10240
    },
    {
      "epoch": 1.6218779639582674,
      "grad_norm": 17.527278900146484,
      "learning_rate": 5.864024057105993e-06,
      "loss": 0.7205,
      "sparse_loss": 0.7205,
      "step": 10260
    },
    {
      "epoch": 1.6250395194435663,
      "grad_norm": 8.324954986572266,
      "learning_rate": 5.770356355658155e-06,
      "loss": 0.7808,
      "sparse_loss": 0.7808,
      "step": 10280
    },
    {
      "epoch": 1.6282010749288651,
      "grad_norm": 4.797737121582031,
      "learning_rate": 5.6773450861031365e-06,
      "loss": 0.6608,
      "sparse_loss": 0.6608,
      "step": 10300
    },
    {
      "epoch": 1.6313626304141637,
      "grad_norm": 5.131718158721924,
      "learning_rate": 5.584993423516088e-06,
      "loss": 0.787,
      "sparse_loss": 0.787,
      "step": 10320
    },
    {
      "epoch": 1.6345241858994626,
      "grad_norm": 7.7419538497924805,
      "learning_rate": 5.49330452045552e-06,
      "loss": 0.8569,
      "sparse_loss": 0.8569,
      "step": 10340
    },
    {
      "epoch": 1.6376857413847614,
      "grad_norm": 6.526092529296875,
      "learning_rate": 5.402281506855672e-06,
      "loss": 0.808,
      "sparse_loss": 0.808,
      "step": 10360
    },
    {
      "epoch": 1.64084729687006,
      "grad_norm": 11.10506820678711,
      "learning_rate": 5.3119274899196965e-06,
      "loss": 0.6758,
      "sparse_loss": 0.6758,
      "step": 10380
    },
    {
      "epoch": 1.6440088523553589,
      "grad_norm": 8.774203300476074,
      "learning_rate": 5.222245554013552e-06,
      "loss": 0.767,
      "sparse_loss": 0.767,
      "step": 10400
    },
    {
      "epoch": 1.6471704078406577,
      "grad_norm": 38.89938735961914,
      "learning_rate": 5.133238760560735e-06,
      "loss": 0.6474,
      "sparse_loss": 0.6474,
      "step": 10420
    },
    {
      "epoch": 1.6503319633259563,
      "grad_norm": 7.604240894317627,
      "learning_rate": 5.044910147937778e-06,
      "loss": 0.6467,
      "sparse_loss": 0.6467,
      "step": 10440
    },
    {
      "epoch": 1.6534935188112552,
      "grad_norm": 5.772282123565674,
      "learning_rate": 4.95726273137051e-06,
      "loss": 0.8749,
      "sparse_loss": 0.8749,
      "step": 10460
    },
    {
      "epoch": 1.656655074296554,
      "grad_norm": 5.695184707641602,
      "learning_rate": 4.870299502831163e-06,
      "loss": 0.7917,
      "sparse_loss": 0.7917,
      "step": 10480
    },
    {
      "epoch": 1.6598166297818526,
      "grad_norm": 12.65468978881836,
      "learning_rate": 4.784023430936193e-06,
      "loss": 0.7995,
      "sparse_loss": 0.7995,
      "step": 10500
    },
    {
      "epoch": 1.6629781852671515,
      "grad_norm": 7.872870445251465,
      "learning_rate": 4.698437460844976e-06,
      "loss": 0.8391,
      "sparse_loss": 0.8391,
      "step": 10520
    },
    {
      "epoch": 1.6661397407524503,
      "grad_norm": 52.34803771972656,
      "learning_rate": 4.613544514159246e-06,
      "loss": 0.6797,
      "sparse_loss": 0.6797,
      "step": 10540
    },
    {
      "epoch": 1.669301296237749,
      "grad_norm": 9.632479667663574,
      "learning_rate": 4.52934748882338e-06,
      "loss": 0.7793,
      "sparse_loss": 0.7793,
      "step": 10560
    },
    {
      "epoch": 1.6724628517230478,
      "grad_norm": 7.791759014129639,
      "learning_rate": 4.445849259025475e-06,
      "loss": 0.7846,
      "sparse_loss": 0.7846,
      "step": 10580
    },
    {
      "epoch": 1.6756244072083466,
      "grad_norm": 3.778580665588379,
      "learning_rate": 4.363052675099213e-06,
      "loss": 0.7955,
      "sparse_loss": 0.7955,
      "step": 10600
    },
    {
      "epoch": 1.6787859626936452,
      "grad_norm": 10.534053802490234,
      "learning_rate": 4.2809605634265755e-06,
      "loss": 0.7209,
      "sparse_loss": 0.7209,
      "step": 10620
    },
    {
      "epoch": 1.681947518178944,
      "grad_norm": 73.90288543701172,
      "learning_rate": 4.199575726341346e-06,
      "loss": 0.7081,
      "sparse_loss": 0.7081,
      "step": 10640
    },
    {
      "epoch": 1.685109073664243,
      "grad_norm": 7.984223365783691,
      "learning_rate": 4.118900942033491e-06,
      "loss": 0.8094,
      "sparse_loss": 0.8094,
      "step": 10660
    },
    {
      "epoch": 1.6882706291495415,
      "grad_norm": 10.261219024658203,
      "learning_rate": 4.0389389644542586e-06,
      "loss": 0.6294,
      "sparse_loss": 0.6294,
      "step": 10680
    },
    {
      "epoch": 1.6914321846348404,
      "grad_norm": 24.76963233947754,
      "learning_rate": 3.9596925232222196e-06,
      "loss": 0.7488,
      "sparse_loss": 0.7488,
      "step": 10700
    },
    {
      "epoch": 1.6945937401201392,
      "grad_norm": 6.150789260864258,
      "learning_rate": 3.881164323530062e-06,
      "loss": 0.6678,
      "sparse_loss": 0.6678,
      "step": 10720
    },
    {
      "epoch": 1.6977552956054378,
      "grad_norm": 18.82699203491211,
      "learning_rate": 3.8033570460522498e-06,
      "loss": 0.8104,
      "sparse_loss": 0.8104,
      "step": 10740
    },
    {
      "epoch": 1.7009168510907366,
      "grad_norm": 6.020512580871582,
      "learning_rate": 3.7262733468535317e-06,
      "loss": 0.7151,
      "sparse_loss": 0.7151,
      "step": 10760
    },
    {
      "epoch": 1.7040784065760355,
      "grad_norm": 5.659829139709473,
      "learning_rate": 3.649915857298242e-06,
      "loss": 0.7325,
      "sparse_loss": 0.7325,
      "step": 10780
    },
    {
      "epoch": 1.707239962061334,
      "grad_norm": 107.86634063720703,
      "learning_rate": 3.5742871839605006e-06,
      "loss": 0.7166,
      "sparse_loss": 0.7166,
      "step": 10800
    },
    {
      "epoch": 1.710401517546633,
      "grad_norm": 12.970766067504883,
      "learning_rate": 3.499389908535222e-06,
      "loss": 0.7352,
      "sparse_loss": 0.7352,
      "step": 10820
    },
    {
      "epoch": 1.7135630730319318,
      "grad_norm": 5.633972644805908,
      "learning_rate": 3.425226587749977e-06,
      "loss": 0.7217,
      "sparse_loss": 0.7217,
      "step": 10840
    },
    {
      "epoch": 1.7167246285172304,
      "grad_norm": 5.252534866333008,
      "learning_rate": 3.3517997532777485e-06,
      "loss": 0.6562,
      "sparse_loss": 0.6562,
      "step": 10860
    },
    {
      "epoch": 1.7198861840025292,
      "grad_norm": 11.584132194519043,
      "learning_rate": 3.2791119116504703e-06,
      "loss": 0.724,
      "sparse_loss": 0.724,
      "step": 10880
    },
    {
      "epoch": 1.723047739487828,
      "grad_norm": 475.4579162597656,
      "learning_rate": 3.207165544173482e-06,
      "loss": 0.7551,
      "sparse_loss": 0.7551,
      "step": 10900
    },
    {
      "epoch": 1.7262092949731267,
      "grad_norm": 13.279359817504883,
      "learning_rate": 3.1359631068408224e-06,
      "loss": 0.7943,
      "sparse_loss": 0.7943,
      "step": 10920
    },
    {
      "epoch": 1.7293708504584255,
      "grad_norm": 5.050942897796631,
      "learning_rate": 3.0655070302513884e-06,
      "loss": 0.6726,
      "sparse_loss": 0.6726,
      "step": 10940
    },
    {
      "epoch": 1.7325324059437244,
      "grad_norm": 16.30355453491211,
      "learning_rate": 2.9957997195259796e-06,
      "loss": 0.7341,
      "sparse_loss": 0.7341,
      "step": 10960
    },
    {
      "epoch": 1.735693961429023,
      "grad_norm": 16.799287796020508,
      "learning_rate": 2.926843554225167e-06,
      "loss": 0.7833,
      "sparse_loss": 0.7833,
      "step": 10980
    },
    {
      "epoch": 1.7388555169143218,
      "grad_norm": 5.428763389587402,
      "learning_rate": 2.8586408882680827e-06,
      "loss": 0.8878,
      "sparse_loss": 0.8878,
      "step": 11000
    },
    {
      "epoch": 1.7420170723996207,
      "grad_norm": 10.083562850952148,
      "learning_rate": 2.791194049852075e-06,
      "loss": 0.6835,
      "sparse_loss": 0.6835,
      "step": 11020
    },
    {
      "epoch": 1.7451786278849193,
      "grad_norm": 4.904708385467529,
      "learning_rate": 2.7245053413731876e-06,
      "loss": 0.7896,
      "sparse_loss": 0.7896,
      "step": 11040
    },
    {
      "epoch": 1.7483401833702181,
      "grad_norm": 20.469972610473633,
      "learning_rate": 2.6585770393476288e-06,
      "loss": 0.7423,
      "sparse_loss": 0.7423,
      "step": 11060
    },
    {
      "epoch": 1.751501738855517,
      "grad_norm": 6.728891372680664,
      "learning_rate": 2.593411394334e-06,
      "loss": 0.6556,
      "sparse_loss": 0.6556,
      "step": 11080
    },
    {
      "epoch": 1.7546632943408156,
      "grad_norm": 10.04324722290039,
      "learning_rate": 2.529010630856507e-06,
      "loss": 0.7358,
      "sparse_loss": 0.7358,
      "step": 11100
    },
    {
      "epoch": 1.7578248498261144,
      "grad_norm": 9.11079216003418,
      "learning_rate": 2.465376947329015e-06,
      "loss": 0.7338,
      "sparse_loss": 0.7338,
      "step": 11120
    },
    {
      "epoch": 1.7609864053114133,
      "grad_norm": 5.587403297424316,
      "learning_rate": 2.402512515979974e-06,
      "loss": 0.706,
      "sparse_loss": 0.706,
      "step": 11140
    },
    {
      "epoch": 1.7641479607967119,
      "grad_norm": 8.498259544372559,
      "learning_rate": 2.3404194827783223e-06,
      "loss": 0.7497,
      "sparse_loss": 0.7497,
      "step": 11160
    },
    {
      "epoch": 1.7673095162820107,
      "grad_norm": 18.112367630004883,
      "learning_rate": 2.2790999673601736e-06,
      "loss": 0.7765,
      "sparse_loss": 0.7765,
      "step": 11180
    },
    {
      "epoch": 1.7704710717673096,
      "grad_norm": 151.13209533691406,
      "learning_rate": 2.218556062956506e-06,
      "loss": 0.6656,
      "sparse_loss": 0.6656,
      "step": 11200
    },
    {
      "epoch": 1.7736326272526082,
      "grad_norm": 9.16464900970459,
      "learning_rate": 2.158789836321673e-06,
      "loss": 0.7342,
      "sparse_loss": 0.7342,
      "step": 11220
    },
    {
      "epoch": 1.776794182737907,
      "grad_norm": 251.93199157714844,
      "learning_rate": 2.0998033276628525e-06,
      "loss": 0.6819,
      "sparse_loss": 0.6819,
      "step": 11240
    },
    {
      "epoch": 1.7799557382232059,
      "grad_norm": 21.89741325378418,
      "learning_rate": 2.0415985505704476e-06,
      "loss": 0.7076,
      "sparse_loss": 0.7076,
      "step": 11260
    },
    {
      "epoch": 1.7831172937085045,
      "grad_norm": 17.89067840576172,
      "learning_rate": 1.984177491949285e-06,
      "loss": 0.6866,
      "sparse_loss": 0.6866,
      "step": 11280
    },
    {
      "epoch": 1.7862788491938033,
      "grad_norm": 11.87125015258789,
      "learning_rate": 1.927542111950836e-06,
      "loss": 0.6698,
      "sparse_loss": 0.6698,
      "step": 11300
    },
    {
      "epoch": 1.7894404046791021,
      "grad_norm": 39.050086975097656,
      "learning_rate": 1.8716943439062883e-06,
      "loss": 0.7041,
      "sparse_loss": 0.7041,
      "step": 11320
    },
    {
      "epoch": 1.7926019601644008,
      "grad_norm": 6.521999359130859,
      "learning_rate": 1.8166360942605348e-06,
      "loss": 0.7096,
      "sparse_loss": 0.7096,
      "step": 11340
    },
    {
      "epoch": 1.7957635156496996,
      "grad_norm": 8.267257690429688,
      "learning_rate": 1.7623692425071225e-06,
      "loss": 0.7455,
      "sparse_loss": 0.7455,
      "step": 11360
    },
    {
      "epoch": 1.7989250711349984,
      "grad_norm": 12.782633781433105,
      "learning_rate": 1.708895641124064e-06,
      "loss": 0.7833,
      "sparse_loss": 0.7833,
      "step": 11380
    },
    {
      "epoch": 1.802086626620297,
      "grad_norm": 18.76495361328125,
      "learning_rate": 1.656217115510636e-06,
      "loss": 0.7309,
      "sparse_loss": 0.7309,
      "step": 11400
    },
    {
      "epoch": 1.805248182105596,
      "grad_norm": 4.140195846557617,
      "learning_rate": 1.6043354639250301e-06,
      "loss": 0.7,
      "sparse_loss": 0.7,
      "step": 11420
    },
    {
      "epoch": 1.8084097375908947,
      "grad_norm": 71.73596954345703,
      "learning_rate": 1.553252457422985e-06,
      "loss": 0.7249,
      "sparse_loss": 0.7249,
      "step": 11440
    },
    {
      "epoch": 1.8115712930761934,
      "grad_norm": 11.120869636535645,
      "learning_rate": 1.5029698397973274e-06,
      "loss": 0.74,
      "sparse_loss": 0.74,
      "step": 11460
    },
    {
      "epoch": 1.8147328485614924,
      "grad_norm": 7.660406112670898,
      "learning_rate": 1.4534893275184397e-06,
      "loss": 0.7983,
      "sparse_loss": 0.7983,
      "step": 11480
    },
    {
      "epoch": 1.817894404046791,
      "grad_norm": 13.965437889099121,
      "learning_rate": 1.4048126096756847e-06,
      "loss": 0.7073,
      "sparse_loss": 0.7073,
      "step": 11500
    },
    {
      "epoch": 1.8210559595320897,
      "grad_norm": 22.837528228759766,
      "learning_rate": 1.3569413479197129e-06,
      "loss": 0.7368,
      "sparse_loss": 0.7368,
      "step": 11520
    },
    {
      "epoch": 1.8242175150173887,
      "grad_norm": 7.457624435424805,
      "learning_rate": 1.3098771764057715e-06,
      "loss": 0.7355,
      "sparse_loss": 0.7355,
      "step": 11540
    },
    {
      "epoch": 1.8273790705026873,
      "grad_norm": 5.778215408325195,
      "learning_rate": 1.2636217017378992e-06,
      "loss": 0.6652,
      "sparse_loss": 0.6652,
      "step": 11560
    },
    {
      "epoch": 1.830540625987986,
      "grad_norm": 9.654117584228516,
      "learning_rate": 1.2181765029140868e-06,
      "loss": 0.8112,
      "sparse_loss": 0.8112,
      "step": 11580
    },
    {
      "epoch": 1.833702181473285,
      "grad_norm": 4.773893356323242,
      "learning_rate": 1.173543131272395e-06,
      "loss": 0.7435,
      "sparse_loss": 0.7435,
      "step": 11600
    },
    {
      "epoch": 1.8368637369585836,
      "grad_norm": 8.562698364257812,
      "learning_rate": 1.1297231104379691e-06,
      "loss": 0.8407,
      "sparse_loss": 0.8407,
      "step": 11620
    },
    {
      "epoch": 1.8400252924438822,
      "grad_norm": 8.901969909667969,
      "learning_rate": 1.0867179362710367e-06,
      "loss": 0.7431,
      "sparse_loss": 0.7431,
      "step": 11640
    },
    {
      "epoch": 1.8431868479291813,
      "grad_norm": 38.71293258666992,
      "learning_rate": 1.0445290768158561e-06,
      "loss": 0.6903,
      "sparse_loss": 0.6903,
      "step": 11660
    },
    {
      "epoch": 1.84634840341448,
      "grad_norm": 6.653726100921631,
      "learning_rate": 1.0031579722505902e-06,
      "loss": 0.661,
      "sparse_loss": 0.661,
      "step": 11680
    },
    {
      "epoch": 1.8495099588997785,
      "grad_norm": 37.18999481201172,
      "learning_rate": 9.626060348381482e-07,
      "loss": 0.7415,
      "sparse_loss": 0.7415,
      "step": 11700
    },
    {
      "epoch": 1.8526715143850776,
      "grad_norm": 8.898602485656738,
      "learning_rate": 9.228746488779777e-07,
      "loss": 0.6872,
      "sparse_loss": 0.6872,
      "step": 11720
    },
    {
      "epoch": 1.8558330698703762,
      "grad_norm": 5.29373836517334,
      "learning_rate": 8.839651706588042e-07,
      "loss": 0.7724,
      "sparse_loss": 0.7724,
      "step": 11740
    },
    {
      "epoch": 1.8589946253556748,
      "grad_norm": 11.905900001525879,
      "learning_rate": 8.458789284123359e-07,
      "loss": 0.7164,
      "sparse_loss": 0.7164,
      "step": 11760
    },
    {
      "epoch": 1.862156180840974,
      "grad_norm": 4.101395130157471,
      "learning_rate": 8.086172222679184e-07,
      "loss": 0.7654,
      "sparse_loss": 0.7654,
      "step": 11780
    },
    {
      "epoch": 1.8653177363262725,
      "grad_norm": 3.735795736312866,
      "learning_rate": 7.721813242081682e-07,
      "loss": 0.7127,
      "sparse_loss": 0.7127,
      "step": 11800
    },
    {
      "epoch": 1.8684792918115711,
      "grad_norm": 169.0853271484375,
      "learning_rate": 7.365724780255239e-07,
      "loss": 0.7753,
      "sparse_loss": 0.7753,
      "step": 11820
    },
    {
      "epoch": 1.8716408472968702,
      "grad_norm": 7.801652431488037,
      "learning_rate": 7.017918992798272e-07,
      "loss": 0.7416,
      "sparse_loss": 0.7416,
      "step": 11840
    },
    {
      "epoch": 1.8748024027821688,
      "grad_norm": 5.1658782958984375,
      "learning_rate": 6.678407752567756e-07,
      "loss": 0.678,
      "sparse_loss": 0.678,
      "step": 11860
    },
    {
      "epoch": 1.8779639582674676,
      "grad_norm": 5.874561309814453,
      "learning_rate": 6.34720264927438e-07,
      "loss": 0.6654,
      "sparse_loss": 0.6654,
      "step": 11880
    },
    {
      "epoch": 1.8811255137527665,
      "grad_norm": 7.635797500610352,
      "learning_rate": 6.024314989086788e-07,
      "loss": 0.769,
      "sparse_loss": 0.769,
      "step": 11900
    },
    {
      "epoch": 1.884287069238065,
      "grad_norm": 7.414742946624756,
      "learning_rate": 5.709755794245458e-07,
      "loss": 0.7431,
      "sparse_loss": 0.7431,
      "step": 11920
    },
    {
      "epoch": 1.887448624723364,
      "grad_norm": 4.295162677764893,
      "learning_rate": 5.403535802686738e-07,
      "loss": 0.6651,
      "sparse_loss": 0.6651,
      "step": 11940
    },
    {
      "epoch": 1.8906101802086628,
      "grad_norm": 6.166464328765869,
      "learning_rate": 5.105665467675963e-07,
      "loss": 0.6609,
      "sparse_loss": 0.6609,
      "step": 11960
    },
    {
      "epoch": 1.8937717356939614,
      "grad_norm": 5.4304351806640625,
      "learning_rate": 4.816154957450831e-07,
      "loss": 0.6211,
      "sparse_loss": 0.6211,
      "step": 11980
    },
    {
      "epoch": 1.8969332911792602,
      "grad_norm": 7.894066333770752,
      "learning_rate": 4.53501415487434e-07,
      "loss": 0.7582,
      "sparse_loss": 0.7582,
      "step": 12000
    },
    {
      "epoch": 1.900094846664559,
      "grad_norm": 9.895852088928223,
      "learning_rate": 4.2622526570972044e-07,
      "loss": 0.6723,
      "sparse_loss": 0.6723,
      "step": 12020
    },
    {
      "epoch": 1.9032564021498577,
      "grad_norm": 5.642530918121338,
      "learning_rate": 3.997879775230445e-07,
      "loss": 0.6761,
      "sparse_loss": 0.6761,
      "step": 12040
    },
    {
      "epoch": 1.9064179576351565,
      "grad_norm": 5.682573318481445,
      "learning_rate": 3.741904534027424e-07,
      "loss": 0.6528,
      "sparse_loss": 0.6528,
      "step": 12060
    },
    {
      "epoch": 1.9095795131204554,
      "grad_norm": 3.8924787044525146,
      "learning_rate": 3.494335671575755e-07,
      "loss": 0.7636,
      "sparse_loss": 0.7636,
      "step": 12080
    },
    {
      "epoch": 1.912741068605754,
      "grad_norm": 7.034754276275635,
      "learning_rate": 3.255181638999211e-07,
      "loss": 0.6828,
      "sparse_loss": 0.6828,
      "step": 12100
    },
    {
      "epoch": 1.9159026240910528,
      "grad_norm": 14.612556457519531,
      "learning_rate": 3.0244506001689543e-07,
      "loss": 0.7284,
      "sparse_loss": 0.7284,
      "step": 12120
    },
    {
      "epoch": 1.9190641795763517,
      "grad_norm": 4.975604057312012,
      "learning_rate": 2.8021504314250934e-07,
      "loss": 0.7366,
      "sparse_loss": 0.7366,
      "step": 12140
    },
    {
      "epoch": 1.9222257350616503,
      "grad_norm": 9.090102195739746,
      "learning_rate": 2.588288721307619e-07,
      "loss": 0.7131,
      "sparse_loss": 0.7131,
      "step": 12160
    },
    {
      "epoch": 1.9253872905469491,
      "grad_norm": 14.68332290649414,
      "learning_rate": 2.3828727702975007e-07,
      "loss": 0.7336,
      "sparse_loss": 0.7336,
      "step": 12180
    },
    {
      "epoch": 1.928548846032248,
      "grad_norm": 7.083812236785889,
      "learning_rate": 2.1859095905674143e-07,
      "loss": 0.6609,
      "sparse_loss": 0.6609,
      "step": 12200
    },
    {
      "epoch": 1.9317104015175466,
      "grad_norm": 9.348651885986328,
      "learning_rate": 1.9974059057423223e-07,
      "loss": 0.714,
      "sparse_loss": 0.714,
      "step": 12220
    },
    {
      "epoch": 1.9348719570028454,
      "grad_norm": 9.284944534301758,
      "learning_rate": 1.8173681506701013e-07,
      "loss": 0.7667,
      "sparse_loss": 0.7667,
      "step": 12240
    },
    {
      "epoch": 1.9380335124881443,
      "grad_norm": 7.2046966552734375,
      "learning_rate": 1.6458024712017182e-07,
      "loss": 0.7339,
      "sparse_loss": 0.7339,
      "step": 12260
    },
    {
      "epoch": 1.9411950679734429,
      "grad_norm": 4.1569437980651855,
      "learning_rate": 1.4827147239815097e-07,
      "loss": 0.6457,
      "sparse_loss": 0.6457,
      "step": 12280
    },
    {
      "epoch": 1.9443566234587417,
      "grad_norm": 334.35894775390625,
      "learning_rate": 1.328110476247285e-07,
      "loss": 0.7091,
      "sparse_loss": 0.7091,
      "step": 12300
    },
    {
      "epoch": 1.9475181789440406,
      "grad_norm": 14.264080047607422,
      "learning_rate": 1.181995005640174e-07,
      "loss": 0.8099,
      "sparse_loss": 0.8099,
      "step": 12320
    },
    {
      "epoch": 1.9506797344293392,
      "grad_norm": 13.292654991149902,
      "learning_rate": 1.0443733000246037e-07,
      "loss": 0.7493,
      "sparse_loss": 0.7493,
      "step": 12340
    },
    {
      "epoch": 1.953841289914638,
      "grad_norm": 10.643686294555664,
      "learning_rate": 9.152500573179345e-08,
      "loss": 0.6731,
      "sparse_loss": 0.6731,
      "step": 12360
    },
    {
      "epoch": 1.9570028453999369,
      "grad_norm": 4.10953426361084,
      "learning_rate": 7.946296853300895e-08,
      "loss": 0.7489,
      "sparse_loss": 0.7489,
      "step": 12380
    },
    {
      "epoch": 1.9601644008852355,
      "grad_norm": 7.306403636932373,
      "learning_rate": 6.825163016132007e-08,
      "loss": 0.699,
      "sparse_loss": 0.699,
      "step": 12400
    },
    {
      "epoch": 1.9633259563705343,
      "grad_norm": 25.083154678344727,
      "learning_rate": 5.78913733320835e-08,
      "loss": 0.7104,
      "sparse_loss": 0.7104,
      "step": 12420
    },
    {
      "epoch": 1.9664875118558331,
      "grad_norm": 4.116560935974121,
      "learning_rate": 4.8382551707762403e-08,
      "loss": 0.6983,
      "sparse_loss": 0.6983,
      "step": 12440
    },
    {
      "epoch": 1.9696490673411318,
      "grad_norm": 30.012760162353516,
      "learning_rate": 3.972548988582792e-08,
      "loss": 0.7652,
      "sparse_loss": 0.7652,
      "step": 12460
    },
    {
      "epoch": 1.9728106228264306,
      "grad_norm": 8.480788230895996,
      "learning_rate": 3.192048338769293e-08,
      "loss": 0.8277,
      "sparse_loss": 0.8277,
      "step": 12480
    },
    {
      "epoch": 1.9759721783117294,
      "grad_norm": 18.254894256591797,
      "learning_rate": 2.496779864862575e-08,
      "loss": 0.6991,
      "sparse_loss": 0.6991,
      "step": 12500
    },
    {
      "epoch": 1.979133733797028,
      "grad_norm": 8.835610389709473,
      "learning_rate": 1.886767300864345e-08,
      "loss": 0.7358,
      "sparse_loss": 0.7358,
      "step": 12520
    },
    {
      "epoch": 1.982295289282327,
      "grad_norm": 8.466893196105957,
      "learning_rate": 1.362031470441838e-08,
      "loss": 0.7621,
      "sparse_loss": 0.7621,
      "step": 12540
    },
    {
      "epoch": 1.9854568447676257,
      "grad_norm": 7.957012176513672,
      "learning_rate": 9.225902862172731e-09,
      "loss": 0.6943,
      "sparse_loss": 0.6943,
      "step": 12560
    },
    {
      "epoch": 1.9886184002529244,
      "grad_norm": 4.512630939483643,
      "learning_rate": 5.684587491550097e-09,
      "loss": 0.8008,
      "sparse_loss": 0.8008,
      "step": 12580
    },
    {
      "epoch": 1.9917799557382232,
      "grad_norm": 7.773616790771484,
      "learning_rate": 2.996489480514009e-09,
      "loss": 0.8008,
      "sparse_loss": 0.8008,
      "step": 12600
    },
    {
      "epoch": 1.994941511223522,
      "grad_norm": 6.909339427947998,
      "learning_rate": 1.1617005911984668e-09,
      "loss": 0.7819,
      "sparse_loss": 0.7819,
      "step": 12620
    },
    {
      "epoch": 1.9981030667088207,
      "grad_norm": 15.276966094970703,
      "learning_rate": 1.8028345680209946e-10,
      "loss": 0.6837,
      "sparse_loss": 0.6837,
      "step": 12640
    }
  ],
  "logging_steps": 20,
  "max_steps": 12652,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 2000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": null
}