Youssef-Malek commited on
Commit
9d5dfc1
·
verified ·
1 Parent(s): 26c4bd8

Training in progress, step 600, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:aae4c3f15c0fb5993a83d9cae4d7cfc19a115777a716c45a175141b4fae1d9b7
3
  size 66126768
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1fdd0334d51ecc9ab8aa18db51be282267c4701fa1d13c3de14eb7534664f5eb
3
  size 66126768
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b760352e797799b50250e1c394b15599b19c312ac613701c2c814a669a6623f6
3
  size 34141829
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:14eb5407563d74dce1f96073fa6908dfe69c57e3d6179c798664936d210508c4
3
  size 34141829
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4801416a03beb0f63c300670679d3fb6cca48da8259362e9be9e6ffae0c5ffd0
3
  size 14645
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9445552595536daf5bd8731be4eabb308bd26e76a3f4f0c20c4aa55fcf9ea202
3
  size 14645
last-checkpoint/scaler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:3d48ee9d9909680ca611f0a95c8cefcadb338dd2851b722337f41dd0606fbe3b
3
  size 1383
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cb7fde5111803012042c93a73aa191336bb6e10b3ad44f6bd1d94fc7008a22b6
3
  size 1383
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:61c66fe4dec6fa55b8735a953c99ab52596618788488f1afa2195e9f78483189
3
  size 1465
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1785dec699279cf735b471c940e3c7215708e10021bc4f35a643cbd79b28aacf
3
  size 1465
last-checkpoint/trainer_state.json CHANGED
@@ -2,9 +2,9 @@
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
- "epoch": 10.21505376344086,
6
  "eval_steps": 120,
7
- "global_step": 480,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
@@ -3400,6 +3400,854 @@
3400
  "eval_samples_per_second": 0.461,
3401
  "eval_steps_per_second": 0.461,
3402
  "step": 480
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3403
  }
3404
  ],
3405
  "logging_steps": 1,
@@ -3419,7 +4267,7 @@
3419
  "attributes": {}
3420
  }
3421
  },
3422
- "total_flos": 3.154612346230088e+17,
3423
  "train_batch_size": 2,
3424
  "trial_name": null,
3425
  "trial_params": null
 
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
+ "epoch": 12.774193548387096,
6
  "eval_steps": 120,
7
+ "global_step": 600,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
 
3400
  "eval_samples_per_second": 0.461,
3401
  "eval_steps_per_second": 0.461,
3402
  "step": 480
3403
+ },
3404
+ {
3405
+ "epoch": 10.236559139784946,
3406
+ "grad_norm": 0.6188676953315735,
3407
+ "learning_rate": 0.00012533756949960288,
3408
+ "loss": 0.382239431142807,
3409
+ "step": 481
3410
+ },
3411
+ {
3412
+ "epoch": 10.258064516129032,
3413
+ "grad_norm": 0.6917077302932739,
3414
+ "learning_rate": 0.00012517871326449563,
3415
+ "loss": 0.36738157272338867,
3416
+ "step": 482
3417
+ },
3418
+ {
3419
+ "epoch": 10.279569892473118,
3420
+ "grad_norm": 0.710863471031189,
3421
+ "learning_rate": 0.0001250198570293884,
3422
+ "loss": 0.3310585916042328,
3423
+ "step": 483
3424
+ },
3425
+ {
3426
+ "epoch": 10.301075268817204,
3427
+ "grad_norm": 0.74619460105896,
3428
+ "learning_rate": 0.00012486100079428118,
3429
+ "loss": 0.5340608358383179,
3430
+ "step": 484
3431
+ },
3432
+ {
3433
+ "epoch": 10.32258064516129,
3434
+ "grad_norm": 0.8272573351860046,
3435
+ "learning_rate": 0.00012470214455917396,
3436
+ "loss": 0.39920294284820557,
3437
+ "step": 485
3438
+ },
3439
+ {
3440
+ "epoch": 10.344086021505376,
3441
+ "grad_norm": 0.8804677724838257,
3442
+ "learning_rate": 0.00012454328832406673,
3443
+ "loss": 0.2775310277938843,
3444
+ "step": 486
3445
+ },
3446
+ {
3447
+ "epoch": 10.365591397849462,
3448
+ "grad_norm": 0.7785136103630066,
3449
+ "learning_rate": 0.00012438443208895948,
3450
+ "loss": 0.32668304443359375,
3451
+ "step": 487
3452
+ },
3453
+ {
3454
+ "epoch": 10.387096774193548,
3455
+ "grad_norm": 0.7213490009307861,
3456
+ "learning_rate": 0.00012422557585385226,
3457
+ "loss": 0.3376646041870117,
3458
+ "step": 488
3459
+ },
3460
+ {
3461
+ "epoch": 10.408602150537634,
3462
+ "grad_norm": 0.7177138328552246,
3463
+ "learning_rate": 0.00012406671961874503,
3464
+ "loss": 0.42496711015701294,
3465
+ "step": 489
3466
+ },
3467
+ {
3468
+ "epoch": 10.43010752688172,
3469
+ "grad_norm": 0.7309224009513855,
3470
+ "learning_rate": 0.00012390786338363784,
3471
+ "loss": 0.3748842179775238,
3472
+ "step": 490
3473
+ },
3474
+ {
3475
+ "epoch": 10.451612903225806,
3476
+ "grad_norm": 0.805568277835846,
3477
+ "learning_rate": 0.00012374900714853058,
3478
+ "loss": 0.39560365676879883,
3479
+ "step": 491
3480
+ },
3481
+ {
3482
+ "epoch": 10.473118279569892,
3483
+ "grad_norm": 0.6789179444313049,
3484
+ "learning_rate": 0.00012359015091342336,
3485
+ "loss": 0.3961871862411499,
3486
+ "step": 492
3487
+ },
3488
+ {
3489
+ "epoch": 10.494623655913978,
3490
+ "grad_norm": 0.6529718041419983,
3491
+ "learning_rate": 0.00012343129467831614,
3492
+ "loss": 0.40176600217819214,
3493
+ "step": 493
3494
+ },
3495
+ {
3496
+ "epoch": 10.516129032258064,
3497
+ "grad_norm": 0.6573322415351868,
3498
+ "learning_rate": 0.0001232724384432089,
3499
+ "loss": 0.36849701404571533,
3500
+ "step": 494
3501
+ },
3502
+ {
3503
+ "epoch": 10.53763440860215,
3504
+ "grad_norm": 0.7451475262641907,
3505
+ "learning_rate": 0.0001231135822081017,
3506
+ "loss": 0.39875566959381104,
3507
+ "step": 495
3508
+ },
3509
+ {
3510
+ "epoch": 10.559139784946236,
3511
+ "grad_norm": 0.6852983236312866,
3512
+ "learning_rate": 0.00012295472597299444,
3513
+ "loss": 0.39747345447540283,
3514
+ "step": 496
3515
+ },
3516
+ {
3517
+ "epoch": 10.580645161290322,
3518
+ "grad_norm": 0.7666296362876892,
3519
+ "learning_rate": 0.0001227958697378872,
3520
+ "loss": 0.38431617617607117,
3521
+ "step": 497
3522
+ },
3523
+ {
3524
+ "epoch": 10.602150537634408,
3525
+ "grad_norm": 0.7944223284721375,
3526
+ "learning_rate": 0.00012263701350278,
3527
+ "loss": 0.3355713486671448,
3528
+ "step": 498
3529
+ },
3530
+ {
3531
+ "epoch": 10.623655913978494,
3532
+ "grad_norm": 0.7261567711830139,
3533
+ "learning_rate": 0.00012247815726767276,
3534
+ "loss": 0.42981234192848206,
3535
+ "step": 499
3536
+ },
3537
+ {
3538
+ "epoch": 10.64516129032258,
3539
+ "grad_norm": 0.7246410250663757,
3540
+ "learning_rate": 0.0001223193010325655,
3541
+ "loss": 0.41270819306373596,
3542
+ "step": 500
3543
+ },
3544
+ {
3545
+ "epoch": 10.666666666666666,
3546
+ "grad_norm": 0.7120943665504456,
3547
+ "learning_rate": 0.0001221604447974583,
3548
+ "loss": 0.3995019197463989,
3549
+ "step": 501
3550
+ },
3551
+ {
3552
+ "epoch": 10.688172043010752,
3553
+ "grad_norm": 0.7080013155937195,
3554
+ "learning_rate": 0.00012200158856235109,
3555
+ "loss": 0.3284502625465393,
3556
+ "step": 502
3557
+ },
3558
+ {
3559
+ "epoch": 10.709677419354838,
3560
+ "grad_norm": 0.7086816430091858,
3561
+ "learning_rate": 0.00012184273232724385,
3562
+ "loss": 0.41737645864486694,
3563
+ "step": 503
3564
+ },
3565
+ {
3566
+ "epoch": 10.731182795698924,
3567
+ "grad_norm": 0.6332603693008423,
3568
+ "learning_rate": 0.00012168387609213663,
3569
+ "loss": 0.31723546981811523,
3570
+ "step": 504
3571
+ },
3572
+ {
3573
+ "epoch": 10.75268817204301,
3574
+ "grad_norm": 0.6930424571037292,
3575
+ "learning_rate": 0.0001215250198570294,
3576
+ "loss": 0.36203786730766296,
3577
+ "step": 505
3578
+ },
3579
+ {
3580
+ "epoch": 10.774193548387096,
3581
+ "grad_norm": 0.758611798286438,
3582
+ "learning_rate": 0.00012136616362192217,
3583
+ "loss": 0.38453805446624756,
3584
+ "step": 506
3585
+ },
3586
+ {
3587
+ "epoch": 10.795698924731182,
3588
+ "grad_norm": 0.7258947491645813,
3589
+ "learning_rate": 0.00012120730738681494,
3590
+ "loss": 0.3250986635684967,
3591
+ "step": 507
3592
+ },
3593
+ {
3594
+ "epoch": 10.817204301075268,
3595
+ "grad_norm": 0.8399383425712585,
3596
+ "learning_rate": 0.0001210484511517077,
3597
+ "loss": 0.36206358671188354,
3598
+ "step": 508
3599
+ },
3600
+ {
3601
+ "epoch": 10.838709677419354,
3602
+ "grad_norm": 0.7296494841575623,
3603
+ "learning_rate": 0.00012088959491660048,
3604
+ "loss": 0.2987769544124603,
3605
+ "step": 509
3606
+ },
3607
+ {
3608
+ "epoch": 10.86021505376344,
3609
+ "grad_norm": 0.724338710308075,
3610
+ "learning_rate": 0.00012073073868149326,
3611
+ "loss": 0.39433813095092773,
3612
+ "step": 510
3613
+ },
3614
+ {
3615
+ "epoch": 10.881720430107526,
3616
+ "grad_norm": 1.2827945947647095,
3617
+ "learning_rate": 0.00012057188244638602,
3618
+ "loss": 0.42414143681526184,
3619
+ "step": 511
3620
+ },
3621
+ {
3622
+ "epoch": 10.903225806451612,
3623
+ "grad_norm": 0.6901166439056396,
3624
+ "learning_rate": 0.0001204130262112788,
3625
+ "loss": 0.3207138180732727,
3626
+ "step": 512
3627
+ },
3628
+ {
3629
+ "epoch": 10.924731182795698,
3630
+ "grad_norm": 0.7400676012039185,
3631
+ "learning_rate": 0.00012025416997617156,
3632
+ "loss": 0.4030807316303253,
3633
+ "step": 513
3634
+ },
3635
+ {
3636
+ "epoch": 10.946236559139784,
3637
+ "grad_norm": 0.7329428791999817,
3638
+ "learning_rate": 0.00012009531374106436,
3639
+ "loss": 0.4216151833534241,
3640
+ "step": 514
3641
+ },
3642
+ {
3643
+ "epoch": 10.967741935483872,
3644
+ "grad_norm": 0.7346771359443665,
3645
+ "learning_rate": 0.00011993645750595712,
3646
+ "loss": 0.4015253782272339,
3647
+ "step": 515
3648
+ },
3649
+ {
3650
+ "epoch": 10.989247311827956,
3651
+ "grad_norm": 0.7754795551300049,
3652
+ "learning_rate": 0.0001197776012708499,
3653
+ "loss": 0.3754139542579651,
3654
+ "step": 516
3655
+ },
3656
+ {
3657
+ "epoch": 11.0,
3658
+ "grad_norm": 0.9674854278564453,
3659
+ "learning_rate": 0.00011961874503574266,
3660
+ "loss": 0.4562542736530304,
3661
+ "step": 517
3662
+ },
3663
+ {
3664
+ "epoch": 11.021505376344086,
3665
+ "grad_norm": 0.6914543509483337,
3666
+ "learning_rate": 0.00011945988880063544,
3667
+ "loss": 0.3569665849208832,
3668
+ "step": 518
3669
+ },
3670
+ {
3671
+ "epoch": 11.043010752688172,
3672
+ "grad_norm": 0.7606181502342224,
3673
+ "learning_rate": 0.0001193010325655282,
3674
+ "loss": 0.3248334228992462,
3675
+ "step": 519
3676
+ },
3677
+ {
3678
+ "epoch": 11.064516129032258,
3679
+ "grad_norm": 0.764230489730835,
3680
+ "learning_rate": 0.00011914217633042097,
3681
+ "loss": 0.30292606353759766,
3682
+ "step": 520
3683
+ },
3684
+ {
3685
+ "epoch": 11.086021505376344,
3686
+ "grad_norm": 0.8754153847694397,
3687
+ "learning_rate": 0.00011898332009531375,
3688
+ "loss": 0.32286104559898376,
3689
+ "step": 521
3690
+ },
3691
+ {
3692
+ "epoch": 11.10752688172043,
3693
+ "grad_norm": 0.9021672606468201,
3694
+ "learning_rate": 0.00011882446386020651,
3695
+ "loss": 0.37493667006492615,
3696
+ "step": 522
3697
+ },
3698
+ {
3699
+ "epoch": 11.129032258064516,
3700
+ "grad_norm": 0.7618964910507202,
3701
+ "learning_rate": 0.00011866560762509929,
3702
+ "loss": 0.2827898859977722,
3703
+ "step": 523
3704
+ },
3705
+ {
3706
+ "epoch": 11.150537634408602,
3707
+ "grad_norm": 0.7415357828140259,
3708
+ "learning_rate": 0.00011850675138999205,
3709
+ "loss": 0.3536837697029114,
3710
+ "step": 524
3711
+ },
3712
+ {
3713
+ "epoch": 11.172043010752688,
3714
+ "grad_norm": 0.7170859575271606,
3715
+ "learning_rate": 0.00011834789515488482,
3716
+ "loss": 0.3306007385253906,
3717
+ "step": 525
3718
+ },
3719
+ {
3720
+ "epoch": 11.193548387096774,
3721
+ "grad_norm": 0.7188425660133362,
3722
+ "learning_rate": 0.00011818903891977761,
3723
+ "loss": 0.312721312046051,
3724
+ "step": 526
3725
+ },
3726
+ {
3727
+ "epoch": 11.21505376344086,
3728
+ "grad_norm": 0.7460401058197021,
3729
+ "learning_rate": 0.00011803018268467039,
3730
+ "loss": 0.34166038036346436,
3731
+ "step": 527
3732
+ },
3733
+ {
3734
+ "epoch": 11.236559139784946,
3735
+ "grad_norm": 0.7806810736656189,
3736
+ "learning_rate": 0.00011787132644956315,
3737
+ "loss": 0.28128740191459656,
3738
+ "step": 528
3739
+ },
3740
+ {
3741
+ "epoch": 11.258064516129032,
3742
+ "grad_norm": 0.7604184746742249,
3743
+ "learning_rate": 0.00011771247021445593,
3744
+ "loss": 0.25918617844581604,
3745
+ "step": 529
3746
+ },
3747
+ {
3748
+ "epoch": 11.279569892473118,
3749
+ "grad_norm": 0.9017161726951599,
3750
+ "learning_rate": 0.0001175536139793487,
3751
+ "loss": 0.3212778866291046,
3752
+ "step": 530
3753
+ },
3754
+ {
3755
+ "epoch": 11.301075268817204,
3756
+ "grad_norm": 0.7170535326004028,
3757
+ "learning_rate": 0.00011739475774424147,
3758
+ "loss": 0.20179462432861328,
3759
+ "step": 531
3760
+ },
3761
+ {
3762
+ "epoch": 11.32258064516129,
3763
+ "grad_norm": 0.7809444069862366,
3764
+ "learning_rate": 0.00011723590150913424,
3765
+ "loss": 0.2983512282371521,
3766
+ "step": 532
3767
+ },
3768
+ {
3769
+ "epoch": 11.344086021505376,
3770
+ "grad_norm": 0.7415927052497864,
3771
+ "learning_rate": 0.000117077045274027,
3772
+ "loss": 0.2575104534626007,
3773
+ "step": 533
3774
+ },
3775
+ {
3776
+ "epoch": 11.365591397849462,
3777
+ "grad_norm": 0.7183315753936768,
3778
+ "learning_rate": 0.00011691818903891978,
3779
+ "loss": 0.27599287033081055,
3780
+ "step": 534
3781
+ },
3782
+ {
3783
+ "epoch": 11.387096774193548,
3784
+ "grad_norm": 1.682211995124817,
3785
+ "learning_rate": 0.00011675933280381256,
3786
+ "loss": 0.3844273090362549,
3787
+ "step": 535
3788
+ },
3789
+ {
3790
+ "epoch": 11.408602150537634,
3791
+ "grad_norm": 0.707069993019104,
3792
+ "learning_rate": 0.00011660047656870532,
3793
+ "loss": 0.28967398405075073,
3794
+ "step": 536
3795
+ },
3796
+ {
3797
+ "epoch": 11.43010752688172,
3798
+ "grad_norm": 0.7777815461158752,
3799
+ "learning_rate": 0.0001164416203335981,
3800
+ "loss": 0.36004626750946045,
3801
+ "step": 537
3802
+ },
3803
+ {
3804
+ "epoch": 11.451612903225806,
3805
+ "grad_norm": 0.8384584188461304,
3806
+ "learning_rate": 0.00011628276409849088,
3807
+ "loss": 0.26809942722320557,
3808
+ "step": 538
3809
+ },
3810
+ {
3811
+ "epoch": 11.473118279569892,
3812
+ "grad_norm": 0.8009209036827087,
3813
+ "learning_rate": 0.00011612390786338366,
3814
+ "loss": 0.31199246644973755,
3815
+ "step": 539
3816
+ },
3817
+ {
3818
+ "epoch": 11.494623655913978,
3819
+ "grad_norm": 0.7819718718528748,
3820
+ "learning_rate": 0.00011596505162827642,
3821
+ "loss": 0.371052622795105,
3822
+ "step": 540
3823
+ },
3824
+ {
3825
+ "epoch": 11.516129032258064,
3826
+ "grad_norm": 0.7900601029396057,
3827
+ "learning_rate": 0.0001158061953931692,
3828
+ "loss": 0.29752612113952637,
3829
+ "step": 541
3830
+ },
3831
+ {
3832
+ "epoch": 11.53763440860215,
3833
+ "grad_norm": 0.7695387005805969,
3834
+ "learning_rate": 0.00011564733915806196,
3835
+ "loss": 0.2954059839248657,
3836
+ "step": 542
3837
+ },
3838
+ {
3839
+ "epoch": 11.559139784946236,
3840
+ "grad_norm": 0.7167935371398926,
3841
+ "learning_rate": 0.00011548848292295473,
3842
+ "loss": 0.3413902223110199,
3843
+ "step": 543
3844
+ },
3845
+ {
3846
+ "epoch": 11.580645161290322,
3847
+ "grad_norm": 0.9060370922088623,
3848
+ "learning_rate": 0.0001153296266878475,
3849
+ "loss": 0.3013741075992584,
3850
+ "step": 544
3851
+ },
3852
+ {
3853
+ "epoch": 11.602150537634408,
3854
+ "grad_norm": 0.7279766798019409,
3855
+ "learning_rate": 0.00011517077045274027,
3856
+ "loss": 0.26471853256225586,
3857
+ "step": 545
3858
+ },
3859
+ {
3860
+ "epoch": 11.623655913978494,
3861
+ "grad_norm": 0.7126449942588806,
3862
+ "learning_rate": 0.00011501191421763305,
3863
+ "loss": 0.3059503138065338,
3864
+ "step": 546
3865
+ },
3866
+ {
3867
+ "epoch": 11.64516129032258,
3868
+ "grad_norm": 0.8045353293418884,
3869
+ "learning_rate": 0.00011485305798252581,
3870
+ "loss": 0.22076934576034546,
3871
+ "step": 547
3872
+ },
3873
+ {
3874
+ "epoch": 11.666666666666666,
3875
+ "grad_norm": 0.8084357380867004,
3876
+ "learning_rate": 0.00011469420174741859,
3877
+ "loss": 0.3207700252532959,
3878
+ "step": 548
3879
+ },
3880
+ {
3881
+ "epoch": 11.688172043010752,
3882
+ "grad_norm": 0.7768396139144897,
3883
+ "learning_rate": 0.00011453534551231135,
3884
+ "loss": 0.36251944303512573,
3885
+ "step": 549
3886
+ },
3887
+ {
3888
+ "epoch": 11.709677419354838,
3889
+ "grad_norm": 0.8002042770385742,
3890
+ "learning_rate": 0.00011437648927720415,
3891
+ "loss": 0.3310307264328003,
3892
+ "step": 550
3893
+ },
3894
+ {
3895
+ "epoch": 11.731182795698924,
3896
+ "grad_norm": 0.8118063807487488,
3897
+ "learning_rate": 0.00011421763304209691,
3898
+ "loss": 0.4163286089897156,
3899
+ "step": 551
3900
+ },
3901
+ {
3902
+ "epoch": 11.75268817204301,
3903
+ "grad_norm": 0.8167386054992676,
3904
+ "learning_rate": 0.00011405877680698969,
3905
+ "loss": 0.3315795660018921,
3906
+ "step": 552
3907
+ },
3908
+ {
3909
+ "epoch": 11.774193548387096,
3910
+ "grad_norm": 0.7709652185440063,
3911
+ "learning_rate": 0.00011389992057188245,
3912
+ "loss": 0.3589479327201843,
3913
+ "step": 553
3914
+ },
3915
+ {
3916
+ "epoch": 11.795698924731182,
3917
+ "grad_norm": 0.7389516830444336,
3918
+ "learning_rate": 0.00011374106433677523,
3919
+ "loss": 0.3652232587337494,
3920
+ "step": 554
3921
+ },
3922
+ {
3923
+ "epoch": 11.817204301075268,
3924
+ "grad_norm": 0.7422162294387817,
3925
+ "learning_rate": 0.000113582208101668,
3926
+ "loss": 0.3981531262397766,
3927
+ "step": 555
3928
+ },
3929
+ {
3930
+ "epoch": 11.838709677419354,
3931
+ "grad_norm": 0.7577189803123474,
3932
+ "learning_rate": 0.00011342335186656076,
3933
+ "loss": 0.2992894649505615,
3934
+ "step": 556
3935
+ },
3936
+ {
3937
+ "epoch": 11.86021505376344,
3938
+ "grad_norm": 0.7978619337081909,
3939
+ "learning_rate": 0.00011326449563145354,
3940
+ "loss": 0.30227142572402954,
3941
+ "step": 557
3942
+ },
3943
+ {
3944
+ "epoch": 11.881720430107526,
3945
+ "grad_norm": 0.7575592398643494,
3946
+ "learning_rate": 0.0001131056393963463,
3947
+ "loss": 0.3341229557991028,
3948
+ "step": 558
3949
+ },
3950
+ {
3951
+ "epoch": 11.903225806451612,
3952
+ "grad_norm": 0.6892173886299133,
3953
+ "learning_rate": 0.00011294678316123908,
3954
+ "loss": 0.36578071117401123,
3955
+ "step": 559
3956
+ },
3957
+ {
3958
+ "epoch": 11.924731182795698,
3959
+ "grad_norm": 0.796484649181366,
3960
+ "learning_rate": 0.00011278792692613185,
3961
+ "loss": 0.35607850551605225,
3962
+ "step": 560
3963
+ },
3964
+ {
3965
+ "epoch": 11.946236559139784,
3966
+ "grad_norm": 0.7589250206947327,
3967
+ "learning_rate": 0.00011262907069102462,
3968
+ "loss": 0.3695809841156006,
3969
+ "step": 561
3970
+ },
3971
+ {
3972
+ "epoch": 11.967741935483872,
3973
+ "grad_norm": 0.8040224313735962,
3974
+ "learning_rate": 0.0001124702144559174,
3975
+ "loss": 0.3417878746986389,
3976
+ "step": 562
3977
+ },
3978
+ {
3979
+ "epoch": 11.989247311827956,
3980
+ "grad_norm": 0.808239758014679,
3981
+ "learning_rate": 0.00011231135822081018,
3982
+ "loss": 0.2793850898742676,
3983
+ "step": 563
3984
+ },
3985
+ {
3986
+ "epoch": 12.0,
3987
+ "grad_norm": 0.9436281323432922,
3988
+ "learning_rate": 0.00011215250198570296,
3989
+ "loss": 0.3655521273612976,
3990
+ "step": 564
3991
+ },
3992
+ {
3993
+ "epoch": 12.021505376344086,
3994
+ "grad_norm": 0.7834585905075073,
3995
+ "learning_rate": 0.00011199364575059572,
3996
+ "loss": 0.30738168954849243,
3997
+ "step": 565
3998
+ },
3999
+ {
4000
+ "epoch": 12.043010752688172,
4001
+ "grad_norm": 0.795142412185669,
4002
+ "learning_rate": 0.0001118347895154885,
4003
+ "loss": 0.2081073522567749,
4004
+ "step": 566
4005
+ },
4006
+ {
4007
+ "epoch": 12.064516129032258,
4008
+ "grad_norm": 0.6989514827728271,
4009
+ "learning_rate": 0.00011167593328038126,
4010
+ "loss": 0.23969483375549316,
4011
+ "step": 567
4012
+ },
4013
+ {
4014
+ "epoch": 12.086021505376344,
4015
+ "grad_norm": 0.9184768199920654,
4016
+ "learning_rate": 0.00011151707704527403,
4017
+ "loss": 0.23692801594734192,
4018
+ "step": 568
4019
+ },
4020
+ {
4021
+ "epoch": 12.10752688172043,
4022
+ "grad_norm": 0.8651571273803711,
4023
+ "learning_rate": 0.0001113582208101668,
4024
+ "loss": 0.2645634412765503,
4025
+ "step": 569
4026
+ },
4027
+ {
4028
+ "epoch": 12.129032258064516,
4029
+ "grad_norm": 1.062126874923706,
4030
+ "learning_rate": 0.00011119936457505957,
4031
+ "loss": 0.2957659065723419,
4032
+ "step": 570
4033
+ },
4034
+ {
4035
+ "epoch": 12.150537634408602,
4036
+ "grad_norm": 0.7741546630859375,
4037
+ "learning_rate": 0.00011104050833995235,
4038
+ "loss": 0.22269803285598755,
4039
+ "step": 571
4040
+ },
4041
+ {
4042
+ "epoch": 12.172043010752688,
4043
+ "grad_norm": 0.6743382215499878,
4044
+ "learning_rate": 0.00011088165210484511,
4045
+ "loss": 0.24519725143909454,
4046
+ "step": 572
4047
+ },
4048
+ {
4049
+ "epoch": 12.193548387096774,
4050
+ "grad_norm": 0.7190341949462891,
4051
+ "learning_rate": 0.00011072279586973789,
4052
+ "loss": 0.21414649486541748,
4053
+ "step": 573
4054
+ },
4055
+ {
4056
+ "epoch": 12.21505376344086,
4057
+ "grad_norm": 1.0120435953140259,
4058
+ "learning_rate": 0.00011056393963463067,
4059
+ "loss": 0.2711429297924042,
4060
+ "step": 574
4061
+ },
4062
+ {
4063
+ "epoch": 12.236559139784946,
4064
+ "grad_norm": 0.7273455858230591,
4065
+ "learning_rate": 0.00011040508339952345,
4066
+ "loss": 0.26170241832733154,
4067
+ "step": 575
4068
+ },
4069
+ {
4070
+ "epoch": 12.258064516129032,
4071
+ "grad_norm": 0.7552404999732971,
4072
+ "learning_rate": 0.00011024622716441621,
4073
+ "loss": 0.3006550669670105,
4074
+ "step": 576
4075
+ },
4076
+ {
4077
+ "epoch": 12.279569892473118,
4078
+ "grad_norm": 0.9425163865089417,
4079
+ "learning_rate": 0.00011008737092930899,
4080
+ "loss": 0.1508064717054367,
4081
+ "step": 577
4082
+ },
4083
+ {
4084
+ "epoch": 12.301075268817204,
4085
+ "grad_norm": 0.9021785855293274,
4086
+ "learning_rate": 0.00010992851469420175,
4087
+ "loss": 0.3232599198818207,
4088
+ "step": 578
4089
+ },
4090
+ {
4091
+ "epoch": 12.32258064516129,
4092
+ "grad_norm": 0.7773718237876892,
4093
+ "learning_rate": 0.00010976965845909453,
4094
+ "loss": 0.19899800419807434,
4095
+ "step": 579
4096
+ },
4097
+ {
4098
+ "epoch": 12.344086021505376,
4099
+ "grad_norm": 0.8534666895866394,
4100
+ "learning_rate": 0.0001096108022239873,
4101
+ "loss": 0.2873285412788391,
4102
+ "step": 580
4103
+ },
4104
+ {
4105
+ "epoch": 12.365591397849462,
4106
+ "grad_norm": 0.9202722907066345,
4107
+ "learning_rate": 0.00010945194598888006,
4108
+ "loss": 0.3199685513973236,
4109
+ "step": 581
4110
+ },
4111
+ {
4112
+ "epoch": 12.387096774193548,
4113
+ "grad_norm": 0.8233513832092285,
4114
+ "learning_rate": 0.00010929308975377284,
4115
+ "loss": 0.3001951575279236,
4116
+ "step": 582
4117
+ },
4118
+ {
4119
+ "epoch": 12.408602150537634,
4120
+ "grad_norm": 0.8201817870140076,
4121
+ "learning_rate": 0.0001091342335186656,
4122
+ "loss": 0.23249655961990356,
4123
+ "step": 583
4124
+ },
4125
+ {
4126
+ "epoch": 12.43010752688172,
4127
+ "grad_norm": 0.7741047739982605,
4128
+ "learning_rate": 0.00010897537728355838,
4129
+ "loss": 0.1689053624868393,
4130
+ "step": 584
4131
+ },
4132
+ {
4133
+ "epoch": 12.451612903225806,
4134
+ "grad_norm": 0.8471128940582275,
4135
+ "learning_rate": 0.00010881652104845115,
4136
+ "loss": 0.2790966033935547,
4137
+ "step": 585
4138
+ },
4139
+ {
4140
+ "epoch": 12.473118279569892,
4141
+ "grad_norm": 0.9554393291473389,
4142
+ "learning_rate": 0.00010865766481334392,
4143
+ "loss": 0.27663490176200867,
4144
+ "step": 586
4145
+ },
4146
+ {
4147
+ "epoch": 12.494623655913978,
4148
+ "grad_norm": 0.7771924734115601,
4149
+ "learning_rate": 0.0001084988085782367,
4150
+ "loss": 0.29540884494781494,
4151
+ "step": 587
4152
+ },
4153
+ {
4154
+ "epoch": 12.516129032258064,
4155
+ "grad_norm": 0.980816125869751,
4156
+ "learning_rate": 0.00010833995234312948,
4157
+ "loss": 0.3429156243801117,
4158
+ "step": 588
4159
+ },
4160
+ {
4161
+ "epoch": 12.53763440860215,
4162
+ "grad_norm": 0.8538633584976196,
4163
+ "learning_rate": 0.00010818109610802226,
4164
+ "loss": 0.2047094702720642,
4165
+ "step": 589
4166
+ },
4167
+ {
4168
+ "epoch": 12.559139784946236,
4169
+ "grad_norm": 0.8534285426139832,
4170
+ "learning_rate": 0.00010802223987291502,
4171
+ "loss": 0.3163786828517914,
4172
+ "step": 590
4173
+ },
4174
+ {
4175
+ "epoch": 12.580645161290322,
4176
+ "grad_norm": 0.7636980414390564,
4177
+ "learning_rate": 0.0001078633836378078,
4178
+ "loss": 0.22881919145584106,
4179
+ "step": 591
4180
+ },
4181
+ {
4182
+ "epoch": 12.602150537634408,
4183
+ "grad_norm": 0.808996856212616,
4184
+ "learning_rate": 0.00010770452740270056,
4185
+ "loss": 0.235946387052536,
4186
+ "step": 592
4187
+ },
4188
+ {
4189
+ "epoch": 12.623655913978494,
4190
+ "grad_norm": 0.8072691559791565,
4191
+ "learning_rate": 0.00010754567116759333,
4192
+ "loss": 0.2396862506866455,
4193
+ "step": 593
4194
+ },
4195
+ {
4196
+ "epoch": 12.64516129032258,
4197
+ "grad_norm": 0.829767644405365,
4198
+ "learning_rate": 0.00010738681493248611,
4199
+ "loss": 0.3337879776954651,
4200
+ "step": 594
4201
+ },
4202
+ {
4203
+ "epoch": 12.666666666666666,
4204
+ "grad_norm": 0.8298752307891846,
4205
+ "learning_rate": 0.00010722795869737887,
4206
+ "loss": 0.3443082571029663,
4207
+ "step": 595
4208
+ },
4209
+ {
4210
+ "epoch": 12.688172043010752,
4211
+ "grad_norm": 0.8143765330314636,
4212
+ "learning_rate": 0.00010706910246227165,
4213
+ "loss": 0.2124541848897934,
4214
+ "step": 596
4215
+ },
4216
+ {
4217
+ "epoch": 12.709677419354838,
4218
+ "grad_norm": 0.8767410516738892,
4219
+ "learning_rate": 0.00010691024622716441,
4220
+ "loss": 0.33744725584983826,
4221
+ "step": 597
4222
+ },
4223
+ {
4224
+ "epoch": 12.731182795698924,
4225
+ "grad_norm": 0.7700532674789429,
4226
+ "learning_rate": 0.00010675138999205718,
4227
+ "loss": 0.28435879945755005,
4228
+ "step": 598
4229
+ },
4230
+ {
4231
+ "epoch": 12.75268817204301,
4232
+ "grad_norm": 0.8594262003898621,
4233
+ "learning_rate": 0.00010659253375694997,
4234
+ "loss": 0.21120105683803558,
4235
+ "step": 599
4236
+ },
4237
+ {
4238
+ "epoch": 12.774193548387096,
4239
+ "grad_norm": 0.7381999492645264,
4240
+ "learning_rate": 0.00010643367752184275,
4241
+ "loss": 0.1675238013267517,
4242
+ "step": 600
4243
+ },
4244
+ {
4245
+ "epoch": 12.774193548387096,
4246
+ "eval_loss": 0.9527648091316223,
4247
+ "eval_runtime": 91.226,
4248
+ "eval_samples_per_second": 0.46,
4249
+ "eval_steps_per_second": 0.46,
4250
+ "step": 600
4251
  }
4252
  ],
4253
  "logging_steps": 1,
 
4267
  "attributes": {}
4268
  }
4269
  },
4270
+ "total_flos": 3.9436180253965824e+17,
4271
  "train_batch_size": 2,
4272
  "trial_name": null,
4273
  "trial_params": null