[2025-11-13 03:45:45,108] [DEBUG] [axolotl.utils.config.resolve_dtype:66] [PID:1248082] bf16 support detected, enabling for this configuration.
[2025-11-13 03:45:45,108] [WARNING] [py.warnings._showwarnmsg:112] [PID:1248082] /root/miniforge3/envs/axolotl/lib/python3.12/site-packages/torch/backends/__init__.py:46: UserWarning: Please use the new API settings to control TF32 behavior, such as torch.backends.cudnn.conv.fp32_precision = 'tf32' or torch.backends.cuda.matmul.fp32_precision = 'ieee'. Old settings, e.g, torch.backends.cuda.matmul.allow_tf32 = True, torch.backends.cudnn.allow_tf32 = True, allowTF32CuDNN() and allowTF32CuBLAS() will be deprecated after Pytorch 2.9. Please see https://pytorch.org/docs/main/notes/cuda.html#tensorfloat-32-tf32-on-ampere-and-later-devices (Triggered internally at /pytorch/aten/src/ATen/Context.cpp:80.)
  self.setter(val)

[2025-11-13 03:45:45,221] [DEBUG] [axolotl.utils.config.log_gpu_memory_usage:127] [PID:1248082] baseline 0.000GB ()
[2025-11-13 03:45:45,221] [INFO] [axolotl.cli.config.load_cfg:248] [PID:1248082] config:
{
  "activation_offloading": false,
  "axolotl_config_path": "171-llama3.2-3b-v2.1-153sft-dpo-2e7.axolotl.1xMI300.yaml",
  "base_model": "shisa-ai/153-llama3.2-3b-v2.1-sft",
  "base_model_config": "shisa-ai/153-llama3.2-3b-v2.1-sft",
  "batch_size": 64,
  "bf16": true,
  "capabilities": {
    "bf16": true,
    "compute_capability": "sm_94",
    "fp8": false,
    "n_gpu": 1,
    "n_node": 1
  },
  "chat_template": "tokenizer_default",
  "context_parallel_size": 1,
  "dataloader_num_workers": 1,
  "dataloader_pin_memory": true,
  "dataloader_prefetch_factor": 256,
  "dataset_num_proc": 20,
  "dataset_prepared_path": "cached_formatted_dataset/171",
  "datasets": [
    {
      "path": "dpo.shisa-v2.1.jsonl",
      "split": "train",
      "type": "chat_template.argilla_chat"
    }
  ],
  "ddp": false,
  "deepspeed": {
    "bf16": {
      "enabled": true
    },
    "gradient_accumulation_steps": "auto",
    "gradient_clipping": "auto",
    "train_batch_size": "auto",
    "train_micro_batch_size_per_gpu": "auto",
    "wall_clock_breakdown": false,
    "zero_optimization": {
      "contiguous_gradients": true,
      "overlap_comm": true,
      "reduce_bucket_size": "auto",
      "stage": 3,
      "stage3_gather_16bit_weights_on_model_save": true,
      "stage3_max_live_parameters": 0,
      "stage3_max_reuse_distance": 0,
      "stage3_param_persistence_threshold": "auto",
      "stage3_prefetch_bucket_size": "auto",
      "sub_group_size": 0
    }
  },
  "device": "cuda:0",
  "dion_rank_fraction": 1.0,
  "dion_rank_multiple_of": 1,
  "env_capabilities": {
    "torch_version": "2.9.0"
  },
  "eval_batch_size": 8,
  "eval_causal_lm_metrics": [
    "sacrebleu",
    "comet",
    "ter",
    "chrf"
  ],
  "eval_max_new_tokens": 128,
  "eval_table_size": 0,
  "evals_per_epoch": 0,
  "experimental_skip_move_to_device": true,
  "flash_attention": true,
  "fp16": false,
  "gradient_accumulation_steps": 8,
  "gradient_checkpointing": true,
  "gradient_checkpointing_kwargs": {
    "use_reentrant": false
  },
  "group_by_length": false,
  "include_tkps": true,
  "is_llama_derived_model": true,
  "learning_rate": 2e-07,
  "liger_fused_linear_cross_entropy": true,
  "liger_glu_activation": true,
  "liger_rms_norm": true,
  "liger_rope": true,
  "lisa_layers_attribute": "model.layers",
  "load_best_model_at_end": false,
  "load_in_4bit": false,
  "load_in_8bit": false,
  "local_rank": 0,
  "logging_steps": 1,
  "lora_dropout": 0.0,
  "loraplus_lr_embedding": 1e-06,
  "lr_scheduler": "constant_with_warmup",
  "mean_resizing_embeddings": false,
  "micro_batch_size": 8,
  "model_config_type": "llama",
  "neftune_noise_alpha": 5.0,
  "num_epochs": 1.0,
  "optimizer": "adamw_torch_8bit",
  "otel_metrics_host": "localhost",
  "otel_metrics_port": 8000,
  "output_dir": "/data/outputs/171-llama3.2-3b-v2.1-153sft-dpo-2e7",
  "pad_to_sequence_len": false,
  "plugins": [
    "axolotl.integrations.liger.LigerPlugin"
  ],
  "pretrain_multipack_attn": true,
  "profiler_steps_start": 0,
  "qlora_sharded_model_loading": false,
  "ray_num_workers": 1,
  "remove_unused_columns": false,
  "resources_per_worker": {
    "GPU": 1
  },
  "rl": "dpo",
  "rl_beta": 0.1,
  "sample_packing": false,
  "sample_packing_bin_size": 200,
  "sample_packing_group_size": 100000,
  "save_only_model": false,
  "save_safetensors": true,
  "save_total_limit": 1,
  "saves_per_epoch": 0,
  "sequence_len": 2048,
  "shuffle_before_merging_datasets": false,
  "shuffle_merged_datasets": true,
  "skip_prepare_dataset": true,
  "special_tokens": {
    "pad_token": "<|end_of_text|>"
  },
  "streaming_multipack_buffer_size": 10000,
  "strict": false,
  "tensor_parallel_size": 1,
  "tf32": false,
  "tiled_mlp_use_original_mlp": true,
  "tokenizer_config": "shisa-ai/153-llama3.2-3b-v2.1-sft",
  "tokenizer_save_jinja_files": true,
  "torch_dtype": "torch.bfloat16",
  "train_on_inputs": false,
  "trl": {
    "log_completions": false,
    "mask_truncated_completions": false,
    "ref_model_mixup_alpha": 0.9,
    "ref_model_sync_steps": 64,
    "scale_rewards": true,
    "sync_ref_model": false,
    "use_vllm": false,
    "vllm_server_host": "0.0.0.0",
    "vllm_server_port": 8000
  },
  "use_otel_metrics": false,
  "use_ray": false,
  "use_wandb": true,
  "val_set_size": 0.0,
  "vllm": {
    "device": "auto",
    "dtype": "auto",
    "gpu_memory_utilization": 0.9,
    "host": "0.0.0.0",
    "port": 8000
  },
  "wandb_entity": "augmxnt",
  "wandb_name": "171-llama3.2-3b-v2.1-153sft-dpo-2e7",
  "wandb_project": "shisa-v2.1",
  "warmup_ratio": 0.03,
  "weight_decay": 0.0001,
  "world_size": 1
}
[2025-11-13 03:45:45,895] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:278] [PID:1248082] EOS: 128009 / <|eot_id|>
[2025-11-13 03:45:45,895] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:279] [PID:1248082] BOS: 128000 / <|begin_of_text|>
[2025-11-13 03:45:45,895] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:1248082] PAD: 128001 / <|end_of_text|>
[2025-11-13 03:45:45,895] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:1248082] UNK: None / None
[2025-11-13 03:45:45,896] [INFO] [axolotl.utils.data.shared.load_preprocessed_dataset:481] [PID:1248082] Unable to find prepared dataset in cached_formatted_dataset/171/180e7b2d86ffa9c542c8863eed490da8
[2025-11-13 03:45:46,750] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:278] [PID:1248082] EOS: 128009 / <|eot_id|>
[2025-11-13 03:45:46,750] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:279] [PID:1248082] BOS: 128000 / <|begin_of_text|>
[2025-11-13 03:45:46,750] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:1248082] PAD: 128001 / <|end_of_text|>
[2025-11-13 03:45:46,750] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:1248082] UNK: None / None
[2025-11-13 03:45:46,919] [DEBUG] [axolotl.train.setup_model_and_tokenizer:65] [PID:1248082] Loading tokenizer... shisa-ai/153-llama3.2-3b-v2.1-sft
[2025-11-13 03:45:47,615] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:278] [PID:1248082] EOS: 128009 / <|eot_id|>
[2025-11-13 03:45:47,615] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:279] [PID:1248082] BOS: 128000 / <|begin_of_text|>
[2025-11-13 03:45:47,615] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:1248082] PAD: 128001 / <|end_of_text|>
[2025-11-13 03:45:47,615] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:1248082] UNK: None / None
[2025-11-13 03:45:47,615] [DEBUG] [axolotl.train.setup_model_and_tokenizer:74] [PID:1248082] Loading model
[2025-11-13 03:45:47,697] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_evaluation_loop:87] [PID:1248082] Patched Trainer.evaluation_loop with nanmean loss calculation
[2025-11-13 03:45:47,698] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_maybe_log_save_evaluate:138] [PID:1248082] Patched Trainer._maybe_log_save_evaluate with nanmean loss calculation
[2025-11-13 03:45:47,712] [INFO] [axolotl.integrations.liger.plugin.pre_model_load:71] [PID:1248082] Applying LIGER to llama with kwargs: {'rope': True, 'cross_entropy': None, 'fused_linear_cross_entropy': True, 'rms_norm': True, 'swiglu': True}
[2025-11-13 03:45:47,724] [WARNING] [py.warnings._showwarnmsg:112] [PID:1248082] /root/miniforge3/envs/axolotl/lib/python3.12/site-packages/deepspeed/runtime/zero/partition_parameters.py:255: UserWarning: expandable_segments not supported on this platform (Triggered internally at /pytorch/c10/hip/HIPAllocatorConfig.h:36.)
  tensor: Tensor = fn(*args, **kwargs)

Loading checkpoint shards:   0%|                                                                                   | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████████████████████████████████████▌                                     | 1/2 [00:02<00:02,  2.23s/it]Loading checkpoint shards: 100%|███████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.48s/it]Loading checkpoint shards: 100%|███████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.59s/it]
[2025-11-13 03:45:51,481] [INFO] [axolotl.loaders.model._configure_embedding_dtypes:345] [PID:1248082] Converting modules to torch.bfloat16
[2025-11-13 03:45:51,482] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:1248082] Memory usage after model load 8.250GB (+8.250GB allocated, +8.346GB reserved)
[2025-11-13 03:45:52,022] [INFO] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_maybe_log_save_evaluate:100] [PID:1248082] Trainer._maybe_log_save_evaluate already patched
[2025-11-13 03:45:52,022] [INFO] [axolotl.integrations.liger.plugin.pre_model_load:71] [PID:1248082] Applying LIGER to llama with kwargs: {'rope': True, 'cross_entropy': None, 'fused_linear_cross_entropy': True, 'rms_norm': True, 'swiglu': True}
Loading checkpoint shards:   0%|                                                                                   | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████████████████████████████████████▌                                     | 1/2 [00:02<00:02,  2.17s/it]Loading checkpoint shards: 100%|███████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.46s/it]Loading checkpoint shards: 100%|███████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.57s/it]
[2025-11-13 03:45:55,404] [INFO] [axolotl.loaders.model._configure_embedding_dtypes:345] [PID:1248082] Converting modules to torch.bfloat16
[2025-11-13 03:45:55,405] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:1248082] Memory usage after model load 14.251GB (+14.251GB allocated, +14.346GB reserved)
Extracting prompt in train dataset (num_proc=20):   0%|                                                | 0/130806 [00:00<?, ? examples/s]Extracting prompt in train dataset (num_proc=20):   0%|▏                                    | 510/130806 [00:00<02:47, 780.02 examples/s]Extracting prompt in train dataset (num_proc=20):  15%|████▉                            | 19720/130806 [00:00<00:03, 34948.27 examples/s]Extracting prompt in train dataset (num_proc=20):  33%|██████████▊                      | 42887/130806 [00:00<00:01, 74918.06 examples/s]Extracting prompt in train dataset (num_proc=20):  51%|████████████████▎               | 66532/130806 [00:00<00:00, 111206.34 examples/s]Extracting prompt in train dataset (num_proc=20):  72%|██████████████████████▉         | 93910/130806 [00:01<00:00, 150592.50 examples/s]Extracting prompt in train dataset (num_proc=20):  92%|████████████████████████████▌  | 120564/130806 [00:01<00:00, 180395.78 examples/s]Extracting prompt in train dataset (num_proc=20): 100%|████████████████████████████████| 130806/130806 [00:01<00:00, 86307.64 examples/s]
Applying chat template to train dataset (num_proc=20):   0%|                                           | 0/130806 [00:00<?, ? examples/s]Applying chat template to train dataset (num_proc=20):   1%|▎                             | 1178/130806 [00:01<02:02, 1060.79 examples/s]Applying chat template to train dataset (num_proc=20):   4%|█                             | 4660/130806 [00:01<00:25, 4893.34 examples/s]Applying chat template to train dataset (num_proc=20):   8%|██▎                         | 11036/130806 [00:01<00:09, 13082.70 examples/s]Applying chat template to train dataset (num_proc=20):  12%|███▏                        | 15142/130806 [00:01<00:06, 17585.80 examples/s]Applying chat template to train dataset (num_proc=20):  18%|████▉                       | 23331/130806 [00:01<00:03, 29761.68 examples/s]Applying chat template to train dataset (num_proc=20):  22%|██████▎                     | 29383/130806 [00:01<00:03, 31157.60 examples/s]Applying chat template to train dataset (num_proc=20):  30%|████████▎                   | 38663/130806 [00:01<00:02, 43887.43 examples/s]Applying chat template to train dataset (num_proc=20):  38%|██████████▌                 | 49164/130806 [00:01<00:01, 48148.35 examples/s]Applying chat template to train dataset (num_proc=20):  44%|████████████▏               | 57140/130806 [00:02<00:01, 54826.34 examples/s]Applying chat template to train dataset (num_proc=20):  50%|█████████████▉              | 64929/130806 [00:02<00:01, 60031.99 examples/s]Applying chat template to train dataset (num_proc=20):  58%|████████████████▎           | 76296/130806 [00:02<00:00, 73211.73 examples/s]Applying chat template to train dataset (num_proc=20):  65%|██████████████████▎         | 85412/130806 [00:02<00:00, 64717.70 examples/s]Applying chat template to train dataset (num_proc=20):  75%|████████████████████▉       | 97779/130806 [00:02<00:00, 77182.78 examples/s]Applying chat template to train dataset (num_proc=20):  82%|██████████████████████     | 107131/130806 [00:02<00:00, 65548.15 examples/s]Applying chat template to train dataset (num_proc=20):  89%|███████████████████████▉   | 116122/130806 [00:02<00:00, 70765.94 examples/s]Applying chat template to train dataset (num_proc=20):  96%|█████████████████████████▊ | 125239/130806 [00:03<00:00, 70441.07 examples/s]Applying chat template to train dataset (num_proc=20): 100%|███████████████████████████| 130806/130806 [00:03<00:00, 38367.67 examples/s]
Tokenizing train dataset (num_proc=20):   0%|                                                          | 0/130806 [00:00<?, ? examples/s]Tokenizing train dataset (num_proc=20):   0%|                                               | 29/130806 [00:01<1:19:10, 27.53 examples/s]Tokenizing train dataset (num_proc=20):   0%|                                               | 214/130806 [00:01<09:56, 218.95 examples/s]Tokenizing train dataset (num_proc=20):   0%|▏                                              | 525/130806 [00:01<03:37, 599.26 examples/s]Tokenizing train dataset (num_proc=20):   1%|▎                                              | 719/130806 [00:01<02:40, 811.39 examples/s]Tokenizing train dataset (num_proc=20):   1%|▍                                            | 1382/130806 [00:01<01:08, 1880.30 examples/s]Tokenizing train dataset (num_proc=20):   1%|▋                                            | 1827/130806 [00:01<00:53, 2406.69 examples/s]Tokenizing train dataset (num_proc=20):   2%|▊                                            | 2234/130806 [00:01<00:46, 2737.14 examples/s]Tokenizing train dataset (num_proc=20):   2%|▉                                            | 2623/130806 [00:01<00:42, 2982.45 examples/s]Tokenizing train dataset (num_proc=20):   2%|█                                            | 3022/130806 [00:01<00:39, 3203.86 examples/s]Tokenizing train dataset (num_proc=20):   3%|█▎                                           | 3740/130806 [00:02<00:30, 4174.98 examples/s]Tokenizing train dataset (num_proc=20):   4%|█▌                                           | 4645/130806 [00:02<00:23, 5333.91 examples/s]Tokenizing train dataset (num_proc=20):   4%|█▉                                           | 5524/130806 [00:02<00:20, 6057.44 examples/s]Tokenizing train dataset (num_proc=20):   5%|██▏                                          | 6532/130806 [00:02<00:17, 6972.34 examples/s]Tokenizing train dataset (num_proc=20):   6%|██▌                                          | 7528/130806 [00:02<00:16, 7501.15 examples/s]Tokenizing train dataset (num_proc=20):   7%|███▎                                        | 9694/130806 [00:02<00:10, 11360.39 examples/s]Tokenizing train dataset (num_proc=20):   8%|███▌                                       | 10897/130806 [00:02<00:10, 11534.21 examples/s]Tokenizing train dataset (num_proc=20):   9%|███▉                                       | 12100/130806 [00:02<00:10, 10809.67 examples/s]Tokenizing train dataset (num_proc=20):  10%|████▍                                      | 13405/130806 [00:02<00:10, 11418.44 examples/s]Tokenizing train dataset (num_proc=20):  11%|████▊                                      | 14723/130806 [00:03<00:09, 11883.58 examples/s]Tokenizing train dataset (num_proc=20):  12%|█████▎                                     | 16097/130806 [00:03<00:09, 12373.78 examples/s]Tokenizing train dataset (num_proc=20):  13%|█████▋                                     | 17489/130806 [00:03<00:08, 12752.60 examples/s]Tokenizing train dataset (num_proc=20):  14%|██████▏                                    | 18778/130806 [00:03<00:08, 12755.61 examples/s]Tokenizing train dataset (num_proc=20):  15%|██████▋                                    | 20192/130806 [00:03<00:08, 13051.10 examples/s]Tokenizing train dataset (num_proc=20):  17%|███████                                    | 21584/130806 [00:03<00:08, 13258.73 examples/s]Tokenizing train dataset (num_proc=20):  18%|███████▌                                   | 22923/130806 [00:03<00:08, 13281.23 examples/s]Tokenizing train dataset (num_proc=20):  19%|████████                                   | 24431/130806 [00:03<00:07, 13691.07 examples/s]Tokenizing train dataset (num_proc=20):  20%|████████▍                                  | 25824/130806 [00:03<00:07, 13696.10 examples/s]Tokenizing train dataset (num_proc=20):  21%|████████▉                                  | 27221/130806 [00:03<00:07, 13675.44 examples/s]Tokenizing train dataset (num_proc=20):  22%|█████████▍                                 | 28590/130806 [00:04<00:07, 13539.44 examples/s]Tokenizing train dataset (num_proc=20):  23%|█████████▊                                 | 29969/130806 [00:04<00:07, 13500.26 examples/s]Tokenizing train dataset (num_proc=20):  24%|██████████▎                                | 31347/130806 [00:04<00:07, 13495.74 examples/s]Tokenizing train dataset (num_proc=20):  25%|██████████▊                                | 32728/130806 [00:04<00:07, 13529.87 examples/s]Tokenizing train dataset (num_proc=20):  26%|███████████▏                               | 34218/130806 [00:04<00:06, 13856.13 examples/s]Tokenizing train dataset (num_proc=20):  27%|███████████▋                               | 35736/130806 [00:04<00:06, 14158.45 examples/s]Tokenizing train dataset (num_proc=20):  29%|████████████▎                              | 37295/130806 [00:04<00:06, 14482.93 examples/s]Tokenizing train dataset (num_proc=20):  30%|████████████▋                              | 38776/130806 [00:04<00:06, 14529.47 examples/s]Tokenizing train dataset (num_proc=20):  31%|█████████████▏                             | 40265/130806 [00:04<00:06, 14511.23 examples/s]Tokenizing train dataset (num_proc=20):  32%|█████████████▋                             | 41737/130806 [00:05<00:06, 14478.64 examples/s]Tokenizing train dataset (num_proc=20):  33%|██████████████▏                            | 43190/130806 [00:05<00:06, 14403.56 examples/s]Tokenizing train dataset (num_proc=20):  34%|██████████████▋                            | 44653/130806 [00:05<00:06, 14270.88 examples/s]Tokenizing train dataset (num_proc=20):  35%|███████████████▏                           | 46141/130806 [00:05<00:05, 14387.18 examples/s]Tokenizing train dataset (num_proc=20):  36%|███████████████▋                           | 47582/130806 [00:05<00:05, 14330.97 examples/s]Tokenizing train dataset (num_proc=20):  37%|████████████████                           | 49021/130806 [00:05<00:05, 14295.27 examples/s]Tokenizing train dataset (num_proc=20):  39%|████████████████▌                          | 50463/130806 [00:05<00:05, 14210.99 examples/s]Tokenizing train dataset (num_proc=20):  40%|█████████████████                          | 51896/130806 [00:05<00:05, 14225.54 examples/s]Tokenizing train dataset (num_proc=20):  41%|█████████████████▌                         | 53329/130806 [00:05<00:05, 14153.94 examples/s]Tokenizing train dataset (num_proc=20):  42%|██████████████████                         | 54756/130806 [00:05<00:05, 14151.93 examples/s]Tokenizing train dataset (num_proc=20):  43%|██████████████████▍                        | 56196/130806 [00:06<00:05, 14146.53 examples/s]Tokenizing train dataset (num_proc=20):  44%|██████████████████▉                        | 57621/130806 [00:06<00:05, 14045.00 examples/s]Tokenizing train dataset (num_proc=20):  45%|███████████████████▍                       | 59031/130806 [00:06<00:05, 13982.19 examples/s]Tokenizing train dataset (num_proc=20):  46%|███████████████████▊                       | 60447/130806 [00:06<00:05, 13983.66 examples/s]Tokenizing train dataset (num_proc=20):  47%|████████████████████▎                      | 61881/130806 [00:06<00:04, 14025.69 examples/s]Tokenizing train dataset (num_proc=20):  48%|████████████████████▊                      | 63330/130806 [00:06<00:04, 14115.01 examples/s]Tokenizing train dataset (num_proc=20):  50%|█████████████████████▎                     | 64830/130806 [00:06<00:04, 14362.22 examples/s]Tokenizing train dataset (num_proc=20):  51%|█████████████████████▊                     | 66316/130806 [00:06<00:04, 14398.84 examples/s]Tokenizing train dataset (num_proc=20):  52%|██████████████████████▎                    | 67774/130806 [00:06<00:04, 13358.06 examples/s]Tokenizing train dataset (num_proc=20):  53%|██████████████████████▋                    | 69136/130806 [00:06<00:04, 13366.78 examples/s]Tokenizing train dataset (num_proc=20):  54%|███████████████████████▏                   | 70528/130806 [00:07<00:04, 13442.31 examples/s]Tokenizing train dataset (num_proc=20):  55%|███████████████████████▋                   | 71914/130806 [00:07<00:04, 13498.77 examples/s]Tokenizing train dataset (num_proc=20):  56%|████████████████████████                   | 73354/130806 [00:07<00:04, 13709.29 examples/s]Tokenizing train dataset (num_proc=20):  57%|████████████████████████▌                  | 74788/130806 [00:07<00:04, 13872.60 examples/s]Tokenizing train dataset (num_proc=20):  58%|█████████████████████████                  | 76324/130806 [00:07<00:03, 14207.75 examples/s]Tokenizing train dataset (num_proc=20):  59%|█████████████████████████▌                 | 77791/130806 [00:07<00:03, 14283.36 examples/s]Tokenizing train dataset (num_proc=20):  61%|██████████████████████████                 | 79257/130806 [00:07<00:03, 14169.22 examples/s]Tokenizing train dataset (num_proc=20):  62%|██████████████████████████▌                | 80683/130806 [00:07<00:03, 14138.00 examples/s]Tokenizing train dataset (num_proc=20):  63%|██████████████████████████▉                | 82100/130806 [00:07<00:03, 14134.13 examples/s]Tokenizing train dataset (num_proc=20):  64%|███████████████████████████▍               | 83578/130806 [00:07<00:03, 14297.60 examples/s]Tokenizing train dataset (num_proc=20):  65%|███████████████████████████▉               | 85027/130806 [00:08<00:03, 12360.60 examples/s]Tokenizing train dataset (num_proc=20):  66%|████████████████████████████▍              | 86336/130806 [00:08<00:04, 10879.31 examples/s]Tokenizing train dataset (num_proc=20):  67%|████████████████████████████▊              | 87684/130806 [00:08<00:03, 11491.82 examples/s]Tokenizing train dataset (num_proc=20):  68%|█████████████████████████████▎             | 89164/130806 [00:08<00:03, 12337.82 examples/s]Tokenizing train dataset (num_proc=20):  69%|█████████████████████████████▊             | 90639/130806 [00:08<00:03, 12799.82 examples/s]Tokenizing train dataset (num_proc=20):  70%|██████████████████████████████▎            | 92160/130806 [00:08<00:02, 13417.77 examples/s]Tokenizing train dataset (num_proc=20):  72%|██████████████████████████████▊            | 93645/130806 [00:08<00:02, 13747.43 examples/s]Tokenizing train dataset (num_proc=20):  73%|███████████████████████████████▎           | 95067/130806 [00:08<00:02, 13770.89 examples/s]Tokenizing train dataset (num_proc=20):  74%|███████████████████████████████▋           | 96563/130806 [00:09<00:02, 14062.39 examples/s]Tokenizing train dataset (num_proc=20):  75%|████████████████████████████████▏          | 98021/130806 [00:09<00:02, 14184.00 examples/s]Tokenizing train dataset (num_proc=20):  76%|████████████████████████████████▋          | 99462/130806 [00:09<00:02, 14184.73 examples/s]Tokenizing train dataset (num_proc=20):  77%|████████████████████████████████▍         | 100961/130806 [00:09<00:02, 14219.31 examples/s]Tokenizing train dataset (num_proc=20):  78%|████████████████████████████████▉         | 102396/130806 [00:09<00:02, 12030.08 examples/s]Tokenizing train dataset (num_proc=20):  79%|█████████████████████████████████▎        | 103903/130806 [00:09<00:02, 12778.69 examples/s]Tokenizing train dataset (num_proc=20):  81%|█████████████████████████████████▊        | 105403/130806 [00:09<00:01, 13334.36 examples/s]Tokenizing train dataset (num_proc=20):  82%|██████████████████████████████████▎       | 106891/130806 [00:09<00:01, 13699.85 examples/s]Tokenizing train dataset (num_proc=20):  83%|██████████████████████████████████▊       | 108334/130806 [00:09<00:01, 13865.46 examples/s]Tokenizing train dataset (num_proc=20):  84%|███████████████████████████████████▎      | 109840/130806 [00:09<00:01, 14180.78 examples/s]Tokenizing train dataset (num_proc=20):  85%|███████████████████████████████████▋      | 111284/130806 [00:10<00:01, 14184.37 examples/s]Tokenizing train dataset (num_proc=20):  86%|████████████████████████████████████▏     | 112743/130806 [00:10<00:01, 13919.39 examples/s]Tokenizing train dataset (num_proc=20):  87%|████████████████████████████████████▋     | 114160/130806 [00:10<00:01, 13942.50 examples/s]Tokenizing train dataset (num_proc=20):  88%|█████████████████████████████████████     | 115586/130806 [00:10<00:01, 13439.91 examples/s]Tokenizing train dataset (num_proc=20):  89%|█████████████████████████████████████▌    | 116948/130806 [00:10<00:01, 13462.97 examples/s]Tokenizing train dataset (num_proc=20):  90%|█████████████████████████████████████▉    | 118341/130806 [00:10<00:00, 13459.70 examples/s]Tokenizing train dataset (num_proc=20):  92%|██████████████████████████████████████▍   | 119720/130806 [00:10<00:00, 13496.39 examples/s]Tokenizing train dataset (num_proc=20):  93%|██████████████████████████████████████▉   | 121085/130806 [00:10<00:00, 12931.85 examples/s]Tokenizing train dataset (num_proc=20):  94%|███████████████████████████████████████▎  | 122411/130806 [00:10<00:00, 11951.09 examples/s]Tokenizing train dataset (num_proc=20):  95%|███████████████████████████████████████▋  | 123649/130806 [00:11<00:00, 11558.23 examples/s]Tokenizing train dataset (num_proc=20):  95%|████████████████████████████████████████  | 124847/130806 [00:11<00:00, 10881.06 examples/s]Tokenizing train dataset (num_proc=20):  96%|████████████████████████████████████████▍ | 125958/130806 [00:11<00:00, 10410.19 examples/s]Tokenizing train dataset (num_proc=20):  97%|█████████████████████████████████████████▊ | 127026/130806 [00:11<00:00, 9882.55 examples/s]Tokenizing train dataset (num_proc=20):  98%|██████████████████████████████████████████ | 128054/130806 [00:11<00:00, 8904.32 examples/s]Tokenizing train dataset (num_proc=20):  99%|██████████████████████████████████████████▍| 128987/130806 [00:11<00:00, 7909.33 examples/s]Tokenizing train dataset (num_proc=20):  99%|██████████████████████████████████████████▋| 129810/130806 [00:11<00:00, 6408.47 examples/s]Tokenizing train dataset (num_proc=20): 100%|██████████████████████████████████████████▉| 130514/130806 [00:12<00:00, 4934.20 examples/s]Tokenizing train dataset (num_proc=20): 100%|██████████████████████████████████████████| 130806/130806 [00:12<00:00, 10312.28 examples/s]
Parameter Offload - Persistent parameters statistics: param_count = 57, numel = 175104
[2025-11-13 03:46:14,975] [INFO] [axolotl.train.save_initial_configs:402] [PID:1248082] Pre-saving tokenizer to /data/outputs/171-llama3.2-3b-v2.1-153sft-dpo-2e7...
[2025-11-13 03:46:15,097] [INFO] [axolotl.train.save_initial_configs:407] [PID:1248082] Pre-saving model config to /data/outputs/171-llama3.2-3b-v2.1-153sft-dpo-2e7...
[2025-11-13 03:46:15,100] [INFO] [axolotl.train.execute_training:196] [PID:1248082] Starting trainer...
[2025-11-13 03:46:15,253] [WARNING] [engine.py:1390:_do_optimizer_sanity_check] **** You are using ZeRO with an untested optimizer, proceed with caution *****
Parameter Offload - Persistent parameters statistics: param_count = 57, numel = 175104
[34m[1mwandb[0m: Currently logged in as: [33mrandomfoo[0m ([33maugmxnt[0m) to [32mhttps://api.wandb.ai[0m. Use [1m`wandb login --relogin`[0m to force relogin
[34m[1mwandb[0m: [38;5;178m⢿[0m Waiting for wandb.init()...
[Am[2K[34m[1mwandb[0m: [38;5;178m⣻[0m Waiting for wandb.init()...
[Am[2K[34m[1mwandb[0m: Tracking run with wandb version 0.22.1
[34m[1mwandb[0m: Run data is saved locally in [35m[1m/root/shisa-v2/train/v2.1/wandb/run-20251113_034618-btgeyptz[0m
[34m[1mwandb[0m: Run [1m`wandb offline`[0m to turn off syncing.
[34m[1mwandb[0m: Syncing run [33m171-llama3.2-3b-v2.1-153sft-dpo-2e7[0m
[34m[1mwandb[0m: ⭐️ View project at [34m[4mhttps://wandb.ai/augmxnt/shisa-v2.1[0m
[34m[1mwandb[0m: 🚀 View run at [34m[4mhttps://wandb.ai/augmxnt/shisa-v2.1/runs/btgeyptz[0m
[34m[1mwandb[0m: Detected [huggingface_hub.inference] in use.
[34m[1mwandb[0m: Use W&B Weave for improved LLM call tracing. Install Weave with `pip install weave` then add `import weave` to the top of your script.
[34m[1mwandb[0m: For more information, check out the docs at: https://weave-docs.wandb.ai/
[34m[1mwandb[0m: [33mWARNING[0m Saving files without folders. If you want to preserve subdirectories pass base_path to wandb.save, i.e. wandb.save("/mnt/folder/file.h5", base_path="/mnt")
[2025-11-13 03:46:19,977] [INFO] [axolotl.utils.callbacks.on_train_begin:757] [PID:1248082] The Axolotl config has been saved to the WandB run under files.
  0%|                                                                                                           | 0/2044 [00:00<?, ?it/s]  0%|                                                                                                | 1/2044 [00:30<17:03:47, 30.07s/it]                                                                                                                                         {'loss': 0.6914, 'grad_norm': 56.484667190260154, 'learning_rate': 0.0, 'rewards/chosen': 0.0, 'rewards/rejected': 0.0, 'rewards/accuracies': 0.0, 'rewards/margins': 0.0, 'logps/chosen': -238.875, 'logps/rejected': -121.96875, 'logits/chosen': -0.9443359375, 'logits/rejected': -0.92333984375, 'epoch': 0.0}
  0%|                                                                                                | 1/2044 [00:30<17:03:47, 30.07s/it]  0%|                                                                                                | 2/2044 [00:47<12:57:01, 22.83s/it]                                                                                                                                         {'loss': 0.6914, 'grad_norm': 62.68643597584601, 'learning_rate': 3.2786884318625198e-09, 'rewards/chosen': 0.0, 'rewards/rejected': 0.0, 'rewards/accuracies': 0.0, 'rewards/margins': 0.0, 'logps/chosen': -229.5, 'logps/rejected': -76.40625, 'logits/chosen': -0.9091796875, 'logits/rejected': -0.90283203125, 'epoch': 0.0}
  0%|                                                                                                | 2/2044 [00:47<12:57:01, 22.83s/it]  0%|▏                                                                                               | 3/2044 [01:06<11:45:21, 20.74s/it]                                                                                                                                         {'loss': 0.7026, 'grad_norm': 65.7249310439958, 'learning_rate': 6.5573768637250396e-09, 'rewards/chosen': -0.012203216552734375, 'rewards/rejected': 0.0035142898559570312, 'rewards/accuracies': 0.34375, 'rewards/margins': -0.015705108642578125, 'logps/chosen': -294.0, 'logps/rejected': -177.3125, 'logits/chosen': -1.13330078125, 'logits/rejected': -0.97705078125, 'epoch': 0.0}
  0%|▏                                                                                               | 3/2044 [01:06<11:45:21, 20.74s/it]  0%|▏                                                                                               | 4/2044 [01:24<11:15:26, 19.87s/it]                                                                                                                                         {'loss': 0.6992, 'grad_norm': 72.97807185519441, 'learning_rate': 9.836066183765979e-09, 'rewards/chosen': 0.00023651123046875, 'rewards/rejected': 0.006366729736328125, 'rewards/accuracies': 0.28125, 'rewards/margins': -0.00618743896484375, 'logps/chosen': -368.75, 'logps/rejected': -115.84375, 'logits/chosen': -0.927734375, 'logits/rejected': -0.814208984375, 'epoch': 0.0}
  0%|▏                                                                                               | 4/2044 [01:24<11:15:26, 19.87s/it]  0%|▏                                                                                               | 5/2044 [01:41<10:37:05, 18.75s/it]                                                                                                                                         {'loss': 0.6895, 'grad_norm': 64.68768640967463, 'learning_rate': 1.3114753727450079e-08, 'rewards/chosen': 0.0026140213012695312, 'rewards/rejected': -0.0052661895751953125, 'rewards/accuracies': 0.3125, 'rewards/margins': 0.007923126220703125, 'logps/chosen': -313.0, 'logps/rejected': -108.25, 'logits/chosen': -0.98388671875, 'logits/rejected': -0.836181640625, 'epoch': 0.0}
  0%|▏                                                                                               | 5/2044 [01:41<10:37:05, 18.75s/it]  0%|▎                                                                                               | 6/2044 [01:59<10:35:00, 18.69s/it]                                                                                                                                         {'loss': 0.6943, 'grad_norm': 63.54176377728526, 'learning_rate': 1.639344304749102e-08, 'rewards/chosen': 0.00136566162109375, 'rewards/rejected': -0.010385513305664062, 'rewards/accuracies': 0.328125, 'rewards/margins': 0.011713981628417969, 'logps/chosen': -285.125, 'logps/rejected': -123.4375, 'logits/chosen': -0.78466796875, 'logits/rejected': -1.02294921875, 'epoch': 0.0}
  0%|▎                                                                                               | 6/2044 [01:59<10:35:00, 18.69s/it]  0%|▎                                                                                               | 7/2044 [02:17<10:24:44, 18.40s/it]                                                                                                                                         {'loss': 0.6963, 'grad_norm': 58.55903492112249, 'learning_rate': 1.9672132367531958e-08, 'rewards/chosen': -0.0231475830078125, 'rewards/rejected': -0.02544689178466797, 'rewards/accuracies': 0.28125, 'rewards/margins': 0.0022735595703125, 'logps/chosen': -295.625, 'logps/rejected': -172.96875, 'logits/chosen': -0.839599609375, 'logits/rejected': -1.09521484375, 'epoch': 0.0}
  0%|▎                                                                                               | 7/2044 [02:17<10:24:44, 18.40s/it]  0%|▍                                                                                               | 8/2044 [02:35<10:21:36, 18.32s/it]                                                                                                                                         {'loss': 0.6997, 'grad_norm': 63.55010793884593, 'learning_rate': 2.2950819911216058e-08, 'rewards/chosen': -0.011505126953125, 'rewards/rejected': -0.00069427490234375, 'rewards/accuracies': 0.34375, 'rewards/margins': -0.010833740234375, 'logps/chosen': -326.125, 'logps/rejected': -139.75, 'logits/chosen': -1.0419921875, 'logits/rejected': -0.9453125, 'epoch': 0.0}
  0%|▍                                                                                               | 8/2044 [02:35<10:21:36, 18.32s/it]  0%|▍                                                                                               | 9/2044 [02:54<10:22:03, 18.34s/it]                                                                                                                                         {'loss': 0.6802, 'grad_norm': 65.3117217898866, 'learning_rate': 2.6229507454900158e-08, 'rewards/chosen': 0.0067882537841796875, 'rewards/rejected': -0.013477325439453125, 'rewards/accuracies': 0.359375, 'rewards/margins': 0.020294189453125, 'logps/chosen': -344.625, 'logps/rejected': -116.1875, 'logits/chosen': -0.95361328125, 'logits/rejected': -0.8876953125, 'epoch': 0.0}
  0%|▍                                                                                               | 9/2044 [02:54<10:22:03, 18.34s/it]  0%|▍                                                                                              | 10/2044 [03:10<10:04:26, 17.83s/it]                                                                                                                                         {'loss': 0.6973, 'grad_norm': 62.58199723689747, 'learning_rate': 2.9508196774941098e-08, 'rewards/chosen': -0.009360313415527344, 'rewards/rejected': -0.0007734298706054688, 'rewards/accuracies': 0.359375, 'rewards/margins': -0.008618354797363281, 'logps/chosen': -309.75, 'logps/rejected': -91.09375, 'logits/chosen': -0.920166015625, 'logits/rejected': -1.0, 'epoch': 0.0}
  0%|▍                                                                                              | 10/2044 [03:10<10:04:26, 17.83s/it]  1%|▌                                                                                              | 11/2044 [03:28<10:01:32, 17.75s/it]                                                                                                                                         {'loss': 0.7012, 'grad_norm': 76.13684791334855, 'learning_rate': 3.278688609498204e-08, 'rewards/chosen': -0.02248382568359375, 'rewards/rejected': -0.00626373291015625, 'rewards/accuracies': 0.25, 'rewards/margins': -0.016254425048828125, 'logps/chosen': -387.25, 'logps/rejected': -99.921875, 'logits/chosen': -1.03076171875, 'logits/rejected': -1.06591796875, 'epoch': 0.01}
  1%|▌                                                                                              | 11/2044 [03:28<10:01:32, 17.75s/it]  1%|▌                                                                                              | 12/2044 [03:47<10:12:23, 18.08s/it]                                                                                                                                         {'loss': 0.688, 'grad_norm': 56.72436049223447, 'learning_rate': 3.60655718623093e-08, 'rewards/chosen': -0.0019321441650390625, 'rewards/rejected': -0.0045986175537109375, 'rewards/accuracies': 0.25, 'rewards/margins': 0.0026493072509765625, 'logps/chosen': -286.0, 'logps/rejected': -125.375, 'logits/chosen': -0.9501953125, 'logits/rejected': -0.92431640625, 'epoch': 0.01}
  1%|▌                                                                                              | 12/2044 [03:47<10:12:23, 18.08s/it]  1%|▌                                                                                              | 13/2044 [04:05<10:14:45, 18.16s/it]                                                                                                                                         {'loss': 0.6929, 'grad_norm': 68.93389985794786, 'learning_rate': 3.9344264735063916e-08, 'rewards/chosen': 0.010921478271484375, 'rewards/rejected': 0.0072383880615234375, 'rewards/accuracies': 0.265625, 'rewards/margins': 0.0037441253662109375, 'logps/chosen': -387.5, 'logps/rejected': -136.375, 'logits/chosen': -1.03271484375, 'logits/rejected': -0.95849609375, 'epoch': 0.01}
  1%|▌                                                                                              | 13/2044 [04:05<10:14:45, 18.16s/it]  1%|▋                                                                                              | 14/2044 [04:23<10:05:31, 17.90s/it]                                                                                                                                         {'loss': 0.6978, 'grad_norm': 62.28955174034292, 'learning_rate': 4.262295050239118e-08, 'rewards/chosen': 0.00106048583984375, 'rewards/rejected': 0.0065555572509765625, 'rewards/accuracies': 0.359375, 'rewards/margins': -0.00540924072265625, 'logps/chosen': -306.625, 'logps/rejected': -120.9375, 'logits/chosen': -0.9404296875, 'logits/rejected': -1.10986328125, 'epoch': 0.01}
  1%|▋                                                                                              | 14/2044 [04:23<10:05:31, 17.90s/it]  1%|▋                                                                                               | 15/2044 [04:39<9:51:59, 17.51s/it]                                                                                                                                         {'loss': 0.7026, 'grad_norm': 68.53248205219207, 'learning_rate': 4.5901639822432116e-08, 'rewards/chosen': 0.0022125244140625, 'rewards/rejected': 0.01585865020751953, 'rewards/accuracies': 0.25, 'rewards/margins': -0.0135650634765625, 'logps/chosen': -338.125, 'logps/rejected': -123.90625, 'logits/chosen': -1.1513671875, 'logits/rejected': -1.13671875, 'epoch': 0.01}
  1%|▋                                                                                               | 15/2044 [04:39<9:51:59, 17.51s/it]  1%|▋                                                                                              | 16/2044 [04:58<10:01:13, 17.79s/it]                                                                                                                                         {'loss': 0.6973, 'grad_norm': 58.82761579940372, 'learning_rate': 4.9180329142473056e-08, 'rewards/chosen': 0.001953601837158203, 'rewards/rejected': -0.006656646728515625, 'rewards/accuracies': 0.359375, 'rewards/margins': 0.0085906982421875, 'logps/chosen': -294.875, 'logps/rejected': -122.34375, 'logits/chosen': -1.1708984375, 'logits/rejected': -1.0615234375, 'epoch': 0.01}
  1%|▋                                                                                              | 16/2044 [04:58<10:01:13, 17.79s/it]  1%|▊                                                                                              | 17/2044 [05:16<10:05:19, 17.92s/it]                                                                                                                                         {'loss': 0.6968, 'grad_norm': 53.500203956176925, 'learning_rate': 5.2459014909800317e-08, 'rewards/chosen': -0.010006427764892578, 'rewards/rejected': -0.005093574523925781, 'rewards/accuracies': 0.375, 'rewards/margins': -0.004931449890136719, 'logps/chosen': -251.625, 'logps/rejected': -126.96875, 'logits/chosen': -0.86181640625, 'logits/rejected': -0.89306640625, 'epoch': 0.01}
  1%|▊                                                                                              | 17/2044 [05:16<10:05:19, 17.92s/it]  1%|▊                                                                                               | 18/2044 [05:33<9:59:32, 17.76s/it]                                                                                                                                         {'loss': 0.6997, 'grad_norm': 61.65135479686086, 'learning_rate': 5.5737704229841256e-08, 'rewards/chosen': -0.0026397705078125, 'rewards/rejected': 0.009580612182617188, 'rewards/accuracies': 0.265625, 'rewards/margins': -0.01226043701171875, 'logps/chosen': -279.25, 'logps/rejected': -138.0, 'logits/chosen': -0.936279296875, 'logits/rejected': -0.81365966796875, 'epoch': 0.01}
  1%|▊                                                                                               | 18/2044 [05:33<9:59:32, 17.76s/it]  1%|▉                                                                                               | 19/2044 [05:49<9:35:36, 17.06s/it]                                                                                                                                         {'loss': 0.6973, 'grad_norm': 68.94027311848535, 'learning_rate': 5.9016393549882196e-08, 'rewards/chosen': -0.013322830200195312, 'rewards/rejected': -0.002552032470703125, 'rewards/accuracies': 0.359375, 'rewards/margins': -0.010720252990722656, 'logps/chosen': -358.625, 'logps/rejected': -93.125, 'logits/chosen': -0.98828125, 'logits/rejected': -0.99462890625, 'epoch': 0.01}
  1%|▉                                                                                               | 19/2044 [05:49<9:35:36, 17.06s/it]  1%|▉                                                                                               | 20/2044 [06:05<9:25:44, 16.77s/it]                                                                                                                                         {'loss': 0.7085, 'grad_norm': 66.7441194340749, 'learning_rate': 6.229507931720946e-08, 'rewards/chosen': -0.009510040283203125, 'rewards/rejected': 0.0036935806274414062, 'rewards/accuracies': 0.34375, 'rewards/margins': -0.01328277587890625, 'logps/chosen': -346.75, 'logps/rejected': -84.640625, 'logits/chosen': -1.0205078125, 'logits/rejected': -0.96630859375, 'epoch': 0.01}
  1%|▉                                                                                               | 20/2044 [06:05<9:25:44, 16.77s/it]  1%|▉                                                                                               | 21/2044 [06:22<9:31:52, 16.96s/it]                                                                                                                                         {'loss': 0.6836, 'grad_norm': 48.76915218468557, 'learning_rate': 6.557377218996407e-08, 'rewards/chosen': 0.017900466918945312, 'rewards/rejected': -0.003985404968261719, 'rewards/accuracies': 0.40625, 'rewards/margins': 0.02185821533203125, 'logps/chosen': -250.3125, 'logps/rejected': -116.125, 'logits/chosen': -1.11474609375, 'logits/rejected': -1.01953125, 'epoch': 0.01}
  1%|▉                                                                                               | 21/2044 [06:22<9:31:52, 16.96s/it]  1%|█                                                                                               | 22/2044 [06:39<9:33:56, 17.03s/it]                                                                                                                                         {'loss': 0.7051, 'grad_norm': 67.93939064691203, 'learning_rate': 6.885245795729134e-08, 'rewards/chosen': -0.01103973388671875, 'rewards/rejected': 0.0030231475830078125, 'rewards/accuracies': 0.328125, 'rewards/margins': -0.014080047607421875, 'logps/chosen': -352.125, 'logps/rejected': -105.78125, 'logits/chosen': -1.1064453125, 'logits/rejected': -1.0771484375, 'epoch': 0.01}
  1%|█                                                                                               | 22/2044 [06:39<9:33:56, 17.03s/it]  1%|█                                                                                               | 23/2044 [06:57<9:43:23, 17.32s/it]                                                                                                                                         {'loss': 0.6924, 'grad_norm': 58.80552459721208, 'learning_rate': 7.21311437246186e-08, 'rewards/chosen': 0.0060710906982421875, 'rewards/rejected': -9.5367431640625e-06, 'rewards/accuracies': 0.390625, 'rewards/margins': 0.0060596466064453125, 'logps/chosen': -289.125, 'logps/rejected': -104.375, 'logits/chosen': -0.93212890625, 'logits/rejected': -0.96142578125, 'epoch': 0.01}
  1%|█                                                                                               | 23/2044 [06:57<9:43:23, 17.32s/it]  1%|█▏                                                                                              | 24/2044 [07:16<9:59:01, 17.79s/it]                                                                                                                                         {'loss': 0.6919, 'grad_norm': 66.13806785473426, 'learning_rate': 7.540983659737321e-08, 'rewards/chosen': -0.0001583099365234375, 'rewards/rejected': -0.003231048583984375, 'rewards/accuracies': 0.359375, 'rewards/margins': 0.0030832290649414062, 'logps/chosen': -338.375, 'logps/rejected': -125.78125, 'logits/chosen': -0.935546875, 'logits/rejected': -1.005859375, 'epoch': 0.01}
  1%|█▏                                                                                              | 24/2044 [07:16<9:59:01, 17.79s/it]  1%|█▏                                                                                             | 25/2044 [07:35<10:08:43, 18.09s/it]                                                                                                                                         {'loss': 0.6982, 'grad_norm': 64.00808054880662, 'learning_rate': 7.868852947012783e-08, 'rewards/chosen': -0.014369964599609375, 'rewards/rejected': -0.002544403076171875, 'rewards/accuracies': 0.359375, 'rewards/margins': -0.01183319091796875, 'logps/chosen': -345.75, 'logps/rejected': -130.9375, 'logits/chosen': -1.05224609375, 'logits/rejected': -0.9267578125, 'epoch': 0.01}
  1%|█▏                                                                                             | 25/2044 [07:35<10:08:43, 18.09s/it]  1%|█▏                                                                                              | 26/2044 [07:51<9:51:31, 17.59s/it]                                                                                                                                         {'loss': 0.6924, 'grad_norm': 57.538234100693614, 'learning_rate': 8.196721523745509e-08, 'rewards/chosen': 0.00946807861328125, 'rewards/rejected': 0.0035152435302734375, 'rewards/accuracies': 0.34375, 'rewards/margins': 0.0059299468994140625, 'logps/chosen': -324.375, 'logps/rejected': -127.4375, 'logits/chosen': -1.10546875, 'logits/rejected': -1.0068359375, 'epoch': 0.01}
  1%|█▏                                                                                              | 26/2044 [07:51<9:51:31, 17.59s/it]  1%|█▎                                                                                              | 27/2044 [08:10<9:59:09, 17.82s/it]                                                                                                                                         {'loss': 0.6997, 'grad_norm': 61.91905035203766, 'learning_rate': 8.524590100478235e-08, 'rewards/chosen': 0.006633758544921875, 'rewards/rejected': 0.008596420288085938, 'rewards/accuracies': 0.375, 'rewards/margins': -0.001953125, 'logps/chosen': -274.5, 'logps/rejected': -108.671875, 'logits/chosen': -0.7745361328125, 'logits/rejected': -0.9755859375, 'epoch': 0.01}
  1%|█▎                                                                                              | 27/2044 [08:10<9:59:09, 17.82s/it]  1%|█▎                                                                                              | 28/2044 [08:28<9:59:17, 17.84s/it]                                                                                                                                         {'loss': 0.6992, 'grad_norm': 55.22262825965004, 'learning_rate': 8.852459387753697e-08, 'rewards/chosen': -0.014116287231445312, 'rewards/rejected': -0.0045928955078125, 'rewards/accuracies': 0.375, 'rewards/margins': -0.009504318237304688, 'logps/chosen': -274.25, 'logps/rejected': -110.0625, 'logits/chosen': -0.947021484375, 'logits/rejected': -0.8740234375, 'epoch': 0.01}
  1%|█▎                                                                                              | 28/2044 [08:28<9:59:17, 17.84s/it]  1%|█▎                                                                                              | 29/2044 [08:44<9:47:23, 17.49s/it]                                                                                                                                         {'loss': 0.6973, 'grad_norm': 53.993643647624644, 'learning_rate': 9.180327964486423e-08, 'rewards/chosen': -0.0017805099487304688, 'rewards/rejected': 0.007917404174804688, 'rewards/accuracies': 0.359375, 'rewards/margins': -0.009700775146484375, 'logps/chosen': -261.125, 'logps/rejected': -93.09375, 'logits/chosen': -1.05224609375, 'logits/rejected': -0.98193359375, 'epoch': 0.01}
  1%|█▎                                                                                              | 29/2044 [08:44<9:47:23, 17.49s/it]  1%|█▍                                                                                              | 30/2044 [09:02<9:51:34, 17.62s/it]                                                                                                                                         {'loss': 0.6846, 'grad_norm': 51.189780911693504, 'learning_rate': 9.50819654121915e-08, 'rewards/chosen': 0.026024818420410156, 'rewards/rejected': 0.003330230712890625, 'rewards/accuracies': 0.40625, 'rewards/margins': 0.022676467895507812, 'logps/chosen': -264.125, 'logps/rejected': -112.75, 'logits/chosen': -0.897705078125, 'logits/rejected': -1.00927734375, 'epoch': 0.01}
  1%|█▍                                                                                              | 30/2044 [09:02<9:51:34, 17.62s/it]  2%|█▍                                                                                              | 31/2044 [09:19<9:44:51, 17.43s/it]                                                                                                                                         {'loss': 0.6875, 'grad_norm': 64.0931420136453, 'learning_rate': 9.836065828494611e-08, 'rewards/chosen': 0.006869316101074219, 'rewards/rejected': 0.004488945007324219, 'rewards/accuracies': 0.359375, 'rewards/margins': 0.002346038818359375, 'logps/chosen': -309.625, 'logps/rejected': -113.125, 'logits/chosen': -1.0341796875, 'logits/rejected': -0.9658203125, 'epoch': 0.02}
  2%|█▍                                                                                              | 31/2044 [09:19<9:44:51, 17.43s/it]  2%|█▌                                                                                              | 32/2044 [09:37<9:45:54, 17.47s/it]                                                                                                                                         {'loss': 0.6963, 'grad_norm': 56.61465249554878, 'learning_rate': 1.0163934405227337e-07, 'rewards/chosen': -0.005099296569824219, 'rewards/rejected': 0.0011749267578125, 'rewards/accuracies': 0.390625, 'rewards/margins': -0.006257057189941406, 'logps/chosen': -280.125, 'logps/rejected': -112.125, 'logits/chosen': -0.896240234375, 'logits/rejected': -0.919189453125, 'epoch': 0.02}
  2%|█▌                                                                                              | 32/2044 [09:37<9:45:54, 17.47s/it]  2%|█▌                                                                                              | 33/2044 [09:55<9:57:38, 17.83s/it]                                                                                                                                         {'loss': 0.6826, 'grad_norm': 59.92576222843112, 'learning_rate': 1.0491802981960063e-07, 'rewards/chosen': 0.023281097412109375, 'rewards/rejected': -0.005873680114746094, 'rewards/accuracies': 0.5, 'rewards/margins': 0.029191970825195312, 'logps/chosen': -320.25, 'logps/rejected': -142.75, 'logits/chosen': -1.0673828125, 'logits/rejected': -0.9560546875, 'epoch': 0.02}
  2%|█▌                                                                                              | 33/2044 [09:55<9:57:38, 17.83s/it]  2%|█▌                                                                                              | 34/2044 [10:13<9:55:32, 17.78s/it]                                                                                                                                         {'loss': 0.7148, 'grad_norm': 71.61477459419747, 'learning_rate': 1.0819672269235525e-07, 'rewards/chosen': -0.006439208984375, 'rewards/rejected': 0.0148773193359375, 'rewards/accuracies': 0.375, 'rewards/margins': -0.021297454833984375, 'logps/chosen': -369.75, 'logps/rejected': -105.09375, 'logits/chosen': -0.933349609375, 'logits/rejected': -0.8818359375, 'epoch': 0.02}
  2%|█▌                                                                                              | 34/2044 [10:13<9:55:32, 17.78s/it]  2%|█▋                                                                                              | 35/2044 [10:31<9:53:09, 17.72s/it]                                                                                                                                         {'loss': 0.6865, 'grad_norm': 56.6940307086622, 'learning_rate': 1.1147540845968251e-07, 'rewards/chosen': 0.007938385009765625, 'rewards/rejected': 0.010959625244140625, 'rewards/accuracies': 0.375, 'rewards/margins': -0.003032684326171875, 'logps/chosen': -273.0625, 'logps/rejected': -87.9375, 'logits/chosen': -1.019775390625, 'logits/rejected': -0.96728515625, 'epoch': 0.02}
  2%|█▋                                                                                              | 35/2044 [10:31<9:53:09, 17.72s/it]  2%|█▋                                                                                              | 36/2044 [10:49<9:54:01, 17.75s/it]                                                                                                                                         {'loss': 0.6743, 'grad_norm': 63.29722854762161, 'learning_rate': 1.1475409422700977e-07, 'rewards/chosen': 0.023939132690429688, 'rewards/rejected': -0.008790016174316406, 'rewards/accuracies': 0.53125, 'rewards/margins': 0.03273773193359375, 'logps/chosen': -321.625, 'logps/rejected': -120.875, 'logits/chosen': -1.048828125, 'logits/rejected': -0.88916015625, 'epoch': 0.02}
  2%|█▋                                                                                              | 36/2044 [10:49<9:54:01, 17.75s/it]  2%|█▋                                                                                              | 37/2044 [11:05<9:42:17, 17.41s/it]                                                                                                                                         {'loss': 0.6826, 'grad_norm': 56.80977743877342, 'learning_rate': 1.1803278709976439e-07, 'rewards/chosen': 0.02695465087890625, 'rewards/rejected': 0.004677772521972656, 'rewards/accuracies': 0.359375, 'rewards/margins': 0.0222625732421875, 'logps/chosen': -270.125, 'logps/rejected': -112.375, 'logits/chosen': -0.89105224609375, 'logits/rejected': -0.87841796875, 'epoch': 0.02}
  2%|█▋                                                                                              | 37/2044 [11:05<9:42:17, 17.41s/it]  2%|█▊                                                                                              | 38/2044 [11:23<9:45:28, 17.51s/it]                                                                                                                                         {'loss': 0.6846, 'grad_norm': 56.20781647390366, 'learning_rate': 1.2131147286709165e-07, 'rewards/chosen': 0.0054645538330078125, 'rewards/rejected': -0.010855674743652344, 'rewards/accuracies': 0.40625, 'rewards/margins': 0.016351699829101562, 'logps/chosen': -288.125, 'logps/rejected': -105.84375, 'logits/chosen': -1.05908203125, 'logits/rejected': -0.9052734375, 'epoch': 0.02}
  2%|█▊                                                                                              | 38/2044 [11:23<9:45:28, 17.51s/it]  2%|█▊                                                                                              | 39/2044 [11:41<9:47:09, 17.57s/it]                                                                                                                                         {'loss': 0.686, 'grad_norm': 61.34568831615402, 'learning_rate': 1.245901586344189e-07, 'rewards/chosen': 0.00698089599609375, 'rewards/rejected': -0.0012750625610351562, 'rewards/accuracies': 0.46875, 'rewards/margins': 0.008246421813964844, 'logps/chosen': -304.875, 'logps/rejected': -111.4375, 'logits/chosen': -1.03857421875, 'logits/rejected': -0.9677734375, 'epoch': 0.02}
  2%|█▊                                                                                              | 39/2044 [11:41<9:47:09, 17.57s/it]  2%|█▉                                                                                              | 40/2044 [11:59<9:57:51, 17.90s/it]                                                                                                                                         {'loss': 0.6973, 'grad_norm': 82.84551431996306, 'learning_rate': 1.278688586126009e-07, 'rewards/chosen': 0.0061740875244140625, 'rewards/rejected': 0.01270294189453125, 'rewards/accuracies': 0.40625, 'rewards/margins': -0.006569862365722656, 'logps/chosen': -366.875, 'logps/rejected': -106.1875, 'logits/chosen': -1.06396484375, 'logits/rejected': -0.97314453125, 'epoch': 0.02}
  2%|█▉                                                                                              | 40/2044 [11:59<9:57:51, 17.90s/it]  2%|█▉                                                                                              | 41/2044 [12:16<9:49:32, 17.66s/it]                                                                                                                                         {'loss': 0.6812, 'grad_norm': 64.3700461949308, 'learning_rate': 1.3114754437992815e-07, 'rewards/chosen': 0.01047968864440918, 'rewards/rejected': -0.011537551879882812, 'rewards/accuracies': 0.5625, 'rewards/margins': 0.02207183837890625, 'logps/chosen': -320.375, 'logps/rejected': -90.9375, 'logits/chosen': -1.0078125, 'logits/rejected': -1.16845703125, 'epoch': 0.02}
  2%|█▉                                                                                              | 41/2044 [12:16<9:49:32, 17.66s/it]  2%|█▉                                                                                              | 42/2044 [12:33<9:43:29, 17.49s/it]                                                                                                                                         {'loss': 0.6738, 'grad_norm': 56.23735671643774, 'learning_rate': 1.344262301472554e-07, 'rewards/chosen': 0.04022216796875, 'rewards/rejected': 0.000392913818359375, 'rewards/accuracies': 0.59375, 'rewards/margins': 0.0398406982421875, 'logps/chosen': -295.5, 'logps/rejected': -111.625, 'logits/chosen': -1.24365234375, 'logits/rejected': -1.2939453125, 'epoch': 0.02}
  2%|█▉                                                                                              | 42/2044 [12:33<9:43:29, 17.49s/it]  2%|██                                                                                              | 43/2044 [12:51<9:44:09, 17.52s/it]                                                                                                                                         {'loss': 0.666, 'grad_norm': 58.52552811608437, 'learning_rate': 1.3770491591458267e-07, 'rewards/chosen': 0.0509796142578125, 'rewards/rejected': -0.0029315948486328125, 'rewards/accuracies': 0.578125, 'rewards/margins': 0.0538787841796875, 'logps/chosen': -310.0, 'logps/rejected': -98.0, 'logits/chosen': -1.001953125, 'logits/rejected': -1.00732421875, 'epoch': 0.02}
  2%|██                                                                                              | 43/2044 [12:51<9:44:09, 17.52s/it]  2%|██                                                                                              | 44/2044 [13:08<9:40:55, 17.43s/it]                                                                                                                                         {'loss': 0.6807, 'grad_norm': 59.33211643886186, 'learning_rate': 1.4098360168190993e-07, 'rewards/chosen': 0.026880264282226562, 'rewards/rejected': -7.62939453125e-06, 'rewards/accuracies': 0.46875, 'rewards/margins': 0.026885986328125, 'logps/chosen': -291.75, 'logps/rejected': -128.390625, 'logits/chosen': -1.015625, 'logits/rejected': -1.15380859375, 'epoch': 0.02}
  2%|██                                                                                              | 44/2044 [13:08<9:40:55, 17.43s/it]  2%|██                                                                                              | 45/2044 [13:26<9:45:58, 17.59s/it]                                                                                                                                         {'loss': 0.6821, 'grad_norm': 60.1667452322466, 'learning_rate': 1.442622874492372e-07, 'rewards/chosen': 0.0245208740234375, 'rewards/rejected': -0.0015735626220703125, 'rewards/accuracies': 0.546875, 'rewards/margins': 0.02613544464111328, 'logps/chosen': -310.75, 'logps/rejected': -116.1875, 'logits/chosen': -1.064453125, 'logits/rejected': -0.93359375, 'epoch': 0.02}
  2%|██                                                                                              | 45/2044 [13:26<9:45:58, 17.59s/it]  2%|██▏                                                                                             | 46/2044 [13:45<9:54:37, 17.86s/it]                                                                                                                                         {'loss': 0.6802, 'grad_norm': 55.72416829222415, 'learning_rate': 1.4754098742741917e-07, 'rewards/chosen': 0.033905029296875, 'rewards/rejected': 0.006633758544921875, 'rewards/accuracies': 0.5625, 'rewards/margins': 0.027315139770507812, 'logps/chosen': -276.625, 'logps/rejected': -135.84375, 'logits/chosen': -0.9921875, 'logits/rejected': -0.95458984375, 'epoch': 0.02}
  2%|██▏                                                                                             | 46/2044 [13:45<9:54:37, 17.86s/it]  2%|██▏                                                                                             | 47/2044 [14:03<9:54:49, 17.87s/it]                                                                                                                                         {'loss': 0.6646, 'grad_norm': 61.93366651429955, 'learning_rate': 1.5081967319474643e-07, 'rewards/chosen': 0.06974029541015625, 'rewards/rejected': 0.00566864013671875, 'rewards/accuracies': 0.578125, 'rewards/margins': 0.0641632080078125, 'logps/chosen': -339.625, 'logps/rejected': -99.84375, 'logits/chosen': -1.103515625, 'logits/rejected': -0.919921875, 'epoch': 0.02}
  2%|██▏                                                                                             | 47/2044 [14:03<9:54:49, 17.87s/it]  2%|██▎                                                                                             | 48/2044 [14:21<9:55:33, 17.90s/it]                                                                                                                                         {'loss': 0.6826, 'grad_norm': 52.776867330907244, 'learning_rate': 1.540983589620737e-07, 'rewards/chosen': 0.019542694091796875, 'rewards/rejected': 0.0007734298706054688, 'rewards/accuracies': 0.53125, 'rewards/margins': 0.018770217895507812, 'logps/chosen': -326.0, 'logps/rejected': -203.96875, 'logits/chosen': -0.9697265625, 'logits/rejected': -0.99169921875, 'epoch': 0.02}
  2%|██▎                                                                                             | 48/2044 [14:21<9:55:33, 17.90s/it]  2%|██▎                                                                                             | 49/2044 [14:37<9:42:08, 17.51s/it]                                                                                                                                         {'loss': 0.6694, 'grad_norm': 58.51186894087206, 'learning_rate': 1.5737705894025567e-07, 'rewards/chosen': 0.061248779296875, 'rewards/rejected': 0.004871368408203125, 'rewards/accuracies': 0.703125, 'rewards/margins': 0.0562896728515625, 'logps/chosen': -271.125, 'logps/rejected': -111.40625, 'logits/chosen': -0.85205078125, 'logits/rejected': -1.04150390625, 'epoch': 0.02}
  2%|██▎                                                                                             | 49/2044 [14:37<9:42:08, 17.51s/it]  2%|██▎                                                                                             | 50/2044 [14:54<9:35:57, 17.33s/it]                                                                                                                                         {'loss': 0.665, 'grad_norm': 60.48756032305267, 'learning_rate': 1.6065574470758293e-07, 'rewards/chosen': 0.073516845703125, 'rewards/rejected': 0.018646240234375, 'rewards/accuracies': 0.6875, 'rewards/margins': 0.05511474609375, 'logps/chosen': -281.375, 'logps/rejected': -112.328125, 'logits/chosen': -1.0126953125, 'logits/rejected': -1.048828125, 'epoch': 0.02}
  2%|██▎                                                                                             | 50/2044 [14:54<9:35:57, 17.33s/it]  2%|██▍                                                                                             | 51/2044 [15:13<9:50:44, 17.78s/it]                                                                                                                                         {'loss': 0.6714, 'grad_norm': 63.055168834731994, 'learning_rate': 1.6393443047491019e-07, 'rewards/chosen': 0.0801239013671875, 'rewards/rejected': 0.023441314697265625, 'rewards/accuracies': 0.640625, 'rewards/margins': 0.05670166015625, 'logps/chosen': -321.75, 'logps/rejected': -132.0, 'logits/chosen': -0.95458984375, 'logits/rejected': -1.087890625, 'epoch': 0.02}
  2%|██▍                                                                                             | 51/2044 [15:13<9:50:44, 17.78s/it]  3%|██▍                                                                                             | 52/2044 [15:30<9:47:16, 17.69s/it]                                                                                                                                         {'loss': 0.668, 'grad_norm': 62.05972199467606, 'learning_rate': 1.6721311624223745e-07, 'rewards/chosen': 0.054779052734375, 'rewards/rejected': -0.0046977996826171875, 'rewards/accuracies': 0.578125, 'rewards/margins': 0.059478759765625, 'logps/chosen': -336.25, 'logps/rejected': -127.53125, 'logits/chosen': -0.93408203125, 'logits/rejected': -1.00537109375, 'epoch': 0.03}
  3%|██▍                                                                                             | 52/2044 [15:30<9:47:16, 17.69s/it]  3%|██▍                                                                                             | 53/2044 [15:48<9:48:00, 17.72s/it]                                                                                                                                         {'loss': 0.6724, 'grad_norm': 52.480394022886486, 'learning_rate': 1.704918020095647e-07, 'rewards/chosen': 0.057373046875, 'rewards/rejected': 0.006439208984375, 'rewards/accuracies': 0.53125, 'rewards/margins': 0.0509185791015625, 'logps/chosen': -268.25, 'logps/rejected': -139.90625, 'logits/chosen': -0.976806640625, 'logits/rejected': -1.09912109375, 'epoch': 0.03}
  3%|██▍                                                                                             | 53/2044 [15:48<9:48:00, 17.72s/it]  3%|██▌                                                                                             | 54/2044 [16:07<9:58:10, 18.04s/it]                                                                                                                                         {'loss': 0.6611, 'grad_norm': 63.85353283791109, 'learning_rate': 1.7377048777689197e-07, 'rewards/chosen': 0.06243133544921875, 'rewards/rejected': -3.814697265625e-06, 'rewards/accuracies': 0.625, 'rewards/margins': 0.062530517578125, 'logps/chosen': -328.875, 'logps/rejected': -148.03125, 'logits/chosen': -0.9189453125, 'logits/rejected': -0.962890625, 'epoch': 0.03}
  3%|██▌                                                                                             | 54/2044 [16:07<9:58:10, 18.04s/it]  3%|██▌                                                                                             | 55/2044 [16:25<9:59:12, 18.08s/it]                                                                                                                                         {'loss': 0.6597, 'grad_norm': 53.41455667738489, 'learning_rate': 1.7704918775507394e-07, 'rewards/chosen': 0.076507568359375, 'rewards/rejected': 0.005076408386230469, 'rewards/accuracies': 0.609375, 'rewards/margins': 0.07138442993164062, 'logps/chosen': -280.1875, 'logps/rejected': -107.25, 'logits/chosen': -1.06494140625, 'logits/rejected': -0.9736328125, 'epoch': 0.03}
  3%|██▌                                                                                             | 55/2044 [16:25<9:59:12, 18.08s/it]  3%|██▋                                                                                             | 56/2044 [16:42<9:48:31, 17.76s/it]                                                                                                                                         {'loss': 0.6792, 'grad_norm': 62.20997632233899, 'learning_rate': 1.803278735224012e-07, 'rewards/chosen': 0.0603790283203125, 'rewards/rejected': 0.012714385986328125, 'rewards/accuracies': 0.625, 'rewards/margins': 0.047695159912109375, 'logps/chosen': -322.4375, 'logps/rejected': -87.453125, 'logits/chosen': -1.016845703125, 'logits/rejected': -1.017578125, 'epoch': 0.03}
  3%|██▋                                                                                             | 56/2044 [16:42<9:48:31, 17.76s/it]  3%|██▋                                                                                             | 57/2044 [17:00<9:50:38, 17.84s/it]                                                                                                                                         {'loss': 0.6528, 'grad_norm': 58.22342042405012, 'learning_rate': 1.8360655928972847e-07, 'rewards/chosen': 0.10491943359375, 'rewards/rejected': 0.005275726318359375, 'rewards/accuracies': 0.609375, 'rewards/margins': 0.09981536865234375, 'logps/chosen': -328.9375, 'logps/rejected': -102.65625, 'logits/chosen': -0.68798828125, 'logits/rejected': -0.89599609375, 'epoch': 0.03}
  3%|██▋                                                                                             | 57/2044 [17:00<9:50:38, 17.84s/it]  3%|██▋                                                                                             | 58/2044 [17:18<9:54:39, 17.97s/it]                                                                                                                                         {'loss': 0.6367, 'grad_norm': 56.87363864040899, 'learning_rate': 1.8688524505705573e-07, 'rewards/chosen': 0.13077545166015625, 'rewards/rejected': 0.009273529052734375, 'rewards/accuracies': 0.65625, 'rewards/margins': 0.1214141845703125, 'logps/chosen': -323.125, 'logps/rejected': -108.75, 'logits/chosen': -1.00732421875, 'logits/rejected': -1.078125, 'epoch': 0.03}
  3%|██▋                                                                                             | 58/2044 [17:18<9:54:39, 17.97s/it]  3%|██▊                                                                                             | 59/2044 [17:35<9:39:04, 17.50s/it]                                                                                                                                         {'loss': 0.6436, 'grad_norm': 56.65916834440401, 'learning_rate': 1.90163930824383e-07, 'rewards/chosen': 0.1109619140625, 'rewards/rejected': 0.00270843505859375, 'rewards/accuracies': 0.671875, 'rewards/margins': 0.108123779296875, 'logps/chosen': -285.25, 'logps/rejected': -119.3125, 'logits/chosen': -0.86334228515625, 'logits/rejected': -1.05712890625, 'epoch': 0.03}
  3%|██▊                                                                                             | 59/2044 [17:35<9:39:04, 17.50s/it]  3%|██▊                                                                                             | 60/2044 [17:53<9:48:41, 17.80s/it]                                                                                                                                         {'loss': 0.6411, 'grad_norm': 50.55241033182514, 'learning_rate': 1.9344261659171025e-07, 'rewards/chosen': 0.1201171875, 'rewards/rejected': 0.0095367431640625, 'rewards/accuracies': 0.59375, 'rewards/margins': 0.110687255859375, 'logps/chosen': -290.375, 'logps/rejected': -140.4375, 'logits/chosen': -0.90625, 'logits/rejected': -1.0498046875, 'epoch': 0.03}
  3%|██▊                                                                                             | 60/2044 [17:53<9:48:41, 17.80s/it]  3%|██▊                                                                                             | 61/2044 [18:10<9:38:25, 17.50s/it]                                                                                                                                         {'loss': 0.6284, 'grad_norm': 55.59349128734055, 'learning_rate': 1.9672131656989222e-07, 'rewards/chosen': 0.13262939453125, 'rewards/rejected': -0.00980377197265625, 'rewards/accuracies': 0.6875, 'rewards/margins': 0.142578125, 'logps/chosen': -303.0, 'logps/rejected': -124.53125, 'logits/chosen': -1.02587890625, 'logits/rejected': -1.04296875, 'epoch': 0.03}
  3%|██▊                                                                                             | 61/2044 [18:10<9:38:25, 17.50s/it]  3%|██▉                                                                                             | 62/2044 [18:26<9:19:08, 16.93s/it]                                                                                                                                         {'loss': 0.6704, 'grad_norm': 73.97285832065288, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.072723388671875, 'rewards/rejected': 0.0132293701171875, 'rewards/accuracies': 0.59375, 'rewards/margins': 0.059478759765625, 'logps/chosen': -266.875, 'logps/rejected': -116.75, 'logits/chosen': -1.016357421875, 'logits/rejected': -1.0419921875, 'epoch': 0.03}
  3%|██▉                                                                                             | 62/2044 [18:26<9:19:08, 16.93s/it]  3%|██▉                                                                                             | 63/2044 [18:43<9:20:56, 16.99s/it]                                                                                                                                         {'loss': 0.6538, 'grad_norm': 48.745104866021734, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.10443115234375, 'rewards/rejected': 0.014469146728515625, 'rewards/accuracies': 0.5625, 'rewards/margins': 0.0897674560546875, 'logps/chosen': -237.3125, 'logps/rejected': -113.125, 'logits/chosen': -0.8271484375, 'logits/rejected': -1.03125, 'epoch': 0.03}
  3%|██▉                                                                                             | 63/2044 [18:43<9:20:56, 16.99s/it]  3%|███                                                                                             | 64/2044 [18:59<9:15:50, 16.84s/it]                                                                                                                                         {'loss': 0.6416, 'grad_norm': 52.61757036513998, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.139556884765625, 'rewards/rejected': 0.00077056884765625, 'rewards/accuracies': 0.765625, 'rewards/margins': 0.139007568359375, 'logps/chosen': -305.25, 'logps/rejected': -101.65625, 'logits/chosen': -0.992919921875, 'logits/rejected': -0.97998046875, 'epoch': 0.03}
  3%|███                                                                                             | 64/2044 [18:59<9:15:50, 16.84s/it]  3%|███                                                                                             | 65/2044 [19:17<9:19:09, 16.95s/it]                                                                                                                                         {'loss': 0.6372, 'grad_norm': 48.33969196717545, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.13897705078125, 'rewards/rejected': 0.011747360229492188, 'rewards/accuracies': 0.671875, 'rewards/margins': 0.1271820068359375, 'logps/chosen': -347.625, 'logps/rejected': -186.515625, 'logits/chosen': -0.931640625, 'logits/rejected': -0.96923828125, 'epoch': 0.03}
  3%|███                                                                                             | 65/2044 [19:17<9:19:09, 16.95s/it]  3%|███                                                                                             | 66/2044 [19:35<9:29:37, 17.28s/it]                                                                                                                                         {'loss': 0.626, 'grad_norm': 49.81530475021663, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.15234375, 'rewards/rejected': 0.00077056884765625, 'rewards/accuracies': 0.6875, 'rewards/margins': 0.15191650390625, 'logps/chosen': -354.125, 'logps/rejected': -173.1875, 'logits/chosen': -1.1064453125, 'logits/rejected': -0.9208984375, 'epoch': 0.03}
  3%|███                                                                                             | 66/2044 [19:35<9:29:37, 17.28s/it]  3%|███▏                                                                                            | 67/2044 [19:54<9:45:59, 17.78s/it]                                                                                                                                         {'loss': 0.6382, 'grad_norm': 56.773413025729255, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.146484375, 'rewards/rejected': 0.044986724853515625, 'rewards/accuracies': 0.65625, 'rewards/margins': 0.101654052734375, 'logps/chosen': -315.0, 'logps/rejected': -250.625, 'logits/chosen': -1.052734375, 'logits/rejected': -1.10888671875, 'epoch': 0.03}
  3%|███▏                                                                                            | 67/2044 [19:54<9:45:59, 17.78s/it]  3%|███▏                                                                                            | 68/2044 [20:10<9:29:11, 17.28s/it]                                                                                                                                         {'loss': 0.6206, 'grad_norm': 50.69942504900518, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.15350341796875, 'rewards/rejected': -0.00152587890625, 'rewards/accuracies': 0.734375, 'rewards/margins': 0.1551513671875, 'logps/chosen': -294.375, 'logps/rejected': -102.0, 'logits/chosen': -1.05029296875, 'logits/rejected': -0.9287109375, 'epoch': 0.03}
  3%|███▏                                                                                            | 68/2044 [20:10<9:29:11, 17.28s/it]  3%|███▏                                                                                            | 69/2044 [20:28<9:36:43, 17.52s/it]                                                                                                                                         {'loss': 0.623, 'grad_norm': 52.276121911294744, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.16326904296875, 'rewards/rejected': 0.003566741943359375, 'rewards/accuracies': 0.703125, 'rewards/margins': 0.159393310546875, 'logps/chosen': -333.25, 'logps/rejected': -109.8125, 'logits/chosen': -1.01953125, 'logits/rejected': -0.95361328125, 'epoch': 0.03}
  3%|███▏                                                                                            | 69/2044 [20:28<9:36:43, 17.52s/it]  3%|███▎                                                                                            | 70/2044 [20:46<9:44:56, 17.78s/it]                                                                                                                                         {'loss': 0.6479, 'grad_norm': 56.09370805204336, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.141845703125, 'rewards/rejected': 0.02741241455078125, 'rewards/accuracies': 0.625, 'rewards/margins': 0.114410400390625, 'logps/chosen': -291.0, 'logps/rejected': -128.28125, 'logits/chosen': -0.888671875, 'logits/rejected': -1.00244140625, 'epoch': 0.03}
  3%|███▎                                                                                            | 70/2044 [20:46<9:44:56, 17.78s/it]  3%|███▎                                                                                            | 71/2044 [21:03<9:33:25, 17.44s/it]                                                                                                                                         {'loss': 0.6147, 'grad_norm': 54.237225574233165, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.189453125, 'rewards/rejected': 0.00785064697265625, 'rewards/accuracies': 0.625, 'rewards/margins': 0.181396484375, 'logps/chosen': -311.625, 'logps/rejected': -96.90625, 'logits/chosen': -1.09716796875, 'logits/rejected': -0.9892578125, 'epoch': 0.03}
  3%|███▎                                                                                            | 71/2044 [21:03<9:33:25, 17.44s/it]  4%|███▍                                                                                            | 72/2044 [21:21<9:39:58, 17.65s/it]                                                                                                                                         {'loss': 0.6108, 'grad_norm': 53.52108420370572, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.19781494140625, 'rewards/rejected': -0.003116607666015625, 'rewards/accuracies': 0.734375, 'rewards/margins': 0.20098876953125, 'logps/chosen': -323.125, 'logps/rejected': -75.40625, 'logits/chosen': -1.119384765625, 'logits/rejected': -1.06396484375, 'epoch': 0.04}
  4%|███▍                                                                                            | 72/2044 [21:21<9:39:58, 17.65s/it]  4%|███▍                                                                                            | 73/2044 [21:39<9:40:12, 17.66s/it]                                                                                                                                         {'loss': 0.6147, 'grad_norm': 54.686456996619484, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.1983642578125, 'rewards/rejected': 0.006439208984375, 'rewards/accuracies': 0.765625, 'rewards/margins': 0.1920166015625, 'logps/chosen': -305.625, 'logps/rejected': -98.46875, 'logits/chosen': -1.0078125, 'logits/rejected': -0.90234375, 'epoch': 0.04}
  4%|███▍                                                                                            | 73/2044 [21:39<9:40:12, 17.66s/it]  4%|███▍                                                                                            | 74/2044 [21:55<9:29:10, 17.34s/it]                                                                                                                                         {'loss': 0.5938, 'grad_norm': 53.08480568986903, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.2239990234375, 'rewards/rejected': -0.009552001953125, 'rewards/accuracies': 0.734375, 'rewards/margins': 0.23333740234375, 'logps/chosen': -328.875, 'logps/rejected': -87.59375, 'logits/chosen': -0.9375, 'logits/rejected': -1.06689453125, 'epoch': 0.04}
  4%|███▍                                                                                            | 74/2044 [21:55<9:29:10, 17.34s/it]  4%|███▌                                                                                            | 75/2044 [22:13<9:28:54, 17.34s/it]                                                                                                                                         {'loss': 0.6104, 'grad_norm': 56.01455927869828, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.2041015625, 'rewards/rejected': 0.015869140625, 'rewards/accuracies': 0.6875, 'rewards/margins': 0.18798828125, 'logps/chosen': -337.5, 'logps/rejected': -146.953125, 'logits/chosen': -0.923828125, 'logits/rejected': -0.9560546875, 'epoch': 0.04}
  4%|███▌                                                                                            | 75/2044 [22:13<9:28:54, 17.34s/it]  4%|███▌                                                                                            | 76/2044 [22:32<9:45:29, 17.85s/it]                                                                                                                                         {'loss': 0.6533, 'grad_norm': 47.21047315534548, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.188232421875, 'rewards/rejected': 0.0697021484375, 'rewards/accuracies': 0.578125, 'rewards/margins': 0.11840057373046875, 'logps/chosen': -231.6875, 'logps/rejected': -164.5625, 'logits/chosen': -0.98486328125, 'logits/rejected': -0.91796875, 'epoch': 0.04}
  4%|███▌                                                                                            | 76/2044 [22:32<9:45:29, 17.85s/it]  4%|███▌                                                                                            | 77/2044 [22:50<9:46:15, 17.88s/it]                                                                                                                                         {'loss': 0.6113, 'grad_norm': 51.564782541703195, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.25189208984375, 'rewards/rejected': 0.03971099853515625, 'rewards/accuracies': 0.609375, 'rewards/margins': 0.2123260498046875, 'logps/chosen': -287.625, 'logps/rejected': -118.46875, 'logits/chosen': -0.7783203125, 'logits/rejected': -0.9296875, 'epoch': 0.04}
  4%|███▌                                                                                            | 77/2044 [22:50<9:46:15, 17.88s/it]  4%|███▋                                                                                            | 78/2044 [23:06<9:31:26, 17.44s/it]                                                                                                                                         {'loss': 0.5942, 'grad_norm': 46.847587551524086, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.2493896484375, 'rewards/rejected': 0.007526397705078125, 'rewards/accuracies': 0.640625, 'rewards/margins': 0.2415771484375, 'logps/chosen': -272.125, 'logps/rejected': -89.34375, 'logits/chosen': -0.9254150390625, 'logits/rejected': -0.94970703125, 'epoch': 0.04}
  4%|███▋                                                                                            | 78/2044 [23:06<9:31:26, 17.44s/it]  4%|███▋                                                                                            | 79/2044 [23:23<9:25:19, 17.26s/it]                                                                                                                                         {'loss': 0.564, 'grad_norm': 46.50673569313783, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.283203125, 'rewards/rejected': -0.004863739013671875, 'rewards/accuracies': 0.796875, 'rewards/margins': 0.2880859375, 'logps/chosen': -260.625, 'logps/rejected': -91.5625, 'logits/chosen': -0.948486328125, 'logits/rejected': -0.990234375, 'epoch': 0.04}
  4%|███▋                                                                                            | 79/2044 [23:23<9:25:19, 17.26s/it]  4%|███▊                                                                                            | 80/2044 [23:40<9:24:07, 17.23s/it]                                                                                                                                         {'loss': 0.5864, 'grad_norm': 50.552677667501385, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.2783203125, 'rewards/rejected': 0.026580810546875, 'rewards/accuracies': 0.75, 'rewards/margins': 0.2515869140625, 'logps/chosen': -317.625, 'logps/rejected': -109.3125, 'logits/chosen': -0.737579345703125, 'logits/rejected': -0.9453125, 'epoch': 0.04}
  4%|███▊                                                                                            | 80/2044 [23:40<9:24:07, 17.23s/it]  4%|███▊                                                                                            | 81/2044 [23:57<9:20:20, 17.13s/it]                                                                                                                                         {'loss': 0.5415, 'grad_norm': 52.10888101166089, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.3375244140625, 'rewards/rejected': -0.040264129638671875, 'rewards/accuracies': 0.828125, 'rewards/margins': 0.3779296875, 'logps/chosen': -403.75, 'logps/rejected': -79.25, 'logits/chosen': -1.091796875, 'logits/rejected': -0.9951171875, 'epoch': 0.04}
  4%|███▊                                                                                            | 81/2044 [23:57<9:20:20, 17.13s/it]  4%|███▊                                                                                            | 82/2044 [24:14<9:17:59, 17.06s/it]                                                                                                                                         {'loss': 0.5854, 'grad_norm': 48.12367070554056, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.29541015625, 'rewards/rejected': 0.0255889892578125, 'rewards/accuracies': 0.640625, 'rewards/margins': 0.27001953125, 'logps/chosen': -322.25, 'logps/rejected': -123.375, 'logits/chosen': -0.90478515625, 'logits/rejected': -0.92236328125, 'epoch': 0.04}
  4%|███▊                                                                                            | 82/2044 [24:14<9:17:59, 17.06s/it]  4%|███▉                                                                                            | 83/2044 [24:31<9:20:41, 17.16s/it]                                                                                                                                         {'loss': 0.5701, 'grad_norm': 52.01454321915373, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.3035888671875, 'rewards/rejected': 0.01276397705078125, 'rewards/accuracies': 0.703125, 'rewards/margins': 0.29083251953125, 'logps/chosen': -345.25, 'logps/rejected': -127.96875, 'logits/chosen': -1.10546875, 'logits/rejected': -1.0185546875, 'epoch': 0.04}
  4%|███▉                                                                                            | 83/2044 [24:31<9:20:41, 17.16s/it]  4%|███▉                                                                                            | 84/2044 [24:48<9:21:01, 17.17s/it]                                                                                                                                         {'loss': 0.5256, 'grad_norm': 45.49169802198169, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.372314453125, 'rewards/rejected': -0.04132080078125, 'rewards/accuracies': 0.875, 'rewards/margins': 0.41357421875, 'logps/chosen': -355.5, 'logps/rejected': -92.84375, 'logits/chosen': -1.05419921875, 'logits/rejected': -0.91748046875, 'epoch': 0.04}
  4%|███▉                                                                                            | 84/2044 [24:48<9:21:01, 17.17s/it]  4%|███▉                                                                                            | 85/2044 [25:04<9:06:04, 16.73s/it]                                                                                                                                         {'loss': 0.5469, 'grad_norm': 45.97047493725391, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.3201904296875, 'rewards/rejected': -0.0236968994140625, 'rewards/accuracies': 0.765625, 'rewards/margins': 0.34375, 'logps/chosen': -286.375, 'logps/rejected': -77.5625, 'logits/chosen': -1.0419921875, 'logits/rejected': -1.08056640625, 'epoch': 0.04}
  4%|███▉                                                                                            | 85/2044 [25:04<9:06:04, 16.73s/it]  4%|████                                                                                            | 86/2044 [25:23<9:30:35, 17.48s/it]                                                                                                                                         {'loss': 0.5674, 'grad_norm': 55.02004509741384, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.414794921875, 'rewards/rejected': 0.0685882568359375, 'rewards/accuracies': 0.625, 'rewards/margins': 0.3465576171875, 'logps/chosen': -386.125, 'logps/rejected': -164.8125, 'logits/chosen': -0.860107421875, 'logits/rejected': -0.91748046875, 'epoch': 0.04}
  4%|████                                                                                            | 86/2044 [25:23<9:30:35, 17.48s/it]  4%|████                                                                                            | 87/2044 [25:42<9:38:32, 17.74s/it]                                                                                                                                         {'loss': 0.5496, 'grad_norm': 60.55934885075818, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.396728515625, 'rewards/rejected': 0.017425537109375, 'rewards/accuracies': 0.75, 'rewards/margins': 0.3787841796875, 'logps/chosen': -374.625, 'logps/rejected': -126.0, 'logits/chosen': -1.03369140625, 'logits/rejected': -0.974609375, 'epoch': 0.04}
  4%|████                                                                                            | 87/2044 [25:42<9:38:32, 17.74s/it]  4%|████▏                                                                                           | 88/2044 [26:00<9:42:27, 17.87s/it]                                                                                                                                         {'loss': 0.5825, 'grad_norm': 48.39298005992183, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.329345703125, 'rewards/rejected': 0.048583984375, 'rewards/accuracies': 0.671875, 'rewards/margins': 0.2803955078125, 'logps/chosen': -317.375, 'logps/rejected': -107.375, 'logits/chosen': -1.1943359375, 'logits/rejected': -0.98291015625, 'epoch': 0.04}
  4%|████▏                                                                                           | 88/2044 [26:00<9:42:27, 17.87s/it]  4%|████▏                                                                                           | 89/2044 [26:18<9:42:10, 17.87s/it]                                                                                                                                         {'loss': 0.5679, 'grad_norm': 45.59363728222145, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.35595703125, 'rewards/rejected': 0.03186798095703125, 'rewards/accuracies': 0.734375, 'rewards/margins': 0.3238525390625, 'logps/chosen': -277.25, 'logps/rejected': -115.984375, 'logits/chosen': -1.0986328125, 'logits/rejected': -1.03173828125, 'epoch': 0.04}
  4%|████▏                                                                                           | 89/2044 [26:18<9:42:10, 17.87s/it]  4%|████▏                                                                                           | 90/2044 [26:37<9:55:03, 18.27s/it]                                                                                                                                         {'loss': 0.5344, 'grad_norm': 53.441513464068976, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.421630859375, 'rewards/rejected': 0.0466461181640625, 'rewards/accuracies': 0.734375, 'rewards/margins': 0.375, 'logps/chosen': -443.0, 'logps/rejected': -154.3125, 'logits/chosen': -1.07666015625, 'logits/rejected': -0.9736328125, 'epoch': 0.04}
  4%|████▏                                                                                           | 90/2044 [26:37<9:55:03, 18.27s/it]  4%|████▎                                                                                           | 91/2044 [26:55<9:56:16, 18.32s/it]                                                                                                                                         {'loss': 0.5825, 'grad_norm': 45.56598361680266, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.367919921875, 'rewards/rejected': 0.0710296630859375, 'rewards/accuracies': 0.640625, 'rewards/margins': 0.2967529296875, 'logps/chosen': -275.125, 'logps/rejected': -133.5, 'logits/chosen': -0.98046875, 'logits/rejected': -0.93017578125, 'epoch': 0.04}
  4%|████▎                                                                                           | 91/2044 [26:55<9:56:16, 18.32s/it]  5%|████▎                                                                                           | 92/2044 [27:14<9:58:41, 18.40s/it]                                                                                                                                         {'loss': 0.5449, 'grad_norm': 44.5392202050365, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.38134765625, 'rewards/rejected': 0.0139007568359375, 'rewards/accuracies': 0.734375, 'rewards/margins': 0.367431640625, 'logps/chosen': -325.625, 'logps/rejected': -114.875, 'logits/chosen': -1.09326171875, 'logits/rejected': -1.05126953125, 'epoch': 0.05}
  5%|████▎                                                                                           | 92/2044 [27:14<9:58:41, 18.40s/it]  5%|████▎                                                                                           | 93/2044 [27:31<9:48:22, 18.09s/it]                                                                                                                                         {'loss': 0.5747, 'grad_norm': 48.750184777859644, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.3878173828125, 'rewards/rejected': 0.05243682861328125, 'rewards/accuracies': 0.6875, 'rewards/margins': 0.335662841796875, 'logps/chosen': -290.5, 'logps/rejected': -135.75, 'logits/chosen': -0.92626953125, 'logits/rejected': -1.03173828125, 'epoch': 0.05}
  5%|████▎                                                                                           | 93/2044 [27:31<9:48:22, 18.09s/it]  5%|████▍                                                                                           | 94/2044 [27:49<9:49:20, 18.13s/it]                                                                                                                                         {'loss': 0.5291, 'grad_norm': 44.472482578485625, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.42724609375, 'rewards/rejected': 0.0053558349609375, 'rewards/accuracies': 0.703125, 'rewards/margins': 0.42218017578125, 'logps/chosen': -344.5, 'logps/rejected': -125.6875, 'logits/chosen': -1.0947265625, 'logits/rejected': -1.0947265625, 'epoch': 0.05}
  5%|████▍                                                                                           | 94/2044 [27:49<9:49:20, 18.13s/it]  5%|████▍                                                                                           | 95/2044 [28:07<9:47:36, 18.09s/it]                                                                                                                                         {'loss': 0.5388, 'grad_norm': 44.25865011939669, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.41162109375, 'rewards/rejected': 0.00946044921875, 'rewards/accuracies': 0.71875, 'rewards/margins': 0.40234375, 'logps/chosen': -336.875, 'logps/rejected': -127.3125, 'logits/chosen': -1.166015625, 'logits/rejected': -0.947998046875, 'epoch': 0.05}
  5%|████▍                                                                                           | 95/2044 [28:07<9:47:36, 18.09s/it]  5%|████▌                                                                                           | 96/2044 [28:25<9:37:24, 17.78s/it]                                                                                                                                         {'loss': 0.5713, 'grad_norm': 47.27765528496553, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.38671875, 'rewards/rejected': 0.0711669921875, 'rewards/accuracies': 0.703125, 'rewards/margins': 0.315673828125, 'logps/chosen': -264.25, 'logps/rejected': -140.65625, 'logits/chosen': -0.87939453125, 'logits/rejected': -0.88916015625, 'epoch': 0.05}
  5%|████▌                                                                                           | 96/2044 [28:25<9:37:24, 17.78s/it]  5%|████▌                                                                                           | 97/2044 [28:42<9:33:53, 17.69s/it]                                                                                                                                         {'loss': 0.5679, 'grad_norm': 41.62098809136412, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.399658203125, 'rewards/rejected': 0.06060028076171875, 'rewards/accuracies': 0.671875, 'rewards/margins': 0.33917236328125, 'logps/chosen': -278.25, 'logps/rejected': -110.25, 'logits/chosen': -0.926513671875, 'logits/rejected': -0.91845703125, 'epoch': 0.05}
  5%|████▌                                                                                           | 97/2044 [28:42<9:33:53, 17.69s/it]  5%|████▌                                                                                           | 98/2044 [28:59<9:31:23, 17.62s/it]                                                                                                                                         {'loss': 0.5164, 'grad_norm': 46.390091167630004, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.48046875, 'rewards/rejected': 0.00455474853515625, 'rewards/accuracies': 0.8125, 'rewards/margins': 0.476806640625, 'logps/chosen': -396.125, 'logps/rejected': -113.5, 'logits/chosen': -1.1396484375, 'logits/rejected': -0.90283203125, 'epoch': 0.05}
  5%|████▌                                                                                           | 98/2044 [28:59<9:31:23, 17.62s/it]  5%|████▋                                                                                           | 99/2044 [29:17<9:31:19, 17.62s/it]                                                                                                                                         {'loss': 0.5566, 'grad_norm': 41.243207692176085, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.444580078125, 'rewards/rejected': 0.060272216796875, 'rewards/accuracies': 0.75, 'rewards/margins': 0.3843231201171875, 'logps/chosen': -287.4375, 'logps/rejected': -107.3125, 'logits/chosen': -0.953369140625, 'logits/rejected': -1.02783203125, 'epoch': 0.05}
  5%|████▋                                                                                           | 99/2044 [29:17<9:31:19, 17.62s/it]  5%|████▋                                                                                          | 100/2044 [29:34<9:23:15, 17.38s/it]                                                                                                                                         {'loss': 0.5068, 'grad_norm': 41.41444041917773, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.479248046875, 'rewards/rejected': -0.027740478515625, 'rewards/accuracies': 0.75, 'rewards/margins': 0.5067138671875, 'logps/chosen': -328.0, 'logps/rejected': -83.265625, 'logits/chosen': -1.04302978515625, 'logits/rejected': -1.02685546875, 'epoch': 0.05}
  5%|████▋                                                                                          | 100/2044 [29:34<9:23:15, 17.38s/it]  5%|████▋                                                                                          | 101/2044 [29:52<9:24:56, 17.45s/it]                                                                                                                                         {'loss': 0.5171, 'grad_norm': 43.07018411744916, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.474609375, 'rewards/rejected': 0.00791168212890625, 'rewards/accuracies': 0.796875, 'rewards/margins': 0.466552734375, 'logps/chosen': -309.5, 'logps/rejected': -112.796875, 'logits/chosen': -0.898681640625, 'logits/rejected': -0.99462890625, 'epoch': 0.05}
  5%|████▋                                                                                          | 101/2044 [29:52<9:24:56, 17.45s/it]  5%|████▋                                                                                          | 102/2044 [30:08<9:18:00, 17.24s/it]                                                                                                                                         {'loss': 0.5632, 'grad_norm': 38.492073652238176, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.430908203125, 'rewards/rejected': 0.062042236328125, 'rewards/accuracies': 0.703125, 'rewards/margins': 0.3692626953125, 'logps/chosen': -296.8125, 'logps/rejected': -113.265625, 'logits/chosen': -1.1142578125, 'logits/rejected': -1.06005859375, 'epoch': 0.05}
  5%|████▋                                                                                          | 102/2044 [30:08<9:18:00, 17.24s/it]  5%|████▊                                                                                          | 103/2044 [30:25<9:15:54, 17.18s/it]                                                                                                                                         {'loss': 0.4963, 'grad_norm': 39.868069601157806, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.50244140625, 'rewards/rejected': -0.01043701171875, 'rewards/accuracies': 0.765625, 'rewards/margins': 0.512451171875, 'logps/chosen': -280.5, 'logps/rejected': -78.1875, 'logits/chosen': -0.90625, 'logits/rejected': -0.81201171875, 'epoch': 0.05}
  5%|████▊                                                                                          | 103/2044 [30:25<9:15:54, 17.18s/it]  5%|████▊                                                                                          | 104/2044 [30:44<9:28:01, 17.57s/it]                                                                                                                                         {'loss': 0.5232, 'grad_norm': 39.138569793327974, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4957275390625, 'rewards/rejected': 0.0407257080078125, 'rewards/accuracies': 0.703125, 'rewards/margins': 0.455474853515625, 'logps/chosen': -299.25, 'logps/rejected': -99.6875, 'logits/chosen': -1.009765625, 'logits/rejected': -0.9453125, 'epoch': 0.05}
  5%|████▊                                                                                          | 104/2044 [30:44<9:28:01, 17.57s/it]  5%|████▉                                                                                          | 105/2044 [31:01<9:28:41, 17.60s/it]                                                                                                                                         {'loss': 0.53, 'grad_norm': 42.65112680616368, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.484130859375, 'rewards/rejected': 0.0256805419921875, 'rewards/accuracies': 0.671875, 'rewards/margins': 0.458251953125, 'logps/chosen': -291.875, 'logps/rejected': -102.6875, 'logits/chosen': -0.9775390625, 'logits/rejected': -1.08935546875, 'epoch': 0.05}
  5%|████▉                                                                                          | 105/2044 [31:01<9:28:41, 17.60s/it]  5%|████▉                                                                                          | 106/2044 [31:19<9:27:43, 17.58s/it]                                                                                                                                         {'loss': 0.5095, 'grad_norm': 33.54085042643556, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.47216796875, 'rewards/rejected': -0.03397369384765625, 'rewards/accuracies': 0.78125, 'rewards/margins': 0.5057373046875, 'logps/chosen': -263.625, 'logps/rejected': -62.34375, 'logits/chosen': -1.1201171875, 'logits/rejected': -1.14111328125, 'epoch': 0.05}
  5%|████▉                                                                                          | 106/2044 [31:19<9:27:43, 17.58s/it]  5%|████▉                                                                                          | 107/2044 [31:36<9:22:45, 17.43s/it]                                                                                                                                         {'loss': 0.5183, 'grad_norm': 38.427959312241356, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.548583984375, 'rewards/rejected': 0.0564117431640625, 'rewards/accuracies': 0.75, 'rewards/margins': 0.492919921875, 'logps/chosen': -306.375, 'logps/rejected': -100.375, 'logits/chosen': -0.9990234375, 'logits/rejected': -1.01904296875, 'epoch': 0.05}
  5%|████▉                                                                                          | 107/2044 [31:36<9:22:45, 17.43s/it]  5%|█████                                                                                          | 108/2044 [31:53<9:21:27, 17.40s/it]                                                                                                                                         {'loss': 0.5105, 'grad_norm': 40.341617196652024, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.54736328125, 'rewards/rejected': 0.0350341796875, 'rewards/accuracies': 0.71875, 'rewards/margins': 0.511962890625, 'logps/chosen': -336.125, 'logps/rejected': -105.71875, 'logits/chosen': -1.0439453125, 'logits/rejected': -0.89697265625, 'epoch': 0.05}
  5%|█████                                                                                          | 108/2044 [31:53<9:21:27, 17.40s/it]  5%|█████                                                                                          | 109/2044 [32:10<9:16:53, 17.27s/it]                                                                                                                                         {'loss': 0.4888, 'grad_norm': 37.981649022653, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.57177734375, 'rewards/rejected': 0.0012359619140625, 'rewards/accuracies': 0.734375, 'rewards/margins': 0.5703125, 'logps/chosen': -285.0, 'logps/rejected': -104.40625, 'logits/chosen': -0.801513671875, 'logits/rejected': -0.88818359375, 'epoch': 0.05}
  5%|█████                                                                                          | 109/2044 [32:10<9:16:53, 17.27s/it]  5%|█████                                                                                          | 110/2044 [32:27<9:09:34, 17.05s/it]                                                                                                                                         {'loss': 0.5208, 'grad_norm': 41.85205804860504, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.529296875, 'rewards/rejected': 0.027618408203125, 'rewards/accuracies': 0.6875, 'rewards/margins': 0.50201416015625, 'logps/chosen': -253.875, 'logps/rejected': -113.8125, 'logits/chosen': -0.98974609375, 'logits/rejected': -0.96142578125, 'epoch': 0.05}
  5%|█████                                                                                          | 110/2044 [32:27<9:09:34, 17.05s/it]  5%|█████▏                                                                                         | 111/2044 [32:46<9:26:29, 17.58s/it]                                                                                                                                         {'loss': 0.5552, 'grad_norm': 55.47497336096241, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.52294921875, 'rewards/rejected': 0.13170623779296875, 'rewards/accuracies': 0.65625, 'rewards/margins': 0.39111328125, 'logps/chosen': -366.75, 'logps/rejected': -154.4375, 'logits/chosen': -1.19580078125, 'logits/rejected': -1.0361328125, 'epoch': 0.05}
  5%|█████▏                                                                                         | 111/2044 [32:46<9:26:29, 17.58s/it]  5%|█████▏                                                                                         | 112/2044 [33:03<9:21:01, 17.42s/it]                                                                                                                                         {'loss': 0.5039, 'grad_norm': 44.42646990574986, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.535400390625, 'rewards/rejected': 0.027008056640625, 'rewards/accuracies': 0.796875, 'rewards/margins': 0.50830078125, 'logps/chosen': -264.125, 'logps/rejected': -137.21875, 'logits/chosen': -1.0107421875, 'logits/rejected': -0.9052734375, 'epoch': 0.05}
  5%|█████▏                                                                                         | 112/2044 [33:03<9:21:01, 17.42s/it]  6%|█████▎                                                                                         | 113/2044 [33:21<9:25:42, 17.58s/it]                                                                                                                                         {'loss': 0.4871, 'grad_norm': 42.7669295879399, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.577392578125, 'rewards/rejected': -0.002716064453125, 'rewards/accuracies': 0.75, 'rewards/margins': 0.580078125, 'logps/chosen': -319.5, 'logps/rejected': -123.75, 'logits/chosen': -0.98095703125, 'logits/rejected': -0.8529052734375, 'epoch': 0.06}
  6%|█████▎                                                                                         | 113/2044 [33:21<9:25:42, 17.58s/it]  6%|█████▎                                                                                         | 114/2044 [33:38<9:22:36, 17.49s/it]                                                                                                                                         {'loss': 0.4854, 'grad_norm': 32.174730339556724, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.519775390625, 'rewards/rejected': -0.0387725830078125, 'rewards/accuracies': 0.796875, 'rewards/margins': 0.557861328125, 'logps/chosen': -241.375, 'logps/rejected': -73.90625, 'logits/chosen': -1.0015869140625, 'logits/rejected': -1.03466796875, 'epoch': 0.06}
  6%|█████▎                                                                                         | 114/2044 [33:38<9:22:36, 17.49s/it]  6%|█████▎                                                                                         | 115/2044 [33:56<9:22:22, 17.49s/it]                                                                                                                                         {'loss': 0.532, 'grad_norm': 35.365777210952096, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.529296875, 'rewards/rejected': 0.07745361328125, 'rewards/accuracies': 0.734375, 'rewards/margins': 0.4520263671875, 'logps/chosen': -249.25, 'logps/rejected': -87.515625, 'logits/chosen': -1.08203125, 'logits/rejected': -1.04638671875, 'epoch': 0.06}
  6%|█████▎                                                                                         | 115/2044 [33:56<9:22:22, 17.49s/it]  6%|█████▍                                                                                         | 116/2044 [34:12<9:13:05, 17.21s/it]                                                                                                                                         {'loss': 0.511, 'grad_norm': 43.762186603857536, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.54931640625, 'rewards/rejected': 0.0246734619140625, 'rewards/accuracies': 0.75, 'rewards/margins': 0.524658203125, 'logps/chosen': -282.4375, 'logps/rejected': -122.5625, 'logits/chosen': -0.8388671875, 'logits/rejected': -0.93701171875, 'epoch': 0.06}
  6%|█████▍                                                                                         | 116/2044 [34:12<9:13:05, 17.21s/it]  6%|█████▍                                                                                         | 117/2044 [34:29<9:09:33, 17.11s/it]                                                                                                                                         {'loss': 0.4883, 'grad_norm': 40.561732690891475, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.643798828125, 'rewards/rejected': 0.0375213623046875, 'rewards/accuracies': 0.78125, 'rewards/margins': 0.605712890625, 'logps/chosen': -329.25, 'logps/rejected': -127.3125, 'logits/chosen': -1.1787109375, 'logits/rejected': -1.12451171875, 'epoch': 0.06}
  6%|█████▍                                                                                         | 117/2044 [34:29<9:09:33, 17.11s/it]  6%|█████▍                                                                                         | 118/2044 [34:46<9:09:58, 17.13s/it]                                                                                                                                         {'loss': 0.4792, 'grad_norm': 35.47053744357479, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.590087890625, 'rewards/rejected': -0.00390625, 'rewards/accuracies': 0.8125, 'rewards/margins': 0.59375, 'logps/chosen': -310.0, 'logps/rejected': -81.015625, 'logits/chosen': -1.06884765625, 'logits/rejected': -1.08447265625, 'epoch': 0.06}
  6%|█████▍                                                                                         | 118/2044 [34:46<9:09:58, 17.13s/it]  6%|█████▌                                                                                         | 119/2044 [35:01<8:46:01, 16.40s/it]                                                                                                                                         {'loss': 0.4722, 'grad_norm': 30.832391208914405, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.578125, 'rewards/rejected': -0.0557403564453125, 'rewards/accuracies': 0.8125, 'rewards/margins': 0.634765625, 'logps/chosen': -262.375, 'logps/rejected': -69.8125, 'logits/chosen': -0.85791015625, 'logits/rejected': -1.02685546875, 'epoch': 0.06}
  6%|█████▌                                                                                         | 119/2044 [35:01<8:46:01, 16.40s/it]  6%|█████▌                                                                                         | 120/2044 [35:18<8:56:03, 16.72s/it]                                                                                                                                         {'loss': 0.521, 'grad_norm': 35.449999792499206, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.552001953125, 'rewards/rejected': 0.04736328125, 'rewards/accuracies': 0.671875, 'rewards/margins': 0.505126953125, 'logps/chosen': -266.5, 'logps/rejected': -91.0, 'logits/chosen': -1.0283203125, 'logits/rejected': -0.955078125, 'epoch': 0.06}
  6%|█████▌                                                                                         | 120/2044 [35:18<8:56:03, 16.72s/it]  6%|█████▌                                                                                         | 121/2044 [35:37<9:14:26, 17.30s/it]                                                                                                                                         {'loss': 0.4626, 'grad_norm': 41.49742774625792, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.63232421875, 'rewards/rejected': -0.0203857421875, 'rewards/accuracies': 0.78125, 'rewards/margins': 0.653564453125, 'logps/chosen': -326.75, 'logps/rejected': -94.09375, 'logits/chosen': -0.9423828125, 'logits/rejected': -0.9267578125, 'epoch': 0.06}
  6%|█████▌                                                                                         | 121/2044 [35:37<9:14:26, 17.30s/it]  6%|█████▋                                                                                         | 122/2044 [35:55<9:18:50, 17.45s/it]                                                                                                                                         {'loss': 0.4675, 'grad_norm': 39.64640551775106, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.70361328125, 'rewards/rejected': 0.032684326171875, 'rewards/accuracies': 0.8125, 'rewards/margins': 0.671875, 'logps/chosen': -338.375, 'logps/rejected': -114.4375, 'logits/chosen': -0.89532470703125, 'logits/rejected': -0.9638671875, 'epoch': 0.06}
  6%|█████▋                                                                                         | 122/2044 [35:55<9:18:50, 17.45s/it]  6%|█████▋                                                                                         | 123/2044 [36:12<9:15:08, 17.34s/it]                                                                                                                                         {'loss': 0.4497, 'grad_norm': 68.81850954390775, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.69775390625, 'rewards/rejected': -0.04509735107421875, 'rewards/accuracies': 0.828125, 'rewards/margins': 0.74267578125, 'logps/chosen': -298.625, 'logps/rejected': -106.75, 'logits/chosen': -1.0693359375, 'logits/rejected': -1.046875, 'epoch': 0.06}
  6%|█████▋                                                                                         | 123/2044 [36:12<9:15:08, 17.34s/it]  6%|█████▊                                                                                         | 124/2044 [36:30<9:21:10, 17.54s/it]                                                                                                                                         {'loss': 0.5818, 'grad_norm': 56.58710392097115, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5078125, 'rewards/rejected': 0.12957763671875, 'rewards/accuracies': 0.734375, 'rewards/margins': 0.37860107421875, 'logps/chosen': -211.0625, 'logps/rejected': -167.125, 'logits/chosen': -1.019775390625, 'logits/rejected': -0.963134765625, 'epoch': 0.06}
  6%|█████▊                                                                                         | 124/2044 [36:30<9:21:10, 17.54s/it]  6%|█████▊                                                                                         | 125/2044 [36:46<9:12:35, 17.28s/it]                                                                                                                                         {'loss': 0.4612, 'grad_norm': 40.17353567838596, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.69921875, 'rewards/rejected': -0.0352783203125, 'rewards/accuracies': 0.859375, 'rewards/margins': 0.734619140625, 'logps/chosen': -297.75, 'logps/rejected': -98.9375, 'logits/chosen': -0.955810546875, 'logits/rejected': -1.04052734375, 'epoch': 0.06}
  6%|█████▊                                                                                         | 125/2044 [36:46<9:12:35, 17.28s/it]  6%|█████▊                                                                                         | 126/2044 [37:03<9:02:43, 16.98s/it]                                                                                                                                         {'loss': 0.4551, 'grad_norm': 38.30922364649153, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7529296875, 'rewards/rejected': 0.00124359130859375, 'rewards/accuracies': 0.828125, 'rewards/margins': 0.751953125, 'logps/chosen': -340.75, 'logps/rejected': -111.9375, 'logits/chosen': -0.97705078125, 'logits/rejected': -0.91162109375, 'epoch': 0.06}
  6%|█████▊                                                                                         | 126/2044 [37:03<9:02:43, 16.98s/it]  6%|█████▉                                                                                         | 127/2044 [37:22<9:20:16, 17.54s/it]                                                                                                                                         {'loss': 0.4885, 'grad_norm': 38.889368071075154, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.69384765625, 'rewards/rejected': 0.044281005859375, 'rewards/accuracies': 0.71875, 'rewards/margins': 0.64892578125, 'logps/chosen': -322.25, 'logps/rejected': -126.4375, 'logits/chosen': -1.09228515625, 'logits/rejected': -0.962890625, 'epoch': 0.06}
  6%|█████▉                                                                                         | 127/2044 [37:22<9:20:16, 17.54s/it]  6%|█████▉                                                                                         | 128/2044 [37:40<9:25:36, 17.71s/it]                                                                                                                                         {'loss': 0.4514, 'grad_norm': 34.017955694835074, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6943359375, 'rewards/rejected': -0.004852294921875, 'rewards/accuracies': 0.875, 'rewards/margins': 0.6986083984375, 'logps/chosen': -294.25, 'logps/rejected': -95.5625, 'logits/chosen': -0.90771484375, 'logits/rejected': -0.9482421875, 'epoch': 0.06}
  6%|█████▉                                                                                         | 128/2044 [37:40<9:25:36, 17.71s/it]  6%|█████▉                                                                                         | 129/2044 [37:57<9:24:39, 17.69s/it]                                                                                                                                         {'loss': 0.427, 'grad_norm': 32.21919367997112, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.80078125, 'rewards/rejected': -0.037841796875, 'rewards/accuracies': 0.8125, 'rewards/margins': 0.838623046875, 'logps/chosen': -372.25, 'logps/rejected': -83.875, 'logits/chosen': -0.961181640625, 'logits/rejected': -1.10107421875, 'epoch': 0.06}
  6%|█████▉                                                                                         | 129/2044 [37:57<9:24:39, 17.69s/it]  6%|██████                                                                                         | 130/2044 [38:16<9:33:54, 17.99s/it]                                                                                                                                         {'loss': 0.519, 'grad_norm': 37.27045119747944, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.64306640625, 'rewards/rejected': 0.1359405517578125, 'rewards/accuracies': 0.78125, 'rewards/margins': 0.50634765625, 'logps/chosen': -262.75, 'logps/rejected': -115.25, 'logits/chosen': -0.912841796875, 'logits/rejected': -1.04345703125, 'epoch': 0.06}
  6%|██████                                                                                         | 130/2044 [38:16<9:33:54, 17.99s/it]  6%|██████                                                                                         | 131/2044 [38:35<9:40:53, 18.22s/it]                                                                                                                                         {'loss': 0.4915, 'grad_norm': 49.572670486294214, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7998046875, 'rewards/rejected': 0.08515167236328125, 'rewards/accuracies': 0.75, 'rewards/margins': 0.71435546875, 'logps/chosen': -343.875, 'logps/rejected': -160.0, 'logits/chosen': -0.9326171875, 'logits/rejected': -1.0087890625, 'epoch': 0.06}
  6%|██████                                                                                         | 131/2044 [38:35<9:40:53, 18.22s/it]  6%|██████▏                                                                                        | 132/2044 [38:52<9:31:33, 17.94s/it]                                                                                                                                         {'loss': 0.5269, 'grad_norm': 43.16391019751907, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.60009765625, 'rewards/rejected': 0.1060791015625, 'rewards/accuracies': 0.75, 'rewards/margins': 0.494384765625, 'logps/chosen': -244.0625, 'logps/rejected': -142.375, 'logits/chosen': -0.9921875, 'logits/rejected': -1.06787109375, 'epoch': 0.06}
  6%|██████▏                                                                                        | 132/2044 [38:52<9:31:33, 17.94s/it]  7%|██████▏                                                                                        | 133/2044 [39:10<9:30:16, 17.91s/it]                                                                                                                                         {'loss': 0.4971, 'grad_norm': 37.65612678818504, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6796875, 'rewards/rejected': 0.078704833984375, 'rewards/accuracies': 0.65625, 'rewards/margins': 0.6011962890625, 'logps/chosen': -289.125, 'logps/rejected': -128.96875, 'logits/chosen': -0.951171875, 'logits/rejected': -0.93701171875, 'epoch': 0.07}
  7%|██████▏                                                                                        | 133/2044 [39:10<9:30:16, 17.91s/it]  7%|██████▏                                                                                        | 134/2044 [39:28<9:29:10, 17.88s/it]                                                                                                                                         {'loss': 0.5103, 'grad_norm': 38.574038897819136, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.662841796875, 'rewards/rejected': 0.108245849609375, 'rewards/accuracies': 0.75, 'rewards/margins': 0.55517578125, 'logps/chosen': -234.3125, 'logps/rejected': -128.5, 'logits/chosen': -0.7984619140625, 'logits/rejected': -0.8759765625, 'epoch': 0.07}
  7%|██████▏                                                                                        | 134/2044 [39:28<9:29:10, 17.88s/it]  7%|██████▎                                                                                        | 135/2044 [39:46<9:31:41, 17.97s/it]                                                                                                                                         {'loss': 0.4883, 'grad_norm': 34.56972076472416, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6953125, 'rewards/rejected': 0.0722808837890625, 'rewards/accuracies': 0.75, 'rewards/margins': 0.62353515625, 'logps/chosen': -258.75, 'logps/rejected': -102.4375, 'logits/chosen': -0.91015625, 'logits/rejected': -1.01123046875, 'epoch': 0.07}
  7%|██████▎                                                                                        | 135/2044 [39:46<9:31:41, 17.97s/it]  7%|██████▎                                                                                        | 136/2044 [40:04<9:28:02, 17.86s/it]                                                                                                                                         {'loss': 0.4902, 'grad_norm': 33.04472663257335, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.719482421875, 'rewards/rejected': 0.0778350830078125, 'rewards/accuracies': 0.828125, 'rewards/margins': 0.6416015625, 'logps/chosen': -298.0625, 'logps/rejected': -111.4375, 'logits/chosen': -1.080078125, 'logits/rejected': -0.912109375, 'epoch': 0.07}
  7%|██████▎                                                                                        | 136/2044 [40:04<9:28:02, 17.86s/it]  7%|██████▎                                                                                        | 137/2044 [40:20<9:12:40, 17.39s/it]                                                                                                                                         {'loss': 0.4443, 'grad_norm': 32.93262288573423, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7998046875, 'rewards/rejected': -0.0163726806640625, 'rewards/accuracies': 0.8125, 'rewards/margins': 0.81640625, 'logps/chosen': -318.0, 'logps/rejected': -115.15625, 'logits/chosen': -0.99755859375, 'logits/rejected': -1.0771484375, 'epoch': 0.07}
  7%|██████▎                                                                                        | 137/2044 [40:20<9:12:40, 17.39s/it]  7%|██████▍                                                                                        | 138/2044 [40:37<9:12:07, 17.38s/it]                                                                                                                                         {'loss': 0.4739, 'grad_norm': 33.00032496071874, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.77978515625, 'rewards/rejected': 0.04632568359375, 'rewards/accuracies': 0.734375, 'rewards/margins': 0.73193359375, 'logps/chosen': -298.375, 'logps/rejected': -120.8125, 'logits/chosen': -0.7919921875, 'logits/rejected': -0.93505859375, 'epoch': 0.07}
  7%|██████▍                                                                                        | 138/2044 [40:37<9:12:07, 17.38s/it]  7%|██████▍                                                                                        | 139/2044 [40:56<9:26:01, 17.83s/it]                                                                                                                                         {'loss': 0.4697, 'grad_norm': 34.90872599402551, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.78369140625, 'rewards/rejected': 0.0673065185546875, 'rewards/accuracies': 0.734375, 'rewards/margins': 0.715576171875, 'logps/chosen': -324.875, 'logps/rejected': -149.875, 'logits/chosen': -0.936767578125, 'logits/rejected': -0.9541015625, 'epoch': 0.07}
  7%|██████▍                                                                                        | 139/2044 [40:56<9:26:01, 17.83s/it]  7%|██████▌                                                                                        | 140/2044 [41:13<9:22:06, 17.71s/it]                                                                                                                                         {'loss': 0.4341, 'grad_norm': 27.480443979959347, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7236328125, 'rewards/rejected': -0.0648193359375, 'rewards/accuracies': 0.875, 'rewards/margins': 0.78857421875, 'logps/chosen': -247.375, 'logps/rejected': -69.46875, 'logits/chosen': -0.82470703125, 'logits/rejected': -0.8525390625, 'epoch': 0.07}
  7%|██████▌                                                                                        | 140/2044 [41:13<9:22:06, 17.71s/it]  7%|██████▌                                                                                        | 141/2044 [41:32<9:33:04, 18.07s/it]                                                                                                                                         {'loss': 0.5093, 'grad_norm': 39.605255039594915, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6845703125, 'rewards/rejected': 0.134674072265625, 'rewards/accuracies': 0.8125, 'rewards/margins': 0.5496826171875, 'logps/chosen': -253.5, 'logps/rejected': -145.5, 'logits/chosen': -0.981201171875, 'logits/rejected': -1.03564453125, 'epoch': 0.07}
  7%|██████▌                                                                                        | 141/2044 [41:32<9:33:04, 18.07s/it]  7%|██████▌                                                                                        | 142/2044 [41:50<9:23:55, 17.79s/it]                                                                                                                                         {'loss': 0.4492, 'grad_norm': 38.46944226553341, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.793212890625, 'rewards/rejected': -0.0098876953125, 'rewards/accuracies': 0.84375, 'rewards/margins': 0.80279541015625, 'logps/chosen': -278.25, 'logps/rejected': -110.71875, 'logits/chosen': -1.06787109375, 'logits/rejected': -0.9931640625, 'epoch': 0.07}
  7%|██████▌                                                                                        | 142/2044 [41:50<9:23:55, 17.79s/it]  7%|██████▋                                                                                        | 143/2044 [42:08<9:33:30, 18.10s/it]                                                                                                                                         {'loss': 0.4861, 'grad_norm': 35.57017345370336, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.81884765625, 'rewards/rejected': 0.121368408203125, 'rewards/accuracies': 0.75, 'rewards/margins': 0.697265625, 'logps/chosen': -299.875, 'logps/rejected': -116.875, 'logits/chosen': -1.021240234375, 'logits/rejected': -0.91845703125, 'epoch': 0.07}
  7%|██████▋                                                                                        | 143/2044 [42:08<9:33:30, 18.10s/it]  7%|██████▋                                                                                        | 144/2044 [42:26<9:25:15, 17.85s/it]                                                                                                                                         {'loss': 0.4487, 'grad_norm': 32.567531024352405, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.74951171875, 'rewards/rejected': -0.000762939453125, 'rewards/accuracies': 0.859375, 'rewards/margins': 0.75, 'logps/chosen': -258.6875, 'logps/rejected': -89.0625, 'logits/chosen': -1.0146484375, 'logits/rejected': -0.990234375, 'epoch': 0.07}
  7%|██████▋                                                                                        | 144/2044 [42:26<9:25:15, 17.85s/it]  7%|██████▋                                                                                        | 145/2044 [42:44<9:30:30, 18.03s/it]                                                                                                                                         {'loss': 0.5276, 'grad_norm': 58.53979898379725, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.838623046875, 'rewards/rejected': 0.12373733520507812, 'rewards/accuracies': 0.671875, 'rewards/margins': 0.7139892578125, 'logps/chosen': -347.0, 'logps/rejected': -167.125, 'logits/chosen': -1.09765625, 'logits/rejected': -1.18994140625, 'epoch': 0.07}
  7%|██████▋                                                                                        | 145/2044 [42:44<9:30:30, 18.03s/it]  7%|██████▊                                                                                        | 146/2044 [43:03<9:36:48, 18.23s/it]                                                                                                                                         {'loss': 0.4778, 'grad_norm': 50.60690258893227, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.780029296875, 'rewards/rejected': 0.0667266845703125, 'rewards/accuracies': 0.765625, 'rewards/margins': 0.71258544921875, 'logps/chosen': -279.875, 'logps/rejected': -157.25, 'logits/chosen': -0.860107421875, 'logits/rejected': -1.0693359375, 'epoch': 0.07}
  7%|██████▊                                                                                        | 146/2044 [43:03<9:36:48, 18.23s/it]  7%|██████▊                                                                                        | 147/2044 [43:19<9:18:31, 17.67s/it]                                                                                                                                         {'loss': 0.4995, 'grad_norm': 58.59952399705485, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.79638671875, 'rewards/rejected': 0.0216064453125, 'rewards/accuracies': 0.8125, 'rewards/margins': 0.77490234375, 'logps/chosen': -259.625, 'logps/rejected': -159.359375, 'logits/chosen': -1.14111328125, 'logits/rejected': -1.05224609375, 'epoch': 0.07}
  7%|██████▊                                                                                        | 147/2044 [43:19<9:18:31, 17.67s/it]  7%|██████▉                                                                                        | 148/2044 [43:36<9:11:54, 17.47s/it]                                                                                                                                         {'loss': 0.4666, 'grad_norm': 33.09057453470177, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.722412109375, 'rewards/rejected': -0.0102691650390625, 'rewards/accuracies': 0.796875, 'rewards/margins': 0.7322998046875, 'logps/chosen': -219.5, 'logps/rejected': -85.78125, 'logits/chosen': -0.9462890625, 'logits/rejected': -0.99609375, 'epoch': 0.07}
  7%|██████▉                                                                                        | 148/2044 [43:36<9:11:54, 17.47s/it]  7%|██████▉                                                                                        | 149/2044 [43:55<9:28:44, 18.01s/it]                                                                                                                                         {'loss': 0.5012, 'grad_norm': 41.36893290865973, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.78173828125, 'rewards/rejected': 0.0977783203125, 'rewards/accuracies': 0.71875, 'rewards/margins': 0.6844482421875, 'logps/chosen': -299.0, 'logps/rejected': -144.3125, 'logits/chosen': -0.99951171875, 'logits/rejected': -0.9912109375, 'epoch': 0.07}
  7%|██████▉                                                                                        | 149/2044 [43:55<9:28:44, 18.01s/it]  7%|██████▉                                                                                        | 150/2044 [44:13<9:23:00, 17.84s/it]                                                                                                                                         {'loss': 0.4497, 'grad_norm': 36.52912061273363, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.857421875, 'rewards/rejected': 0.00439453125, 'rewards/accuracies': 0.828125, 'rewards/margins': 0.85205078125, 'logps/chosen': -324.75, 'logps/rejected': -111.40625, 'logits/chosen': -1.055419921875, 'logits/rejected': -1.1279296875, 'epoch': 0.07}
  7%|██████▉                                                                                        | 150/2044 [44:13<9:23:00, 17.84s/it]  7%|███████                                                                                        | 151/2044 [44:31<9:21:55, 17.81s/it]                                                                                                                                         {'loss': 0.4783, 'grad_norm': 34.90069272582988, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.77294921875, 'rewards/rejected': 0.078094482421875, 'rewards/accuracies': 0.75, 'rewards/margins': 0.694580078125, 'logps/chosen': -275.1875, 'logps/rejected': -114.8125, 'logits/chosen': -0.921875, 'logits/rejected': -0.90673828125, 'epoch': 0.07}
  7%|███████                                                                                        | 151/2044 [44:31<9:21:55, 17.81s/it]  7%|███████                                                                                        | 152/2044 [44:49<9:28:51, 18.04s/it]                                                                                                                                         {'loss': 0.4287, 'grad_norm': 44.13754231777764, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9208984375, 'rewards/rejected': -0.043121337890625, 'rewards/accuracies': 0.828125, 'rewards/margins': 0.9638671875, 'logps/chosen': -328.5, 'logps/rejected': -139.6875, 'logits/chosen': -0.943115234375, 'logits/rejected': -0.9384765625, 'epoch': 0.07}
  7%|███████                                                                                        | 152/2044 [44:49<9:28:51, 18.04s/it]  7%|███████                                                                                        | 153/2044 [45:07<9:30:29, 18.10s/it]                                                                                                                                         {'loss': 0.4319, 'grad_norm': 41.55491179454554, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.87255859375, 'rewards/rejected': 0.010986328125, 'rewards/accuracies': 0.84375, 'rewards/margins': 0.86181640625, 'logps/chosen': -334.625, 'logps/rejected': -137.265625, 'logits/chosen': -1.13525390625, 'logits/rejected': -1.08740234375, 'epoch': 0.07}
  7%|███████                                                                                        | 153/2044 [45:07<9:30:29, 18.10s/it]  8%|███████▏                                                                                       | 154/2044 [45:25<9:27:03, 18.00s/it]                                                                                                                                         {'loss': 0.4709, 'grad_norm': 53.47621596761274, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.88427734375, 'rewards/rejected': 0.019317626953125, 'rewards/accuracies': 0.796875, 'rewards/margins': 0.865234375, 'logps/chosen': -313.625, 'logps/rejected': -154.90625, 'logits/chosen': -0.80810546875, 'logits/rejected': -1.10400390625, 'epoch': 0.08}
  8%|███████▏                                                                                       | 154/2044 [45:25<9:27:03, 18.00s/it]  8%|███████▏                                                                                       | 155/2044 [45:43<9:20:54, 17.82s/it]                                                                                                                                         {'loss': 0.3953, 'grad_norm': 34.344779169564895, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.95556640625, 'rewards/rejected': -0.07977294921875, 'rewards/accuracies': 0.890625, 'rewards/margins': 1.03466796875, 'logps/chosen': -351.625, 'logps/rejected': -146.9375, 'logits/chosen': -0.981689453125, 'logits/rejected': -1.048828125, 'epoch': 0.08}
  8%|███████▏                                                                                       | 155/2044 [45:43<9:20:54, 17.82s/it]  8%|███████▎                                                                                       | 156/2044 [46:01<9:28:51, 18.08s/it]                                                                                                                                         {'loss': 0.4166, 'grad_norm': 36.077967146948204, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.89208984375, 'rewards/rejected': -0.0618438720703125, 'rewards/accuracies': 0.828125, 'rewards/margins': 0.953857421875, 'logps/chosen': -307.375, 'logps/rejected': -115.1875, 'logits/chosen': -0.92919921875, 'logits/rejected': -1.025390625, 'epoch': 0.08}
  8%|███████▎                                                                                       | 156/2044 [46:01<9:28:51, 18.08s/it]  8%|███████▎                                                                                       | 157/2044 [46:20<9:30:31, 18.14s/it]                                                                                                                                         {'loss': 0.4546, 'grad_norm': 42.971480674373375, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.96923828125, 'rewards/rejected': 0.071014404296875, 'rewards/accuracies': 0.84375, 'rewards/margins': 0.899169921875, 'logps/chosen': -367.75, 'logps/rejected': -151.34375, 'logits/chosen': -0.8421630859375, 'logits/rejected': -0.7705078125, 'epoch': 0.08}
  8%|███████▎                                                                                       | 157/2044 [46:20<9:30:31, 18.14s/it]  8%|███████▎                                                                                       | 158/2044 [46:37<9:24:19, 17.95s/it]                                                                                                                                         {'loss': 0.4519, 'grad_norm': 29.896376941298094, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.83642578125, 'rewards/rejected': 0.006500244140625, 'rewards/accuracies': 0.828125, 'rewards/margins': 0.8310546875, 'logps/chosen': -272.125, 'logps/rejected': -99.625, 'logits/chosen': -1.00830078125, 'logits/rejected': -1.0263671875, 'epoch': 0.08}
  8%|███████▎                                                                                       | 158/2044 [46:37<9:24:19, 17.95s/it]  8%|███████▍                                                                                       | 159/2044 [46:55<9:25:21, 18.00s/it]                                                                                                                                         {'loss': 0.4639, 'grad_norm': 37.473537504699316, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.791015625, 'rewards/rejected': 0.046783447265625, 'rewards/accuracies': 0.84375, 'rewards/margins': 0.743896484375, 'logps/chosen': -288.15625, 'logps/rejected': -109.65625, 'logits/chosen': -0.933837890625, 'logits/rejected': -0.9302978515625, 'epoch': 0.08}
  8%|███████▍                                                                                       | 159/2044 [46:55<9:25:21, 18.00s/it]  8%|███████▍                                                                                       | 160/2044 [47:13<9:27:13, 18.06s/it]                                                                                                                                         {'loss': 0.4485, 'grad_norm': 39.095582172284345, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8876953125, 'rewards/rejected': 0.0469512939453125, 'rewards/accuracies': 0.84375, 'rewards/margins': 0.8409423828125, 'logps/chosen': -311.9375, 'logps/rejected': -145.8125, 'logits/chosen': -1.140625, 'logits/rejected': -1.07568359375, 'epoch': 0.08}
  8%|███████▍                                                                                       | 160/2044 [47:13<9:27:13, 18.06s/it]  8%|███████▍                                                                                       | 161/2044 [47:31<9:26:50, 18.06s/it]                                                                                                                                         {'loss': 0.4075, 'grad_norm': 32.412752583766476, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.91552734375, 'rewards/rejected': -0.095977783203125, 'rewards/accuracies': 0.828125, 'rewards/margins': 1.01318359375, 'logps/chosen': -366.375, 'logps/rejected': -97.875, 'logits/chosen': -0.95849609375, 'logits/rejected': -0.98193359375, 'epoch': 0.08}
  8%|███████▍                                                                                       | 161/2044 [47:31<9:26:50, 18.06s/it]  8%|███████▌                                                                                       | 162/2044 [47:49<9:24:06, 17.98s/it]                                                                                                                                         {'loss': 0.3806, 'grad_norm': 33.559477450200255, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.96240234375, 'rewards/rejected': -0.0980224609375, 'rewards/accuracies': 0.890625, 'rewards/margins': 1.0595703125, 'logps/chosen': -357.5625, 'logps/rejected': -113.4375, 'logits/chosen': -0.97900390625, 'logits/rejected': -0.93896484375, 'epoch': 0.08}
  8%|███████▌                                                                                       | 162/2044 [47:49<9:24:06, 17.98s/it]  8%|███████▌                                                                                       | 163/2044 [48:07<9:26:19, 18.06s/it]                                                                                                                                         {'loss': 0.4095, 'grad_norm': 39.66514598279102, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.02978515625, 'rewards/rejected': -0.01068115234375, 'rewards/accuracies': 0.8125, 'rewards/margins': 1.04052734375, 'logps/chosen': -394.5, 'logps/rejected': -148.9375, 'logits/chosen': -0.9541015625, 'logits/rejected': -1.06396484375, 'epoch': 0.08}
  8%|███████▌                                                                                       | 163/2044 [48:07<9:26:19, 18.06s/it]  8%|███████▌                                                                                       | 164/2044 [48:26<9:26:29, 18.08s/it]                                                                                                                                         {'loss': 0.4583, 'grad_norm': 42.734827792050176, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.90673828125, 'rewards/rejected': 0.0121917724609375, 'rewards/accuracies': 0.796875, 'rewards/margins': 0.8935546875, 'logps/chosen': -319.125, 'logps/rejected': -134.03125, 'logits/chosen': -1.078125, 'logits/rejected': -1.0146484375, 'epoch': 0.08}
  8%|███████▌                                                                                       | 164/2044 [48:26<9:26:29, 18.08s/it]  8%|███████▋                                                                                       | 165/2044 [48:41<8:58:16, 17.19s/it]                                                                                                                                         {'loss': 0.3982, 'grad_norm': 28.08460265040159, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8623046875, 'rewards/rejected': -0.14263916015625, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.00439453125, 'logps/chosen': -282.875, 'logps/rejected': -70.28125, 'logits/chosen': -1.06640625, 'logits/rejected': -1.07958984375, 'epoch': 0.08}
  8%|███████▋                                                                                       | 165/2044 [48:41<8:58:16, 17.19s/it]  8%|███████▋                                                                                       | 166/2044 [48:58<8:55:32, 17.11s/it]                                                                                                                                         {'loss': 0.4321, 'grad_norm': 36.95827315715285, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7744140625, 'rewards/rejected': -0.09613037109375, 'rewards/accuracies': 0.890625, 'rewards/margins': 0.87109375, 'logps/chosen': -245.375, 'logps/rejected': -101.40625, 'logits/chosen': -0.7919921875, 'logits/rejected': -0.94580078125, 'epoch': 0.08}
  8%|███████▋                                                                                       | 166/2044 [48:58<8:55:32, 17.11s/it]  8%|███████▊                                                                                       | 167/2044 [49:15<8:53:16, 17.05s/it]                                                                                                                                         {'loss': 0.3701, 'grad_norm': 33.1232751050321, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.015625, 'rewards/rejected': -0.156982421875, 'rewards/accuracies': 0.828125, 'rewards/margins': 1.17333984375, 'logps/chosen': -355.625, 'logps/rejected': -110.34375, 'logits/chosen': -1.021484375, 'logits/rejected': -0.9296875, 'epoch': 0.08}
  8%|███████▊                                                                                       | 167/2044 [49:15<8:53:16, 17.05s/it]  8%|███████▊                                                                                       | 168/2044 [49:32<9:01:49, 17.33s/it]                                                                                                                                         {'loss': 0.3848, 'grad_norm': 28.7313008001472, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.87646484375, 'rewards/rejected': -0.142425537109375, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.0185546875, 'logps/chosen': -279.25, 'logps/rejected': -81.25, 'logits/chosen': -0.902587890625, 'logits/rejected': -0.99365234375, 'epoch': 0.08}
  8%|███████▊                                                                                       | 168/2044 [49:32<9:01:49, 17.33s/it]  8%|███████▊                                                                                       | 169/2044 [49:51<9:11:08, 17.64s/it]                                                                                                                                         {'loss': 0.4553, 'grad_norm': 33.32955938885488, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.76953125, 'rewards/rejected': -0.031768798828125, 'rewards/accuracies': 0.78125, 'rewards/margins': 0.7998046875, 'logps/chosen': -257.0, 'logps/rejected': -106.0625, 'logits/chosen': -1.0439453125, 'logits/rejected': -1.05615234375, 'epoch': 0.08}
  8%|███████▊                                                                                       | 169/2044 [49:51<9:11:08, 17.64s/it]  8%|███████▉                                                                                       | 170/2044 [50:09<9:12:24, 17.69s/it]                                                                                                                                         {'loss': 0.4083, 'grad_norm': 33.52879748426135, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.912109375, 'rewards/rejected': -0.08893966674804688, 'rewards/accuracies': 0.796875, 'rewards/margins': 1.00146484375, 'logps/chosen': -298.875, 'logps/rejected': -113.71875, 'logits/chosen': -0.94580078125, 'logits/rejected': -1.095703125, 'epoch': 0.08}
  8%|███████▉                                                                                       | 170/2044 [50:09<9:12:24, 17.69s/it]  8%|███████▉                                                                                       | 171/2044 [50:27<9:17:48, 17.87s/it]                                                                                                                                         {'loss': 0.4022, 'grad_norm': 37.01895517564822, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.91455078125, 'rewards/rejected': -0.087799072265625, 'rewards/accuracies': 0.828125, 'rewards/margins': 1.00244140625, 'logps/chosen': -319.5, 'logps/rejected': -117.4375, 'logits/chosen': -0.892578125, 'logits/rejected': -0.970458984375, 'epoch': 0.08}
  8%|███████▉                                                                                       | 171/2044 [50:27<9:17:48, 17.87s/it]  8%|███████▉                                                                                       | 172/2044 [50:44<9:13:14, 17.73s/it]                                                                                                                                         {'loss': 0.355, 'grad_norm': 33.09186730439619, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.95751953125, 'rewards/rejected': -0.16792011260986328, 'rewards/accuracies': 0.90625, 'rewards/margins': 1.1259765625, 'logps/chosen': -351.125, 'logps/rejected': -103.875, 'logits/chosen': -1.09619140625, 'logits/rejected': -1.00244140625, 'epoch': 0.08}
  8%|███████▉                                                                                       | 172/2044 [50:44<9:13:14, 17.73s/it]  8%|████████                                                                                       | 173/2044 [51:03<9:22:05, 18.03s/it]                                                                                                                                         {'loss': 0.3734, 'grad_norm': 33.102289437631924, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.974609375, 'rewards/rejected': -0.1005401611328125, 'rewards/accuracies': 0.875, 'rewards/margins': 1.074462890625, 'logps/chosen': -326.75, 'logps/rejected': -109.0, 'logits/chosen': -1.04833984375, 'logits/rejected': -1.013671875, 'epoch': 0.08}
  8%|████████                                                                                       | 173/2044 [51:03<9:22:05, 18.03s/it]  9%|████████                                                                                       | 174/2044 [51:21<9:22:46, 18.06s/it]                                                                                                                                         {'loss': 0.4141, 'grad_norm': 40.29510867590168, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.986328125, 'rewards/rejected': -0.022705078125, 'rewards/accuracies': 0.75, 'rewards/margins': 1.009765625, 'logps/chosen': -327.0, 'logps/rejected': -140.875, 'logits/chosen': -1.06396484375, 'logits/rejected': -1.1103515625, 'epoch': 0.09}
  9%|████████                                                                                       | 174/2044 [51:21<9:22:46, 18.06s/it]  9%|████████▏                                                                                      | 175/2044 [51:39<9:18:39, 17.93s/it]                                                                                                                                         {'loss': 0.4009, 'grad_norm': 35.24626682662763, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9326171875, 'rewards/rejected': -0.0901336669921875, 'rewards/accuracies': 0.875, 'rewards/margins': 1.02197265625, 'logps/chosen': -304.25, 'logps/rejected': -120.5, 'logits/chosen': -0.982421875, 'logits/rejected': -1.08837890625, 'epoch': 0.09}
  9%|████████▏                                                                                      | 175/2044 [51:39<9:18:39, 17.93s/it]  9%|████████▏                                                                                      | 176/2044 [51:55<9:03:49, 17.47s/it]                                                                                                                                         {'loss': 0.448, 'grad_norm': 28.71022753621551, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.834716796875, 'rewards/rejected': -0.01715087890625, 'rewards/accuracies': 0.8125, 'rewards/margins': 0.851806640625, 'logps/chosen': -234.6875, 'logps/rejected': -98.875, 'logits/chosen': -0.856201171875, 'logits/rejected': -0.95263671875, 'epoch': 0.09}
  9%|████████▏                                                                                      | 176/2044 [51:55<9:03:49, 17.47s/it]  9%|████████▏                                                                                      | 177/2044 [52:13<9:02:05, 17.42s/it]                                                                                                                                         {'loss': 0.4727, 'grad_norm': 34.86009514623538, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.79248046875, 'rewards/rejected': 0.0666351318359375, 'rewards/accuracies': 0.8125, 'rewards/margins': 0.7252197265625, 'logps/chosen': -248.25, 'logps/rejected': -126.125, 'logits/chosen': -0.96728515625, 'logits/rejected': -1.12890625, 'epoch': 0.09}
  9%|████████▏                                                                                      | 177/2044 [52:13<9:02:05, 17.42s/it]  9%|████████▎                                                                                      | 178/2044 [52:30<9:02:49, 17.45s/it]                                                                                                                                         {'loss': 0.4187, 'grad_norm': 34.73599064948583, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.82958984375, 'rewards/rejected': -0.09002685546875, 'rewards/accuracies': 0.796875, 'rewards/margins': 0.919189453125, 'logps/chosen': -345.125, 'logps/rejected': -173.78125, 'logits/chosen': -1.05859375, 'logits/rejected': -1.11962890625, 'epoch': 0.09}
  9%|████████▎                                                                                      | 178/2044 [52:30<9:02:49, 17.45s/it]  9%|████████▎                                                                                      | 179/2044 [52:48<9:02:57, 17.47s/it]                                                                                                                                         {'loss': 0.3899, 'grad_norm': 36.029124638747454, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.89111328125, 'rewards/rejected': -0.160186767578125, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.0517578125, 'logps/chosen': -274.875, 'logps/rejected': -112.375, 'logits/chosen': -0.93359375, 'logits/rejected': -1.1708984375, 'epoch': 0.09}
  9%|████████▎                                                                                      | 179/2044 [52:48<9:02:57, 17.47s/it]  9%|████████▎                                                                                      | 180/2044 [53:05<9:02:25, 17.46s/it]                                                                                                                                         {'loss': 0.4495, 'grad_norm': 36.37293339863681, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9345703125, 'rewards/rejected': 0.0954437255859375, 'rewards/accuracies': 0.796875, 'rewards/margins': 0.83935546875, 'logps/chosen': -371.0, 'logps/rejected': -230.625, 'logits/chosen': -1.07177734375, 'logits/rejected': -1.20703125, 'epoch': 0.09}
  9%|████████▎                                                                                      | 180/2044 [53:05<9:02:25, 17.46s/it]  9%|████████▍                                                                                      | 181/2044 [53:24<9:14:56, 17.87s/it]                                                                                                                                         {'loss': 0.394, 'grad_norm': 35.99705277908278, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.95263671875, 'rewards/rejected': -0.1048583984375, 'rewards/accuracies': 0.875, 'rewards/margins': 1.05908203125, 'logps/chosen': -302.0, 'logps/rejected': -132.6875, 'logits/chosen': -0.97412109375, 'logits/rejected': -1.078125, 'epoch': 0.09}
  9%|████████▍                                                                                      | 181/2044 [53:24<9:14:56, 17.87s/it]  9%|████████▍                                                                                      | 182/2044 [53:40<8:57:22, 17.32s/it]                                                                                                                                         {'loss': 0.3938, 'grad_norm': 30.095182207278153, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.931640625, 'rewards/rejected': -0.17822265625, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.110107421875, 'logps/chosen': -248.0, 'logps/rejected': -80.5, 'logits/chosen': -0.9326171875, 'logits/rejected': -1.18701171875, 'epoch': 0.09}
  9%|████████▍                                                                                      | 182/2044 [53:40<8:57:22, 17.32s/it]  9%|████████▌                                                                                      | 183/2044 [53:57<8:59:18, 17.39s/it]                                                                                                                                         {'loss': 0.4119, 'grad_norm': 29.903487816002556, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9296875, 'rewards/rejected': -0.1388702392578125, 'rewards/accuracies': 0.78125, 'rewards/margins': 1.068359375, 'logps/chosen': -304.25, 'logps/rejected': -119.0625, 'logits/chosen': -1.1552734375, 'logits/rejected': -1.02001953125, 'epoch': 0.09}
  9%|████████▌                                                                                      | 183/2044 [53:57<8:59:18, 17.39s/it]  9%|████████▌                                                                                      | 184/2044 [54:17<9:15:16, 17.91s/it]                                                                                                                                         {'loss': 0.4275, 'grad_norm': 40.562586500708484, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9306640625, 'rewards/rejected': 0.02484130859375, 'rewards/accuracies': 0.78125, 'rewards/margins': 0.905029296875, 'logps/chosen': -294.625, 'logps/rejected': -128.625, 'logits/chosen': -0.89501953125, 'logits/rejected': -0.89990234375, 'epoch': 0.09}
  9%|████████▌                                                                                      | 184/2044 [54:17<9:15:16, 17.91s/it]  9%|████████▌                                                                                      | 185/2044 [54:35<9:15:57, 17.94s/it]                                                                                                                                         {'loss': 0.4258, 'grad_norm': 38.1452276575771, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.01611328125, 'rewards/rejected': -0.0045166015625, 'rewards/accuracies': 0.734375, 'rewards/margins': 1.021240234375, 'logps/chosen': -397.0, 'logps/rejected': -188.15625, 'logits/chosen': -1.01513671875, 'logits/rejected': -1.052734375, 'epoch': 0.09}
  9%|████████▌                                                                                      | 185/2044 [54:35<9:15:57, 17.94s/it]  9%|████████▋                                                                                      | 186/2044 [54:51<9:00:29, 17.45s/it]                                                                                                                                         {'loss': 0.3716, 'grad_norm': 29.648396654098768, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.93115234375, 'rewards/rejected': -0.175018310546875, 'rewards/accuracies': 0.875, 'rewards/margins': 1.107421875, 'logps/chosen': -308.9375, 'logps/rejected': -90.0625, 'logits/chosen': -0.97314453125, 'logits/rejected': -1.03759765625, 'epoch': 0.09}
  9%|████████▋                                                                                      | 186/2044 [54:51<9:00:29, 17.45s/it]  9%|████████▋                                                                                      | 187/2044 [55:09<9:05:21, 17.62s/it]                                                                                                                                         {'loss': 0.3887, 'grad_norm': 32.23823570221046, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.08056640625, 'rewards/rejected': -0.06024169921875, 'rewards/accuracies': 0.890625, 'rewards/margins': 1.1396484375, 'logps/chosen': -294.5, 'logps/rejected': -108.34375, 'logits/chosen': -0.955078125, 'logits/rejected': -0.914306640625, 'epoch': 0.09}
  9%|████████▋                                                                                      | 187/2044 [55:09<9:05:21, 17.62s/it]  9%|████████▋                                                                                      | 188/2044 [55:26<9:00:03, 17.46s/it]                                                                                                                                         {'loss': 0.4187, 'grad_norm': 28.640835086031114, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.91943359375, 'rewards/rejected': -0.043243408203125, 'rewards/accuracies': 0.859375, 'rewards/margins': 0.9619140625, 'logps/chosen': -306.0, 'logps/rejected': -99.40625, 'logits/chosen': -1.15625, 'logits/rejected': -0.98046875, 'epoch': 0.09}
  9%|████████▋                                                                                      | 188/2044 [55:26<9:00:03, 17.46s/it]  9%|████████▊                                                                                      | 189/2044 [55:45<9:12:14, 17.86s/it]                                                                                                                                         {'loss': 0.4292, 'grad_norm': 44.18056455125494, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.05615234375, 'rewards/rejected': -0.00506591796875, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.061767578125, 'logps/chosen': -319.875, 'logps/rejected': -143.46875, 'logits/chosen': -1.0009765625, 'logits/rejected': -1.005859375, 'epoch': 0.09}
  9%|████████▊                                                                                      | 189/2044 [55:45<9:12:14, 17.86s/it]  9%|████████▊                                                                                      | 190/2044 [56:03<9:19:31, 18.11s/it]                                                                                                                                         {'loss': 0.4211, 'grad_norm': 38.56629275675062, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.88671875, 'rewards/rejected': -0.0787811279296875, 'rewards/accuracies': 0.8125, 'rewards/margins': 0.96435546875, 'logps/chosen': -292.25, 'logps/rejected': -130.0625, 'logits/chosen': -0.88134765625, 'logits/rejected': -1.0625, 'epoch': 0.09}
  9%|████████▊                                                                                      | 190/2044 [56:03<9:19:31, 18.11s/it]  9%|████████▉                                                                                      | 191/2044 [56:21<9:15:13, 17.98s/it]                                                                                                                                         {'loss': 0.4617, 'grad_norm': 34.14681313096708, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.83251953125, 'rewards/rejected': 0.0287322998046875, 'rewards/accuracies': 0.8125, 'rewards/margins': 0.8046875, 'logps/chosen': -227.1875, 'logps/rejected': -142.140625, 'logits/chosen': -0.8310546875, 'logits/rejected': -1.06298828125, 'epoch': 0.09}
  9%|████████▉                                                                                      | 191/2044 [56:21<9:15:13, 17.98s/it]  9%|████████▉                                                                                      | 192/2044 [56:37<8:50:46, 17.20s/it]                                                                                                                                         {'loss': 0.3657, 'grad_norm': 30.31477865748489, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0205078125, 'rewards/rejected': -0.18701171875, 'rewards/accuracies': 0.921875, 'rewards/margins': 1.20703125, 'logps/chosen': -307.625, 'logps/rejected': -96.0625, 'logits/chosen': -1.0537109375, 'logits/rejected': -0.94873046875, 'epoch': 0.09}
  9%|████████▉                                                                                      | 192/2044 [56:37<8:50:46, 17.20s/it]  9%|████████▉                                                                                      | 193/2044 [56:53<8:47:32, 17.10s/it]                                                                                                                                         {'loss': 0.384, 'grad_norm': 27.035352437859963, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8623046875, 'rewards/rejected': -0.1643829345703125, 'rewards/accuracies': 0.890625, 'rewards/margins': 1.0263671875, 'logps/chosen': -234.0, 'logps/rejected': -72.625, 'logits/chosen': -1.029296875, 'logits/rejected': -1.1044921875, 'epoch': 0.09}
  9%|████████▉                                                                                      | 193/2044 [56:53<8:47:32, 17.10s/it]  9%|█████████                                                                                      | 194/2044 [57:12<9:00:35, 17.53s/it]                                                                                                                                         {'loss': 0.4231, 'grad_norm': 36.75423153812461, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.95263671875, 'rewards/rejected': -0.075775146484375, 'rewards/accuracies': 0.8125, 'rewards/margins': 1.029296875, 'logps/chosen': -306.0, 'logps/rejected': -136.15625, 'logits/chosen': -1.00732421875, 'logits/rejected': -1.09912109375, 'epoch': 0.09}
  9%|█████████                                                                                      | 194/2044 [57:12<9:00:35, 17.53s/it] 10%|█████████                                                                                      | 195/2044 [57:29<8:52:06, 17.27s/it]                                                                                                                                         {'loss': 0.377, 'grad_norm': 30.582147446133106, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0234375, 'rewards/rejected': -0.14874267578125, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.171875, 'logps/chosen': -307.0, 'logps/rejected': -91.1875, 'logits/chosen': -1.095703125, 'logits/rejected': -0.9510498046875, 'epoch': 0.1}
 10%|█████████                                                                                      | 195/2044 [57:29<8:52:06, 17.27s/it] 10%|█████████                                                                                      | 196/2044 [57:47<9:03:29, 17.65s/it]                                                                                                                                         {'loss': 0.4207, 'grad_norm': 36.50852522194823, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.93701171875, 'rewards/rejected': -0.034759521484375, 'rewards/accuracies': 0.796875, 'rewards/margins': 0.9716796875, 'logps/chosen': -348.625, 'logps/rejected': -141.0625, 'logits/chosen': -1.13916015625, 'logits/rejected': -0.943359375, 'epoch': 0.1}
 10%|█████████                                                                                      | 196/2044 [57:47<9:03:29, 17.65s/it] 10%|█████████▏                                                                                     | 197/2044 [58:05<9:08:21, 17.81s/it]                                                                                                                                         {'loss': 0.4482, 'grad_norm': 41.09207757224012, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8037109375, 'rewards/rejected': -0.06268310546875, 'rewards/accuracies': 0.78125, 'rewards/margins': 0.86572265625, 'logps/chosen': -264.5, 'logps/rejected': -136.0625, 'logits/chosen': -0.8238525390625, 'logits/rejected': -0.986328125, 'epoch': 0.1}
 10%|█████████▏                                                                                     | 197/2044 [58:05<9:08:21, 17.81s/it] 10%|█████████▏                                                                                     | 198/2044 [58:23<9:09:16, 17.85s/it]                                                                                                                                         {'loss': 0.4026, 'grad_norm': 32.146028356026605, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.03271484375, 'rewards/rejected': -0.145660400390625, 'rewards/accuracies': 0.75, 'rewards/margins': 1.1796875, 'logps/chosen': -277.125, 'logps/rejected': -88.4375, 'logits/chosen': -0.91162109375, 'logits/rejected': -1.005859375, 'epoch': 0.1}
 10%|█████████▏                                                                                     | 198/2044 [58:23<9:09:16, 17.85s/it] 10%|█████████▏                                                                                     | 199/2044 [58:41<9:09:17, 17.86s/it]                                                                                                                                         {'loss': 0.3971, 'grad_norm': 37.03240342144045, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.94970703125, 'rewards/rejected': -0.15789794921875, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.10986328125, 'logps/chosen': -238.9375, 'logps/rejected': -110.90625, 'logits/chosen': -0.99462890625, 'logits/rejected': -1.01171875, 'epoch': 0.1}
 10%|█████████▏                                                                                     | 199/2044 [58:41<9:09:17, 17.86s/it] 10%|█████████▎                                                                                     | 200/2044 [58:59<9:05:07, 17.74s/it]                                                                                                                                         {'loss': 0.4304, 'grad_norm': 35.820937173639514, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.99853515625, 'rewards/rejected': -0.030059814453125, 'rewards/accuracies': 0.765625, 'rewards/margins': 1.0284423828125, 'logps/chosen': -291.125, 'logps/rejected': -128.65625, 'logits/chosen': -0.89599609375, 'logits/rejected': -1.00244140625, 'epoch': 0.1}
 10%|█████████▎                                                                                     | 200/2044 [58:59<9:05:07, 17.74s/it] 10%|█████████▎                                                                                     | 201/2044 [59:17<9:08:43, 17.86s/it]                                                                                                                                         {'loss': 0.4734, 'grad_norm': 33.6231796523698, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8642578125, 'rewards/rejected': 0.1282958984375, 'rewards/accuracies': 0.78125, 'rewards/margins': 0.737060546875, 'logps/chosen': -262.625, 'logps/rejected': -138.4375, 'logits/chosen': -0.7950439453125, 'logits/rejected': -0.9638671875, 'epoch': 0.1}
 10%|█████████▎                                                                                     | 201/2044 [59:17<9:08:43, 17.86s/it] 10%|█████████▍                                                                                     | 202/2044 [59:35<9:12:34, 18.00s/it]                                                                                                                                         {'loss': 0.3979, 'grad_norm': 29.506522734307346, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.01025390625, 'rewards/rejected': -0.1151123046875, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.12353515625, 'logps/chosen': -305.125, 'logps/rejected': -97.25, 'logits/chosen': -0.86474609375, 'logits/rejected': -0.9833984375, 'epoch': 0.1}
 10%|█████████▍                                                                                     | 202/2044 [59:35<9:12:34, 18.00s/it] 10%|█████████▍                                                                                     | 203/2044 [59:53<9:15:09, 18.09s/it]                                                                                                                                         {'loss': 0.4097, 'grad_norm': 31.282334755609053, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.92626953125, 'rewards/rejected': -0.154327392578125, 'rewards/accuracies': 0.828125, 'rewards/margins': 1.07958984375, 'logps/chosen': -309.5, 'logps/rejected': -139.125, 'logits/chosen': -0.9775390625, 'logits/rejected': -1.16357421875, 'epoch': 0.1}
 10%|█████████▍                                                                                     | 203/2044 [59:53<9:15:09, 18.09s/it] 10%|█████████▎                                                                                   | 204/2044 [1:00:11<9:14:09, 18.07s/it]                                                                                                                                         {'loss': 0.3928, 'grad_norm': 32.807980848110184, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9384765625, 'rewards/rejected': -0.1368408203125, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.07568359375, 'logps/chosen': -274.375, 'logps/rejected': -109.625, 'logits/chosen': -0.94287109375, 'logits/rejected': -1.0283203125, 'epoch': 0.1}
 10%|█████████▎                                                                                   | 204/2044 [1:00:11<9:14:09, 18.07s/it] 10%|█████████▎                                                                                   | 205/2044 [1:00:28<9:02:40, 17.71s/it]                                                                                                                                         {'loss': 0.3973, 'grad_norm': 31.34089738967413, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.94287109375, 'rewards/rejected': -0.09503173828125, 'rewards/accuracies': 0.890625, 'rewards/margins': 1.03759765625, 'logps/chosen': -263.9375, 'logps/rejected': -94.03125, 'logits/chosen': -0.763671875, 'logits/rejected': -1.1630859375, 'epoch': 0.1}
 10%|█████████▎                                                                                   | 205/2044 [1:00:28<9:02:40, 17.71s/it] 10%|█████████▎                                                                                   | 206/2044 [1:00:46<9:02:56, 17.72s/it]                                                                                                                                         {'loss': 0.3931, 'grad_norm': 32.06027152199408, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.89501953125, 'rewards/rejected': -0.2158050537109375, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.11279296875, 'logps/chosen': -235.4375, 'logps/rejected': -91.8125, 'logits/chosen': -1.1064453125, 'logits/rejected': -0.982421875, 'epoch': 0.1}
 10%|█████████▎                                                                                   | 206/2044 [1:00:46<9:02:56, 17.72s/it] 10%|█████████▍                                                                                   | 207/2044 [1:01:02<8:50:03, 17.31s/it]                                                                                                                                         {'loss': 0.3973, 'grad_norm': 31.692246349862142, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9248046875, 'rewards/rejected': -0.18768310546875, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.11328125, 'logps/chosen': -265.5, 'logps/rejected': -99.34375, 'logits/chosen': -1.0419921875, 'logits/rejected': -1.2958984375, 'epoch': 0.1}
 10%|█████████▍                                                                                   | 207/2044 [1:01:02<8:50:03, 17.31s/it] 10%|█████████▍                                                                                   | 208/2044 [1:01:20<8:52:52, 17.41s/it]                                                                                                                                         {'loss': 0.3867, 'grad_norm': 28.745578196471715, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.92041015625, 'rewards/rejected': -0.167388916015625, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.08740234375, 'logps/chosen': -268.875, 'logps/rejected': -96.25, 'logits/chosen': -1.01123046875, 'logits/rejected': -0.92822265625, 'epoch': 0.1}
 10%|█████████▍                                                                                   | 208/2044 [1:01:20<8:52:52, 17.41s/it] 10%|█████████▌                                                                                   | 209/2044 [1:01:36<8:36:28, 16.89s/it]                                                                                                                                         {'loss': 0.3744, 'grad_norm': 33.13742190069526, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.943359375, 'rewards/rejected': -0.22516250610351562, 'rewards/accuracies': 0.875, 'rewards/margins': 1.16796875, 'logps/chosen': -272.25, 'logps/rejected': -109.609375, 'logits/chosen': -1.01318359375, 'logits/rejected': -0.9580078125, 'epoch': 0.1}
 10%|█████████▌                                                                                   | 209/2044 [1:01:36<8:36:28, 16.89s/it] 10%|█████████▌                                                                                   | 210/2044 [1:01:54<8:47:33, 17.26s/it]                                                                                                                                         {'loss': 0.3381, 'grad_norm': 30.97159258092012, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.111328125, 'rewards/rejected': -0.25738525390625, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.36767578125, 'logps/chosen': -353.5, 'logps/rejected': -99.65625, 'logits/chosen': -0.99853515625, 'logits/rejected': -0.95166015625, 'epoch': 0.1}
 10%|█████████▌                                                                                   | 210/2044 [1:01:54<8:47:33, 17.26s/it] 10%|█████████▌                                                                                   | 211/2044 [1:02:11<8:49:48, 17.34s/it]                                                                                                                                         {'loss': 0.3743, 'grad_norm': 28.622780720273028, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.93310546875, 'rewards/rejected': -0.2423095703125, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.17626953125, 'logps/chosen': -284.0, 'logps/rejected': -87.125, 'logits/chosen': -0.88037109375, 'logits/rejected': -0.911224365234375, 'epoch': 0.1}
 10%|█████████▌                                                                                   | 211/2044 [1:02:11<8:49:48, 17.34s/it] 10%|█████████▋                                                                                   | 212/2044 [1:02:29<8:49:15, 17.33s/it]                                                                                                                                         {'loss': 0.4084, 'grad_norm': 38.06045241076545, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8740234375, 'rewards/rejected': -0.1241455078125, 'rewards/accuracies': 0.90625, 'rewards/margins': 0.997314453125, 'logps/chosen': -244.25, 'logps/rejected': -107.09375, 'logits/chosen': -0.97119140625, 'logits/rejected': -0.99560546875, 'epoch': 0.1}
 10%|█████████▋                                                                                   | 212/2044 [1:02:29<8:49:15, 17.33s/it] 10%|█████████▋                                                                                   | 213/2044 [1:02:46<8:52:56, 17.46s/it]                                                                                                                                         {'loss': 0.426, 'grad_norm': 38.23396614825273, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.02490234375, 'rewards/rejected': -0.088134765625, 'rewards/accuracies': 0.8125, 'rewards/margins': 1.11328125, 'logps/chosen': -317.6875, 'logps/rejected': -120.28125, 'logits/chosen': -0.9677734375, 'logits/rejected': -0.99658203125, 'epoch': 0.1}
 10%|█████████▋                                                                                   | 213/2044 [1:02:46<8:52:56, 17.46s/it] 10%|█████████▋                                                                                   | 214/2044 [1:03:03<8:40:05, 17.05s/it]                                                                                                                                         {'loss': 0.3601, 'grad_norm': 26.48511199415815, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.060546875, 'rewards/rejected': -0.1868896484375, 'rewards/accuracies': 0.890625, 'rewards/margins': 1.24658203125, 'logps/chosen': -301.625, 'logps/rejected': -81.78125, 'logits/chosen': -0.999267578125, 'logits/rejected': -0.98828125, 'epoch': 0.1}
 10%|█████████▋                                                                                   | 214/2044 [1:03:03<8:40:05, 17.05s/it] 11%|█████████▊                                                                                   | 215/2044 [1:03:19<8:34:36, 16.88s/it]                                                                                                                                         {'loss': 0.3621, 'grad_norm': 27.24363183998145, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.01611328125, 'rewards/rejected': -0.2120361328125, 'rewards/accuracies': 0.921875, 'rewards/margins': 1.22705078125, 'logps/chosen': -276.1875, 'logps/rejected': -89.375, 'logits/chosen': -0.97021484375, 'logits/rejected': -1.2666015625, 'epoch': 0.11}
 11%|█████████▊                                                                                   | 215/2044 [1:03:19<8:34:36, 16.88s/it] 11%|█████████▊                                                                                   | 216/2044 [1:03:37<8:41:29, 17.12s/it]                                                                                                                                         {'loss': 0.4014, 'grad_norm': 39.53001351695112, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0419921875, 'rewards/rejected': -0.12178993225097656, 'rewards/accuracies': 0.78125, 'rewards/margins': 1.1630859375, 'logps/chosen': -285.25, 'logps/rejected': -131.96875, 'logits/chosen': -0.85693359375, 'logits/rejected': -0.9652099609375, 'epoch': 0.11}
 11%|█████████▊                                                                                   | 216/2044 [1:03:37<8:41:29, 17.12s/it] 11%|█████████▊                                                                                   | 217/2044 [1:03:53<8:33:16, 16.86s/it]                                                                                                                                         {'loss': 0.3662, 'grad_norm': 24.790920269990558, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0224609375, 'rewards/rejected': -0.18248748779296875, 'rewards/accuracies': 0.890625, 'rewards/margins': 1.204833984375, 'logps/chosen': -272.65625, 'logps/rejected': -93.8125, 'logits/chosen': -0.861328125, 'logits/rejected': -1.0234375, 'epoch': 0.11}
 11%|█████████▊                                                                                   | 217/2044 [1:03:53<8:33:16, 16.86s/it] 11%|█████████▉                                                                                   | 218/2044 [1:04:12<8:52:05, 17.48s/it]                                                                                                                                         {'loss': 0.3754, 'grad_norm': 36.106212419927225, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.1435546875, 'rewards/rejected': -0.0445556640625, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.18798828125, 'logps/chosen': -348.125, 'logps/rejected': -133.6875, 'logits/chosen': -1.0048828125, 'logits/rejected': -0.890625, 'epoch': 0.11}
 11%|█████████▉                                                                                   | 218/2044 [1:04:12<8:52:05, 17.48s/it] 11%|█████████▉                                                                                   | 219/2044 [1:04:29<8:47:14, 17.33s/it]                                                                                                                                         {'loss': 0.4119, 'grad_norm': 29.143560044531874, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.92529296875, 'rewards/rejected': -0.1178741455078125, 'rewards/accuracies': 0.828125, 'rewards/margins': 1.041748046875, 'logps/chosen': -247.0, 'logps/rejected': -95.53125, 'logits/chosen': -1.04345703125, 'logits/rejected': -0.98681640625, 'epoch': 0.11}
 11%|█████████▉                                                                                   | 219/2044 [1:04:29<8:47:14, 17.33s/it] 11%|██████████                                                                                   | 220/2044 [1:04:46<8:41:49, 17.17s/it]                                                                                                                                         {'loss': 0.3923, 'grad_norm': 31.217131866860786, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.03515625, 'rewards/rejected': -0.13140869140625, 'rewards/accuracies': 0.8125, 'rewards/margins': 1.1669921875, 'logps/chosen': -354.75, 'logps/rejected': -171.71875, 'logits/chosen': -1.06298828125, 'logits/rejected': -1.08837890625, 'epoch': 0.11}
 11%|██████████                                                                                   | 220/2044 [1:04:46<8:41:49, 17.17s/it] 11%|██████████                                                                                   | 221/2044 [1:05:03<8:47:52, 17.37s/it]                                                                                                                                         {'loss': 0.4353, 'grad_norm': 36.34108848588053, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.87548828125, 'rewards/rejected': -0.120849609375, 'rewards/accuracies': 0.765625, 'rewards/margins': 0.99560546875, 'logps/chosen': -228.75, 'logps/rejected': -117.125, 'logits/chosen': -0.99169921875, 'logits/rejected': -1.015625, 'epoch': 0.11}
 11%|██████████                                                                                   | 221/2044 [1:05:03<8:47:52, 17.37s/it] 11%|██████████                                                                                   | 222/2044 [1:05:20<8:36:24, 17.01s/it]                                                                                                                                         {'loss': 0.377, 'grad_norm': 29.915973669042238, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9267578125, 'rewards/rejected': -0.183441162109375, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.1103515625, 'logps/chosen': -261.5, 'logps/rejected': -131.09375, 'logits/chosen': -0.962890625, 'logits/rejected': -1.015625, 'epoch': 0.11}
 11%|██████████                                                                                   | 222/2044 [1:05:20<8:36:24, 17.01s/it] 11%|██████████▏                                                                                  | 223/2044 [1:05:37<8:42:27, 17.21s/it]                                                                                                                                         {'loss': 0.3712, 'grad_norm': 31.99647363199344, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.041015625, 'rewards/rejected': -0.186279296875, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.22705078125, 'logps/chosen': -361.375, 'logps/rejected': -125.625, 'logits/chosen': -0.805419921875, 'logits/rejected': -0.9453125, 'epoch': 0.11}
 11%|██████████▏                                                                                  | 223/2044 [1:05:37<8:42:27, 17.21s/it] 11%|██████████▏                                                                                  | 224/2044 [1:05:56<8:53:20, 17.58s/it]                                                                                                                                         {'loss': 0.4893, 'grad_norm': 43.21127127303589, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.87548828125, 'rewards/rejected': 0.0411376953125, 'rewards/accuracies': 0.796875, 'rewards/margins': 0.83447265625, 'logps/chosen': -285.5, 'logps/rejected': -145.625, 'logits/chosen': -0.9931640625, 'logits/rejected': -0.98876953125, 'epoch': 0.11}
 11%|██████████▏                                                                                  | 224/2044 [1:05:56<8:53:20, 17.58s/it] 11%|██████████▏                                                                                  | 225/2044 [1:06:13<8:53:38, 17.60s/it]                                                                                                                                         {'loss': 0.3835, 'grad_norm': 31.290455006047512, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9833984375, 'rewards/rejected': -0.184234619140625, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.16650390625, 'logps/chosen': -285.25, 'logps/rejected': -115.09375, 'logits/chosen': -1.07421875, 'logits/rejected': -0.98681640625, 'epoch': 0.11}
 11%|██████████▏                                                                                  | 225/2044 [1:06:13<8:53:38, 17.60s/it] 11%|██████████▎                                                                                  | 226/2044 [1:06:32<9:00:43, 17.85s/it]                                                                                                                                         {'loss': 0.4387, 'grad_norm': 47.80442013106714, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.93359375, 'rewards/rejected': -0.090118408203125, 'rewards/accuracies': 0.796875, 'rewards/margins': 1.024658203125, 'logps/chosen': -284.875, 'logps/rejected': -111.5625, 'logits/chosen': -0.91845703125, 'logits/rejected': -0.940673828125, 'epoch': 0.11}
 11%|██████████▎                                                                                  | 226/2044 [1:06:32<9:00:43, 17.85s/it] 11%|██████████▎                                                                                  | 227/2044 [1:06:50<9:03:10, 17.94s/it]                                                                                                                                         {'loss': 0.3977, 'grad_norm': 40.02428927375866, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.01904296875, 'rewards/rejected': -0.1500244140625, 'rewards/accuracies': 0.8125, 'rewards/margins': 1.16943359375, 'logps/chosen': -324.625, 'logps/rejected': -137.875, 'logits/chosen': -0.957763671875, 'logits/rejected': -0.98095703125, 'epoch': 0.11}
 11%|██████████▎                                                                                  | 227/2044 [1:06:50<9:03:10, 17.94s/it] 11%|██████████▎                                                                                  | 228/2044 [1:07:08<9:07:40, 18.10s/it]                                                                                                                                         {'loss': 0.3784, 'grad_norm': 32.6733873956139, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.09619140625, 'rewards/rejected': -0.15097427368164062, 'rewards/accuracies': 0.921875, 'rewards/margins': 1.24609375, 'logps/chosen': -336.0, 'logps/rejected': -121.0, 'logits/chosen': -0.907470703125, 'logits/rejected': -0.94970703125, 'epoch': 0.11}
 11%|██████████▎                                                                                  | 228/2044 [1:07:08<9:07:40, 18.10s/it] 11%|██████████▍                                                                                  | 229/2044 [1:07:25<8:57:38, 17.77s/it]                                                                                                                                         {'loss': 0.3499, 'grad_norm': 29.450043139749084, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0869140625, 'rewards/rejected': -0.26275634765625, 'rewards/accuracies': 0.9375, 'rewards/margins': 1.34912109375, 'logps/chosen': -350.25, 'logps/rejected': -103.6875, 'logits/chosen': -0.92236328125, 'logits/rejected': -0.9716796875, 'epoch': 0.11}
 11%|██████████▍                                                                                  | 229/2044 [1:07:25<8:57:38, 17.77s/it] 11%|██████████▍                                                                                  | 230/2044 [1:07:43<8:55:04, 17.70s/it]                                                                                                                                         {'loss': 0.3223, 'grad_norm': 31.42123200864471, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0615234375, 'rewards/rejected': -0.32562255859375, 'rewards/accuracies': 0.90625, 'rewards/margins': 1.38818359375, 'logps/chosen': -276.625, 'logps/rejected': -111.6875, 'logits/chosen': -0.95703125, 'logits/rejected': -1.0439453125, 'epoch': 0.11}
 11%|██████████▍                                                                                  | 230/2044 [1:07:43<8:55:04, 17.70s/it] 11%|██████████▌                                                                                  | 231/2044 [1:08:00<8:45:19, 17.39s/it]                                                                                                                                         {'loss': 0.384, 'grad_norm': 28.92006320152864, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.921875, 'rewards/rejected': -0.16316986083984375, 'rewards/accuracies': 0.875, 'rewards/margins': 1.08447265625, 'logps/chosen': -242.375, 'logps/rejected': -112.5625, 'logits/chosen': -0.98779296875, 'logits/rejected': -0.88720703125, 'epoch': 0.11}
 11%|██████████▌                                                                                  | 231/2044 [1:08:00<8:45:19, 17.39s/it] 11%|██████████▌                                                                                  | 232/2044 [1:08:18<8:54:12, 17.69s/it]                                                                                                                                         {'loss': 0.3849, 'grad_norm': 38.657447936344795, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.03466796875, 'rewards/rejected': -0.18056869506835938, 'rewards/accuracies': 0.796875, 'rewards/margins': 1.21435546875, 'logps/chosen': -324.375, 'logps/rejected': -140.5, 'logits/chosen': -0.9912109375, 'logits/rejected': -1.00830078125, 'epoch': 0.11}
 11%|██████████▌                                                                                  | 232/2044 [1:08:18<8:54:12, 17.69s/it] 11%|██████████▌                                                                                  | 233/2044 [1:08:36<8:55:12, 17.73s/it]                                                                                                                                         {'loss': 0.3916, 'grad_norm': 34.896440569352556, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0087890625, 'rewards/rejected': -0.1429443359375, 'rewards/accuracies': 0.875, 'rewards/margins': 1.15234375, 'logps/chosen': -291.625, 'logps/rejected': -127.34375, 'logits/chosen': -0.92724609375, 'logits/rejected': -1.033203125, 'epoch': 0.11}
 11%|██████████▌                                                                                  | 233/2044 [1:08:36<8:55:12, 17.73s/it] 11%|██████████▋                                                                                  | 234/2044 [1:08:52<8:40:03, 17.24s/it]                                                                                                                                         {'loss': 0.3539, 'grad_norm': 32.46323734335668, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.056640625, 'rewards/rejected': -0.3064727783203125, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.3623046875, 'logps/chosen': -350.5, 'logps/rejected': -111.65625, 'logits/chosen': -0.91943359375, 'logits/rejected': -0.935546875, 'epoch': 0.11}
 11%|██████████▋                                                                                  | 234/2044 [1:08:52<8:40:03, 17.24s/it] 11%|██████████▋                                                                                  | 235/2044 [1:09:09<8:37:12, 17.15s/it]                                                                                                                                         {'loss': 0.3495, 'grad_norm': 29.91747691264124, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0986328125, 'rewards/rejected': -0.29962158203125, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.3974609375, 'logps/chosen': -336.5, 'logps/rejected': -107.328125, 'logits/chosen': -1.0185546875, 'logits/rejected': -1.0888671875, 'epoch': 0.11}
 11%|██████████▋                                                                                  | 235/2044 [1:09:09<8:37:12, 17.15s/it] 12%|██████████▋                                                                                  | 236/2044 [1:09:27<8:48:34, 17.54s/it]                                                                                                                                         {'loss': 0.3821, 'grad_norm': 36.46160120782488, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0712890625, 'rewards/rejected': -0.18121337890625, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.25244140625, 'logps/chosen': -349.0, 'logps/rejected': -139.625, 'logits/chosen': -1.15087890625, 'logits/rejected': -1.09912109375, 'epoch': 0.12}
 12%|██████████▋                                                                                  | 236/2044 [1:09:27<8:48:34, 17.54s/it] 12%|██████████▊                                                                                  | 237/2044 [1:09:45<8:53:39, 17.72s/it]                                                                                                                                         {'loss': 0.3795, 'grad_norm': 28.89999168680981, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9609375, 'rewards/rejected': -0.11566162109375, 'rewards/accuracies': 0.921875, 'rewards/margins': 1.076171875, 'logps/chosen': -294.0625, 'logps/rejected': -112.0625, 'logits/chosen': -1.0947265625, 'logits/rejected': -0.986328125, 'epoch': 0.12}
 12%|██████████▊                                                                                  | 237/2044 [1:09:45<8:53:39, 17.72s/it] 12%|██████████▊                                                                                  | 238/2044 [1:10:03<8:54:11, 17.75s/it]                                                                                                                                         {'loss': 0.4097, 'grad_norm': 37.3052234837232, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.92138671875, 'rewards/rejected': -0.149932861328125, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.07177734375, 'logps/chosen': -261.375, 'logps/rejected': -129.625, 'logits/chosen': -1.01171875, 'logits/rejected': -1.0546875, 'epoch': 0.12}
 12%|██████████▊                                                                                  | 238/2044 [1:10:03<8:54:11, 17.75s/it] 12%|██████████▊                                                                                  | 239/2044 [1:10:21<8:54:01, 17.75s/it]                                                                                                                                         {'loss': 0.3522, 'grad_norm': 28.118119071996787, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0419921875, 'rewards/rejected': -0.2928924560546875, 'rewards/accuracies': 0.890625, 'rewards/margins': 1.333984375, 'logps/chosen': -292.375, 'logps/rejected': -90.4375, 'logits/chosen': -0.9404296875, 'logits/rejected': -1.15380859375, 'epoch': 0.12}
 12%|██████████▊                                                                                  | 239/2044 [1:10:21<8:54:01, 17.75s/it] 12%|██████████▉                                                                                  | 240/2044 [1:10:39<8:52:37, 17.71s/it]                                                                                                                                         {'loss': 0.3243, 'grad_norm': 26.139094970373982, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0703125, 'rewards/rejected': -0.33526611328125, 'rewards/accuracies': 0.921875, 'rewards/margins': 1.404296875, 'logps/chosen': -298.0, 'logps/rejected': -85.6875, 'logits/chosen': -1.05419921875, 'logits/rejected': -1.00390625, 'epoch': 0.12}
 12%|██████████▉                                                                                  | 240/2044 [1:10:39<8:52:37, 17.71s/it] 12%|██████████▉                                                                                  | 241/2044 [1:10:56<8:50:02, 17.64s/it]                                                                                                                                         {'loss': 0.3889, 'grad_norm': 36.84990782414949, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.96923828125, 'rewards/rejected': -0.17181015014648438, 'rewards/accuracies': 0.890625, 'rewards/margins': 1.140625, 'logps/chosen': -235.875, 'logps/rejected': -128.71875, 'logits/chosen': -0.83935546875, 'logits/rejected': -1.044921875, 'epoch': 0.12}
 12%|██████████▉                                                                                  | 241/2044 [1:10:56<8:50:02, 17.64s/it] 12%|███████████                                                                                  | 242/2044 [1:11:13<8:39:25, 17.29s/it]                                                                                                                                         {'loss': 0.3717, 'grad_norm': 35.27379272434862, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.04443359375, 'rewards/rejected': -0.279083251953125, 'rewards/accuracies': 0.828125, 'rewards/margins': 1.32470703125, 'logps/chosen': -283.625, 'logps/rejected': -106.484375, 'logits/chosen': -1.1416015625, 'logits/rejected': -0.929931640625, 'epoch': 0.12}
 12%|███████████                                                                                  | 242/2044 [1:11:13<8:39:25, 17.29s/it] 12%|███████████                                                                                  | 243/2044 [1:11:31<8:46:52, 17.55s/it]                                                                                                                                         {'loss': 0.329, 'grad_norm': 32.68753497738708, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.24951171875, 'rewards/rejected': -0.30615234375, 'rewards/accuracies': 0.828125, 'rewards/margins': 1.55517578125, 'logps/chosen': -427.75, 'logps/rejected': -167.90625, 'logits/chosen': -1.06884765625, 'logits/rejected': -1.06298828125, 'epoch': 0.12}
 12%|███████████                                                                                  | 243/2044 [1:11:31<8:46:52, 17.55s/it] 12%|███████████                                                                                  | 244/2044 [1:11:50<9:00:08, 18.00s/it]                                                                                                                                         {'loss': 0.4353, 'grad_norm': 55.60814194228364, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.85498046875, 'rewards/rejected': -0.17549896240234375, 'rewards/accuracies': 0.765625, 'rewards/margins': 1.030517578125, 'logps/chosen': -234.625, 'logps/rejected': -149.875, 'logits/chosen': -1.03515625, 'logits/rejected': -1.11181640625, 'epoch': 0.12}
 12%|███████████                                                                                  | 244/2044 [1:11:50<9:00:08, 18.00s/it] 12%|███████████▏                                                                                 | 245/2044 [1:12:07<8:55:09, 17.85s/it]                                                                                                                                         {'loss': 0.3561, 'grad_norm': 32.22515132871634, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.00146484375, 'rewards/rejected': -0.3048095703125, 'rewards/accuracies': 0.828125, 'rewards/margins': 1.306640625, 'logps/chosen': -343.0, 'logps/rejected': -103.3125, 'logits/chosen': -1.0361328125, 'logits/rejected': -0.9931640625, 'epoch': 0.12}
 12%|███████████▏                                                                                 | 245/2044 [1:12:07<8:55:09, 17.85s/it] 12%|███████████▏                                                                                 | 246/2044 [1:12:23<8:38:34, 17.30s/it]                                                                                                                                         {'loss': 0.3136, 'grad_norm': 25.09043292040535, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.09326171875, 'rewards/rejected': -0.36334228515625, 'rewards/accuracies': 0.90625, 'rewards/margins': 1.45654296875, 'logps/chosen': -278.0, 'logps/rejected': -80.21875, 'logits/chosen': -0.9310302734375, 'logits/rejected': -0.9931640625, 'epoch': 0.12}
 12%|███████████▏                                                                                 | 246/2044 [1:12:23<8:38:34, 17.30s/it] 12%|███████████▏                                                                                 | 247/2044 [1:12:42<8:48:50, 17.66s/it]                                                                                                                                         {'loss': 0.3499, 'grad_norm': 30.203697261203097, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9990234375, 'rewards/rejected': -0.2926025390625, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.291015625, 'logps/chosen': -291.875, 'logps/rejected': -108.0, 'logits/chosen': -0.8394775390625, 'logits/rejected': -1.099609375, 'epoch': 0.12}
 12%|███████████▏                                                                                 | 247/2044 [1:12:42<8:48:50, 17.66s/it] 12%|███████████▎                                                                                 | 248/2044 [1:13:00<8:52:28, 17.79s/it]                                                                                                                                         {'loss': 0.4083, 'grad_norm': 39.98011450998527, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.96337890625, 'rewards/rejected': -0.1923370361328125, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.15625, 'logps/chosen': -262.375, 'logps/rejected': -161.875, 'logits/chosen': -1.0498046875, 'logits/rejected': -1.14892578125, 'epoch': 0.12}
 12%|███████████▎                                                                                 | 248/2044 [1:13:00<8:52:28, 17.79s/it] 12%|███████████▎                                                                                 | 249/2044 [1:13:17<8:46:55, 17.61s/it]                                                                                                                                         {'loss': 0.4226, 'grad_norm': 33.991128523326786, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.86181640625, 'rewards/rejected': -0.20607757568359375, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.068359375, 'logps/chosen': -207.625, 'logps/rejected': -101.15625, 'logits/chosen': -0.86962890625, 'logits/rejected': -1.008544921875, 'epoch': 0.12}
 12%|███████████▎                                                                                 | 249/2044 [1:13:17<8:46:55, 17.61s/it] 12%|███████████▎                                                                                 | 250/2044 [1:13:33<8:34:14, 17.20s/it]                                                                                                                                         {'loss': 0.3853, 'grad_norm': 41.06739317674295, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9482421875, 'rewards/rejected': -0.2341766357421875, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.18212890625, 'logps/chosen': -245.125, 'logps/rejected': -134.09375, 'logits/chosen': -1.1103515625, 'logits/rejected': -1.13232421875, 'epoch': 0.12}
 12%|███████████▎                                                                                 | 250/2044 [1:13:33<8:34:14, 17.20s/it] 12%|███████████▍                                                                                 | 251/2044 [1:13:52<8:44:51, 17.56s/it]                                                                                                                                         {'loss': 0.4521, 'grad_norm': 42.30963863926616, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.93359375, 'rewards/rejected': -0.16314697265625, 'rewards/accuracies': 0.765625, 'rewards/margins': 1.094970703125, 'logps/chosen': -326.625, 'logps/rejected': -140.71875, 'logits/chosen': -0.94140625, 'logits/rejected': -0.96826171875, 'epoch': 0.12}
 12%|███████████▍                                                                                 | 251/2044 [1:13:52<8:44:51, 17.56s/it] 12%|███████████▍                                                                                 | 252/2044 [1:14:09<8:45:13, 17.59s/it]                                                                                                                                         {'loss': 0.3625, 'grad_norm': 39.7478121878396, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.86181640625, 'rewards/rejected': -0.3025665283203125, 'rewards/accuracies': 0.890625, 'rewards/margins': 1.166015625, 'logps/chosen': -252.125, 'logps/rejected': -97.375, 'logits/chosen': -1.0166015625, 'logits/rejected': -0.96337890625, 'epoch': 0.12}
 12%|███████████▍                                                                                 | 252/2044 [1:14:09<8:45:13, 17.59s/it] 12%|███████████▌                                                                                 | 253/2044 [1:14:26<8:38:57, 17.39s/it]                                                                                                                                         {'loss': 0.337, 'grad_norm': 26.617216960711694, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9990234375, 'rewards/rejected': -0.3289794921875, 'rewards/accuracies': 0.921875, 'rewards/margins': 1.3291015625, 'logps/chosen': -272.6875, 'logps/rejected': -99.34375, 'logits/chosen': -0.8837890625, 'logits/rejected': -0.94091796875, 'epoch': 0.12}
 12%|███████████▌                                                                                 | 253/2044 [1:14:26<8:38:57, 17.39s/it] 12%|███████████▌                                                                                 | 254/2044 [1:14:44<8:43:24, 17.54s/it]                                                                                                                                         {'loss': 0.3263, 'grad_norm': 30.861602125159138, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.1474609375, 'rewards/rejected': -0.31597900390625, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.462890625, 'logps/chosen': -330.25, 'logps/rejected': -118.1875, 'logits/chosen': -0.965087890625, 'logits/rejected': -0.881103515625, 'epoch': 0.12}
 12%|███████████▌                                                                                 | 254/2044 [1:14:44<8:43:24, 17.54s/it] 12%|███████████▌                                                                                 | 255/2044 [1:15:03<8:53:14, 17.88s/it]                                                                                                                                         {'loss': 0.4064, 'grad_norm': 39.82559684396279, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.966796875, 'rewards/rejected': -0.17887115478515625, 'rewards/accuracies': 0.796875, 'rewards/margins': 1.14599609375, 'logps/chosen': -328.875, 'logps/rejected': -134.4375, 'logits/chosen': -1.033203125, 'logits/rejected': -1.02294921875, 'epoch': 0.12}
 12%|███████████▌                                                                                 | 255/2044 [1:15:03<8:53:14, 17.88s/it] 13%|███████████▋                                                                                 | 256/2044 [1:15:21<8:51:21, 17.83s/it]                                                                                                                                         {'loss': 0.4192, 'grad_norm': 35.98549791930963, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.91796875, 'rewards/rejected': -0.18563461303710938, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.10205078125, 'logps/chosen': -274.5, 'logps/rejected': -123.03125, 'logits/chosen': -0.923095703125, 'logits/rejected': -1.00048828125, 'epoch': 0.13}
 13%|███████████▋                                                                                 | 256/2044 [1:15:21<8:51:21, 17.83s/it] 13%|███████████▋                                                                                 | 257/2044 [1:15:38<8:46:22, 17.67s/it]                                                                                                                                         {'loss': 0.3159, 'grad_norm': 33.18560443779226, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.1416015625, 'rewards/rejected': -0.41727447509765625, 'rewards/accuracies': 0.921875, 'rewards/margins': 1.5595703125, 'logps/chosen': -349.3125, 'logps/rejected': -95.9375, 'logits/chosen': -1.04443359375, 'logits/rejected': -1.0126953125, 'epoch': 0.13}
 13%|███████████▋                                                                                 | 257/2044 [1:15:38<8:46:22, 17.67s/it] 13%|███████████▋                                                                                 | 258/2044 [1:15:57<8:57:28, 18.06s/it]                                                                                                                                         {'loss': 0.3704, 'grad_norm': 42.78801843177661, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.060302734375, 'rewards/rejected': -0.2950439453125, 'rewards/accuracies': 0.796875, 'rewards/margins': 1.35400390625, 'logps/chosen': -320.0, 'logps/rejected': -145.78125, 'logits/chosen': -0.873046875, 'logits/rejected': -1.026611328125, 'epoch': 0.13}
 13%|███████████▋                                                                                 | 258/2044 [1:15:57<8:57:28, 18.06s/it] 13%|███████████▊                                                                                 | 259/2044 [1:16:14<8:48:46, 17.77s/it]                                                                                                                                         {'loss': 0.3617, 'grad_norm': 38.3341046683758, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0908203125, 'rewards/rejected': -0.28082275390625, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.37109375, 'logps/chosen': -319.875, 'logps/rejected': -115.0, 'logits/chosen': -0.928955078125, 'logits/rejected': -1.03173828125, 'epoch': 0.13}
 13%|███████████▊                                                                                 | 259/2044 [1:16:14<8:48:46, 17.77s/it] 13%|███████████▊                                                                                 | 260/2044 [1:16:32<8:51:29, 17.88s/it]                                                                                                                                         {'loss': 0.4233, 'grad_norm': 50.18288408521132, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9599609375, 'rewards/rejected': -0.2227783203125, 'rewards/accuracies': 0.78125, 'rewards/margins': 1.18310546875, 'logps/chosen': -299.375, 'logps/rejected': -125.75, 'logits/chosen': -1.0625, 'logits/rejected': -1.01416015625, 'epoch': 0.13}
 13%|███████████▊                                                                                 | 260/2044 [1:16:32<8:51:29, 17.88s/it] 13%|███████████▉                                                                                 | 261/2044 [1:16:50<8:55:14, 18.01s/it]                                                                                                                                         {'loss': 0.4067, 'grad_norm': 41.856592156130446, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9912109375, 'rewards/rejected': -0.2080078125, 'rewards/accuracies': 0.765625, 'rewards/margins': 1.20068359375, 'logps/chosen': -320.0, 'logps/rejected': -107.0, 'logits/chosen': -1.00439453125, 'logits/rejected': -0.9912109375, 'epoch': 0.13}
 13%|███████████▉                                                                                 | 261/2044 [1:16:50<8:55:14, 18.01s/it] 13%|███████████▉                                                                                 | 262/2044 [1:17:09<8:56:53, 18.08s/it]                                                                                                                                         {'loss': 0.3512, 'grad_norm': 35.242254963377185, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.98486328125, 'rewards/rejected': -0.332763671875, 'rewards/accuracies': 0.875, 'rewards/margins': 1.31884765625, 'logps/chosen': -309.0, 'logps/rejected': -104.5625, 'logits/chosen': -1.0009765625, 'logits/rejected': -1.12939453125, 'epoch': 0.13}
 13%|███████████▉                                                                                 | 262/2044 [1:17:09<8:56:53, 18.08s/it] 13%|███████████▉                                                                                 | 263/2044 [1:17:26<8:52:36, 17.94s/it]                                                                                                                                         {'loss': 0.4424, 'grad_norm': 42.20791820328278, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9072265625, 'rewards/rejected': -0.1597900390625, 'rewards/accuracies': 0.765625, 'rewards/margins': 1.06640625, 'logps/chosen': -244.3125, 'logps/rejected': -135.03125, 'logits/chosen': -0.99609375, 'logits/rejected': -1.03955078125, 'epoch': 0.13}
 13%|███████████▉                                                                                 | 263/2044 [1:17:26<8:52:36, 17.94s/it] 13%|████████████                                                                                 | 264/2044 [1:17:44<8:51:14, 17.91s/it]                                                                                                                                         {'loss': 0.2968, 'grad_norm': 28.457233289382913, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.044921875, 'rewards/rejected': -0.4439697265625, 'rewards/accuracies': 0.90625, 'rewards/margins': 1.49072265625, 'logps/chosen': -298.25, 'logps/rejected': -96.96875, 'logits/chosen': -1.01904296875, 'logits/rejected': -1.134765625, 'epoch': 0.13}
 13%|████████████                                                                                 | 264/2044 [1:17:44<8:51:14, 17.91s/it] 13%|████████████                                                                                 | 265/2044 [1:18:03<9:00:58, 18.25s/it]                                                                                                                                         {'loss': 0.4294, 'grad_norm': 36.534548456273775, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.880859375, 'rewards/rejected': -0.18817138671875, 'rewards/accuracies': 0.828125, 'rewards/margins': 1.0693359375, 'logps/chosen': -260.125, 'logps/rejected': -116.75, 'logits/chosen': -1.0380859375, 'logits/rejected': -0.97509765625, 'epoch': 0.13}
 13%|████████████                                                                                 | 265/2044 [1:18:03<9:00:58, 18.25s/it] 13%|████████████                                                                                 | 266/2044 [1:18:20<8:51:17, 17.93s/it]                                                                                                                                         {'loss': 0.3486, 'grad_norm': 31.75534155493666, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.07958984375, 'rewards/rejected': -0.3756103515625, 'rewards/accuracies': 0.921875, 'rewards/margins': 1.45556640625, 'logps/chosen': -303.0625, 'logps/rejected': -121.0, 'logits/chosen': -1.05908203125, 'logits/rejected': -1.12109375, 'epoch': 0.13}
 13%|████████████                                                                                 | 266/2044 [1:18:20<8:51:17, 17.93s/it] 13%|████████████▏                                                                                | 267/2044 [1:18:39<8:56:51, 18.13s/it]                                                                                                                                         {'loss': 0.4124, 'grad_norm': 39.99873217874833, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.96533203125, 'rewards/rejected': -0.20880126953125, 'rewards/accuracies': 0.8125, 'rewards/margins': 1.172607421875, 'logps/chosen': -290.9375, 'logps/rejected': -136.125, 'logits/chosen': -0.95556640625, 'logits/rejected': -1.01025390625, 'epoch': 0.13}
 13%|████████████▏                                                                                | 267/2044 [1:18:39<8:56:51, 18.13s/it] 13%|████████████▏                                                                                | 268/2044 [1:18:56<8:47:06, 17.81s/it]                                                                                                                                         {'loss': 0.3295, 'grad_norm': 34.71887916626543, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0322265625, 'rewards/rejected': -0.451416015625, 'rewards/accuracies': 0.875, 'rewards/margins': 1.482421875, 'logps/chosen': -308.1875, 'logps/rejected': -103.1875, 'logits/chosen': -0.895751953125, 'logits/rejected': -1.04443359375, 'epoch': 0.13}
 13%|████████████▏                                                                                | 268/2044 [1:18:56<8:47:06, 17.81s/it] 13%|████████████▏                                                                                | 269/2044 [1:19:14<8:50:02, 17.92s/it]                                                                                                                                         {'loss': 0.3418, 'grad_norm': 29.72827404714568, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.02783203125, 'rewards/rejected': -0.359161376953125, 'rewards/accuracies': 0.828125, 'rewards/margins': 1.38818359375, 'logps/chosen': -302.625, 'logps/rejected': -100.9375, 'logits/chosen': -0.9560546875, 'logits/rejected': -1.00830078125, 'epoch': 0.13}
 13%|████████████▏                                                                                | 269/2044 [1:19:14<8:50:02, 17.92s/it] 13%|████████████▎                                                                                | 270/2044 [1:19:32<8:51:37, 17.98s/it]                                                                                                                                         {'loss': 0.3828, 'grad_norm': 36.36321860186913, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.99951171875, 'rewards/rejected': -0.225830078125, 'rewards/accuracies': 0.828125, 'rewards/margins': 1.224609375, 'logps/chosen': -325.75, 'logps/rejected': -137.75, 'logits/chosen': -0.9384765625, 'logits/rejected': -0.9287109375, 'epoch': 0.13}
 13%|████████████▎                                                                                | 270/2044 [1:19:32<8:51:37, 17.98s/it] 13%|████████████▎                                                                                | 271/2044 [1:19:50<8:47:12, 17.84s/it]                                                                                                                                         {'loss': 0.3771, 'grad_norm': 32.77651415707611, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9990234375, 'rewards/rejected': -0.298797607421875, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.30029296875, 'logps/chosen': -290.625, 'logps/rejected': -115.34375, 'logits/chosen': -1.0419921875, 'logits/rejected': -0.94921875, 'epoch': 0.13}
 13%|████████████▎                                                                                | 271/2044 [1:19:50<8:47:12, 17.84s/it] 13%|████████████▍                                                                                | 272/2044 [1:20:08<8:52:09, 18.02s/it]                                                                                                                                         {'loss': 0.3318, 'grad_norm': 30.691854357248722, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.98876953125, 'rewards/rejected': -0.3974609375, 'rewards/accuracies': 0.875, 'rewards/margins': 1.38623046875, 'logps/chosen': -318.375, 'logps/rejected': -97.3125, 'logits/chosen': -0.970458984375, 'logits/rejected': -1.0048828125, 'epoch': 0.13}
 13%|████████████▍                                                                                | 272/2044 [1:20:08<8:52:09, 18.02s/it] 13%|████████████▍                                                                                | 273/2044 [1:20:26<8:51:00, 17.99s/it]                                                                                                                                         {'loss': 0.3086, 'grad_norm': 29.96658241503703, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.12353515625, 'rewards/rejected': -0.4461669921875, 'rewards/accuracies': 0.875, 'rewards/margins': 1.5693359375, 'logps/chosen': -312.125, 'logps/rejected': -110.59375, 'logits/chosen': -0.9208984375, 'logits/rejected': -0.908203125, 'epoch': 0.13}
 13%|████████████▍                                                                                | 273/2044 [1:20:26<8:51:00, 17.99s/it] 13%|████████████▍                                                                                | 274/2044 [1:20:44<8:47:19, 17.88s/it]                                                                                                                                         {'loss': 0.3888, 'grad_norm': 31.49992930441741, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.00634765625, 'rewards/rejected': -0.196746826171875, 'rewards/accuracies': 0.8125, 'rewards/margins': 1.20281982421875, 'logps/chosen': -266.5625, 'logps/rejected': -116.5, 'logits/chosen': -1.00634765625, 'logits/rejected': -0.90185546875, 'epoch': 0.13}
 13%|████████████▍                                                                                | 274/2044 [1:20:44<8:47:19, 17.88s/it] 13%|████████████▌                                                                                | 275/2044 [1:21:02<8:52:02, 18.05s/it]                                                                                                                                         {'loss': 0.3926, 'grad_norm': 35.531866235257795, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.869140625, 'rewards/rejected': -0.3021087646484375, 'rewards/accuracies': 0.828125, 'rewards/margins': 1.170166015625, 'logps/chosen': -228.0625, 'logps/rejected': -120.53125, 'logits/chosen': -0.8785400390625, 'logits/rejected': -1.05859375, 'epoch': 0.13}
 13%|████████████▌                                                                                | 275/2044 [1:21:02<8:52:02, 18.05s/it] 14%|████████████▌                                                                                | 276/2044 [1:21:19<8:39:46, 17.64s/it]                                                                                                                                         {'loss': 0.3271, 'grad_norm': 32.68372825753913, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0068359375, 'rewards/rejected': -0.4521484375, 'rewards/accuracies': 0.921875, 'rewards/margins': 1.458984375, 'logps/chosen': -297.0, 'logps/rejected': -106.03125, 'logits/chosen': -0.98046875, 'logits/rejected': -1.078125, 'epoch': 0.14}
 14%|████████████▌                                                                                | 276/2044 [1:21:19<8:39:46, 17.64s/it] 14%|████████████▌                                                                                | 277/2044 [1:21:37<8:47:12, 17.90s/it]                                                                                                                                         {'loss': 0.4098, 'grad_norm': 44.47873967069579, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.00390625, 'rewards/rejected': -0.17546844482421875, 'rewards/accuracies': 0.8125, 'rewards/margins': 1.179443359375, 'logps/chosen': -275.4375, 'logps/rejected': -150.09375, 'logits/chosen': -0.99853515625, 'logits/rejected': -0.97705078125, 'epoch': 0.14}
 14%|████████████▌                                                                                | 277/2044 [1:21:37<8:47:12, 17.90s/it] 14%|████████████▋                                                                                | 278/2044 [1:21:55<8:44:53, 17.83s/it]                                                                                                                                         {'loss': 0.4094, 'grad_norm': 38.44934548354189, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.840087890625, 'rewards/rejected': -0.30205535888671875, 'rewards/accuracies': 0.765625, 'rewards/margins': 1.142578125, 'logps/chosen': -275.0, 'logps/rejected': -96.75, 'logits/chosen': -0.878753662109375, 'logits/rejected': -1.14501953125, 'epoch': 0.14}
 14%|████████████▋                                                                                | 278/2044 [1:21:55<8:44:53, 17.83s/it] 14%|████████████▋                                                                                | 279/2044 [1:22:12<8:34:17, 17.48s/it]                                                                                                                                         {'loss': 0.3806, 'grad_norm': 31.141135018346972, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8310546875, 'rewards/rejected': -0.322509765625, 'rewards/accuracies': 0.8125, 'rewards/margins': 1.1533203125, 'logps/chosen': -234.25, 'logps/rejected': -109.53125, 'logits/chosen': -1.00537109375, 'logits/rejected': -0.794921875, 'epoch': 0.14}
 14%|████████████▋                                                                                | 279/2044 [1:22:12<8:34:17, 17.48s/it] 14%|████████████▋                                                                                | 280/2044 [1:22:30<8:38:27, 17.63s/it]                                                                                                                                         {'loss': 0.3693, 'grad_norm': 30.197775677649673, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9169921875, 'rewards/rejected': -0.3604736328125, 'rewards/accuracies': 0.828125, 'rewards/margins': 1.2744140625, 'logps/chosen': -264.0, 'logps/rejected': -96.75, 'logits/chosen': -1.0673828125, 'logits/rejected': -1.04638671875, 'epoch': 0.14}
 14%|████████████▋                                                                                | 280/2044 [1:22:30<8:38:27, 17.63s/it] 14%|████████████▊                                                                                | 281/2044 [1:22:47<8:32:57, 17.46s/it]                                                                                                                                         {'loss': 0.3877, 'grad_norm': 30.167748739814563, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.884765625, 'rewards/rejected': -0.319580078125, 'rewards/accuracies': 0.9375, 'rewards/margins': 1.205078125, 'logps/chosen': -241.875, 'logps/rejected': -106.625, 'logits/chosen': -0.886474609375, 'logits/rejected': -0.92626953125, 'epoch': 0.14}
 14%|████████████▊                                                                                | 281/2044 [1:22:47<8:32:57, 17.46s/it] 14%|████████████▊                                                                                | 282/2044 [1:23:05<8:35:17, 17.55s/it]                                                                                                                                         {'loss': 0.282, 'grad_norm': 28.48816103037832, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.142578125, 'rewards/rejected': -0.515869140625, 'rewards/accuracies': 0.953125, 'rewards/margins': 1.658203125, 'logps/chosen': -340.75, 'logps/rejected': -106.9375, 'logits/chosen': -1.02392578125, 'logits/rejected': -1.05712890625, 'epoch': 0.14}
 14%|████████████▊                                                                                | 282/2044 [1:23:05<8:35:17, 17.55s/it] 14%|████████████▉                                                                                | 283/2044 [1:23:23<8:39:14, 17.69s/it]                                                                                                                                         {'loss': 0.3547, 'grad_norm': 31.593691124120987, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.05126953125, 'rewards/rejected': -0.364593505859375, 'rewards/accuracies': 0.875, 'rewards/margins': 1.416015625, 'logps/chosen': -300.125, 'logps/rejected': -121.1875, 'logits/chosen': -1.06689453125, 'logits/rejected': -1.0087890625, 'epoch': 0.14}
 14%|████████████▉                                                                                | 283/2044 [1:23:23<8:39:14, 17.69s/it] 14%|████████████▉                                                                                | 284/2044 [1:23:41<8:44:06, 17.87s/it]                                                                                                                                         {'loss': 0.376, 'grad_norm': 35.77437106530366, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.009765625, 'rewards/rejected': -0.3387451171875, 'rewards/accuracies': 0.828125, 'rewards/margins': 1.34912109375, 'logps/chosen': -297.5, 'logps/rejected': -131.6875, 'logits/chosen': -0.811279296875, 'logits/rejected': -1.00537109375, 'epoch': 0.14}
 14%|████████████▉                                                                                | 284/2044 [1:23:41<8:44:06, 17.87s/it] 14%|████████████▉                                                                                | 285/2044 [1:23:58<8:41:12, 17.78s/it]                                                                                                                                         {'loss': 0.3269, 'grad_norm': 27.82566735249594, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0146484375, 'rewards/rejected': -0.4512939453125, 'rewards/accuracies': 0.828125, 'rewards/margins': 1.46484375, 'logps/chosen': -303.25, 'logps/rejected': -118.5625, 'logits/chosen': -1.02099609375, 'logits/rejected': -0.910400390625, 'epoch': 0.14}
 14%|████████████▉                                                                                | 285/2044 [1:23:58<8:41:12, 17.78s/it] 14%|█████████████                                                                                | 286/2044 [1:24:18<8:55:03, 18.26s/it]                                                                                                                                         {'loss': 0.425, 'grad_norm': 33.86572024991749, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.818359375, 'rewards/rejected': -0.1258544921875, 'rewards/accuracies': 0.8125, 'rewards/margins': 0.94580078125, 'logps/chosen': -245.5, 'logps/rejected': -131.5, 'logits/chosen': -0.97705078125, 'logits/rejected': -0.8504638671875, 'epoch': 0.14}
 14%|█████████████                                                                                | 286/2044 [1:24:18<8:55:03, 18.26s/it] 14%|█████████████                                                                                | 287/2044 [1:24:36<8:55:06, 18.27s/it]                                                                                                                                         {'loss': 0.3696, 'grad_norm': 39.96889915175741, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.09765625, 'rewards/rejected': -0.3656005859375, 'rewards/accuracies': 0.8125, 'rewards/margins': 1.46435546875, 'logps/chosen': -340.625, 'logps/rejected': -138.875, 'logits/chosen': -0.933349609375, 'logits/rejected': -0.94873046875, 'epoch': 0.14}
 14%|█████████████                                                                                | 287/2044 [1:24:36<8:55:06, 18.27s/it] 14%|█████████████                                                                                | 288/2044 [1:24:53<8:43:46, 17.90s/it]                                                                                                                                         {'loss': 0.3329, 'grad_norm': 32.48715852981625, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.12548828125, 'rewards/rejected': -0.48638916015625, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.611328125, 'logps/chosen': -349.5, 'logps/rejected': -95.46875, 'logits/chosen': -0.9169921875, 'logits/rejected': -1.060546875, 'epoch': 0.14}
 14%|█████████████                                                                                | 288/2044 [1:24:53<8:43:46, 17.90s/it] 14%|█████████████▏                                                                               | 289/2044 [1:25:12<8:47:53, 18.05s/it]                                                                                                                                         {'loss': 0.3578, 'grad_norm': 35.488853947834926, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.99072265625, 'rewards/rejected': -0.29443359375, 'rewards/accuracies': 0.875, 'rewards/margins': 1.28466796875, 'logps/chosen': -252.875, 'logps/rejected': -125.6875, 'logits/chosen': -0.868408203125, 'logits/rejected': -0.9111328125, 'epoch': 0.14}
 14%|█████████████▏                                                                               | 289/2044 [1:25:12<8:47:53, 18.05s/it] 14%|█████████████▏                                                                               | 290/2044 [1:25:28<8:34:36, 17.60s/it]                                                                                                                                         {'loss': 0.302, 'grad_norm': 31.14151940484608, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.1123046875, 'rewards/rejected': -0.611419677734375, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.7255859375, 'logps/chosen': -317.0, 'logps/rejected': -96.3125, 'logits/chosen': -0.9833984375, 'logits/rejected': -1.0029296875, 'epoch': 0.14}
 14%|█████████████▏                                                                               | 290/2044 [1:25:28<8:34:36, 17.60s/it] 14%|█████████████▏                                                                               | 291/2044 [1:25:46<8:33:55, 17.59s/it]                                                                                                                                         {'loss': 0.3096, 'grad_norm': 27.46590417722398, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.95849609375, 'rewards/rejected': -0.5284423828125, 'rewards/accuracies': 0.890625, 'rewards/margins': 1.48779296875, 'logps/chosen': -262.5, 'logps/rejected': -83.34375, 'logits/chosen': -0.92431640625, 'logits/rejected': -1.05126953125, 'epoch': 0.14}
 14%|█████████████▏                                                                               | 291/2044 [1:25:46<8:33:55, 17.59s/it] 14%|█████████████▎                                                                               | 292/2044 [1:26:04<8:35:58, 17.67s/it]                                                                                                                                         {'loss': 0.2753, 'grad_norm': 26.39865507086576, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.232421875, 'rewards/rejected': -0.5714111328125, 'rewards/accuracies': 0.9375, 'rewards/margins': 1.8037109375, 'logps/chosen': -311.375, 'logps/rejected': -95.40625, 'logits/chosen': -0.95751953125, 'logits/rejected': -1.09228515625, 'epoch': 0.14}
 14%|█████████████▎                                                                               | 292/2044 [1:26:04<8:35:58, 17.67s/it] 14%|█████████████▎                                                                               | 293/2044 [1:26:21<8:30:44, 17.50s/it]                                                                                                                                         {'loss': 0.3069, 'grad_norm': 29.555210200961653, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0126953125, 'rewards/rejected': -0.5802001953125, 'rewards/accuracies': 0.921875, 'rewards/margins': 1.5927734375, 'logps/chosen': -288.375, 'logps/rejected': -104.40625, 'logits/chosen': -0.85986328125, 'logits/rejected': -0.820068359375, 'epoch': 0.14}
 14%|█████████████▎                                                                               | 293/2044 [1:26:21<8:30:44, 17.50s/it] 14%|█████████████▍                                                                               | 294/2044 [1:26:39<8:39:28, 17.81s/it]                                                                                                                                         {'loss': 0.3835, 'grad_norm': 38.19337583335243, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.00048828125, 'rewards/rejected': -0.30517578125, 'rewards/accuracies': 0.828125, 'rewards/margins': 1.30517578125, 'logps/chosen': -332.0, 'logps/rejected': -170.96875, 'logits/chosen': -1.1318359375, 'logits/rejected': -0.92626953125, 'epoch': 0.14}
 14%|█████████████▍                                                                               | 294/2044 [1:26:39<8:39:28, 17.81s/it] 14%|█████████████▍                                                                               | 295/2044 [1:26:57<8:40:51, 17.87s/it]                                                                                                                                         {'loss': 0.3109, 'grad_norm': 35.93153684576546, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.13134765625, 'rewards/rejected': -0.486083984375, 'rewards/accuracies': 0.8125, 'rewards/margins': 1.61767578125, 'logps/chosen': -330.875, 'logps/rejected': -133.5625, 'logits/chosen': -1.00537109375, 'logits/rejected': -0.949951171875, 'epoch': 0.14}
 14%|█████████████▍                                                                               | 295/2044 [1:26:57<8:40:51, 17.87s/it] 14%|█████████████▍                                                                               | 296/2044 [1:27:15<8:36:12, 17.72s/it]                                                                                                                                         {'loss': 0.338, 'grad_norm': 35.411216103495484, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.95947265625, 'rewards/rejected': -0.426513671875, 'rewards/accuracies': 0.875, 'rewards/margins': 1.38671875, 'logps/chosen': -305.25, 'logps/rejected': -130.125, 'logits/chosen': -1.046875, 'logits/rejected': -1.0146484375, 'epoch': 0.14}
 14%|█████████████▍                                                                               | 296/2044 [1:27:15<8:36:12, 17.72s/it] 15%|█████████████▌                                                                               | 297/2044 [1:27:32<8:33:17, 17.63s/it]                                                                                                                                         {'loss': 0.4, 'grad_norm': 31.787019262362215, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.984375, 'rewards/rejected': -0.31206512451171875, 'rewards/accuracies': 0.828125, 'rewards/margins': 1.29638671875, 'logps/chosen': -295.875, 'logps/rejected': -107.125, 'logits/chosen': -1.037109375, 'logits/rejected': -1.02685546875, 'epoch': 0.15}
 15%|█████████████▌                                                                               | 297/2044 [1:27:32<8:33:17, 17.63s/it] 15%|█████████████▌                                                                               | 298/2044 [1:27:49<8:23:24, 17.30s/it]                                                                                                                                         {'loss': 0.3069, 'grad_norm': 26.36910594782409, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0673828125, 'rewards/rejected': -0.53009033203125, 'rewards/accuracies': 0.90625, 'rewards/margins': 1.59619140625, 'logps/chosen': -290.5, 'logps/rejected': -96.375, 'logits/chosen': -1.0146484375, 'logits/rejected': -0.98046875, 'epoch': 0.15}
 15%|█████████████▌                                                                               | 298/2044 [1:27:49<8:23:24, 17.30s/it] 15%|█████████████▌                                                                               | 299/2044 [1:28:04<8:10:33, 16.87s/it]                                                                                                                                         {'loss': 0.3318, 'grad_norm': 22.58788910440204, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9638671875, 'rewards/rejected': -0.51373291015625, 'rewards/accuracies': 0.921875, 'rewards/margins': 1.4775390625, 'logps/chosen': -271.75, 'logps/rejected': -129.53125, 'logits/chosen': -1.0185546875, 'logits/rejected': -1.0400390625, 'epoch': 0.15}
 15%|█████████████▌                                                                               | 299/2044 [1:28:04<8:10:33, 16.87s/it] 15%|█████████████▋                                                                               | 300/2044 [1:28:22<8:19:07, 17.17s/it]                                                                                                                                         {'loss': 0.3566, 'grad_norm': 45.370034072656935, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.1572265625, 'rewards/rejected': -0.42431640625, 'rewards/accuracies': 0.875, 'rewards/margins': 1.58251953125, 'logps/chosen': -353.0, 'logps/rejected': -157.1875, 'logits/chosen': -1.0283203125, 'logits/rejected': -1.1796875, 'epoch': 0.15}
 15%|█████████████▋                                                                               | 300/2044 [1:28:22<8:19:07, 17.17s/it] 15%|█████████████▋                                                                               | 301/2044 [1:28:40<8:27:34, 17.47s/it]                                                                                                                                         {'loss': 0.3331, 'grad_norm': 33.77089707911907, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.92822265625, 'rewards/rejected': -0.52880859375, 'rewards/accuracies': 0.875, 'rewards/margins': 1.459228515625, 'logps/chosen': -269.875, 'logps/rejected': -101.65625, 'logits/chosen': -0.9814453125, 'logits/rejected': -1.0888671875, 'epoch': 0.15}
 15%|█████████████▋                                                                               | 301/2044 [1:28:40<8:27:34, 17.47s/it] 15%|█████████████▋                                                                               | 302/2044 [1:28:57<8:20:53, 17.25s/it]                                                                                                                                         {'loss': 0.2974, 'grad_norm': 29.755620397215772, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9677734375, 'rewards/rejected': -0.583740234375, 'rewards/accuracies': 0.875, 'rewards/margins': 1.5498046875, 'logps/chosen': -246.0, 'logps/rejected': -100.9375, 'logits/chosen': -0.879638671875, 'logits/rejected': -0.9169921875, 'epoch': 0.15}
 15%|█████████████▋                                                                               | 302/2044 [1:28:57<8:20:53, 17.25s/it] 15%|█████████████▊                                                                               | 303/2044 [1:29:15<8:25:23, 17.42s/it]                                                                                                                                         {'loss': 0.3606, 'grad_norm': 31.032319666022904, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.017578125, 'rewards/rejected': -0.32373046875, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.344482421875, 'logps/chosen': -254.5625, 'logps/rejected': -109.65625, 'logits/chosen': -1.0048828125, 'logits/rejected': -0.93017578125, 'epoch': 0.15}
 15%|█████████████▊                                                                               | 303/2044 [1:29:15<8:25:23, 17.42s/it] 15%|█████████████▊                                                                               | 304/2044 [1:29:31<8:12:25, 16.98s/it]                                                                                                                                         {'loss': 0.3285, 'grad_norm': 28.72706717966118, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.05810546875, 'rewards/rejected': -0.57403564453125, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.6318359375, 'logps/chosen': -269.625, 'logps/rejected': -102.34375, 'logits/chosen': -0.9912109375, 'logits/rejected': -0.9990234375, 'epoch': 0.15}
 15%|█████████████▊                                                                               | 304/2044 [1:29:31<8:12:25, 16.98s/it] 15%|█████████████▉                                                                               | 305/2044 [1:29:49<8:22:12, 17.33s/it]                                                                                                                                         {'loss': 0.3083, 'grad_norm': 27.22202887589399, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.98193359375, 'rewards/rejected': -0.5311279296875, 'rewards/accuracies': 0.90625, 'rewards/margins': 1.51416015625, 'logps/chosen': -291.75, 'logps/rejected': -109.9375, 'logits/chosen': -0.83544921875, 'logits/rejected': -0.98193359375, 'epoch': 0.15}
 15%|█████████████▉                                                                               | 305/2044 [1:29:49<8:22:12, 17.33s/it] 15%|█████████████▉                                                                               | 306/2044 [1:30:07<8:25:32, 17.45s/it]                                                                                                                                         {'loss': 0.2836, 'grad_norm': 23.638624599307548, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.08251953125, 'rewards/rejected': -0.573974609375, 'rewards/accuracies': 0.890625, 'rewards/margins': 1.6572265625, 'logps/chosen': -335.125, 'logps/rejected': -79.71875, 'logits/chosen': -0.98583984375, 'logits/rejected': -0.97314453125, 'epoch': 0.15}
 15%|█████████████▉                                                                               | 306/2044 [1:30:07<8:25:32, 17.45s/it] 15%|█████████████▉                                                                               | 307/2044 [1:30:25<8:34:34, 17.77s/it]                                                                                                                                         {'loss': 0.3618, 'grad_norm': 37.307475212310415, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0009765625, 'rewards/rejected': -0.469940185546875, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.47216796875, 'logps/chosen': -300.0, 'logps/rejected': -127.0625, 'logits/chosen': -1.06396484375, 'logits/rejected': -0.9345703125, 'epoch': 0.15}
 15%|█████████████▉                                                                               | 307/2044 [1:30:25<8:34:34, 17.77s/it] 15%|██████████████                                                                               | 308/2044 [1:30:44<8:46:14, 18.19s/it]                                                                                                                                         {'loss': 0.303, 'grad_norm': 27.71869683207762, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.06689453125, 'rewards/rejected': -0.5177001953125, 'rewards/accuracies': 0.921875, 'rewards/margins': 1.58349609375, 'logps/chosen': -294.5, 'logps/rejected': -110.125, 'logits/chosen': -1.0078125, 'logits/rejected': -1.07568359375, 'epoch': 0.15}
 15%|██████████████                                                                               | 308/2044 [1:30:44<8:46:14, 18.19s/it] 15%|██████████████                                                                               | 309/2044 [1:31:03<8:47:23, 18.24s/it]                                                                                                                                         {'loss': 0.317, 'grad_norm': 29.985039479104753, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.22119140625, 'rewards/rejected': -0.4337158203125, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.65625, 'logps/chosen': -326.5, 'logps/rejected': -113.5, 'logits/chosen': -0.99609375, 'logits/rejected': -0.88916015625, 'epoch': 0.15}
 15%|██████████████                                                                               | 309/2044 [1:31:03<8:47:23, 18.24s/it] 15%|██████████████                                                                               | 310/2044 [1:31:22<8:53:56, 18.48s/it]                                                                                                                                         {'loss': 0.3011, 'grad_norm': 34.87370940731688, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.2158203125, 'rewards/rejected': -0.5015869140625, 'rewards/accuracies': 0.875, 'rewards/margins': 1.7158203125, 'logps/chosen': -434.5, 'logps/rejected': -177.1875, 'logits/chosen': -1.0185546875, 'logits/rejected': -1.03369140625, 'epoch': 0.15}
 15%|██████████████                                                                               | 310/2044 [1:31:22<8:53:56, 18.48s/it] 15%|██████████████▏                                                                              | 311/2044 [1:31:41<8:55:46, 18.55s/it]                                                                                                                                         {'loss': 0.3669, 'grad_norm': 40.654182690094856, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9482421875, 'rewards/rejected': -0.4024658203125, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.35009765625, 'logps/chosen': -264.0, 'logps/rejected': -135.46875, 'logits/chosen': -0.8095703125, 'logits/rejected': -0.905517578125, 'epoch': 0.15}
 15%|██████████████▏                                                                              | 311/2044 [1:31:41<8:55:46, 18.55s/it] 15%|██████████████▏                                                                              | 312/2044 [1:31:59<8:58:13, 18.65s/it]                                                                                                                                         {'loss': 0.3563, 'grad_norm': 44.637699763039016, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.18505859375, 'rewards/rejected': -0.48046875, 'rewards/accuracies': 0.8125, 'rewards/margins': 1.6669921875, 'logps/chosen': -326.375, 'logps/rejected': -163.0625, 'logits/chosen': -0.86962890625, 'logits/rejected': -0.9560546875, 'epoch': 0.15}
 15%|██████████████▏                                                                              | 312/2044 [1:31:59<8:58:13, 18.65s/it] 15%|██████████████▏                                                                              | 313/2044 [1:32:16<8:39:35, 18.01s/it]                                                                                                                                         {'loss': 0.2806, 'grad_norm': 32.044396164184036, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.15869140625, 'rewards/rejected': -0.63995361328125, 'rewards/accuracies': 0.921875, 'rewards/margins': 1.796875, 'logps/chosen': -329.0, 'logps/rejected': -121.59375, 'logits/chosen': -1.04345703125, 'logits/rejected': -1.048828125, 'epoch': 0.15}
 15%|██████████████▏                                                                              | 313/2044 [1:32:16<8:39:35, 18.01s/it] 15%|██████████████▎                                                                              | 314/2044 [1:32:34<8:37:36, 17.95s/it]                                                                                                                                         {'loss': 0.3629, 'grad_norm': 38.85972697738948, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.03955078125, 'rewards/rejected': -0.4530029296875, 'rewards/accuracies': 0.796875, 'rewards/margins': 1.4921875, 'logps/chosen': -335.75, 'logps/rejected': -150.0625, 'logits/chosen': -1.00244140625, 'logits/rejected': -0.99755859375, 'epoch': 0.15}
 15%|██████████████▎                                                                              | 314/2044 [1:32:34<8:37:36, 17.95s/it] 15%|██████████████▎                                                                              | 315/2044 [1:32:50<8:20:12, 17.36s/it]                                                                                                                                         {'loss': 0.2356, 'grad_norm': 24.545463085438953, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.2705078125, 'rewards/rejected': -0.778076171875, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.048828125, 'logps/chosen': -340.5, 'logps/rejected': -85.5, 'logits/chosen': -0.93505859375, 'logits/rejected': -1.20654296875, 'epoch': 0.15}
 15%|██████████████▎                                                                              | 315/2044 [1:32:50<8:20:12, 17.36s/it] 15%|██████████████▍                                                                              | 316/2044 [1:33:08<8:24:10, 17.51s/it]                                                                                                                                         {'loss': 0.4385, 'grad_norm': 47.943148508190845, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9775390625, 'rewards/rejected': -0.284698486328125, 'rewards/accuracies': 0.8125, 'rewards/margins': 1.264404296875, 'logps/chosen': -391.0, 'logps/rejected': -253.28125, 'logits/chosen': -1.030517578125, 'logits/rejected': -1.18701171875, 'epoch': 0.15}
 15%|██████████████▍                                                                              | 316/2044 [1:33:08<8:24:10, 17.51s/it] 16%|██████████████▍                                                                              | 317/2044 [1:33:26<8:32:53, 17.82s/it]                                                                                                                                         {'loss': 0.3182, 'grad_norm': 31.96573644894352, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.93896484375, 'rewards/rejected': -0.5050048828125, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.4423828125, 'logps/chosen': -278.75, 'logps/rejected': -95.9375, 'logits/chosen': -0.91162109375, 'logits/rejected': -0.98291015625, 'epoch': 0.16}
 16%|██████████████▍                                                                              | 317/2044 [1:33:26<8:32:53, 17.82s/it] 16%|██████████████▍                                                                              | 318/2044 [1:33:44<8:35:20, 17.91s/it]                                                                                                                                         {'loss': 0.3542, 'grad_norm': 35.45125948161284, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9306640625, 'rewards/rejected': -0.43994140625, 'rewards/accuracies': 0.875, 'rewards/margins': 1.37109375, 'logps/chosen': -287.375, 'logps/rejected': -120.75, 'logits/chosen': -1.08642578125, 'logits/rejected': -1.04736328125, 'epoch': 0.16}
 16%|██████████████▍                                                                              | 318/2044 [1:33:44<8:35:20, 17.91s/it] 16%|██████████████▌                                                                              | 319/2044 [1:34:02<8:33:49, 17.87s/it]                                                                                                                                         {'loss': 0.2766, 'grad_norm': 36.845205753218686, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.173828125, 'rewards/rejected': -0.7196044921875, 'rewards/accuracies': 0.90625, 'rewards/margins': 1.89404296875, 'logps/chosen': -325.375, 'logps/rejected': -126.8125, 'logits/chosen': -0.98828125, 'logits/rejected': -1.1455078125, 'epoch': 0.16}
 16%|██████████████▌                                                                              | 319/2044 [1:34:02<8:33:49, 17.87s/it] 16%|██████████████▌                                                                              | 320/2044 [1:34:20<8:30:25, 17.76s/it]                                                                                                                                         {'loss': 0.2861, 'grad_norm': 26.56567895950636, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.1396484375, 'rewards/rejected': -0.617584228515625, 'rewards/accuracies': 0.90625, 'rewards/margins': 1.755859375, 'logps/chosen': -301.625, 'logps/rejected': -108.40625, 'logits/chosen': -0.969482421875, 'logits/rejected': -0.774658203125, 'epoch': 0.16}
 16%|██████████████▌                                                                              | 320/2044 [1:34:20<8:30:25, 17.76s/it] 16%|██████████████▌                                                                              | 321/2044 [1:34:38<8:36:39, 17.99s/it]                                                                                                                                         {'loss': 0.3663, 'grad_norm': 38.34165086144371, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0654296875, 'rewards/rejected': -0.3626708984375, 'rewards/accuracies': 0.828125, 'rewards/margins': 1.42919921875, 'logps/chosen': -326.4375, 'logps/rejected': -139.125, 'logits/chosen': -1.05615234375, 'logits/rejected': -0.99609375, 'epoch': 0.16}
 16%|██████████████▌                                                                              | 321/2044 [1:34:38<8:36:39, 17.99s/it] 16%|██████████████▋                                                                              | 322/2044 [1:34:57<8:46:39, 18.35s/it]                                                                                                                                         {'loss': 0.376, 'grad_norm': 41.92411204980883, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0380859375, 'rewards/rejected': -0.3690185546875, 'rewards/accuracies': 0.78125, 'rewards/margins': 1.40576171875, 'logps/chosen': -285.5, 'logps/rejected': -153.6875, 'logits/chosen': -0.947265625, 'logits/rejected': -0.925537109375, 'epoch': 0.16}
 16%|██████████████▋                                                                              | 322/2044 [1:34:57<8:46:39, 18.35s/it] 16%|██████████████▋                                                                              | 323/2044 [1:35:16<8:45:41, 18.33s/it]                                                                                                                                         {'loss': 0.3271, 'grad_norm': 38.07836360481561, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.1337890625, 'rewards/rejected': -0.3784942626953125, 'rewards/accuracies': 0.890625, 'rewards/margins': 1.51171875, 'logps/chosen': -306.875, 'logps/rejected': -155.625, 'logits/chosen': -1.1826171875, 'logits/rejected': -1.05224609375, 'epoch': 0.16}
 16%|██████████████▋                                                                              | 323/2044 [1:35:16<8:45:41, 18.33s/it] 16%|██████████████▋                                                                              | 324/2044 [1:35:33<8:36:12, 18.01s/it]                                                                                                                                         {'loss': 0.2628, 'grad_norm': 25.069378879761196, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.10693359375, 'rewards/rejected': -0.66162109375, 'rewards/accuracies': 0.953125, 'rewards/margins': 1.76953125, 'logps/chosen': -311.625, 'logps/rejected': -91.125, 'logits/chosen': -1.05859375, 'logits/rejected': -0.98388671875, 'epoch': 0.16}
 16%|██████████████▋                                                                              | 324/2044 [1:35:33<8:36:12, 18.01s/it] 16%|██████████████▊                                                                              | 325/2044 [1:35:51<8:38:38, 18.10s/it]                                                                                                                                         {'loss': 0.3055, 'grad_norm': 30.15702205592026, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.96630859375, 'rewards/rejected': -0.59130859375, 'rewards/accuracies': 0.90625, 'rewards/margins': 1.55859375, 'logps/chosen': -279.4375, 'logps/rejected': -115.21875, 'logits/chosen': -0.81298828125, 'logits/rejected': -0.90380859375, 'epoch': 0.16}
 16%|██████████████▊                                                                              | 325/2044 [1:35:51<8:38:38, 18.10s/it] 16%|██████████████▊                                                                              | 326/2044 [1:36:09<8:32:35, 17.90s/it]                                                                                                                                         {'loss': 0.3219, 'grad_norm': 30.001493605307765, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.908203125, 'rewards/rejected': -0.474609375, 'rewards/accuracies': 0.875, 'rewards/margins': 1.38427734375, 'logps/chosen': -251.125, 'logps/rejected': -114.6875, 'logits/chosen': -0.9345703125, 'logits/rejected': -1.02880859375, 'epoch': 0.16}
 16%|██████████████▊                                                                              | 326/2044 [1:36:09<8:32:35, 17.90s/it] 16%|██████████████▉                                                                              | 327/2044 [1:36:27<8:34:23, 17.98s/it]                                                                                                                                         {'loss': 0.29, 'grad_norm': 27.50339019487949, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.14794921875, 'rewards/rejected': -0.56781005859375, 'rewards/accuracies': 0.9375, 'rewards/margins': 1.71630859375, 'logps/chosen': -330.875, 'logps/rejected': -105.09375, 'logits/chosen': -0.936767578125, 'logits/rejected': -1.0634765625, 'epoch': 0.16}
 16%|██████████████▉                                                                              | 327/2044 [1:36:27<8:34:23, 17.98s/it] 16%|██████████████▉                                                                              | 328/2044 [1:36:43<8:22:49, 17.58s/it]                                                                                                                                         {'loss': 0.2738, 'grad_norm': 29.5793414227469, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.18408203125, 'rewards/rejected': -0.6824951171875, 'rewards/accuracies': 0.90625, 'rewards/margins': 1.865234375, 'logps/chosen': -340.0, 'logps/rejected': -95.5, 'logits/chosen': -0.9111328125, 'logits/rejected': -0.983154296875, 'epoch': 0.16}
 16%|██████████████▉                                                                              | 328/2044 [1:36:43<8:22:49, 17.58s/it] 16%|██████████████▉                                                                              | 329/2044 [1:37:02<8:30:21, 17.86s/it]                                                                                                                                         {'loss': 0.3894, 'grad_norm': 41.329338883442915, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.94482421875, 'rewards/rejected': -0.433807373046875, 'rewards/accuracies': 0.796875, 'rewards/margins': 1.380859375, 'logps/chosen': -295.25, 'logps/rejected': -151.5, 'logits/chosen': -1.070556640625, 'logits/rejected': -1.0712890625, 'epoch': 0.16}
 16%|██████████████▉                                                                              | 329/2044 [1:37:02<8:30:21, 17.86s/it] 16%|███████████████                                                                              | 330/2044 [1:37:19<8:23:24, 17.62s/it]                                                                                                                                         {'loss': 0.301, 'grad_norm': 32.39395924644766, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.10595703125, 'rewards/rejected': -0.687744140625, 'rewards/accuracies': 0.890625, 'rewards/margins': 1.794921875, 'logps/chosen': -293.625, 'logps/rejected': -99.96875, 'logits/chosen': -0.9052734375, 'logits/rejected': -1.048828125, 'epoch': 0.16}
 16%|███████████████                                                                              | 330/2044 [1:37:19<8:23:24, 17.62s/it] 16%|███████████████                                                                              | 331/2044 [1:37:35<8:06:25, 17.04s/it]                                                                                                                                         {'loss': 0.2758, 'grad_norm': 20.1383553167748, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9580078125, 'rewards/rejected': -0.765869140625, 'rewards/accuracies': 0.90625, 'rewards/margins': 1.724609375, 'logps/chosen': -230.375, 'logps/rejected': -69.25, 'logits/chosen': -1.02978515625, 'logits/rejected': -1.0283203125, 'epoch': 0.16}
 16%|███████████████                                                                              | 331/2044 [1:37:35<8:06:25, 17.04s/it] 16%|███████████████                                                                              | 332/2044 [1:37:52<8:09:41, 17.16s/it]                                                                                                                                         {'loss': 0.2712, 'grad_norm': 33.969613744986034, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.1220703125, 'rewards/rejected': -0.62548828125, 'rewards/accuracies': 0.921875, 'rewards/margins': 1.748046875, 'logps/chosen': -341.375, 'logps/rejected': -88.90625, 'logits/chosen': -0.95556640625, 'logits/rejected': -0.91259765625, 'epoch': 0.16}
 16%|███████████████                                                                              | 332/2044 [1:37:52<8:09:41, 17.16s/it] 16%|███████████████▏                                                                             | 333/2044 [1:38:11<8:20:57, 17.57s/it]                                                                                                                                         {'loss': 0.3291, 'grad_norm': 30.3683397706053, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.88720703125, 'rewards/rejected': -0.5240478515625, 'rewards/accuracies': 0.875, 'rewards/margins': 1.41015625, 'logps/chosen': -294.0625, 'logps/rejected': -120.84375, 'logits/chosen': -1.04931640625, 'logits/rejected': -1.03271484375, 'epoch': 0.16}
 16%|███████████████▏                                                                             | 333/2044 [1:38:11<8:20:57, 17.57s/it] 16%|███████████████▏                                                                             | 334/2044 [1:38:29<8:28:33, 17.84s/it]                                                                                                                                         {'loss': 0.287, 'grad_norm': 30.936067174263886, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.08544921875, 'rewards/rejected': -0.62982177734375, 'rewards/accuracies': 0.921875, 'rewards/margins': 1.71484375, 'logps/chosen': -313.5, 'logps/rejected': -93.875, 'logits/chosen': -0.8974609375, 'logits/rejected': -0.817138671875, 'epoch': 0.16}
 16%|███████████████▏                                                                             | 334/2044 [1:38:29<8:28:33, 17.84s/it] 16%|███████████████▏                                                                             | 335/2044 [1:38:48<8:37:50, 18.18s/it]                                                                                                                                         {'loss': 0.3688, 'grad_norm': 38.838138724314696, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.92333984375, 'rewards/rejected': -0.4356689453125, 'rewards/accuracies': 0.8125, 'rewards/margins': 1.35888671875, 'logps/chosen': -360.625, 'logps/rejected': -207.625, 'logits/chosen': -0.97900390625, 'logits/rejected': -1.009765625, 'epoch': 0.16}
 16%|███████████████▏                                                                             | 335/2044 [1:38:48<8:37:50, 18.18s/it] 16%|███████████████▎                                                                             | 336/2044 [1:39:07<8:39:45, 18.26s/it]                                                                                                                                         {'loss': 0.3386, 'grad_norm': 37.48447922895576, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9033203125, 'rewards/rejected': -0.5692138671875, 'rewards/accuracies': 0.828125, 'rewards/margins': 1.47314453125, 'logps/chosen': -314.625, 'logps/rejected': -184.375, 'logits/chosen': -0.90673828125, 'logits/rejected': -1.00146484375, 'epoch': 0.16}
 16%|███████████████▎                                                                             | 336/2044 [1:39:07<8:39:45, 18.26s/it] 16%|███████████████▎                                                                             | 337/2044 [1:39:24<8:33:53, 18.06s/it]                                                                                                                                         {'loss': 0.3336, 'grad_norm': 33.62534134099964, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.06640625, 'rewards/rejected': -0.49365234375, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.56005859375, 'logps/chosen': -318.625, 'logps/rejected': -130.40625, 'logits/chosen': -0.8876953125, 'logits/rejected': -0.96240234375, 'epoch': 0.16}
 16%|███████████████▎                                                                             | 337/2044 [1:39:24<8:33:53, 18.06s/it] 17%|███████████████▍                                                                             | 338/2044 [1:39:40<8:16:26, 17.46s/it]                                                                                                                                         {'loss': 0.2648, 'grad_norm': 22.939639375192446, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.94091796875, 'rewards/rejected': -0.733642578125, 'rewards/accuracies': 0.96875, 'rewards/margins': 1.6748046875, 'logps/chosen': -251.75, 'logps/rejected': -84.375, 'logits/chosen': -1.02197265625, 'logits/rejected': -0.878662109375, 'epoch': 0.17}
 17%|███████████████▍                                                                             | 338/2044 [1:39:40<8:16:26, 17.46s/it] 17%|███████████████▍                                                                             | 339/2044 [1:39:59<8:23:25, 17.72s/it]                                                                                                                                         {'loss': 0.3463, 'grad_norm': 34.048314557537616, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.09814453125, 'rewards/rejected': -0.47607421875, 'rewards/accuracies': 0.890625, 'rewards/margins': 1.576171875, 'logps/chosen': -330.375, 'logps/rejected': -115.75, 'logits/chosen': -0.938232421875, 'logits/rejected': -0.955810546875, 'epoch': 0.17}
 17%|███████████████▍                                                                             | 339/2044 [1:39:59<8:23:25, 17.72s/it] 17%|███████████████▍                                                                             | 340/2044 [1:40:14<8:07:22, 17.16s/it]                                                                                                                                         {'loss': 0.2606, 'grad_norm': 20.52836973949443, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.986328125, 'rewards/rejected': -0.78369140625, 'rewards/accuracies': 0.953125, 'rewards/margins': 1.7705078125, 'logps/chosen': -229.875, 'logps/rejected': -70.65625, 'logits/chosen': -0.93994140625, 'logits/rejected': -1.0576171875, 'epoch': 0.17}
 17%|███████████████▍                                                                             | 340/2044 [1:40:14<8:07:22, 17.16s/it] 17%|███████████████▌                                                                             | 341/2044 [1:40:31<8:02:58, 17.02s/it]                                                                                                                                         {'loss': 0.3053, 'grad_norm': 27.199354135808008, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.97021484375, 'rewards/rejected': -0.673828125, 'rewards/accuracies': 0.90625, 'rewards/margins': 1.6435546875, 'logps/chosen': -284.25, 'logps/rejected': -85.53125, 'logits/chosen': -1.14013671875, 'logits/rejected': -1.07763671875, 'epoch': 0.17}
 17%|███████████████▌                                                                             | 341/2044 [1:40:31<8:02:58, 17.02s/it] 17%|███████████████▌                                                                             | 342/2044 [1:40:50<8:16:42, 17.51s/it]                                                                                                                                         {'loss': 0.3041, 'grad_norm': 30.85787011890082, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.11376953125, 'rewards/rejected': -0.57891845703125, 'rewards/accuracies': 0.875, 'rewards/margins': 1.693359375, 'logps/chosen': -296.75, 'logps/rejected': -112.6875, 'logits/chosen': -0.80810546875, 'logits/rejected': -0.890625, 'epoch': 0.17}
 17%|███████████████▌                                                                             | 342/2044 [1:40:50<8:16:42, 17.51s/it] 17%|███████████████▌                                                                             | 343/2044 [1:41:07<8:13:40, 17.41s/it]                                                                                                                                         {'loss': 0.2908, 'grad_norm': 26.442100893796344, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.03369140625, 'rewards/rejected': -0.6806640625, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.71484375, 'logps/chosen': -266.125, 'logps/rejected': -97.71875, 'logits/chosen': -0.94140625, 'logits/rejected': -0.934326171875, 'epoch': 0.17}
 17%|███████████████▌                                                                             | 343/2044 [1:41:07<8:13:40, 17.41s/it] 17%|███████████████▋                                                                             | 344/2044 [1:41:23<8:03:15, 17.06s/it]                                                                                                                                         {'loss': 0.3439, 'grad_norm': 34.11645845929395, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8876953125, 'rewards/rejected': -0.57940673828125, 'rewards/accuracies': 0.875, 'rewards/margins': 1.466796875, 'logps/chosen': -271.875, 'logps/rejected': -111.8125, 'logits/chosen': -0.94482421875, 'logits/rejected': -0.87744140625, 'epoch': 0.17}
 17%|███████████████▋                                                                             | 344/2044 [1:41:23<8:03:15, 17.06s/it] 17%|███████████████▋                                                                             | 345/2044 [1:41:42<8:14:57, 17.48s/it]                                                                                                                                         {'loss': 0.4097, 'grad_norm': 34.730354749808555, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.80859375, 'rewards/rejected': -0.362518310546875, 'rewards/accuracies': 0.78125, 'rewards/margins': 1.171875, 'logps/chosen': -222.5, 'logps/rejected': -126.875, 'logits/chosen': -0.96826171875, 'logits/rejected': -0.91455078125, 'epoch': 0.17}
 17%|███████████████▋                                                                             | 345/2044 [1:41:42<8:14:57, 17.48s/it] 17%|███████████████▋                                                                             | 346/2044 [1:42:01<8:27:20, 17.93s/it]                                                                                                                                         {'loss': 0.3695, 'grad_norm': 37.57982703474103, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9599609375, 'rewards/rejected': -0.4638671875, 'rewards/accuracies': 0.796875, 'rewards/margins': 1.42431640625, 'logps/chosen': -281.875, 'logps/rejected': -140.1875, 'logits/chosen': -1.09130859375, 'logits/rejected': -1.103515625, 'epoch': 0.17}
 17%|███████████████▋                                                                             | 346/2044 [1:42:01<8:27:20, 17.93s/it] 17%|███████████████▊                                                                             | 347/2044 [1:42:18<8:25:26, 17.87s/it]                                                                                                                                         {'loss': 0.3066, 'grad_norm': 30.951132112745462, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.01123046875, 'rewards/rejected': -0.58837890625, 'rewards/accuracies': 0.875, 'rewards/margins': 1.599609375, 'logps/chosen': -288.0, 'logps/rejected': -130.0625, 'logits/chosen': -1.04443359375, 'logits/rejected': -0.9814453125, 'epoch': 0.17}
 17%|███████████████▊                                                                             | 347/2044 [1:42:18<8:25:26, 17.87s/it] 17%|███████████████▊                                                                             | 348/2044 [1:42:35<8:18:48, 17.65s/it]                                                                                                                                         {'loss': 0.3375, 'grad_norm': 26.937516419142547, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.03466796875, 'rewards/rejected': -0.5712890625, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.6044921875, 'logps/chosen': -264.625, 'logps/rejected': -101.5625, 'logits/chosen': -0.796875, 'logits/rejected': -0.91748046875, 'epoch': 0.17}
 17%|███████████████▊                                                                             | 348/2044 [1:42:35<8:18:48, 17.65s/it] 17%|███████████████▉                                                                             | 349/2044 [1:42:52<8:12:04, 17.42s/it]                                                                                                                                         {'loss': 0.2789, 'grad_norm': 33.84204522450787, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.99658203125, 'rewards/rejected': -0.82421875, 'rewards/accuracies': 0.890625, 'rewards/margins': 1.822265625, 'logps/chosen': -290.375, 'logps/rejected': -83.75, 'logits/chosen': -0.9375, 'logits/rejected': -0.98681640625, 'epoch': 0.17}
 17%|███████████████▉                                                                             | 349/2044 [1:42:52<8:12:04, 17.42s/it] 17%|███████████████▉                                                                             | 350/2044 [1:43:11<8:20:21, 17.72s/it]                                                                                                                                         {'loss': 0.3794, 'grad_norm': 44.632580975026265, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.03564453125, 'rewards/rejected': -0.551422119140625, 'rewards/accuracies': 0.8125, 'rewards/margins': 1.58740234375, 'logps/chosen': -335.625, 'logps/rejected': -138.0, 'logits/chosen': -1.06005859375, 'logits/rejected': -0.9658203125, 'epoch': 0.17}
 17%|███████████████▉                                                                             | 350/2044 [1:43:11<8:20:21, 17.72s/it] 17%|███████████████▉                                                                             | 351/2044 [1:43:28<8:13:39, 17.50s/it]                                                                                                                                         {'loss': 0.3022, 'grad_norm': 25.67463987462026, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9521484375, 'rewards/rejected': -0.742431640625, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.693359375, 'logps/chosen': -256.875, 'logps/rejected': -106.625, 'logits/chosen': -1.01416015625, 'logits/rejected': -0.9580078125, 'epoch': 0.17}
 17%|███████████████▉                                                                             | 351/2044 [1:43:28<8:13:39, 17.50s/it] 17%|████████████████                                                                             | 352/2044 [1:43:45<8:09:04, 17.34s/it]                                                                                                                                         {'loss': 0.2946, 'grad_norm': 25.5861503680564, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0263671875, 'rewards/rejected': -0.700439453125, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.7265625, 'logps/chosen': -248.875, 'logps/rejected': -99.5625, 'logits/chosen': -0.963134765625, 'logits/rejected': -0.986328125, 'epoch': 0.17}
 17%|████████████████                                                                             | 352/2044 [1:43:45<8:09:04, 17.34s/it] 17%|████████████████                                                                             | 353/2044 [1:44:03<8:20:06, 17.74s/it]                                                                                                                                         {'loss': 0.2997, 'grad_norm': 31.119445963310568, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.10107421875, 'rewards/rejected': -0.5544891357421875, 'rewards/accuracies': 0.9375, 'rewards/margins': 1.65380859375, 'logps/chosen': -288.375, 'logps/rejected': -124.96875, 'logits/chosen': -0.9837646484375, 'logits/rejected': -1.0576171875, 'epoch': 0.17}
 17%|████████████████                                                                             | 353/2044 [1:44:03<8:20:06, 17.74s/it] 17%|████████████████                                                                             | 354/2044 [1:44:21<8:22:40, 17.85s/it]                                                                                                                                         {'loss': 0.3187, 'grad_norm': 47.12939183129734, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.02978515625, 'rewards/rejected': -0.78466796875, 'rewards/accuracies': 0.890625, 'rewards/margins': 1.81494140625, 'logps/chosen': -294.0, 'logps/rejected': -158.15625, 'logits/chosen': -0.97265625, 'logits/rejected': -1.0224609375, 'epoch': 0.17}
 17%|████████████████                                                                             | 354/2044 [1:44:21<8:22:40, 17.85s/it] 17%|████████████████▏                                                                            | 355/2044 [1:44:40<8:29:44, 18.11s/it]                                                                                                                                         {'loss': 0.3673, 'grad_norm': 1090.410534328292, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.02783203125, 'rewards/rejected': -0.655029296875, 'rewards/accuracies': 0.890625, 'rewards/margins': 1.685546875, 'logps/chosen': -306.375, 'logps/rejected': -135.25, 'logits/chosen': -1.048828125, 'logits/rejected': -0.88330078125, 'epoch': 0.17}
 17%|████████████████▏                                                                            | 355/2044 [1:44:40<8:29:44, 18.11s/it] 17%|████████████████▏                                                                            | 356/2044 [1:44:58<8:25:59, 17.99s/it]                                                                                                                                         {'loss': 0.2875, 'grad_norm': 27.710680534598882, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.01611328125, 'rewards/rejected': -0.706298828125, 'rewards/accuracies': 0.90625, 'rewards/margins': 1.72265625, 'logps/chosen': -278.375, 'logps/rejected': -105.15625, 'logits/chosen': -0.97509765625, 'logits/rejected': -0.8486328125, 'epoch': 0.17}
 17%|████████████████▏                                                                            | 356/2044 [1:44:58<8:25:59, 17.99s/it] 17%|████████████████▏                                                                            | 357/2044 [1:45:16<8:27:24, 18.05s/it]                                                                                                                                         {'loss': 0.3117, 'grad_norm': 33.666525710242034, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0068359375, 'rewards/rejected': -0.6116943359375, 'rewards/accuracies': 0.921875, 'rewards/margins': 1.61865234375, 'logps/chosen': -272.375, 'logps/rejected': -109.34375, 'logits/chosen': -0.8564453125, 'logits/rejected': -0.9990234375, 'epoch': 0.17}
 17%|████████████████▏                                                                            | 357/2044 [1:45:16<8:27:24, 18.05s/it] 18%|████████████████▎                                                                            | 358/2044 [1:45:34<8:29:23, 18.13s/it]                                                                                                                                         {'loss': 0.3531, 'grad_norm': 35.9444347966115, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.02783203125, 'rewards/rejected': -0.52191162109375, 'rewards/accuracies': 0.890625, 'rewards/margins': 1.54931640625, 'logps/chosen': -306.0, 'logps/rejected': -117.25, 'logits/chosen': -1.0498046875, 'logits/rejected': -1.05322265625, 'epoch': 0.18}
 18%|████████████████▎                                                                            | 358/2044 [1:45:34<8:29:23, 18.13s/it] 18%|████████████████▎                                                                            | 359/2044 [1:45:53<8:33:31, 18.29s/it]                                                                                                                                         {'loss': 0.311, 'grad_norm': 28.282004441913188, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.15576171875, 'rewards/rejected': -0.734619140625, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.8916015625, 'logps/chosen': -345.625, 'logps/rejected': -89.34375, 'logits/chosen': -0.89111328125, 'logits/rejected': -0.95654296875, 'epoch': 0.18}
 18%|████████████████▎                                                                            | 359/2044 [1:45:53<8:33:31, 18.29s/it] 18%|████████████████▍                                                                            | 360/2044 [1:46:10<8:22:44, 17.91s/it]                                                                                                                                         {'loss': 0.328, 'grad_norm': 33.58159655819493, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.97998046875, 'rewards/rejected': -0.6708984375, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.650390625, 'logps/chosen': -232.5625, 'logps/rejected': -114.71875, 'logits/chosen': -0.93505859375, 'logits/rejected': -0.953125, 'epoch': 0.18}
 18%|████████████████▍                                                                            | 360/2044 [1:46:10<8:22:44, 17.91s/it] 18%|████████████████▍                                                                            | 361/2044 [1:46:28<8:22:37, 17.92s/it]                                                                                                                                         {'loss': 0.3501, 'grad_norm': 31.595244050931345, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.861572265625, 'rewards/rejected': -0.5164794921875, 'rewards/accuracies': 0.90625, 'rewards/margins': 1.377685546875, 'logps/chosen': -203.625, 'logps/rejected': -113.78125, 'logits/chosen': -0.8634033203125, 'logits/rejected': -1.111328125, 'epoch': 0.18}
 18%|████████████████▍                                                                            | 361/2044 [1:46:28<8:22:37, 17.92s/it] 18%|████████████████▍                                                                            | 362/2044 [1:46:46<8:22:33, 17.93s/it]                                                                                                                                         {'loss': 0.2805, 'grad_norm': 34.98216946811683, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0791015625, 'rewards/rejected': -0.57611083984375, 'rewards/accuracies': 0.953125, 'rewards/margins': 1.6552734375, 'logps/chosen': -302.375, 'logps/rejected': -134.625, 'logits/chosen': -0.908935546875, 'logits/rejected': -1.02978515625, 'epoch': 0.18}
 18%|████████████████▍                                                                            | 362/2044 [1:46:46<8:22:33, 17.93s/it] 18%|████████████████▌                                                                            | 363/2044 [1:47:04<8:24:43, 18.02s/it]                                                                                                                                         {'loss': 0.3483, 'grad_norm': 31.69798961683112, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.849609375, 'rewards/rejected': -0.5361175537109375, 'rewards/accuracies': 0.875, 'rewards/margins': 1.3857574462890625, 'logps/chosen': -256.875, 'logps/rejected': -141.0, 'logits/chosen': -1.01416015625, 'logits/rejected': -0.94921875, 'epoch': 0.18}
 18%|████████████████▌                                                                            | 363/2044 [1:47:04<8:24:43, 18.02s/it] 18%|████████████████▌                                                                            | 364/2044 [1:47:21<8:13:11, 17.61s/it]                                                                                                                                         {'loss': 0.259, 'grad_norm': 23.902758216509355, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.95654296875, 'rewards/rejected': -0.871337890625, 'rewards/accuracies': 0.9375, 'rewards/margins': 1.828125, 'logps/chosen': -253.375, 'logps/rejected': -100.0625, 'logits/chosen': -0.931396484375, 'logits/rejected': -0.931640625, 'epoch': 0.18}
 18%|████████████████▌                                                                            | 364/2044 [1:47:21<8:13:11, 17.61s/it] 18%|████████████████▌                                                                            | 365/2044 [1:47:38<8:05:27, 17.35s/it]                                                                                                                                         {'loss': 0.3263, 'grad_norm': 29.486260239702155, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.97900390625, 'rewards/rejected': -0.651611328125, 'rewards/accuracies': 0.875, 'rewards/margins': 1.63134765625, 'logps/chosen': -293.125, 'logps/rejected': -118.625, 'logits/chosen': -1.1650390625, 'logits/rejected': -0.954833984375, 'epoch': 0.18}
 18%|████████████████▌                                                                            | 365/2044 [1:47:38<8:05:27, 17.35s/it] 18%|████████████████▋                                                                            | 366/2044 [1:47:54<8:00:35, 17.18s/it]                                                                                                                                         {'loss': 0.3621, 'grad_norm': 44.22622237019223, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.87060546875, 'rewards/rejected': -0.616943359375, 'rewards/accuracies': 0.796875, 'rewards/margins': 1.48681640625, 'logps/chosen': -249.6875, 'logps/rejected': -120.875, 'logits/chosen': -0.9931640625, 'logits/rejected': -0.962890625, 'epoch': 0.18}
 18%|████████████████▋                                                                            | 366/2044 [1:47:54<8:00:35, 17.18s/it] 18%|████████████████▋                                                                            | 367/2044 [1:48:13<8:12:06, 17.61s/it]                                                                                                                                         {'loss': 0.3439, 'grad_norm': 29.321319157611047, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.841796875, 'rewards/rejected': -0.654541015625, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.49658203125, 'logps/chosen': -252.125, 'logps/rejected': -111.625, 'logits/chosen': -0.958984375, 'logits/rejected': -0.97998046875, 'epoch': 0.18}
 18%|████████████████▋                                                                            | 367/2044 [1:48:13<8:12:06, 17.61s/it] 18%|████████████████▋                                                                            | 368/2044 [1:48:30<8:03:30, 17.31s/it]                                                                                                                                         {'loss': 0.2722, 'grad_norm': 22.845045351309665, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.08251953125, 'rewards/rejected': -0.796875, 'rewards/accuracies': 0.921875, 'rewards/margins': 1.8798828125, 'logps/chosen': -276.0, 'logps/rejected': -89.40625, 'logits/chosen': -1.0400390625, 'logits/rejected': -1.015625, 'epoch': 0.18}
 18%|████████████████▋                                                                            | 368/2044 [1:48:30<8:03:30, 17.31s/it] 18%|████████████████▊                                                                            | 369/2044 [1:48:48<8:08:24, 17.50s/it]                                                                                                                                         {'loss': 0.3171, 'grad_norm': 33.099622628407786, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.92919921875, 'rewards/rejected': -0.76318359375, 'rewards/accuracies': 0.90625, 'rewards/margins': 1.6923828125, 'logps/chosen': -284.0, 'logps/rejected': -110.40625, 'logits/chosen': -0.959716796875, 'logits/rejected': -0.93896484375, 'epoch': 0.18}
 18%|████████████████▊                                                                            | 369/2044 [1:48:48<8:08:24, 17.50s/it] 18%|████████████████▊                                                                            | 370/2044 [1:49:06<8:14:36, 17.73s/it]                                                                                                                                         {'loss': 0.3557, 'grad_norm': 29.052756751937512, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7412109375, 'rewards/rejected': -0.630126953125, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.3720703125, 'logps/chosen': -202.5, 'logps/rejected': -110.375, 'logits/chosen': -0.93505859375, 'logits/rejected': -1.00146484375, 'epoch': 0.18}
 18%|████████████████▊                                                                            | 370/2044 [1:49:06<8:14:36, 17.73s/it] 18%|████████████████▉                                                                            | 371/2044 [1:49:24<8:16:19, 17.80s/it]                                                                                                                                         {'loss': 0.4174, 'grad_norm': 36.71169005621592, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.75390625, 'rewards/rejected': -0.402587890625, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.154541015625, 'logps/chosen': -219.4375, 'logps/rejected': -145.8125, 'logits/chosen': -0.8349609375, 'logits/rejected': -0.998046875, 'epoch': 0.18}
 18%|████████████████▉                                                                            | 371/2044 [1:49:24<8:16:19, 17.80s/it] 18%|████████████████▉                                                                            | 372/2044 [1:49:41<8:12:46, 17.68s/it]                                                                                                                                         {'loss': 0.2823, 'grad_norm': 31.429158606413615, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.05908203125, 'rewards/rejected': -0.78955078125, 'rewards/accuracies': 0.875, 'rewards/margins': 1.8466796875, 'logps/chosen': -334.0, 'logps/rejected': -124.96875, 'logits/chosen': -0.99853515625, 'logits/rejected': -0.8897705078125, 'epoch': 0.18}
 18%|████████████████▉                                                                            | 372/2044 [1:49:41<8:12:46, 17.68s/it] 18%|████████████████▉                                                                            | 373/2044 [1:49:59<8:13:14, 17.71s/it]                                                                                                                                         {'loss': 0.3752, 'grad_norm': 39.615988619627544, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9609375, 'rewards/rejected': -0.49613189697265625, 'rewards/accuracies': 0.828125, 'rewards/margins': 1.45703125, 'logps/chosen': -296.375, 'logps/rejected': -159.78125, 'logits/chosen': -0.91259765625, 'logits/rejected': -1.02099609375, 'epoch': 0.18}
 18%|████████████████▉                                                                            | 373/2044 [1:49:59<8:13:14, 17.71s/it] 18%|█████████████████                                                                            | 374/2044 [1:50:17<8:13:12, 17.72s/it]                                                                                                                                         {'loss': 0.2979, 'grad_norm': 25.604718326588994, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.068359375, 'rewards/rejected': -0.7998046875, 'rewards/accuracies': 0.890625, 'rewards/margins': 1.869140625, 'logps/chosen': -295.5, 'logps/rejected': -89.40625, 'logits/chosen': -1.00732421875, 'logits/rejected': -0.91259765625, 'epoch': 0.18}
 18%|█████████████████                                                                            | 374/2044 [1:50:17<8:13:12, 17.72s/it] 18%|█████████████████                                                                            | 375/2044 [1:50:34<8:11:19, 17.66s/it]                                                                                                                                         {'loss': 0.2948, 'grad_norm': 28.250831172357586, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.03515625, 'rewards/rejected': -0.7244873046875, 'rewards/accuracies': 0.921875, 'rewards/margins': 1.7587890625, 'logps/chosen': -265.875, 'logps/rejected': -95.25, 'logits/chosen': -0.978515625, 'logits/rejected': -0.9755859375, 'epoch': 0.18}
 18%|█████████████████                                                                            | 375/2044 [1:50:34<8:11:19, 17.66s/it] 18%|█████████████████                                                                            | 376/2044 [1:50:53<8:19:02, 17.95s/it]                                                                                                                                         {'loss': 0.3112, 'grad_norm': 33.828363926038826, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.01513671875, 'rewards/rejected': -0.71826171875, 'rewards/accuracies': 0.828125, 'rewards/margins': 1.73583984375, 'logps/chosen': -271.75, 'logps/rejected': -119.4375, 'logits/chosen': -0.99853515625, 'logits/rejected': -1.10546875, 'epoch': 0.18}
 18%|█████████████████                                                                            | 376/2044 [1:50:53<8:19:02, 17.95s/it] 18%|█████████████████▏                                                                           | 377/2044 [1:51:11<8:18:44, 17.95s/it]                                                                                                                                         {'loss': 0.2467, 'grad_norm': 31.737902670089213, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.025390625, 'rewards/rejected': -1.01025390625, 'rewards/accuracies': 0.875, 'rewards/margins': 2.0361328125, 'logps/chosen': -328.25, 'logps/rejected': -96.1875, 'logits/chosen': -0.7763671875, 'logits/rejected': -0.9609375, 'epoch': 0.18}
 18%|█████████████████▏                                                                           | 377/2044 [1:51:11<8:18:44, 17.95s/it] 18%|█████████████████▏                                                                           | 378/2044 [1:51:29<8:23:02, 18.12s/it]                                                                                                                                         {'loss': 0.2842, 'grad_norm': 26.402141017684283, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0576171875, 'rewards/rejected': -0.727294921875, 'rewards/accuracies': 0.90625, 'rewards/margins': 1.7861328125, 'logps/chosen': -312.125, 'logps/rejected': -118.375, 'logits/chosen': -0.92529296875, 'logits/rejected': -1.0224609375, 'epoch': 0.18}
 18%|█████████████████▏                                                                           | 378/2044 [1:51:29<8:23:02, 18.12s/it] 19%|█████████████████▏                                                                           | 379/2044 [1:51:47<8:17:54, 17.94s/it]                                                                                                                                         {'loss': 0.3253, 'grad_norm': 41.170987096410684, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.94091796875, 'rewards/rejected': -0.7240142822265625, 'rewards/accuracies': 0.875, 'rewards/margins': 1.66455078125, 'logps/chosen': -304.5, 'logps/rejected': -143.25, 'logits/chosen': -0.9951171875, 'logits/rejected': -1.0126953125, 'epoch': 0.19}
 19%|█████████████████▏                                                                           | 379/2044 [1:51:47<8:17:54, 17.94s/it] 19%|█████████████████▎                                                                           | 380/2044 [1:52:05<8:17:04, 17.92s/it]                                                                                                                                         {'loss': 0.3639, 'grad_norm': 36.242021816962016, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.916015625, 'rewards/rejected': -0.5814208984375, 'rewards/accuracies': 0.796875, 'rewards/margins': 1.49853515625, 'logps/chosen': -285.375, 'logps/rejected': -154.1875, 'logits/chosen': -0.9951171875, 'logits/rejected': -0.900390625, 'epoch': 0.19}
 19%|█████████████████▎                                                                           | 380/2044 [1:52:05<8:17:04, 17.92s/it] 19%|█████████████████▎                                                                           | 381/2044 [1:52:23<8:22:38, 18.13s/it]                                                                                                                                         {'loss': 0.2972, 'grad_norm': 33.23413587108118, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.201171875, 'rewards/rejected': -0.728515625, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.927734375, 'logps/chosen': -362.25, 'logps/rejected': -116.1875, 'logits/chosen': -0.996337890625, 'logits/rejected': -0.863037109375, 'epoch': 0.19}
 19%|█████████████████▎                                                                           | 381/2044 [1:52:23<8:22:38, 18.13s/it] 19%|█████████████████▍                                                                           | 382/2044 [1:52:41<8:19:44, 18.04s/it]                                                                                                                                         {'loss': 0.364, 'grad_norm': 38.54052783159053, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.99365234375, 'rewards/rejected': -0.4425048828125, 'rewards/accuracies': 0.8125, 'rewards/margins': 1.4365234375, 'logps/chosen': -307.375, 'logps/rejected': -176.5, 'logits/chosen': -1.01708984375, 'logits/rejected': -0.84375, 'epoch': 0.19}
 19%|█████████████████▍                                                                           | 382/2044 [1:52:41<8:19:44, 18.04s/it] 19%|█████████████████▍                                                                           | 383/2044 [1:52:59<8:16:45, 17.94s/it]                                                                                                                                         {'loss': 0.283, 'grad_norm': 30.07187737922888, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.08544921875, 'rewards/rejected': -0.9013671875, 'rewards/accuracies': 0.890625, 'rewards/margins': 1.986328125, 'logps/chosen': -290.0, 'logps/rejected': -100.6875, 'logits/chosen': -1.1513671875, 'logits/rejected': -1.0859375, 'epoch': 0.19}
 19%|█████████████████▍                                                                           | 383/2044 [1:52:59<8:16:45, 17.94s/it] 19%|█████████████████▍                                                                           | 384/2044 [1:53:16<8:13:12, 17.83s/it]                                                                                                                                         {'loss': 0.2704, 'grad_norm': 24.723225045971375, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.95751953125, 'rewards/rejected': -0.8291015625, 'rewards/accuracies': 0.875, 'rewards/margins': 1.78662109375, 'logps/chosen': -252.25, 'logps/rejected': -103.46875, 'logits/chosen': -0.869140625, 'logits/rejected': -0.9482421875, 'epoch': 0.19}
 19%|█████████████████▍                                                                           | 384/2044 [1:53:16<8:13:12, 17.83s/it] 19%|█████████████████▌                                                                           | 385/2044 [1:53:34<8:08:21, 17.66s/it]                                                                                                                                         {'loss': 0.306, 'grad_norm': 36.4151350853809, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.11572265625, 'rewards/rejected': -0.67236328125, 'rewards/accuracies': 0.8125, 'rewards/margins': 1.78515625, 'logps/chosen': -274.5, 'logps/rejected': -150.6875, 'logits/chosen': -1.12158203125, 'logits/rejected': -1.05859375, 'epoch': 0.19}
 19%|█████████████████▌                                                                           | 385/2044 [1:53:34<8:08:21, 17.66s/it] 19%|█████████████████▌                                                                           | 386/2044 [1:53:51<8:01:36, 17.43s/it]                                                                                                                                         {'loss': 0.3268, 'grad_norm': 32.18212119386505, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9189453125, 'rewards/rejected': -0.75048828125, 'rewards/accuracies': 0.90625, 'rewards/margins': 1.66943359375, 'logps/chosen': -264.75, 'logps/rejected': -108.3125, 'logits/chosen': -1.0361328125, 'logits/rejected': -1.0, 'epoch': 0.19}
 19%|█████████████████▌                                                                           | 386/2044 [1:53:51<8:01:36, 17.43s/it] 19%|█████████████████▌                                                                           | 387/2044 [1:54:08<8:00:23, 17.40s/it]                                                                                                                                         {'loss': 0.3054, 'grad_norm': 37.90338170303661, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.12353515625, 'rewards/rejected': -0.80908203125, 'rewards/accuracies': 0.796875, 'rewards/margins': 1.93359375, 'logps/chosen': -337.875, 'logps/rejected': -89.625, 'logits/chosen': -1.0185546875, 'logits/rejected': -0.9365234375, 'epoch': 0.19}
 19%|█████████████████▌                                                                           | 387/2044 [1:54:08<8:00:23, 17.40s/it] 19%|█████████████████▋                                                                           | 388/2044 [1:54:27<8:15:11, 17.94s/it]                                                                                                                                         {'loss': 0.2905, 'grad_norm': 34.07999146202856, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9976806640625, 'rewards/rejected': -0.725189208984375, 'rewards/accuracies': 0.90625, 'rewards/margins': 1.72265625, 'logps/chosen': -327.3125, 'logps/rejected': -123.1875, 'logits/chosen': -1.05029296875, 'logits/rejected': -1.0078125, 'epoch': 0.19}
 19%|█████████████████▋                                                                           | 388/2044 [1:54:27<8:15:11, 17.94s/it] 19%|█████████████████▋                                                                           | 389/2044 [1:54:46<8:23:16, 18.25s/it]                                                                                                                                         {'loss': 0.399, 'grad_norm': 44.79170418145838, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.96728515625, 'rewards/rejected': -0.53125, 'rewards/accuracies': 0.8125, 'rewards/margins': 1.498046875, 'logps/chosen': -304.125, 'logps/rejected': -151.9375, 'logits/chosen': -1.06689453125, 'logits/rejected': -1.01025390625, 'epoch': 0.19}
 19%|█████████████████▋                                                                           | 389/2044 [1:54:46<8:23:16, 18.25s/it] 19%|█████████████████▋                                                                           | 390/2044 [1:55:04<8:23:09, 18.25s/it]                                                                                                                                         {'loss': 0.2928, 'grad_norm': 28.69204330564806, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.07421875, 'rewards/rejected': -0.825439453125, 'rewards/accuracies': 0.875, 'rewards/margins': 1.8994140625, 'logps/chosen': -301.125, 'logps/rejected': -108.9375, 'logits/chosen': -0.97607421875, 'logits/rejected': -0.98486328125, 'epoch': 0.19}
 19%|█████████████████▋                                                                           | 390/2044 [1:55:04<8:23:09, 18.25s/it] 19%|█████████████████▊                                                                           | 391/2044 [1:55:21<8:09:07, 17.75s/it]                                                                                                                                         {'loss': 0.2512, 'grad_norm': 22.27562077088604, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.08154296875, 'rewards/rejected': -1.0185546875, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.1005859375, 'logps/chosen': -286.75, 'logps/rejected': -72.3125, 'logits/chosen': -0.932861328125, 'logits/rejected': -0.87939453125, 'epoch': 0.19}
 19%|█████████████████▊                                                                           | 391/2044 [1:55:21<8:09:07, 17.75s/it] 19%|█████████████████▊                                                                           | 392/2044 [1:55:39<8:11:48, 17.86s/it]                                                                                                                                         {'loss': 0.2712, 'grad_norm': 25.845161558427503, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.95556640625, 'rewards/rejected': -0.8740234375, 'rewards/accuracies': 0.9375, 'rewards/margins': 1.8291015625, 'logps/chosen': -273.75, 'logps/rejected': -94.0625, 'logits/chosen': -1.044921875, 'logits/rejected': -0.869140625, 'epoch': 0.19}
 19%|█████████████████▊                                                                           | 392/2044 [1:55:39<8:11:48, 17.86s/it] 19%|█████████████████▉                                                                           | 393/2044 [1:55:57<8:14:12, 17.96s/it]                                                                                                                                         {'loss': 0.2628, 'grad_norm': 35.85423157063484, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0419921875, 'rewards/rejected': -0.91650390625, 'rewards/accuracies': 0.890625, 'rewards/margins': 1.95703125, 'logps/chosen': -288.125, 'logps/rejected': -151.5, 'logits/chosen': -0.7856292724609375, 'logits/rejected': -1.0576171875, 'epoch': 0.19}
 19%|█████████████████▉                                                                           | 393/2044 [1:55:57<8:14:12, 17.96s/it] 19%|█████████████████▉                                                                           | 394/2044 [1:56:16<8:24:30, 18.35s/it]                                                                                                                                         {'loss': 0.3384, 'grad_norm': 32.40609768791176, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.06689453125, 'rewards/rejected': -0.638671875, 'rewards/accuracies': 0.875, 'rewards/margins': 1.708984375, 'logps/chosen': -350.75, 'logps/rejected': -143.0, 'logits/chosen': -0.806640625, 'logits/rejected': -0.94189453125, 'epoch': 0.19}
 19%|█████████████████▉                                                                           | 394/2044 [1:56:16<8:24:30, 18.35s/it] 19%|█████████████████▉                                                                           | 395/2044 [1:56:34<8:21:14, 18.24s/it]                                                                                                                                         {'loss': 0.3068, 'grad_norm': 41.54780052300784, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.92724609375, 'rewards/rejected': -0.75238037109375, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.6806640625, 'logps/chosen': -285.5, 'logps/rejected': -143.84375, 'logits/chosen': -1.0595703125, 'logits/rejected': -1.05712890625, 'epoch': 0.19}
 19%|█████████████████▉                                                                           | 395/2044 [1:56:34<8:21:14, 18.24s/it] 19%|██████████████████                                                                           | 396/2044 [1:56:52<8:12:23, 17.93s/it]                                                                                                                                         {'loss': 0.3182, 'grad_norm': 36.0420725799829, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.97265625, 'rewards/rejected': -0.712890625, 'rewards/accuracies': 0.875, 'rewards/margins': 1.6875, 'logps/chosen': -328.5, 'logps/rejected': -107.0, 'logits/chosen': -1.058837890625, 'logits/rejected': -0.89892578125, 'epoch': 0.19}
 19%|██████████████████                                                                           | 396/2044 [1:56:52<8:12:23, 17.93s/it] 19%|██████████████████                                                                           | 397/2044 [1:57:09<8:03:21, 17.61s/it]                                                                                                                                         {'loss': 0.3, 'grad_norm': 35.82195073681003, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.046875, 'rewards/rejected': -0.860107421875, 'rewards/accuracies': 0.890625, 'rewards/margins': 1.90625, 'logps/chosen': -291.625, 'logps/rejected': -123.5625, 'logits/chosen': -1.0224609375, 'logits/rejected': -0.93505859375, 'epoch': 0.19}
 19%|██████████████████                                                                           | 397/2044 [1:57:09<8:03:21, 17.61s/it] 19%|██████████████████                                                                           | 398/2044 [1:57:26<8:00:24, 17.51s/it]                                                                                                                                         {'loss': 0.2621, 'grad_norm': 28.558410977836957, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0947265625, 'rewards/rejected': -0.860107421875, 'rewards/accuracies': 0.9375, 'rewards/margins': 1.9541015625, 'logps/chosen': -326.25, 'logps/rejected': -108.8125, 'logits/chosen': -1.00634765625, 'logits/rejected': -0.914794921875, 'epoch': 0.19}
 19%|██████████████████                                                                           | 398/2044 [1:57:26<8:00:24, 17.51s/it] 20%|██████████████████▏                                                                          | 399/2044 [1:57:43<7:58:20, 17.45s/it]                                                                                                                                         {'loss': 0.295, 'grad_norm': 28.337872608539122, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.064453125, 'rewards/rejected': -0.8697967529296875, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.9375, 'logps/chosen': -326.125, 'logps/rejected': -181.875, 'logits/chosen': -0.95654296875, 'logits/rejected': -1.06494140625, 'epoch': 0.2}
 20%|██████████████████▏                                                                          | 399/2044 [1:57:43<7:58:20, 17.45s/it] 20%|██████████████████▏                                                                          | 400/2044 [1:58:02<8:11:48, 17.95s/it]                                                                                                                                         {'loss': 0.3361, 'grad_norm': 32.905769186675165, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8623046875, 'rewards/rejected': -0.642333984375, 'rewards/accuracies': 0.875, 'rewards/margins': 1.50390625, 'logps/chosen': -292.0625, 'logps/rejected': -131.3125, 'logits/chosen': -0.98193359375, 'logits/rejected': -1.060546875, 'epoch': 0.2}
 20%|██████████████████▏                                                                          | 400/2044 [1:58:02<8:11:48, 17.95s/it] 20%|██████████████████▏                                                                          | 401/2044 [1:58:21<8:16:31, 18.13s/it]                                                                                                                                         {'loss': 0.3218, 'grad_norm': 33.738542036745685, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.027099609375, 'rewards/rejected': -0.786865234375, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.8154296875, 'logps/chosen': -314.125, 'logps/rejected': -151.0, 'logits/chosen': -0.96142578125, 'logits/rejected': -0.943359375, 'epoch': 0.2}
 20%|██████████████████▏                                                                          | 401/2044 [1:58:21<8:16:31, 18.13s/it] 20%|██████████████████▎                                                                          | 402/2044 [1:58:40<8:26:54, 18.52s/it]                                                                                                                                         {'loss': 0.3441, 'grad_norm': 32.79690409474541, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.995361328125, 'rewards/rejected': -0.522216796875, 'rewards/accuracies': 0.875, 'rewards/margins': 1.5185546875, 'logps/chosen': -350.5, 'logps/rejected': -156.53125, 'logits/chosen': -0.9749755859375, 'logits/rejected': -0.9638671875, 'epoch': 0.2}
 20%|██████████████████▎                                                                          | 402/2044 [1:58:40<8:26:54, 18.52s/it] 20%|██████████████████▎                                                                          | 403/2044 [1:58:58<8:17:00, 18.17s/it]                                                                                                                                         {'loss': 0.2906, 'grad_norm': 30.82457348925104, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.995849609375, 'rewards/rejected': -0.81201171875, 'rewards/accuracies': 0.890625, 'rewards/margins': 1.806640625, 'logps/chosen': -287.4375, 'logps/rejected': -113.25, 'logits/chosen': -1.05078125, 'logits/rejected': -0.95361328125, 'epoch': 0.2}
 20%|██████████████████▎                                                                          | 403/2044 [1:58:58<8:17:00, 18.17s/it] 20%|██████████████████▍                                                                          | 404/2044 [1:59:17<8:24:31, 18.46s/it]                                                                                                                                         {'loss': 0.3156, 'grad_norm': 34.165525339547585, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.94580078125, 'rewards/rejected': -0.83935546875, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.7890625, 'logps/chosen': -288.25, 'logps/rejected': -117.875, 'logits/chosen': -0.9814453125, 'logits/rejected': -1.0205078125, 'epoch': 0.2}
 20%|██████████████████▍                                                                          | 404/2044 [1:59:17<8:24:31, 18.46s/it] 20%|██████████████████▍                                                                          | 405/2044 [1:59:35<8:24:35, 18.47s/it]                                                                                                                                         {'loss': 0.2571, 'grad_norm': 27.426988704713796, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.02984619140625, 'rewards/rejected': -0.94677734375, 'rewards/accuracies': 0.921875, 'rewards/margins': 1.9755859375, 'logps/chosen': -272.875, 'logps/rejected': -109.09375, 'logits/chosen': -0.803466796875, 'logits/rejected': -1.04931640625, 'epoch': 0.2}
 20%|██████████████████▍                                                                          | 405/2044 [1:59:35<8:24:35, 18.47s/it] 20%|██████████████████▍                                                                          | 406/2044 [1:59:54<8:25:13, 18.51s/it]                                                                                                                                         {'loss': 0.279, 'grad_norm': 36.06002457831492, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.94970703125, 'rewards/rejected': -0.865966796875, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.8173828125, 'logps/chosen': -310.5, 'logps/rejected': -119.75, 'logits/chosen': -1.06884765625, 'logits/rejected': -0.91552734375, 'epoch': 0.2}
 20%|██████████████████▍                                                                          | 406/2044 [1:59:54<8:25:13, 18.51s/it] 20%|██████████████████▌                                                                          | 407/2044 [2:00:11<8:16:25, 18.20s/it]                                                                                                                                         {'loss': 0.3047, 'grad_norm': 30.256206368426902, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8905029296875, 'rewards/rejected': -0.771240234375, 'rewards/accuracies': 0.890625, 'rewards/margins': 1.66015625, 'logps/chosen': -282.125, 'logps/rejected': -128.25, 'logits/chosen': -0.92138671875, 'logits/rejected': -0.89599609375, 'epoch': 0.2}
 20%|██████████████████▌                                                                          | 407/2044 [2:00:11<8:16:25, 18.20s/it] 20%|██████████████████▌                                                                          | 408/2044 [2:00:30<8:16:44, 18.22s/it]                                                                                                                                         {'loss': 0.3218, 'grad_norm': 38.46178859004008, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9599609375, 'rewards/rejected': -0.84326171875, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.8037109375, 'logps/chosen': -317.5, 'logps/rejected': -154.28125, 'logits/chosen': -0.94580078125, 'logits/rejected': -0.89453125, 'epoch': 0.2}
 20%|██████████████████▌                                                                          | 408/2044 [2:00:30<8:16:44, 18.22s/it] 20%|██████████████████▌                                                                          | 409/2044 [2:00:48<8:20:31, 18.37s/it]                                                                                                                                         {'loss': 0.2783, 'grad_norm': 27.772322191464262, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.10693359375, 'rewards/rejected': -0.751953125, 'rewards/accuracies': 0.890625, 'rewards/margins': 1.859375, 'logps/chosen': -314.75, 'logps/rejected': -128.3125, 'logits/chosen': -0.94091796875, 'logits/rejected': -0.87158203125, 'epoch': 0.2}
 20%|██████████████████▌                                                                          | 409/2044 [2:00:48<8:20:31, 18.37s/it] 20%|██████████████████▋                                                                          | 410/2044 [2:01:06<8:13:05, 18.11s/it]                                                                                                                                         {'loss': 0.2417, 'grad_norm': 24.220289689219943, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.061767578125, 'rewards/rejected': -1.00341796875, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.06640625, 'logps/chosen': -293.875, 'logps/rejected': -91.3125, 'logits/chosen': -0.8408203125, 'logits/rejected': -0.89404296875, 'epoch': 0.2}
 20%|██████████████████▋                                                                          | 410/2044 [2:01:06<8:13:05, 18.11s/it] 20%|██████████████████▋                                                                          | 411/2044 [2:01:22<7:53:40, 17.40s/it]                                                                                                                                         {'loss': 0.2472, 'grad_norm': 22.38044545714079, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.07275390625, 'rewards/rejected': -1.021484375, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.091796875, 'logps/chosen': -279.0, 'logps/rejected': -85.1875, 'logits/chosen': -1.03125, 'logits/rejected': -1.02783203125, 'epoch': 0.2}
 20%|██████████████████▋                                                                          | 411/2044 [2:01:22<7:53:40, 17.40s/it] 20%|██████████████████▋                                                                          | 412/2044 [2:01:40<8:00:37, 17.67s/it]                                                                                                                                         {'loss': 0.2748, 'grad_norm': 29.880474690970104, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.98828125, 'rewards/rejected': -0.991455078125, 'rewards/accuracies': 0.90625, 'rewards/margins': 1.98046875, 'logps/chosen': -248.125, 'logps/rejected': -109.875, 'logits/chosen': -0.9173583984375, 'logits/rejected': -0.9716796875, 'epoch': 0.2}
 20%|██████████████████▋                                                                          | 412/2044 [2:01:40<8:00:37, 17.67s/it] 20%|██████████████████▊                                                                          | 413/2044 [2:01:59<8:12:26, 18.12s/it]                                                                                                                                         {'loss': 0.278, 'grad_norm': 32.20896138500014, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.27783203125, 'rewards/rejected': -0.8167724609375, 'rewards/accuracies': 0.875, 'rewards/margins': 2.09375, 'logps/chosen': -373.0, 'logps/rejected': -132.75, 'logits/chosen': -1.0380859375, 'logits/rejected': -0.93798828125, 'epoch': 0.2}
 20%|██████████████████▊                                                                          | 413/2044 [2:01:59<8:12:26, 18.12s/it] 20%|██████████████████▊                                                                          | 414/2044 [2:02:17<8:07:43, 17.95s/it]                                                                                                                                         {'loss': 0.2848, 'grad_norm': 29.45153991653323, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0419921875, 'rewards/rejected': -0.96728515625, 'rewards/accuracies': 0.875, 'rewards/margins': 2.0068359375, 'logps/chosen': -327.0, 'logps/rejected': -109.75, 'logits/chosen': -0.8831787109375, 'logits/rejected': -0.94140625, 'epoch': 0.2}
 20%|██████████████████▊                                                                          | 414/2044 [2:02:17<8:07:43, 17.95s/it] 20%|██████████████████▉                                                                          | 415/2044 [2:02:35<8:12:28, 18.14s/it]                                                                                                                                         {'loss': 0.3036, 'grad_norm': 32.110266531349886, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.01171875, 'rewards/rejected': -0.842529296875, 'rewards/accuracies': 0.875, 'rewards/margins': 1.8544921875, 'logps/chosen': -268.0, 'logps/rejected': -110.75, 'logits/chosen': -0.846923828125, 'logits/rejected': -0.966796875, 'epoch': 0.2}
 20%|██████████████████▉                                                                          | 415/2044 [2:02:35<8:12:28, 18.14s/it] 20%|██████████████████▉                                                                          | 416/2044 [2:02:53<8:13:06, 18.17s/it]                                                                                                                                         {'loss': 0.3179, 'grad_norm': 34.47328298997111, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9765625, 'rewards/rejected': -0.80126953125, 'rewards/accuracies': 0.875, 'rewards/margins': 1.779296875, 'logps/chosen': -270.25, 'logps/rejected': -143.34375, 'logits/chosen': -0.751953125, 'logits/rejected': -1.08935546875, 'epoch': 0.2}
 20%|██████████████████▉                                                                          | 416/2044 [2:02:53<8:13:06, 18.17s/it] 20%|██████████████████▉                                                                          | 417/2044 [2:03:13<8:21:36, 18.50s/it]                                                                                                                                         {'loss': 0.3704, 'grad_norm': 54.539412632174894, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0078125, 'rewards/rejected': -0.637786865234375, 'rewards/accuracies': 0.765625, 'rewards/margins': 1.6456298828125, 'logps/chosen': -291.375, 'logps/rejected': -163.0, 'logits/chosen': -1.0546875, 'logits/rejected': -0.962890625, 'epoch': 0.2}
 20%|██████████████████▉                                                                          | 417/2044 [2:03:13<8:21:36, 18.50s/it] 20%|███████████████████                                                                          | 418/2044 [2:03:30<8:11:56, 18.15s/it]                                                                                                                                         {'loss': 0.3013, 'grad_norm': 29.017972782224405, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.02392578125, 'rewards/rejected': -0.75701904296875, 'rewards/accuracies': 0.890625, 'rewards/margins': 1.78076171875, 'logps/chosen': -294.875, 'logps/rejected': -115.65625, 'logits/chosen': -0.920654296875, 'logits/rejected': -1.003662109375, 'epoch': 0.2}
 20%|███████████████████                                                                          | 418/2044 [2:03:30<8:11:56, 18.15s/it] 20%|███████████████████                                                                          | 419/2044 [2:03:47<8:05:18, 17.92s/it]                                                                                                                                         {'loss': 0.2404, 'grad_norm': 28.32803839192362, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.1474609375, 'rewards/rejected': -0.802734375, 'rewards/accuracies': 0.9375, 'rewards/margins': 1.9501953125, 'logps/chosen': -345.75, 'logps/rejected': -117.5, 'logits/chosen': -1.08203125, 'logits/rejected': -0.88720703125, 'epoch': 0.21}
 20%|███████████████████                                                                          | 419/2044 [2:03:47<8:05:18, 17.92s/it] 21%|███████████████████                                                                          | 420/2044 [2:04:04<7:55:45, 17.58s/it]                                                                                                                                         {'loss': 0.2744, 'grad_norm': 29.993795335951706, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.09375, 'rewards/rejected': -0.9873046875, 'rewards/accuracies': 0.9375, 'rewards/margins': 2.0810546875, 'logps/chosen': -308.375, 'logps/rejected': -114.46875, 'logits/chosen': -1.0302734375, 'logits/rejected': -0.88330078125, 'epoch': 0.21}
 21%|███████████████████                                                                          | 420/2044 [2:04:04<7:55:45, 17.58s/it] 21%|███████████████████▏                                                                         | 421/2044 [2:04:21<7:52:17, 17.46s/it]                                                                                                                                         {'loss': 0.2512, 'grad_norm': 24.03930688325536, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9892578125, 'rewards/rejected': -1.056640625, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.0458984375, 'logps/chosen': -243.375, 'logps/rejected': -82.40625, 'logits/chosen': -0.94921875, 'logits/rejected': -0.78955078125, 'epoch': 0.21}
 21%|███████████████████▏                                                                         | 421/2044 [2:04:21<7:52:17, 17.46s/it] 21%|███████████████████▏                                                                         | 422/2044 [2:04:40<8:05:10, 17.95s/it]                                                                                                                                         {'loss': 0.2797, 'grad_norm': 29.291354837803325, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.05078125, 'rewards/rejected': -0.884765625, 'rewards/accuracies': 0.890625, 'rewards/margins': 1.93359375, 'logps/chosen': -310.75, 'logps/rejected': -117.25, 'logits/chosen': -0.92431640625, 'logits/rejected': -1.03271484375, 'epoch': 0.21}
 21%|███████████████████▏                                                                         | 422/2044 [2:04:40<8:05:10, 17.95s/it] 21%|███████████████████▏                                                                         | 423/2044 [2:04:59<8:08:04, 18.07s/it]                                                                                                                                         {'loss': 0.3079, 'grad_norm': 27.01776198776064, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.1240234375, 'rewards/rejected': -0.7763671875, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.8994140625, 'logps/chosen': -287.0, 'logps/rejected': -110.3125, 'logits/chosen': -0.92822265625, 'logits/rejected': -1.02294921875, 'epoch': 0.21}
 21%|███████████████████▏                                                                         | 423/2044 [2:04:59<8:08:04, 18.07s/it] 21%|███████████████████▎                                                                         | 424/2044 [2:05:17<8:05:43, 17.99s/it]                                                                                                                                         {'loss': 0.2901, 'grad_norm': 33.47005969959611, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.16162109375, 'rewards/rejected': -0.94921875, 'rewards/accuracies': 0.875, 'rewards/margins': 2.109375, 'logps/chosen': -297.5, 'logps/rejected': -118.625, 'logits/chosen': -0.830078125, 'logits/rejected': -0.9140625, 'epoch': 0.21}
 21%|███████████████████▎                                                                         | 424/2044 [2:05:17<8:05:43, 17.99s/it] 21%|███████████████████▎                                                                         | 425/2044 [2:05:35<8:05:34, 18.00s/it]                                                                                                                                         {'loss': 0.35, 'grad_norm': 42.67248218761043, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.02099609375, 'rewards/rejected': -0.678558349609375, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.69921875, 'logps/chosen': -294.5, 'logps/rejected': -164.3125, 'logits/chosen': -1.048828125, 'logits/rejected': -0.912109375, 'epoch': 0.21}
 21%|███████████████████▎                                                                         | 425/2044 [2:05:35<8:05:34, 18.00s/it] 21%|███████████████████▍                                                                         | 426/2044 [2:05:51<7:52:37, 17.53s/it]                                                                                                                                         {'loss': 0.2253, 'grad_norm': 34.05139123586278, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.263671875, 'rewards/rejected': -1.163818359375, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.427734375, 'logps/chosen': -346.25, 'logps/rejected': -131.6875, 'logits/chosen': -0.9873046875, 'logits/rejected': -0.9990234375, 'epoch': 0.21}
 21%|███████████████████▍                                                                         | 426/2044 [2:05:51<7:52:37, 17.53s/it] 21%|███████████████████▍                                                                         | 427/2044 [2:06:09<7:57:50, 17.73s/it]                                                                                                                                         {'loss': 0.3146, 'grad_norm': 28.496944579272313, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.943359375, 'rewards/rejected': -0.7744140625, 'rewards/accuracies': 0.875, 'rewards/margins': 1.7197265625, 'logps/chosen': -265.375, 'logps/rejected': -128.3125, 'logits/chosen': -0.9609375, 'logits/rejected': -0.990234375, 'epoch': 0.21}
 21%|███████████████████▍                                                                         | 427/2044 [2:06:09<7:57:50, 17.73s/it] 21%|███████████████████▍                                                                         | 428/2044 [2:06:26<7:52:52, 17.56s/it]                                                                                                                                         {'loss': 0.3195, 'grad_norm': 38.814877680674726, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.96044921875, 'rewards/rejected': -0.90521240234375, 'rewards/accuracies': 0.828125, 'rewards/margins': 1.86767578125, 'logps/chosen': -281.75, 'logps/rejected': -141.1875, 'logits/chosen': -0.733642578125, 'logits/rejected': -0.84423828125, 'epoch': 0.21}
 21%|███████████████████▍                                                                         | 428/2044 [2:06:26<7:52:52, 17.56s/it] 21%|███████████████████▌                                                                         | 429/2044 [2:06:43<7:47:50, 17.38s/it]                                                                                                                                         {'loss': 0.3412, 'grad_norm': 40.131947356488254, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.09716796875, 'rewards/rejected': -0.751953125, 'rewards/accuracies': 0.828125, 'rewards/margins': 1.8486328125, 'logps/chosen': -312.6875, 'logps/rejected': -136.5625, 'logits/chosen': -1.04736328125, 'logits/rejected': -0.94287109375, 'epoch': 0.21}
 21%|███████████████████▌                                                                         | 429/2044 [2:06:43<7:47:50, 17.38s/it] 21%|███████████████████▌                                                                         | 430/2044 [2:07:02<7:56:02, 17.70s/it]                                                                                                                                         {'loss': 0.3239, 'grad_norm': 35.13547537113, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.904296875, 'rewards/rejected': -0.806640625, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.7099609375, 'logps/chosen': -304.75, 'logps/rejected': -165.3125, 'logits/chosen': -1.005859375, 'logits/rejected': -0.83984375, 'epoch': 0.21}
 21%|███████████████████▌                                                                         | 430/2044 [2:07:02<7:56:02, 17.70s/it] 21%|███████████████████▌                                                                         | 431/2044 [2:07:20<8:02:37, 17.95s/it]                                                                                                                                         {'loss': 0.2864, 'grad_norm': 31.597567981532933, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.03125, 'rewards/rejected': -0.968994140625, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.00146484375, 'logps/chosen': -341.625, 'logps/rejected': -114.1875, 'logits/chosen': -0.87841796875, 'logits/rejected': -0.90087890625, 'epoch': 0.21}
 21%|███████████████████▌                                                                         | 431/2044 [2:07:20<8:02:37, 17.95s/it] 21%|███████████████████▋                                                                         | 432/2044 [2:07:39<8:10:31, 18.26s/it]                                                                                                                                         {'loss': 0.3099, 'grad_norm': 28.617391331575536, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.97802734375, 'rewards/rejected': -0.766937255859375, 'rewards/accuracies': 0.921875, 'rewards/margins': 1.7470703125, 'logps/chosen': -301.125, 'logps/rejected': -105.75, 'logits/chosen': -0.78173828125, 'logits/rejected': -0.99560546875, 'epoch': 0.21}
 21%|███████████████████▋                                                                         | 432/2044 [2:07:39<8:10:31, 18.26s/it] 21%|███████████████████▋                                                                         | 433/2044 [2:07:58<8:14:04, 18.40s/it]                                                                                                                                         {'loss': 0.2628, 'grad_norm': 32.529416836054615, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.10400390625, 'rewards/rejected': -1.029052734375, 'rewards/accuracies': 0.875, 'rewards/margins': 2.1357421875, 'logps/chosen': -298.125, 'logps/rejected': -115.40625, 'logits/chosen': -1.012451171875, 'logits/rejected': -0.91845703125, 'epoch': 0.21}
 21%|███████████████████▋                                                                         | 433/2044 [2:07:58<8:14:04, 18.40s/it] 21%|███████████████████▋                                                                         | 434/2044 [2:08:17<8:17:23, 18.54s/it]                                                                                                                                         {'loss': 0.317, 'grad_norm': 32.89212981686135, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9097900390625, 'rewards/rejected': -0.857421875, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.767578125, 'logps/chosen': -297.625, 'logps/rejected': -114.75, 'logits/chosen': -0.813232421875, 'logits/rejected': -0.8671875, 'epoch': 0.21}
 21%|███████████████████▋                                                                         | 434/2044 [2:08:17<8:17:23, 18.54s/it] 21%|███████████████████▊                                                                         | 435/2044 [2:08:35<8:14:00, 18.42s/it]                                                                                                                                         {'loss': 0.3423, 'grad_norm': 34.13337881826211, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.81005859375, 'rewards/rejected': -0.830078125, 'rewards/accuracies': 0.828125, 'rewards/margins': 1.638671875, 'logps/chosen': -281.625, 'logps/rejected': -158.875, 'logits/chosen': -0.900146484375, 'logits/rejected': -0.9468994140625, 'epoch': 0.21}
 21%|███████████████████▊                                                                         | 435/2044 [2:08:35<8:14:00, 18.42s/it] 21%|███████████████████▊                                                                         | 436/2044 [2:08:53<8:09:51, 18.28s/it]                                                                                                                                         {'loss': 0.3226, 'grad_norm': 30.14139887434392, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.87744140625, 'rewards/rejected': -0.74560546875, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.623046875, 'logps/chosen': -256.375, 'logps/rejected': -118.96875, 'logits/chosen': -0.97412109375, 'logits/rejected': -1.013671875, 'epoch': 0.21}
 21%|███████████████████▊                                                                         | 436/2044 [2:08:53<8:09:51, 18.28s/it] 21%|███████████████████▉                                                                         | 437/2044 [2:09:12<8:13:54, 18.44s/it]                                                                                                                                         {'loss': 0.2752, 'grad_norm': 40.369688975907216, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.05810546875, 'rewards/rejected': -0.970703125, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.03076171875, 'logps/chosen': -291.25, 'logps/rejected': -150.96875, 'logits/chosen': -0.70849609375, 'logits/rejected': -0.9326171875, 'epoch': 0.21}
 21%|███████████████████▉                                                                         | 437/2044 [2:09:12<8:13:54, 18.44s/it] 21%|███████████████████▉                                                                         | 438/2044 [2:09:29<8:00:56, 17.97s/it]                                                                                                                                         {'loss': 0.2583, 'grad_norm': 26.572274852025185, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.14208984375, 'rewards/rejected': -1.02294921875, 'rewards/accuracies': 0.875, 'rewards/margins': 2.162109375, 'logps/chosen': -269.875, 'logps/rejected': -111.75, 'logits/chosen': -1.02734375, 'logits/rejected': -1.0048828125, 'epoch': 0.21}
 21%|███████████████████▉                                                                         | 438/2044 [2:09:29<8:00:56, 17.97s/it] 21%|███████████████████▉                                                                         | 439/2044 [2:09:45<7:49:14, 17.54s/it]                                                                                                                                         {'loss': 0.2651, 'grad_norm': 24.468841275071195, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.12353515625, 'rewards/rejected': -1.0966796875, 'rewards/accuracies': 0.875, 'rewards/margins': 2.2197265625, 'logps/chosen': -309.375, 'logps/rejected': -84.90625, 'logits/chosen': -0.792236328125, 'logits/rejected': -1.01220703125, 'epoch': 0.21}
 21%|███████████████████▉                                                                         | 439/2044 [2:09:45<7:49:14, 17.54s/it] 22%|████████████████████                                                                         | 440/2044 [2:10:03<7:50:26, 17.60s/it]                                                                                                                                         {'loss': 0.2505, 'grad_norm': 31.890773402545232, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.26611328125, 'rewards/rejected': -1.00634765625, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.271484375, 'logps/chosen': -372.75, 'logps/rejected': -143.8125, 'logits/chosen': -0.9228515625, 'logits/rejected': -0.900634765625, 'epoch': 0.22}
 22%|████████████████████                                                                         | 440/2044 [2:10:03<7:50:26, 17.60s/it] 22%|████████████████████                                                                         | 441/2044 [2:10:21<7:54:11, 17.75s/it]                                                                                                                                         {'loss': 0.2261, 'grad_norm': 28.664539585988237, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0947265625, 'rewards/rejected': -1.0045166015625, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.09765625, 'logps/chosen': -328.5, 'logps/rejected': -132.5, 'logits/chosen': -1.0458984375, 'logits/rejected': -1.0087890625, 'epoch': 0.22}
 22%|████████████████████                                                                         | 441/2044 [2:10:21<7:54:11, 17.75s/it] 22%|████████████████████                                                                         | 442/2044 [2:10:39<7:58:11, 17.91s/it]                                                                                                                                         {'loss': 0.2479, 'grad_norm': 35.60423567838667, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.95849609375, 'rewards/rejected': -1.02386474609375, 'rewards/accuracies': 0.921875, 'rewards/margins': 1.98046875, 'logps/chosen': -315.25, 'logps/rejected': -116.0, 'logits/chosen': -0.96923828125, 'logits/rejected': -1.0244140625, 'epoch': 0.22}
 22%|████████████████████                                                                         | 442/2044 [2:10:39<7:58:11, 17.91s/it] 22%|████████████████████▏                                                                        | 443/2044 [2:10:58<8:04:56, 18.17s/it]                                                                                                                                         {'loss': 0.3448, 'grad_norm': 45.76788188409502, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.920166015625, 'rewards/rejected': -0.95751953125, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.876953125, 'logps/chosen': -317.5, 'logps/rejected': -163.4375, 'logits/chosen': -1.08251953125, 'logits/rejected': -1.15966796875, 'epoch': 0.22}
 22%|████████████████████▏                                                                        | 443/2044 [2:10:58<8:04:56, 18.17s/it] 22%|████████████████████▏                                                                        | 444/2044 [2:11:16<8:06:17, 18.24s/it]                                                                                                                                         {'loss': 0.3247, 'grad_norm': 33.6808558910241, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.99609375, 'rewards/rejected': -0.892333984375, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.8876953125, 'logps/chosen': -272.75, 'logps/rejected': -123.3125, 'logits/chosen': -0.89306640625, 'logits/rejected': -0.98876953125, 'epoch': 0.22}
 22%|████████████████████▏                                                                        | 444/2044 [2:11:16<8:06:17, 18.24s/it] 22%|████████████████████▏                                                                        | 445/2044 [2:11:35<8:07:16, 18.28s/it]                                                                                                                                         {'loss': 0.3159, 'grad_norm': 38.991535257309714, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9876708984375, 'rewards/rejected': -0.90625, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.8935546875, 'logps/chosen': -335.3125, 'logps/rejected': -131.6875, 'logits/chosen': -0.9208984375, 'logits/rejected': -0.951171875, 'epoch': 0.22}
 22%|████████████████████▏                                                                        | 445/2044 [2:11:35<8:07:16, 18.28s/it] 22%|████████████████████▎                                                                        | 446/2044 [2:11:53<8:02:49, 18.13s/it]                                                                                                                                         {'loss': 0.2682, 'grad_norm': 25.81818841801349, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.80078125, 'rewards/rejected': -1.01239013671875, 'rewards/accuracies': 0.921875, 'rewards/margins': 1.8134765625, 'logps/chosen': -247.0, 'logps/rejected': -122.3125, 'logits/chosen': -1.0224609375, 'logits/rejected': -0.954345703125, 'epoch': 0.22}
 22%|████████████████████▎                                                                        | 446/2044 [2:11:53<8:02:49, 18.13s/it] 22%|████████████████████▎                                                                        | 447/2044 [2:12:12<8:09:03, 18.37s/it]                                                                                                                                         {'loss': 0.285, 'grad_norm': 37.78633656053679, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.98876953125, 'rewards/rejected': -1.022216796875, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.01171875, 'logps/chosen': -316.625, 'logps/rejected': -155.46875, 'logits/chosen': -0.90869140625, 'logits/rejected': -0.99853515625, 'epoch': 0.22}
 22%|████████████████████▎                                                                        | 447/2044 [2:12:12<8:09:03, 18.37s/it] 22%|████████████████████▍                                                                        | 448/2044 [2:12:30<8:07:27, 18.33s/it]                                                                                                                                         {'loss': 0.3055, 'grad_norm': 29.446158041701754, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.10009765625, 'rewards/rejected': -0.884033203125, 'rewards/accuracies': 0.90625, 'rewards/margins': 1.98291015625, 'logps/chosen': -349.75, 'logps/rejected': -113.6875, 'logits/chosen': -0.9833984375, 'logits/rejected': -0.884765625, 'epoch': 0.22}
 22%|████████████████████▍                                                                        | 448/2044 [2:12:30<8:07:27, 18.33s/it] 22%|████████████████████▍                                                                        | 449/2044 [2:12:48<8:08:14, 18.37s/it]                                                                                                                                         {'loss': 0.3073, 'grad_norm': 46.067081640859726, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.23193359375, 'rewards/rejected': -0.9649658203125, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.1982421875, 'logps/chosen': -357.125, 'logps/rejected': -144.0625, 'logits/chosen': -1.010009765625, 'logits/rejected': -0.95556640625, 'epoch': 0.22}
 22%|████████████████████▍                                                                        | 449/2044 [2:12:48<8:08:14, 18.37s/it] 22%|████████████████████▍                                                                        | 450/2044 [2:13:05<7:58:35, 18.01s/it]                                                                                                                                         {'loss': 0.2399, 'grad_norm': 24.583473088479714, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.15625, 'rewards/rejected': -1.0302734375, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.1875, 'logps/chosen': -362.625, 'logps/rejected': -159.9375, 'logits/chosen': -0.843017578125, 'logits/rejected': -0.91357421875, 'epoch': 0.22}
 22%|████████████████████▍                                                                        | 450/2044 [2:13:05<7:58:35, 18.01s/it] 22%|████████████████████▌                                                                        | 451/2044 [2:13:24<8:04:33, 18.25s/it]                                                                                                                                         {'loss': 0.2484, 'grad_norm': 23.739881079673896, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.14794921875, 'rewards/rejected': -0.953125, 'rewards/accuracies': 0.953125, 'rewards/margins': 2.0986328125, 'logps/chosen': -289.5, 'logps/rejected': -103.875, 'logits/chosen': -0.8134765625, 'logits/rejected': -0.90478515625, 'epoch': 0.22}
 22%|████████████████████▌                                                                        | 451/2044 [2:13:24<8:04:33, 18.25s/it] 22%|████████████████████▌                                                                        | 452/2044 [2:13:43<8:06:56, 18.35s/it]                                                                                                                                         {'loss': 0.311, 'grad_norm': 31.811821733653574, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9091796875, 'rewards/rejected': -0.917236328125, 'rewards/accuracies': 0.875, 'rewards/margins': 1.8251953125, 'logps/chosen': -235.125, 'logps/rejected': -117.9375, 'logits/chosen': -1.03125, 'logits/rejected': -0.94189453125, 'epoch': 0.22}
 22%|████████████████████▌                                                                        | 452/2044 [2:13:43<8:06:56, 18.35s/it] 22%|████████████████████▌                                                                        | 453/2044 [2:14:01<8:04:14, 18.26s/it]                                                                                                                                         {'loss': 0.3159, 'grad_norm': 37.20748601752424, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.95654296875, 'rewards/rejected': -0.8642578125, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.8203125, 'logps/chosen': -255.25, 'logps/rejected': -156.75, 'logits/chosen': -0.9453125, 'logits/rejected': -0.8857421875, 'epoch': 0.22}
 22%|████████████████████▌                                                                        | 453/2044 [2:14:01<8:04:14, 18.26s/it] 22%|████████████████████▋                                                                        | 454/2044 [2:14:19<8:03:07, 18.23s/it]                                                                                                                                         {'loss': 0.2812, 'grad_norm': 32.64427928477856, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.94677734375, 'rewards/rejected': -1.037109375, 'rewards/accuracies': 0.875, 'rewards/margins': 1.9833984375, 'logps/chosen': -292.625, 'logps/rejected': -119.5625, 'logits/chosen': -0.9326171875, 'logits/rejected': -1.0283203125, 'epoch': 0.22}
 22%|████████████████████▋                                                                        | 454/2044 [2:14:19<8:03:07, 18.23s/it] 22%|████████████████████▋                                                                        | 455/2044 [2:14:36<7:49:20, 17.72s/it]                                                                                                                                         {'loss': 0.2188, 'grad_norm': 22.4585315145664, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.1123046875, 'rewards/rejected': -1.19677734375, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.310546875, 'logps/chosen': -307.0, 'logps/rejected': -95.34375, 'logits/chosen': -0.91748046875, 'logits/rejected': -0.8148193359375, 'epoch': 0.22}
 22%|████████████████████▋                                                                        | 455/2044 [2:14:36<7:49:20, 17.72s/it] 22%|████████████████████▋                                                                        | 456/2044 [2:14:53<7:43:56, 17.53s/it]                                                                                                                                         {'loss': 0.2758, 'grad_norm': 31.588216403059253, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.93359375, 'rewards/rejected': -1.1412353515625, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.076171875, 'logps/chosen': -317.75, 'logps/rejected': -104.25, 'logits/chosen': -0.879150390625, 'logits/rejected': -0.817626953125, 'epoch': 0.22}
 22%|████████████████████▋                                                                        | 456/2044 [2:14:53<7:43:56, 17.53s/it] 22%|████████████████████▊                                                                        | 457/2044 [2:15:11<7:49:42, 17.76s/it]                                                                                                                                         {'loss': 0.233, 'grad_norm': 31.531238991382967, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.16357421875, 'rewards/rejected': -1.146484375, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.30859375, 'logps/chosen': -277.875, 'logps/rejected': -126.25, 'logits/chosen': -0.984375, 'logits/rejected': -0.9990234375, 'epoch': 0.22}
 22%|████████████████████▊                                                                        | 457/2044 [2:15:11<7:49:42, 17.76s/it] 22%|████████████████████▊                                                                        | 458/2044 [2:15:29<7:48:25, 17.72s/it]                                                                                                                                         {'loss': 0.2939, 'grad_norm': 35.678017824263904, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.181640625, 'rewards/rejected': -1.124755859375, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.30712890625, 'logps/chosen': -349.125, 'logps/rejected': -136.875, 'logits/chosen': -0.775146484375, 'logits/rejected': -1.01416015625, 'epoch': 0.22}
 22%|████████████████████▊                                                                        | 458/2044 [2:15:29<7:48:25, 17.72s/it] 22%|████████████████████▉                                                                        | 459/2044 [2:15:46<7:42:21, 17.50s/it]                                                                                                                                         {'loss': 0.2265, 'grad_norm': 37.38396382321761, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.12109375, 'rewards/rejected': -1.2431640625, 'rewards/accuracies': 0.953125, 'rewards/margins': 2.3642578125, 'logps/chosen': -343.375, 'logps/rejected': -98.5, 'logits/chosen': -0.97119140625, 'logits/rejected': -0.848876953125, 'epoch': 0.22}
 22%|████████████████████▉                                                                        | 459/2044 [2:15:46<7:42:21, 17.50s/it] 23%|████████████████████▉                                                                        | 460/2044 [2:16:03<7:43:35, 17.56s/it]                                                                                                                                         {'loss': 0.266, 'grad_norm': 30.109440848230264, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.03955078125, 'rewards/rejected': -0.966796875, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.0087890625, 'logps/chosen': -287.5625, 'logps/rejected': -110.59375, 'logits/chosen': -1.1015625, 'logits/rejected': -0.9306640625, 'epoch': 0.23}
 23%|████████████████████▉                                                                        | 460/2044 [2:16:03<7:43:35, 17.56s/it] 23%|████████████████████▉                                                                        | 461/2044 [2:16:21<7:46:39, 17.69s/it]                                                                                                                                         {'loss': 0.3195, 'grad_norm': 31.888666695013516, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9443359375, 'rewards/rejected': -0.946044921875, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.89111328125, 'logps/chosen': -269.0, 'logps/rejected': -126.53125, 'logits/chosen': -0.90283203125, 'logits/rejected': -0.97802734375, 'epoch': 0.23}
 23%|████████████████████▉                                                                        | 461/2044 [2:16:21<7:46:39, 17.69s/it] 23%|█████████████████████                                                                        | 462/2044 [2:16:38<7:40:19, 17.46s/it]                                                                                                                                         {'loss': 0.3086, 'grad_norm': 34.53459595622146, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.92041015625, 'rewards/rejected': -0.9820556640625, 'rewards/accuracies': 0.828125, 'rewards/margins': 1.8994140625, 'logps/chosen': -265.25, 'logps/rejected': -125.34375, 'logits/chosen': -0.891845703125, 'logits/rejected': -0.802490234375, 'epoch': 0.23}
 23%|█████████████████████                                                                        | 462/2044 [2:16:38<7:40:19, 17.46s/it] 23%|█████████████████████                                                                        | 463/2044 [2:16:56<7:43:29, 17.59s/it]                                                                                                                                         {'loss': 0.2729, 'grad_norm': 34.839806221287446, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8260498046875, 'rewards/rejected': -1.15673828125, 'rewards/accuracies': 0.875, 'rewards/margins': 1.98046875, 'logps/chosen': -280.8125, 'logps/rejected': -146.9375, 'logits/chosen': -0.81787109375, 'logits/rejected': -0.982666015625, 'epoch': 0.23}
 23%|█████████████████████                                                                        | 463/2044 [2:16:56<7:43:29, 17.59s/it] 23%|█████████████████████                                                                        | 464/2044 [2:17:13<7:34:00, 17.24s/it]                                                                                                                                         {'loss': 0.2831, 'grad_norm': 31.583046084412267, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.891357421875, 'rewards/rejected': -1.07373046875, 'rewards/accuracies': 0.921875, 'rewards/margins': 1.966796875, 'logps/chosen': -271.8125, 'logps/rejected': -136.34375, 'logits/chosen': -0.99951171875, 'logits/rejected': -0.97021484375, 'epoch': 0.23}
 23%|█████████████████████                                                                        | 464/2044 [2:17:13<7:34:00, 17.24s/it] 23%|█████████████████████▏                                                                       | 465/2044 [2:17:30<7:37:19, 17.38s/it]                                                                                                                                         {'loss': 0.2415, 'grad_norm': 34.7798441227245, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.951904296875, 'rewards/rejected': -1.20458984375, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.15625, 'logps/chosen': -297.875, 'logps/rejected': -118.3125, 'logits/chosen': -1.1298828125, 'logits/rejected': -1.1220703125, 'epoch': 0.23}
 23%|█████████████████████▏                                                                       | 465/2044 [2:17:30<7:37:19, 17.38s/it] 23%|█████████████████████▏                                                                       | 466/2044 [2:17:48<7:40:05, 17.49s/it]                                                                                                                                         {'loss': 0.2786, 'grad_norm': 31.26769133371148, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.035888671875, 'rewards/rejected': -1.016845703125, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.0498046875, 'logps/chosen': -316.0, 'logps/rejected': -171.3125, 'logits/chosen': -1.071044921875, 'logits/rejected': -1.115234375, 'epoch': 0.23}
 23%|█████████████████████▏                                                                       | 466/2044 [2:17:48<7:40:05, 17.49s/it] 23%|█████████████████████▏                                                                       | 467/2044 [2:18:07<7:50:33, 17.90s/it]                                                                                                                                         {'loss': 0.2289, 'grad_norm': 30.118342254418078, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.14501953125, 'rewards/rejected': -1.0546875, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.2001953125, 'logps/chosen': -325.75, 'logps/rejected': -134.9375, 'logits/chosen': -0.90380859375, 'logits/rejected': -0.96435546875, 'epoch': 0.23}
 23%|█████████████████████▏                                                                       | 467/2044 [2:18:07<7:50:33, 17.90s/it] 23%|█████████████████████▎                                                                       | 468/2044 [2:18:24<7:47:55, 17.81s/it]                                                                                                                                         {'loss': 0.2388, 'grad_norm': 26.595013839717424, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.11767578125, 'rewards/rejected': -1.249481201171875, 'rewards/accuracies': 0.9375, 'rewards/margins': 2.369140625, 'logps/chosen': -298.5, 'logps/rejected': -104.1875, 'logits/chosen': -0.91796875, 'logits/rejected': -0.955078125, 'epoch': 0.23}
 23%|█████████████████████▎                                                                       | 468/2044 [2:18:24<7:47:55, 17.81s/it] 23%|█████████████████████▎                                                                       | 469/2044 [2:18:43<7:54:57, 18.09s/it]                                                                                                                                         {'loss': 0.2731, 'grad_norm': 35.616004153410515, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0224609375, 'rewards/rejected': -1.142578125, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.1650390625, 'logps/chosen': -336.75, 'logps/rejected': -152.5625, 'logits/chosen': -1.17724609375, 'logits/rejected': -1.10791015625, 'epoch': 0.23}
 23%|█████████████████████▎                                                                       | 469/2044 [2:18:43<7:54:57, 18.09s/it] 23%|█████████████████████▍                                                                       | 470/2044 [2:19:02<8:02:32, 18.39s/it]                                                                                                                                         {'loss': 0.3606, 'grad_norm': 45.04425905746875, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8212890625, 'rewards/rejected': -0.825927734375, 'rewards/accuracies': 0.828125, 'rewards/margins': 1.64599609375, 'logps/chosen': -285.75, 'logps/rejected': -148.875, 'logits/chosen': -0.98046875, 'logits/rejected': -0.93115234375, 'epoch': 0.23}
 23%|█████████████████████▍                                                                       | 470/2044 [2:19:02<8:02:32, 18.39s/it] 23%|█████████████████████▍                                                                       | 471/2044 [2:19:21<8:06:09, 18.54s/it]                                                                                                                                         {'loss': 0.3079, 'grad_norm': 29.41662661103363, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.90185546875, 'rewards/rejected': -1.050537109375, 'rewards/accuracies': 0.828125, 'rewards/margins': 1.95458984375, 'logps/chosen': -291.75, 'logps/rejected': -121.375, 'logits/chosen': -0.830322265625, 'logits/rejected': -1.0244140625, 'epoch': 0.23}
 23%|█████████████████████▍                                                                       | 471/2044 [2:19:21<8:06:09, 18.54s/it] 23%|█████████████████████▍                                                                       | 472/2044 [2:19:40<8:04:35, 18.50s/it]                                                                                                                                         {'loss': 0.2775, 'grad_norm': 41.76312608678662, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.134765625, 'rewards/rejected': -1.067626953125, 'rewards/accuracies': 0.875, 'rewards/margins': 2.203125, 'logps/chosen': -339.0, 'logps/rejected': -129.25, 'logits/chosen': -0.857421875, 'logits/rejected': -0.86181640625, 'epoch': 0.23}
 23%|█████████████████████▍                                                                       | 472/2044 [2:19:40<8:04:35, 18.50s/it] 23%|█████████████████████▌                                                                       | 473/2044 [2:19:58<8:01:07, 18.38s/it]                                                                                                                                         {'loss': 0.3351, 'grad_norm': 27.48604527099402, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.73876953125, 'rewards/rejected': -0.9658203125, 'rewards/accuracies': 0.796875, 'rewards/margins': 1.70458984375, 'logps/chosen': -222.4375, 'logps/rejected': -115.4375, 'logits/chosen': -1.060546875, 'logits/rejected': -0.8583984375, 'epoch': 0.23}
 23%|█████████████████████▌                                                                       | 473/2044 [2:19:58<8:01:07, 18.38s/it] 23%|█████████████████████▌                                                                       | 474/2044 [2:20:15<7:55:29, 18.17s/it]                                                                                                                                         {'loss': 0.2787, 'grad_norm': 34.12091052739279, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.92822265625, 'rewards/rejected': -1.07958984375, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.0078125, 'logps/chosen': -268.0625, 'logps/rejected': -157.40625, 'logits/chosen': -1.0888671875, 'logits/rejected': -0.9814453125, 'epoch': 0.23}
 23%|█████████████████████▌                                                                       | 474/2044 [2:20:15<7:55:29, 18.17s/it] 23%|█████████████████████▌                                                                       | 475/2044 [2:20:33<7:54:52, 18.16s/it]                                                                                                                                         {'loss': 0.3125, 'grad_norm': 28.065952841550956, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.79638671875, 'rewards/rejected': -0.865966796875, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.6591796875, 'logps/chosen': -234.125, 'logps/rejected': -111.1875, 'logits/chosen': -0.90771484375, 'logits/rejected': -0.9892578125, 'epoch': 0.23}
 23%|█████████████████████▌                                                                       | 475/2044 [2:20:33<7:54:52, 18.16s/it] 23%|█████████████████████▋                                                                       | 476/2044 [2:20:51<7:52:55, 18.10s/it]                                                                                                                                         {'loss': 0.2441, 'grad_norm': 36.72102147087549, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.97119140625, 'rewards/rejected': -1.212890625, 'rewards/accuracies': 0.875, 'rewards/margins': 2.1865234375, 'logps/chosen': -299.125, 'logps/rejected': -182.375, 'logits/chosen': -1.02783203125, 'logits/rejected': -0.98291015625, 'epoch': 0.23}
 23%|█████████████████████▋                                                                       | 476/2044 [2:20:51<7:52:55, 18.10s/it] 23%|█████████████████████▋                                                                       | 477/2044 [2:21:10<8:00:00, 18.38s/it]                                                                                                                                         {'loss': 0.3315, 'grad_norm': 31.425487447490138, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.880859375, 'rewards/rejected': -0.8857421875, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.765625, 'logps/chosen': -298.75, 'logps/rejected': -175.625, 'logits/chosen': -0.972900390625, 'logits/rejected': -1.10107421875, 'epoch': 0.23}
 23%|█████████████████████▋                                                                       | 477/2044 [2:21:10<8:00:00, 18.38s/it] 23%|█████████████████████▋                                                                       | 478/2044 [2:21:28<7:55:32, 18.22s/it]                                                                                                                                         {'loss': 0.2581, 'grad_norm': 32.48267085483753, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9423828125, 'rewards/rejected': -1.27099609375, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.2119140625, 'logps/chosen': -307.125, 'logps/rejected': -121.75, 'logits/chosen': -0.76025390625, 'logits/rejected': -0.823486328125, 'epoch': 0.23}
 23%|█████████████████████▋                                                                       | 478/2044 [2:21:28<7:55:32, 18.22s/it] 23%|█████████████████████▊                                                                       | 479/2044 [2:21:47<7:59:18, 18.38s/it]                                                                                                                                         {'loss': 0.2687, 'grad_norm': 32.95221660857734, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.930419921875, 'rewards/rejected': -1.07958984375, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.009765625, 'logps/chosen': -289.6875, 'logps/rejected': -133.375, 'logits/chosen': -0.88037109375, 'logits/rejected': -1.0595703125, 'epoch': 0.23}
 23%|█████████████████████▊                                                                       | 479/2044 [2:21:47<7:59:18, 18.38s/it] 23%|█████████████████████▊                                                                       | 480/2044 [2:22:05<7:57:12, 18.31s/it]                                                                                                                                         {'loss': 0.303, 'grad_norm': 31.525243346983945, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9886474609375, 'rewards/rejected': -1.0675048828125, 'rewards/accuracies': 0.875, 'rewards/margins': 2.06005859375, 'logps/chosen': -290.5625, 'logps/rejected': -105.25, 'logits/chosen': -0.90625, 'logits/rejected': -0.93896484375, 'epoch': 0.23}
 23%|█████████████████████▊                                                                       | 480/2044 [2:22:05<7:57:12, 18.31s/it] 24%|█████████████████████▉                                                                       | 481/2044 [2:22:24<7:59:59, 18.43s/it]                                                                                                                                         {'loss': 0.2636, 'grad_norm': 38.37594703968182, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.10107421875, 'rewards/rejected': -1.15966796875, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.2587890625, 'logps/chosen': -347.125, 'logps/rejected': -129.3125, 'logits/chosen': -0.966796875, 'logits/rejected': -0.92138671875, 'epoch': 0.24}
 24%|█████████████████████▉                                                                       | 481/2044 [2:22:24<7:59:59, 18.43s/it] 24%|█████████████████████▉                                                                       | 482/2044 [2:22:42<7:56:34, 18.31s/it]                                                                                                                                         {'loss': 0.2985, 'grad_norm': 45.54555337208687, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0322265625, 'rewards/rejected': -1.109375, 'rewards/accuracies': 0.875, 'rewards/margins': 2.138671875, 'logps/chosen': -311.375, 'logps/rejected': -155.9375, 'logits/chosen': -0.99951171875, 'logits/rejected': -1.04638671875, 'epoch': 0.24}
 24%|█████████████████████▉                                                                       | 482/2044 [2:22:42<7:56:34, 18.31s/it] 24%|█████████████████████▉                                                                       | 483/2044 [2:23:01<8:04:03, 18.61s/it]                                                                                                                                         {'loss': 0.3031, 'grad_norm': 40.706912978510616, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.00048828125, 'rewards/rejected': -1.013671875, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.013671875, 'logps/chosen': -413.125, 'logps/rejected': -202.375, 'logits/chosen': -1.06640625, 'logits/rejected': -0.9423828125, 'epoch': 0.24}
 24%|█████████████████████▉                                                                       | 483/2044 [2:23:01<8:04:03, 18.61s/it] 24%|██████████████████████                                                                       | 484/2044 [2:23:18<7:50:28, 18.09s/it]                                                                                                                                         {'loss': 0.2282, 'grad_norm': 30.0386103386942, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0263671875, 'rewards/rejected': -1.3603515625, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.3857421875, 'logps/chosen': -279.125, 'logps/rejected': -105.875, 'logits/chosen': -0.8204345703125, 'logits/rejected': -0.946533203125, 'epoch': 0.24}
 24%|██████████████████████                                                                       | 484/2044 [2:23:18<7:50:28, 18.09s/it] 24%|██████████████████████                                                                       | 485/2044 [2:23:35<7:41:47, 17.77s/it]                                                                                                                                         {'loss': 0.2657, 'grad_norm': 24.70373962068508, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8974609375, 'rewards/rejected': -1.091796875, 'rewards/accuracies': 0.890625, 'rewards/margins': 1.990234375, 'logps/chosen': -220.6875, 'logps/rejected': -99.5625, 'logits/chosen': -0.87451171875, 'logits/rejected': -0.9345703125, 'epoch': 0.24}
 24%|██████████████████████                                                                       | 485/2044 [2:23:35<7:41:47, 17.77s/it] 24%|██████████████████████                                                                       | 486/2044 [2:23:52<7:30:35, 17.35s/it]                                                                                                                                         {'loss': 0.2305, 'grad_norm': 29.093349691183104, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9794921875, 'rewards/rejected': -1.359375, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.3408203125, 'logps/chosen': -260.5, 'logps/rejected': -102.03125, 'logits/chosen': -1.040771484375, 'logits/rejected': -0.9287109375, 'epoch': 0.24}
 24%|██████████████████████                                                                       | 486/2044 [2:23:52<7:30:35, 17.35s/it] 24%|██████████████████████▏                                                                      | 487/2044 [2:24:09<7:34:10, 17.50s/it]                                                                                                                                         {'loss': 0.2026, 'grad_norm': 26.175381324272266, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.08984375, 'rewards/rejected': -1.4072265625, 'rewards/accuracies': 0.96875, 'rewards/margins': 2.498046875, 'logps/chosen': -298.125, 'logps/rejected': -107.59375, 'logits/chosen': -0.7943115234375, 'logits/rejected': -0.942626953125, 'epoch': 0.24}
 24%|██████████████████████▏                                                                      | 487/2044 [2:24:09<7:34:10, 17.50s/it] 24%|██████████████████████▏                                                                      | 488/2044 [2:24:27<7:35:18, 17.56s/it]                                                                                                                                         {'loss': 0.2545, 'grad_norm': 33.05673341022292, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.1171875, 'rewards/rejected': -1.1865234375, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.3017578125, 'logps/chosen': -303.25, 'logps/rejected': -129.46875, 'logits/chosen': -0.9140625, 'logits/rejected': -0.881103515625, 'epoch': 0.24}
 24%|██████████████████████▏                                                                      | 488/2044 [2:24:27<7:35:18, 17.56s/it] 24%|██████████████████████▏                                                                      | 489/2044 [2:24:44<7:28:58, 17.32s/it]                                                                                                                                         {'loss': 0.2518, 'grad_norm': 24.673381169600574, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.838623046875, 'rewards/rejected': -1.196533203125, 'rewards/accuracies': 0.9375, 'rewards/margins': 2.03515625, 'logps/chosen': -245.125, 'logps/rejected': -137.6875, 'logits/chosen': -0.955810546875, 'logits/rejected': -0.81121826171875, 'epoch': 0.24}
 24%|██████████████████████▏                                                                      | 489/2044 [2:24:44<7:28:58, 17.32s/it] 24%|██████████████████████▎                                                                      | 490/2044 [2:25:02<7:34:54, 17.56s/it]                                                                                                                                         {'loss': 0.2975, 'grad_norm': 34.81068961663303, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9921875, 'rewards/rejected': -1.15087890625, 'rewards/accuracies': 0.875, 'rewards/margins': 2.1416015625, 'logps/chosen': -332.375, 'logps/rejected': -130.1875, 'logits/chosen': -0.910400390625, 'logits/rejected': -0.9599609375, 'epoch': 0.24}
 24%|██████████████████████▎                                                                      | 490/2044 [2:25:02<7:34:54, 17.56s/it] 24%|██████████████████████▎                                                                      | 491/2044 [2:25:19<7:32:45, 17.49s/it]                                                                                                                                         {'loss': 0.2565, 'grad_norm': 24.803811266331213, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.850341796875, 'rewards/rejected': -1.23193359375, 'rewards/accuracies': 0.875, 'rewards/margins': 2.0810546875, 'logps/chosen': -243.125, 'logps/rejected': -107.375, 'logits/chosen': -1.03173828125, 'logits/rejected': -0.90185546875, 'epoch': 0.24}
 24%|██████████████████████▎                                                                      | 491/2044 [2:25:19<7:32:45, 17.49s/it] 24%|██████████████████████▍                                                                      | 492/2044 [2:25:38<7:42:31, 17.88s/it]                                                                                                                                         {'loss': 0.2727, 'grad_norm': 37.41784356742279, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.988037109375, 'rewards/rejected': -1.22509765625, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.2109375, 'logps/chosen': -322.5, 'logps/rejected': -151.4375, 'logits/chosen': -0.984375, 'logits/rejected': -1.01171875, 'epoch': 0.24}
 24%|██████████████████████▍                                                                      | 492/2044 [2:25:38<7:42:31, 17.88s/it] 24%|██████████████████████▍                                                                      | 493/2044 [2:25:56<7:40:01, 17.80s/it]                                                                                                                                         {'loss': 0.2203, 'grad_norm': 23.081080026191145, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9326171875, 'rewards/rejected': -1.4921875, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.4267578125, 'logps/chosen': -282.125, 'logps/rejected': -104.5625, 'logits/chosen': -0.8955078125, 'logits/rejected': -0.9169921875, 'epoch': 0.24}
 24%|██████████████████████▍                                                                      | 493/2044 [2:25:56<7:40:01, 17.80s/it] 24%|██████████████████████▍                                                                      | 494/2044 [2:26:14<7:43:03, 17.92s/it]                                                                                                                                         {'loss': 0.2268, 'grad_norm': 22.629926470021733, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.696044921875, 'rewards/rejected': -1.41845703125, 'rewards/accuracies': 0.953125, 'rewards/margins': 2.115234375, 'logps/chosen': -240.125, 'logps/rejected': -105.375, 'logits/chosen': -0.93603515625, 'logits/rejected': -0.7904052734375, 'epoch': 0.24}
 24%|██████████████████████▍                                                                      | 494/2044 [2:26:14<7:43:03, 17.92s/it] 24%|██████████████████████▌                                                                      | 495/2044 [2:26:33<7:48:41, 18.15s/it]                                                                                                                                         {'loss': 0.3038, 'grad_norm': 34.78422292391627, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.94140625, 'rewards/rejected': -1.140625, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.078125, 'logps/chosen': -290.8125, 'logps/rejected': -121.1875, 'logits/chosen': -0.79296875, 'logits/rejected': -0.880615234375, 'epoch': 0.24}
 24%|██████████████████████▌                                                                      | 495/2044 [2:26:33<7:48:41, 18.15s/it] 24%|██████████████████████▌                                                                      | 496/2044 [2:26:51<7:53:54, 18.37s/it]                                                                                                                                         {'loss': 0.3624, 'grad_norm': 36.3055521789686, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.808349609375, 'rewards/rejected': -0.808349609375, 'rewards/accuracies': 0.828125, 'rewards/margins': 1.61767578125, 'logps/chosen': -287.375, 'logps/rejected': -137.21875, 'logits/chosen': -1.0537109375, 'logits/rejected': -0.984619140625, 'epoch': 0.24}
 24%|██████████████████████▌                                                                      | 496/2044 [2:26:51<7:53:54, 18.37s/it] 24%|██████████████████████▌                                                                      | 497/2044 [2:27:10<7:51:10, 18.27s/it]                                                                                                                                         {'loss': 0.2509, 'grad_norm': 26.7205954474038, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.89404296875, 'rewards/rejected': -1.16650390625, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.0615234375, 'logps/chosen': -288.375, 'logps/rejected': -166.4375, 'logits/chosen': -0.85888671875, 'logits/rejected': -1.03564453125, 'epoch': 0.24}
 24%|██████████████████████▌                                                                      | 497/2044 [2:27:10<7:51:10, 18.27s/it] 24%|██████████████████████▋                                                                      | 498/2044 [2:27:29<8:00:54, 18.66s/it]                                                                                                                                         {'loss': 0.376, 'grad_norm': 49.81473559509874, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8212890625, 'rewards/rejected': -0.81396484375, 'rewards/accuracies': 0.8125, 'rewards/margins': 1.63427734375, 'logps/chosen': -264.9375, 'logps/rejected': -197.125, 'logits/chosen': -0.96142578125, 'logits/rejected': -0.91552734375, 'epoch': 0.24}
 24%|██████████████████████▋                                                                      | 498/2044 [2:27:29<8:00:54, 18.66s/it] 24%|██████████████████████▋                                                                      | 499/2044 [2:27:47<7:57:39, 18.55s/it]                                                                                                                                         {'loss': 0.2754, 'grad_norm': 33.81787725426298, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.793701171875, 'rewards/rejected': -1.32470703125, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.1171875, 'logps/chosen': -239.875, 'logps/rejected': -109.46875, 'logits/chosen': -1.03662109375, 'logits/rejected': -0.9443359375, 'epoch': 0.24}
 24%|██████████████████████▋                                                                      | 499/2044 [2:27:47<7:57:39, 18.55s/it] 24%|██████████████████████▋                                                                      | 500/2044 [2:28:04<7:44:08, 18.04s/it]                                                                                                                                         {'loss': 0.2757, 'grad_norm': 30.114014570794716, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7732963562011719, 'rewards/rejected': -1.34521484375, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.12060546875, 'logps/chosen': -289.0, 'logps/rejected': -121.03125, 'logits/chosen': -0.936767578125, 'logits/rejected': -0.89404296875, 'epoch': 0.24}
 24%|██████████████████████▋                                                                      | 500/2044 [2:28:04<7:44:08, 18.04s/it] 25%|██████████████████████▊                                                                      | 501/2044 [2:28:23<7:48:17, 18.21s/it]                                                                                                                                         {'loss': 0.3456, 'grad_norm': 39.9718896803521, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9541015625, 'rewards/rejected': -0.927642822265625, 'rewards/accuracies': 0.8125, 'rewards/margins': 1.88037109375, 'logps/chosen': -273.8125, 'logps/rejected': -157.1875, 'logits/chosen': -0.79833984375, 'logits/rejected': -0.91650390625, 'epoch': 0.25}
 25%|██████████████████████▊                                                                      | 501/2044 [2:28:23<7:48:17, 18.21s/it] 25%|██████████████████████▊                                                                      | 502/2044 [2:28:40<7:40:48, 17.93s/it]                                                                                                                                         {'loss': 0.274, 'grad_norm': 31.695027319718722, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0830078125, 'rewards/rejected': -1.23974609375, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.3251953125, 'logps/chosen': -317.25, 'logps/rejected': -107.375, 'logits/chosen': -0.8828125, 'logits/rejected': -0.79345703125, 'epoch': 0.25}
 25%|██████████████████████▊                                                                      | 502/2044 [2:28:40<7:40:48, 17.93s/it] 25%|██████████████████████▉                                                                      | 503/2044 [2:28:59<7:50:21, 18.31s/it]                                                                                                                                         {'loss': 0.2786, 'grad_norm': 36.385976225754405, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.2216796875, 'rewards/rejected': -1.0302734375, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.2529296875, 'logps/chosen': -361.125, 'logps/rejected': -168.875, 'logits/chosen': -0.868896484375, 'logits/rejected': -0.875, 'epoch': 0.25}
 25%|██████████████████████▉                                                                      | 503/2044 [2:28:59<7:50:21, 18.31s/it] 25%|██████████████████████▉                                                                      | 504/2044 [2:29:16<7:38:04, 17.85s/it]                                                                                                                                         {'loss': 0.2109, 'grad_norm': 20.38190970328031, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.13525390625, 'rewards/rejected': -1.447265625, 'rewards/accuracies': 0.9375, 'rewards/margins': 2.58203125, 'logps/chosen': -301.0625, 'logps/rejected': -82.0625, 'logits/chosen': -0.951171875, 'logits/rejected': -0.78955078125, 'epoch': 0.25}
 25%|██████████████████████▉                                                                      | 504/2044 [2:29:16<7:38:04, 17.85s/it] 25%|██████████████████████▉                                                                      | 505/2044 [2:29:34<7:36:44, 17.81s/it]                                                                                                                                         {'loss': 0.3351, 'grad_norm': 181.65521123290202, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.966552734375, 'rewards/rejected': -1.29296875, 'rewards/accuracies': 0.796875, 'rewards/margins': 2.2578125, 'logps/chosen': -330.25, 'logps/rejected': -133.21875, 'logits/chosen': -0.86767578125, 'logits/rejected': -1.0029296875, 'epoch': 0.25}
 25%|██████████████████████▉                                                                      | 505/2044 [2:29:34<7:36:44, 17.81s/it] 25%|███████████████████████                                                                      | 506/2044 [2:29:51<7:29:17, 17.53s/it]                                                                                                                                         {'loss': 0.2806, 'grad_norm': 35.0984453827617, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.88330078125, 'rewards/rejected': -1.2392578125, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.1240234375, 'logps/chosen': -267.875, 'logps/rejected': -149.6875, 'logits/chosen': -0.900146484375, 'logits/rejected': -0.8187255859375, 'epoch': 0.25}
 25%|███████████████████████                                                                      | 506/2044 [2:29:51<7:29:17, 17.53s/it] 25%|███████████████████████                                                                      | 507/2044 [2:30:09<7:34:32, 17.74s/it]                                                                                                                                         {'loss': 0.3147, 'grad_norm': 35.943169081729366, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.95947265625, 'rewards/rejected': -1.0625, 'rewards/accuracies': 0.875, 'rewards/margins': 2.0224609375, 'logps/chosen': -264.25, 'logps/rejected': -143.9375, 'logits/chosen': -0.99560546875, 'logits/rejected': -0.95068359375, 'epoch': 0.25}
 25%|███████████████████████                                                                      | 507/2044 [2:30:09<7:34:32, 17.74s/it] 25%|███████████████████████                                                                      | 508/2044 [2:30:28<7:46:21, 18.22s/it]                                                                                                                                         {'loss': 0.2271, 'grad_norm': 29.81937959749199, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.08642578125, 'rewards/rejected': -1.2108154296875, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.2939453125, 'logps/chosen': -374.25, 'logps/rejected': -122.78125, 'logits/chosen': -0.98095703125, 'logits/rejected': -0.831787109375, 'epoch': 0.25}
 25%|███████████████████████                                                                      | 508/2044 [2:30:28<7:46:21, 18.22s/it] 25%|███████████████████████▏                                                                     | 509/2044 [2:30:47<7:50:10, 18.38s/it]                                                                                                                                         {'loss': 0.2808, 'grad_norm': 38.14982259620899, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.99658203125, 'rewards/rejected': -1.1904296875, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.1845703125, 'logps/chosen': -301.6875, 'logps/rejected': -143.125, 'logits/chosen': -0.858154296875, 'logits/rejected': -0.94580078125, 'epoch': 0.25}
 25%|███████████████████████▏                                                                     | 509/2044 [2:30:47<7:50:10, 18.38s/it] 25%|███████████████████████▏                                                                     | 510/2044 [2:31:05<7:47:33, 18.29s/it]                                                                                                                                         {'loss': 0.2599, 'grad_norm': 25.92336221598824, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.97509765625, 'rewards/rejected': -1.306640625, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.28125, 'logps/chosen': -321.125, 'logps/rejected': -87.8125, 'logits/chosen': -0.9111328125, 'logits/rejected': -0.822998046875, 'epoch': 0.25}
 25%|███████████████████████▏                                                                     | 510/2044 [2:31:05<7:47:33, 18.29s/it] 25%|███████████████████████▎                                                                     | 511/2044 [2:31:23<7:42:09, 18.09s/it]                                                                                                                                         {'loss': 0.2742, 'grad_norm': 36.016827735593445, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.15576171875, 'rewards/rejected': -1.44189453125, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.5966796875, 'logps/chosen': -363.5, 'logps/rejected': -94.4375, 'logits/chosen': -0.858154296875, 'logits/rejected': -0.93994140625, 'epoch': 0.25}
 25%|███████████████████████▎                                                                     | 511/2044 [2:31:23<7:42:09, 18.09s/it] 25%|███████████████████████▎                                                                     | 512/2044 [2:31:40<7:39:00, 17.98s/it]                                                                                                                                         {'loss': 0.2731, 'grad_norm': 27.411600844959555, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.843017578125, 'rewards/rejected': -1.28173828125, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.125, 'logps/chosen': -250.875, 'logps/rejected': -112.4375, 'logits/chosen': -1.05126953125, 'logits/rejected': -0.92822265625, 'epoch': 0.25}
 25%|███████████████████████▎                                                                     | 512/2044 [2:31:40<7:39:00, 17.98s/it] 25%|███████████████████████▎                                                                     | 513/2044 [2:31:59<7:41:07, 18.07s/it]                                                                                                                                         {'loss': 0.2568, 'grad_norm': 30.504031697859247, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.97802734375, 'rewards/rejected': -1.22021484375, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.19921875, 'logps/chosen': -300.125, 'logps/rejected': -122.9375, 'logits/chosen': -0.933349609375, 'logits/rejected': -1.05029296875, 'epoch': 0.25}
 25%|███████████████████████▎                                                                     | 513/2044 [2:31:59<7:41:07, 18.07s/it] 25%|███████████████████████▍                                                                     | 514/2044 [2:32:16<7:36:11, 17.89s/it]                                                                                                                                         {'loss': 0.2045, 'grad_norm': 26.375439566960505, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.042724609375, 'rewards/rejected': -1.412109375, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.4501953125, 'logps/chosen': -331.0, 'logps/rejected': -128.4375, 'logits/chosen': -0.83740234375, 'logits/rejected': -0.90576171875, 'epoch': 0.25}
 25%|███████████████████████▍                                                                     | 514/2044 [2:32:16<7:36:11, 17.89s/it] 25%|███████████████████████▍                                                                     | 515/2044 [2:32:35<7:41:14, 18.10s/it]                                                                                                                                         {'loss': 0.2413, 'grad_norm': 29.9232278110887, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.98046875, 'rewards/rejected': -1.3837890625, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.3603515625, 'logps/chosen': -285.0, 'logps/rejected': -141.4375, 'logits/chosen': -0.96484375, 'logits/rejected': -1.04541015625, 'epoch': 0.25}
 25%|███████████████████████▍                                                                     | 515/2044 [2:32:35<7:41:14, 18.10s/it] 25%|███████████████████████▍                                                                     | 516/2044 [2:32:53<7:43:59, 18.22s/it]                                                                                                                                         {'loss': 0.3181, 'grad_norm': 31.958800985552813, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.764404296875, 'rewards/rejected': -1.03076171875, 'rewards/accuracies': 0.828125, 'rewards/margins': 1.79443359375, 'logps/chosen': -263.125, 'logps/rejected': -134.25, 'logits/chosen': -0.86865234375, 'logits/rejected': -0.89306640625, 'epoch': 0.25}
 25%|███████████████████████▍                                                                     | 516/2044 [2:32:53<7:43:59, 18.22s/it] 25%|███████████████████████▌                                                                     | 517/2044 [2:33:11<7:37:51, 17.99s/it]                                                                                                                                         {'loss': 0.2554, 'grad_norm': 28.39812713296832, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.98779296875, 'rewards/rejected': -1.22119140625, 'rewards/accuracies': 0.9375, 'rewards/margins': 2.208984375, 'logps/chosen': -285.875, 'logps/rejected': -114.59375, 'logits/chosen': -1.03173828125, 'logits/rejected': -0.96435546875, 'epoch': 0.25}
 25%|███████████████████████▌                                                                     | 517/2044 [2:33:11<7:37:51, 17.99s/it] 25%|███████████████████████▌                                                                     | 518/2044 [2:33:28<7:33:45, 17.84s/it]                                                                                                                                         {'loss': 0.2908, 'grad_norm': 26.623973520977234, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.79541015625, 'rewards/rejected': -1.2451171875, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.0400390625, 'logps/chosen': -264.25, 'logps/rejected': -107.28125, 'logits/chosen': -0.78369140625, 'logits/rejected': -0.8115234375, 'epoch': 0.25}
 25%|███████████████████████▌                                                                     | 518/2044 [2:33:28<7:33:45, 17.84s/it] 25%|███████████████████████▌                                                                     | 519/2044 [2:33:46<7:35:10, 17.91s/it]                                                                                                                                         {'loss': 0.2914, 'grad_norm': 33.82289354719385, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.810791015625, 'rewards/rejected': -1.2294921875, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.0400390625, 'logps/chosen': -242.5, 'logps/rejected': -142.8125, 'logits/chosen': -0.81689453125, 'logits/rejected': -1.0595703125, 'epoch': 0.25}
 25%|███████████████████████▌                                                                     | 519/2044 [2:33:46<7:35:10, 17.91s/it] 25%|███████████████████████▋                                                                     | 520/2044 [2:34:05<7:38:51, 18.06s/it]                                                                                                                                         {'loss': 0.3176, 'grad_norm': 38.39535845821346, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.90576171875, 'rewards/rejected': -1.042724609375, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.9482421875, 'logps/chosen': -336.125, 'logps/rejected': -148.1875, 'logits/chosen': -0.83349609375, 'logits/rejected': -0.99267578125, 'epoch': 0.25}
 25%|███████████████████████▋                                                                     | 520/2044 [2:34:05<7:38:51, 18.06s/it] 25%|███████████████████████▋                                                                     | 521/2044 [2:34:23<7:38:29, 18.06s/it]                                                                                                                                         {'loss': 0.2189, 'grad_norm': 30.657698502693545, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.04638671875, 'rewards/rejected': -1.35107421875, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.400390625, 'logps/chosen': -301.375, 'logps/rejected': -123.5, 'logits/chosen': -0.7822265625, 'logits/rejected': -0.96142578125, 'epoch': 0.25}
 25%|███████████████████████▋                                                                     | 521/2044 [2:34:23<7:38:29, 18.06s/it] 26%|███████████████████████▊                                                                     | 522/2044 [2:34:40<7:33:34, 17.88s/it]                                                                                                                                         {'loss': 0.2968, 'grad_norm': 33.04545450186975, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.71142578125, 'rewards/rejected': -1.20947265625, 'rewards/accuracies': 0.90625, 'rewards/margins': 1.9189453125, 'logps/chosen': -254.25, 'logps/rejected': -138.6875, 'logits/chosen': -1.10205078125, 'logits/rejected': -0.884765625, 'epoch': 0.26}
 26%|███████████████████████▊                                                                     | 522/2044 [2:34:40<7:33:34, 17.88s/it] 26%|███████████████████████▊                                                                     | 523/2044 [2:34:58<7:32:32, 17.85s/it]                                                                                                                                         {'loss': 0.2899, 'grad_norm': 27.639432515075487, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.109375, 'rewards/rejected': -1.2880859375, 'rewards/accuracies': 0.8125, 'rewards/margins': 2.3935546875, 'logps/chosen': -303.75, 'logps/rejected': -97.0625, 'logits/chosen': -0.892578125, 'logits/rejected': -0.88671875, 'epoch': 0.26}
 26%|███████████████████████▊                                                                     | 523/2044 [2:34:58<7:32:32, 17.85s/it] 26%|███████████████████████▊                                                                     | 524/2044 [2:35:16<7:30:39, 17.79s/it]                                                                                                                                         {'loss': 0.2842, 'grad_norm': 43.75312289151638, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8792724609375, 'rewards/rejected': -1.32373046875, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.2021484375, 'logps/chosen': -328.4375, 'logps/rejected': -104.21875, 'logits/chosen': -1.01708984375, 'logits/rejected': -0.9794921875, 'epoch': 0.26}
 26%|███████████████████████▊                                                                     | 524/2044 [2:35:16<7:30:39, 17.79s/it] 26%|███████████████████████▉                                                                     | 525/2044 [2:35:33<7:29:34, 17.76s/it]                                                                                                                                         {'loss': 0.2736, 'grad_norm': 31.392301754852802, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.90234375, 'rewards/rejected': -1.32958984375, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.2294921875, 'logps/chosen': -324.375, 'logps/rejected': -115.25, 'logits/chosen': -1.00634765625, 'logits/rejected': -1.0185546875, 'epoch': 0.26}
 26%|███████████████████████▉                                                                     | 525/2044 [2:35:33<7:29:34, 17.76s/it] 26%|███████████████████████▉                                                                     | 526/2044 [2:35:51<7:25:24, 17.61s/it]                                                                                                                                         {'loss': 0.2498, 'grad_norm': 25.061189411925817, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.773193359375, 'rewards/rejected': -1.41015625, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.1826171875, 'logps/chosen': -220.875, 'logps/rejected': -109.40625, 'logits/chosen': -0.9765625, 'logits/rejected': -0.96142578125, 'epoch': 0.26}
 26%|███████████████████████▉                                                                     | 526/2044 [2:35:51<7:25:24, 17.61s/it] 26%|███████████████████████▉                                                                     | 527/2044 [2:36:08<7:24:51, 17.59s/it]                                                                                                                                         {'loss': 0.2308, 'grad_norm': 26.107482541187974, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.91015625, 'rewards/rejected': -1.3369140625, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.2490234375, 'logps/chosen': -336.25, 'logps/rejected': -162.4375, 'logits/chosen': -0.9892578125, 'logits/rejected': -1.0009765625, 'epoch': 0.26}
 26%|███████████████████████▉                                                                     | 527/2044 [2:36:08<7:24:51, 17.59s/it] 26%|████████████████████████                                                                     | 528/2044 [2:36:26<7:29:53, 17.81s/it]                                                                                                                                         {'loss': 0.2622, 'grad_norm': 30.503210316696485, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.798095703125, 'rewards/rejected': -1.30712890625, 'rewards/accuracies': 0.9375, 'rewards/margins': 2.103515625, 'logps/chosen': -262.375, 'logps/rejected': -150.625, 'logits/chosen': -1.04345703125, 'logits/rejected': -0.953125, 'epoch': 0.26}
 26%|████████████████████████                                                                     | 528/2044 [2:36:26<7:29:53, 17.81s/it] 26%|████████████████████████                                                                     | 529/2044 [2:36:45<7:34:50, 18.01s/it]                                                                                                                                         {'loss': 0.2519, 'grad_norm': 38.04572096894998, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0927734375, 'rewards/rejected': -1.34375, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.4375, 'logps/chosen': -347.125, 'logps/rejected': -119.4375, 'logits/chosen': -0.84912109375, 'logits/rejected': -0.8037109375, 'epoch': 0.26}
 26%|████████████████████████                                                                     | 529/2044 [2:36:45<7:34:50, 18.01s/it] 26%|████████████████████████                                                                     | 530/2044 [2:37:02<7:30:57, 17.87s/it]                                                                                                                                         {'loss': 0.2577, 'grad_norm': 31.108250815438055, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.094970703125, 'rewards/rejected': -1.34912109375, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.443359375, 'logps/chosen': -312.25, 'logps/rejected': -116.03125, 'logits/chosen': -0.952880859375, 'logits/rejected': -0.878173828125, 'epoch': 0.26}
 26%|████████████████████████                                                                     | 530/2044 [2:37:02<7:30:57, 17.87s/it] 26%|████████████████████████▏                                                                    | 531/2044 [2:37:19<7:23:57, 17.61s/it]                                                                                                                                         {'loss': 0.1697, 'grad_norm': 25.781683879800543, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.17626953125, 'rewards/rejected': -1.64453125, 'rewards/accuracies': 0.9375, 'rewards/margins': 2.822265625, 'logps/chosen': -337.125, 'logps/rejected': -101.71875, 'logits/chosen': -1.0146484375, 'logits/rejected': -0.99951171875, 'epoch': 0.26}
 26%|████████████████████████▏                                                                    | 531/2044 [2:37:19<7:23:57, 17.61s/it] 26%|████████████████████████▏                                                                    | 532/2044 [2:37:38<7:32:13, 17.95s/it]                                                                                                                                         {'loss': 0.2486, 'grad_norm': 33.25029034325883, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.166015625, 'rewards/rejected': -1.3701171875, 'rewards/accuracies': 0.875, 'rewards/margins': 2.5322265625, 'logps/chosen': -368.0, 'logps/rejected': -115.21875, 'logits/chosen': -0.980224609375, 'logits/rejected': -0.728515625, 'epoch': 0.26}
 26%|████████████████████████▏                                                                    | 532/2044 [2:37:38<7:32:13, 17.95s/it] 26%|████████████████████████▎                                                                    | 533/2044 [2:37:56<7:31:38, 17.93s/it]                                                                                                                                         {'loss': 0.2318, 'grad_norm': 26.861639496594748, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.2412109375, 'rewards/rejected': -1.4716796875, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.71875, 'logps/chosen': -379.5, 'logps/rejected': -110.1875, 'logits/chosen': -0.7744140625, 'logits/rejected': -0.92236328125, 'epoch': 0.26}
 26%|████████████████████████▎                                                                    | 533/2044 [2:37:56<7:31:38, 17.93s/it] 26%|████████████████████████▎                                                                    | 534/2044 [2:38:13<7:26:14, 17.73s/it]                                                                                                                                         {'loss': 0.2708, 'grad_norm': 30.08971003073396, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.889892578125, 'rewards/rejected': -1.189453125, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.0791015625, 'logps/chosen': -294.125, 'logps/rejected': -116.21875, 'logits/chosen': -1.03125, 'logits/rejected': -0.93798828125, 'epoch': 0.26}
 26%|████████████████████████▎                                                                    | 534/2044 [2:38:13<7:26:14, 17.73s/it] 26%|████████████████████████▎                                                                    | 535/2044 [2:38:32<7:29:33, 17.87s/it]                                                                                                                                         {'loss': 0.3802, 'grad_norm': 37.761196496606544, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.79833984375, 'rewards/rejected': -0.8853759765625, 'rewards/accuracies': 0.796875, 'rewards/margins': 1.685546875, 'logps/chosen': -235.0625, 'logps/rejected': -137.8125, 'logits/chosen': -1.02197265625, 'logits/rejected': -0.98095703125, 'epoch': 0.26}
 26%|████████████████████████▎                                                                    | 535/2044 [2:38:32<7:29:33, 17.87s/it] 26%|████████████████████████▍                                                                    | 536/2044 [2:38:50<7:31:02, 17.95s/it]                                                                                                                                         {'loss': 0.246, 'grad_norm': 31.538434439937937, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.96533203125, 'rewards/rejected': -1.22265625, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.1865234375, 'logps/chosen': -246.25, 'logps/rejected': -130.3125, 'logits/chosen': -0.927001953125, 'logits/rejected': -0.8623046875, 'epoch': 0.26}
 26%|████████████████████████▍                                                                    | 536/2044 [2:38:50<7:31:02, 17.95s/it] 26%|████████████████████████▍                                                                    | 537/2044 [2:39:08<7:35:56, 18.15s/it]                                                                                                                                         {'loss': 0.2561, 'grad_norm': 27.109812364398312, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.967529296875, 'rewards/rejected': -1.306640625, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.2724609375, 'logps/chosen': -266.0, 'logps/rejected': -136.125, 'logits/chosen': -0.776611328125, 'logits/rejected': -0.93798828125, 'epoch': 0.26}
 26%|████████████████████████▍                                                                    | 537/2044 [2:39:08<7:35:56, 18.15s/it] 26%|████████████████████████▍                                                                    | 538/2044 [2:39:27<7:40:34, 18.35s/it]                                                                                                                                         {'loss': 0.1835, 'grad_norm': 22.850934847573615, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.19921875, 'rewards/rejected': -1.51025390625, 'rewards/accuracies': 0.96875, 'rewards/margins': 2.7099609375, 'logps/chosen': -338.75, 'logps/rejected': -115.875, 'logits/chosen': -1.0712890625, 'logits/rejected': -0.98779296875, 'epoch': 0.26}
 26%|████████████████████████▍                                                                    | 538/2044 [2:39:27<7:40:34, 18.35s/it] 26%|████████████████████████▌                                                                    | 539/2044 [2:39:45<7:37:46, 18.25s/it]                                                                                                                                         {'loss': 0.3571, 'grad_norm': 39.52025620255082, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.773193359375, 'rewards/rejected': -1.08203125, 'rewards/accuracies': 0.796875, 'rewards/margins': 1.85546875, 'logps/chosen': -264.4375, 'logps/rejected': -143.65625, 'logits/chosen': -0.85791015625, 'logits/rejected': -0.89208984375, 'epoch': 0.26}
 26%|████████████████████████▌                                                                    | 539/2044 [2:39:45<7:37:46, 18.25s/it] 26%|████████████████████████▌                                                                    | 540/2044 [2:40:04<7:42:09, 18.44s/it]                                                                                                                                         {'loss': 0.2673, 'grad_norm': 33.64603214381709, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.92138671875, 'rewards/rejected': -1.12060546875, 'rewards/accuracies': 0.875, 'rewards/margins': 2.044921875, 'logps/chosen': -318.5, 'logps/rejected': -138.875, 'logits/chosen': -0.98046875, 'logits/rejected': -0.95947265625, 'epoch': 0.26}
 26%|████████████████████████▌                                                                    | 540/2044 [2:40:04<7:42:09, 18.44s/it] 26%|████████████████████████▌                                                                    | 541/2044 [2:40:23<7:43:26, 18.50s/it]                                                                                                                                         {'loss': 0.2969, 'grad_norm': 41.99928004582882, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.908447265625, 'rewards/rejected': -1.326171875, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.23291015625, 'logps/chosen': -332.1875, 'logps/rejected': -121.375, 'logits/chosen': -1.03515625, 'logits/rejected': -0.9892578125, 'epoch': 0.26}
 26%|████████████████████████▌                                                                    | 541/2044 [2:40:23<7:43:26, 18.50s/it] 27%|████████████████████████▋                                                                    | 542/2044 [2:40:40<7:33:19, 18.11s/it]                                                                                                                                         {'loss': 0.1722, 'grad_norm': 16.875755205155148, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.105712890625, 'rewards/rejected': -1.71484375, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.818359375, 'logps/chosen': -329.625, 'logps/rejected': -81.71875, 'logits/chosen': -0.950927734375, 'logits/rejected': -0.89501953125, 'epoch': 0.27}
 27%|████████████████████████▋                                                                    | 542/2044 [2:40:40<7:33:19, 18.11s/it] 27%|████████████████████████▋                                                                    | 543/2044 [2:40:58<7:30:23, 18.00s/it]                                                                                                                                         {'loss': 0.2545, 'grad_norm': 28.186292281932978, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.000244140625, 'rewards/rejected': -1.462890625, 'rewards/accuracies': 0.875, 'rewards/margins': 2.4609375, 'logps/chosen': -279.875, 'logps/rejected': -105.8125, 'logits/chosen': -0.9443359375, 'logits/rejected': -0.900634765625, 'epoch': 0.27}
 27%|████████████████████████▋                                                                    | 543/2044 [2:40:58<7:30:23, 18.00s/it] 27%|████████████████████████▊                                                                    | 544/2044 [2:41:15<7:22:08, 17.69s/it]                                                                                                                                         {'loss': 0.2534, 'grad_norm': 30.191531460495124, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.820556640625, 'rewards/rejected': -1.56103515625, 'rewards/accuracies': 0.875, 'rewards/margins': 2.3828125, 'logps/chosen': -254.4375, 'logps/rejected': -111.09375, 'logits/chosen': -0.84521484375, 'logits/rejected': -0.95068359375, 'epoch': 0.27}
 27%|████████████████████████▊                                                                    | 544/2044 [2:41:15<7:22:08, 17.69s/it] 27%|████████████████████████▊                                                                    | 545/2044 [2:41:33<7:24:45, 17.80s/it]                                                                                                                                         {'loss': 0.2521, 'grad_norm': 36.46546422044464, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.956787109375, 'rewards/rejected': -1.2509765625, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.208984375, 'logps/chosen': -312.125, 'logps/rejected': -140.4375, 'logits/chosen': -1.14208984375, 'logits/rejected': -1.0146484375, 'epoch': 0.27}
 27%|████████████████████████▊                                                                    | 545/2044 [2:41:33<7:24:45, 17.80s/it] 27%|████████████████████████▊                                                                    | 546/2044 [2:41:51<7:26:37, 17.89s/it]                                                                                                                                         {'loss': 0.2434, 'grad_norm': 30.693131259607004, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.1279296875, 'rewards/rejected': -1.35498046875, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.4853515625, 'logps/chosen': -311.0, 'logps/rejected': -144.5625, 'logits/chosen': -0.869384765625, 'logits/rejected': -0.974609375, 'epoch': 0.27}
 27%|████████████████████████▊                                                                    | 546/2044 [2:41:51<7:26:37, 17.89s/it] 27%|████████████████████████▉                                                                    | 547/2044 [2:42:09<7:25:49, 17.87s/it]                                                                                                                                         {'loss': 0.2134, 'grad_norm': 26.53987317809297, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.95263671875, 'rewards/rejected': -1.521484375, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.4755859375, 'logps/chosen': -269.5, 'logps/rejected': -124.25, 'logits/chosen': -0.8623046875, 'logits/rejected': -0.694580078125, 'epoch': 0.27}
 27%|████████████████████████▉                                                                    | 547/2044 [2:42:09<7:25:49, 17.87s/it] 27%|████████████████████████▉                                                                    | 548/2044 [2:42:27<7:31:08, 18.09s/it]                                                                                                                                         {'loss': 0.2777, 'grad_norm': 519.0666713248589, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.90966796875, 'rewards/rejected': -1.26171875, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.169921875, 'logps/chosen': -351.25, 'logps/rejected': -524.5, 'logits/chosen': -0.9311752319335938, 'logits/rejected': -0.92236328125, 'epoch': 0.27}
 27%|████████████████████████▉                                                                    | 548/2044 [2:42:27<7:31:08, 18.09s/it] 27%|████████████████████████▉                                                                    | 549/2044 [2:42:45<7:27:02, 17.94s/it]                                                                                                                                         {'loss': 0.314, 'grad_norm': 34.80756797277591, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.827880859375, 'rewards/rejected': -1.105712890625, 'rewards/accuracies': 0.875, 'rewards/margins': 1.931640625, 'logps/chosen': -269.5625, 'logps/rejected': -143.0625, 'logits/chosen': -0.908203125, 'logits/rejected': -0.8857421875, 'epoch': 0.27}
 27%|████████████████████████▉                                                                    | 549/2044 [2:42:45<7:27:02, 17.94s/it] 27%|█████████████████████████                                                                    | 550/2044 [2:43:02<7:18:39, 17.62s/it]                                                                                                                                         {'loss': 0.2397, 'grad_norm': 27.36667269412014, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.04541015625, 'rewards/rejected': -1.43408203125, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.4775390625, 'logps/chosen': -289.875, 'logps/rejected': -109.1875, 'logits/chosen': -1.1259765625, 'logits/rejected': -0.9091796875, 'epoch': 0.27}
 27%|█████████████████████████                                                                    | 550/2044 [2:43:02<7:18:39, 17.62s/it] 27%|█████████████████████████                                                                    | 551/2044 [2:43:20<7:21:47, 17.75s/it]                                                                                                                                         {'loss': 0.28, 'grad_norm': 29.930237436595956, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.920166015625, 'rewards/rejected': -1.299560546875, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.22021484375, 'logps/chosen': -244.75, 'logps/rejected': -105.5625, 'logits/chosen': -0.900634765625, 'logits/rejected': -0.96240234375, 'epoch': 0.27}
 27%|█████████████████████████                                                                    | 551/2044 [2:43:20<7:21:47, 17.75s/it] 27%|█████████████████████████                                                                    | 552/2044 [2:43:38<7:23:59, 17.86s/it]                                                                                                                                         {'loss': 0.2131, 'grad_norm': 25.851078980508284, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9453125, 'rewards/rejected': -1.4580078125, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.40234375, 'logps/chosen': -261.0, 'logps/rejected': -133.40625, 'logits/chosen': -1.0283203125, 'logits/rejected': -0.98974609375, 'epoch': 0.27}
 27%|█████████████████████████                                                                    | 552/2044 [2:43:38<7:23:59, 17.86s/it] 27%|█████████████████████████▏                                                                   | 553/2044 [2:43:57<7:31:29, 18.17s/it]                                                                                                                                         {'loss': 0.2299, 'grad_norm': 32.2829895384873, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.038330078125, 'rewards/rejected': -1.397216796875, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.435546875, 'logps/chosen': -347.5, 'logps/rejected': -136.71875, 'logits/chosen': -0.7874755859375, 'logits/rejected': -0.97216796875, 'epoch': 0.27}
 27%|█████████████████████████▏                                                                   | 553/2044 [2:43:57<7:31:29, 18.17s/it] 27%|█████████████████████████▏                                                                   | 554/2044 [2:44:14<7:21:45, 17.79s/it]                                                                                                                                         {'loss': 0.2522, 'grad_norm': 34.486226826917225, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.07373046875, 'rewards/rejected': -1.4306640625, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.5078125, 'logps/chosen': -333.75, 'logps/rejected': -132.75, 'logits/chosen': -1.0068359375, 'logits/rejected': -0.859619140625, 'epoch': 0.27}
 27%|█████████████████████████▏                                                                   | 554/2044 [2:44:14<7:21:45, 17.79s/it] 27%|█████████████████████████▎                                                                   | 555/2044 [2:44:32<7:27:06, 18.02s/it]                                                                                                                                         {'loss': 0.3247, 'grad_norm': 37.40783090609745, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.10546875, 'rewards/rejected': -1.17529296875, 'rewards/accuracies': 0.8125, 'rewards/margins': 2.283203125, 'logps/chosen': -366.5, 'logps/rejected': -143.0, 'logits/chosen': -0.9388885498046875, 'logits/rejected': -0.88037109375, 'epoch': 0.27}
 27%|█████████████████████████▎                                                                   | 555/2044 [2:44:32<7:27:06, 18.02s/it] 27%|█████████████████████████▎                                                                   | 556/2044 [2:44:51<7:30:57, 18.18s/it]                                                                                                                                         {'loss': 0.2893, 'grad_norm': 35.39809451905931, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0283203125, 'rewards/rejected': -1.1904296875, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.21875, 'logps/chosen': -303.875, 'logps/rejected': -144.5, 'logits/chosen': -0.82977294921875, 'logits/rejected': -0.890380859375, 'epoch': 0.27}
 27%|█████████████████████████▎                                                                   | 556/2044 [2:44:51<7:30:57, 18.18s/it] 27%|█████████████████████████▎                                                                   | 557/2044 [2:45:10<7:38:44, 18.51s/it]                                                                                                                                         {'loss': 0.297, 'grad_norm': 36.02346854280848, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.03515625, 'rewards/rejected': -1.1214599609375, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.154296875, 'logps/chosen': -275.375, 'logps/rejected': -154.15625, 'logits/chosen': -0.89111328125, 'logits/rejected': -0.82275390625, 'epoch': 0.27}
 27%|█████████████████████████▎                                                                   | 557/2044 [2:45:10<7:38:44, 18.51s/it] 27%|█████████████████████████▍                                                                   | 558/2044 [2:45:28<7:35:18, 18.38s/it]                                                                                                                                         {'loss': 0.4078, 'grad_norm': 46.17534882851244, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.656982421875, 'rewards/rejected': -1.109130859375, 'rewards/accuracies': 0.765625, 'rewards/margins': 1.763671875, 'logps/chosen': -255.375, 'logps/rejected': -149.59375, 'logits/chosen': -0.8681640625, 'logits/rejected': -0.8916015625, 'epoch': 0.27}
 27%|█████████████████████████▍                                                                   | 558/2044 [2:45:28<7:35:18, 18.38s/it] 27%|█████████████████████████▍                                                                   | 559/2044 [2:45:47<7:40:02, 18.59s/it]                                                                                                                                         {'loss': 0.2704, 'grad_norm': 32.91766317040054, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.983642578125, 'rewards/rejected': -1.2607421875, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.2421875, 'logps/chosen': -337.5, 'logps/rejected': -170.0, 'logits/chosen': -1.0234375, 'logits/rejected': -0.908935546875, 'epoch': 0.27}
 27%|█████████████████████████▍                                                                   | 559/2044 [2:45:47<7:40:02, 18.59s/it] 27%|█████████████████████████▍                                                                   | 560/2044 [2:46:05<7:36:51, 18.47s/it]                                                                                                                                         {'loss': 0.2346, 'grad_norm': 34.28636550540843, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.986328125, 'rewards/rejected': -1.47412109375, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.462890625, 'logps/chosen': -350.0, 'logps/rejected': -132.625, 'logits/chosen': -0.945556640625, 'logits/rejected': -0.868896484375, 'epoch': 0.27}
 27%|█████████████████████████▍                                                                   | 560/2044 [2:46:05<7:36:51, 18.47s/it] 27%|█████████████████████████▌                                                                   | 561/2044 [2:46:23<7:29:46, 18.20s/it]                                                                                                                                         {'loss': 0.3571, 'grad_norm': 37.894238679941004, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.802001953125, 'rewards/rejected': -1.23193359375, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.0361328125, 'logps/chosen': -253.75, 'logps/rejected': -130.125, 'logits/chosen': -0.94189453125, 'logits/rejected': -0.90966796875, 'epoch': 0.27}
 27%|█████████████████████████▌                                                                   | 561/2044 [2:46:23<7:29:46, 18.20s/it] 27%|█████████████████████████▌                                                                   | 562/2044 [2:46:41<7:30:59, 18.26s/it]                                                                                                                                         {'loss': 0.3108, 'grad_norm': 37.87142580825519, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.111328125, 'rewards/rejected': -1.04962158203125, 'rewards/accuracies': 0.796875, 'rewards/margins': 2.15673828125, 'logps/chosen': -372.75, 'logps/rejected': -142.875, 'logits/chosen': -0.88330078125, 'logits/rejected': -0.92333984375, 'epoch': 0.27}
 27%|█████████████████████████▌                                                                   | 562/2044 [2:46:41<7:30:59, 18.26s/it] 28%|█████████████████████████▌                                                                   | 563/2044 [2:47:00<7:34:58, 18.43s/it]                                                                                                                                         {'loss': 0.2968, 'grad_norm': 43.07381978758865, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8040771484375, 'rewards/rejected': -1.34228515625, 'rewards/accuracies': 0.875, 'rewards/margins': 2.14453125, 'logps/chosen': -241.5, 'logps/rejected': -179.0625, 'logits/chosen': -1.00537109375, 'logits/rejected': -0.93701171875, 'epoch': 0.28}
 28%|█████████████████████████▌                                                                   | 563/2044 [2:47:00<7:34:58, 18.43s/it] 28%|█████████████████████████▋                                                                   | 564/2044 [2:47:19<7:37:43, 18.56s/it]                                                                                                                                         {'loss': 0.2755, 'grad_norm': 43.55747915465979, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0673828125, 'rewards/rejected': -1.27099609375, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.3369140625, 'logps/chosen': -317.375, 'logps/rejected': -152.0, 'logits/chosen': -0.994873046875, 'logits/rejected': -0.96875, 'epoch': 0.28}
 28%|█████████████████████████▋                                                                   | 564/2044 [2:47:19<7:37:43, 18.56s/it] 28%|█████████████████████████▋                                                                   | 565/2044 [2:47:37<7:34:04, 18.42s/it]                                                                                                                                         {'loss': 0.3026, 'grad_norm': 37.66335154870745, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6827774047851562, 'rewards/rejected': -1.464111328125, 'rewards/accuracies': 0.875, 'rewards/margins': 2.1455078125, 'logps/chosen': -271.0, 'logps/rejected': -123.5, 'logits/chosen': -0.93017578125, 'logits/rejected': -0.8779296875, 'epoch': 0.28}
 28%|█████████████████████████▋                                                                   | 565/2044 [2:47:37<7:34:04, 18.42s/it] 28%|█████████████████████████▊                                                                   | 566/2044 [2:47:56<7:34:29, 18.45s/it]                                                                                                                                         {'loss': 0.2648, 'grad_norm': 34.90401458969284, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9287109375, 'rewards/rejected': -1.371826171875, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.302734375, 'logps/chosen': -322.125, 'logps/rejected': -121.625, 'logits/chosen': -0.875, 'logits/rejected': -0.86572265625, 'epoch': 0.28}
 28%|█████████████████████████▊                                                                   | 566/2044 [2:47:56<7:34:29, 18.45s/it] 28%|█████████████████████████▊                                                                   | 567/2044 [2:48:15<7:38:41, 18.63s/it]                                                                                                                                         {'loss': 0.3023, 'grad_norm': 35.88017045172105, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.89404296875, 'rewards/rejected': -1.191162109375, 'rewards/accuracies': 0.875, 'rewards/margins': 2.0830078125, 'logps/chosen': -294.625, 'logps/rejected': -144.25, 'logits/chosen': -1.01806640625, 'logits/rejected': -1.04443359375, 'epoch': 0.28}
 28%|█████████████████████████▊                                                                   | 567/2044 [2:48:15<7:38:41, 18.63s/it] 28%|█████████████████████████▊                                                                   | 568/2044 [2:48:33<7:35:41, 18.52s/it]                                                                                                                                         {'loss': 0.2088, 'grad_norm': 28.649453124034206, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.076171875, 'rewards/rejected': -1.462890625, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.5400390625, 'logps/chosen': -295.625, 'logps/rejected': -145.4375, 'logits/chosen': -0.99169921875, 'logits/rejected': -1.01123046875, 'epoch': 0.28}
 28%|█████████████████████████▊                                                                   | 568/2044 [2:48:33<7:35:41, 18.52s/it] 28%|█████████████████████████▉                                                                   | 569/2044 [2:48:50<7:25:19, 18.11s/it]                                                                                                                                         {'loss': 0.2762, 'grad_norm': 31.81864810349392, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.008056640625, 'rewards/rejected': -1.33538818359375, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.341064453125, 'logps/chosen': -311.75, 'logps/rejected': -135.09375, 'logits/chosen': -0.87841796875, 'logits/rejected': -0.852783203125, 'epoch': 0.28}
 28%|█████████████████████████▉                                                                   | 569/2044 [2:48:50<7:25:19, 18.11s/it] 28%|█████████████████████████▉                                                                   | 570/2044 [2:49:08<7:23:23, 18.05s/it]                                                                                                                                         {'loss': 0.2452, 'grad_norm': 31.740531379297934, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.908203125, 'rewards/rejected': -1.49755859375, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.40625, 'logps/chosen': -259.125, 'logps/rejected': -133.75, 'logits/chosen': -1.08203125, 'logits/rejected': -0.935546875, 'epoch': 0.28}
 28%|█████████████████████████▉                                                                   | 570/2044 [2:49:08<7:23:23, 18.05s/it] 28%|█████████████████████████▉                                                                   | 571/2044 [2:49:26<7:25:31, 18.15s/it]                                                                                                                                         {'loss': 0.2545, 'grad_norm': 30.984981634514817, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.90771484375, 'rewards/rejected': -1.6162109375, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.5234375, 'logps/chosen': -304.0, 'logps/rejected': -113.6875, 'logits/chosen': -0.9072265625, 'logits/rejected': -0.81005859375, 'epoch': 0.28}
 28%|█████████████████████████▉                                                                   | 571/2044 [2:49:26<7:25:31, 18.15s/it] 28%|██████████████████████████                                                                   | 572/2044 [2:49:44<7:20:17, 17.95s/it]                                                                                                                                         {'loss': 0.2782, 'grad_norm': 35.230813957269916, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.910888671875, 'rewards/rejected': -1.32080078125, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.232421875, 'logps/chosen': -308.75, 'logps/rejected': -137.90625, 'logits/chosen': -0.8948974609375, 'logits/rejected': -0.94873046875, 'epoch': 0.28}
 28%|██████████████████████████                                                                   | 572/2044 [2:49:44<7:20:17, 17.95s/it] 28%|██████████████████████████                                                                   | 573/2044 [2:50:02<7:18:04, 17.87s/it]                                                                                                                                         {'loss': 0.2938, 'grad_norm': 31.41079559921773, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.644866943359375, 'rewards/rejected': -1.27392578125, 'rewards/accuracies': 0.84375, 'rewards/margins': 1.919921875, 'logps/chosen': -264.375, 'logps/rejected': -194.0625, 'logits/chosen': -0.85791015625, 'logits/rejected': -0.95556640625, 'epoch': 0.28}
 28%|██████████████████████████                                                                   | 573/2044 [2:50:02<7:18:04, 17.87s/it] 28%|██████████████████████████                                                                   | 574/2044 [2:50:20<7:20:12, 17.97s/it]                                                                                                                                         {'loss': 0.2603, 'grad_norm': 26.082130804948957, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.91455078125, 'rewards/rejected': -1.4267578125, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.341796875, 'logps/chosen': -261.125, 'logps/rejected': -107.65625, 'logits/chosen': -1.037109375, 'logits/rejected': -0.82958984375, 'epoch': 0.28}
 28%|██████████████████████████                                                                   | 574/2044 [2:50:20<7:20:12, 17.97s/it] 28%|██████████████████████████▏                                                                  | 575/2044 [2:50:38<7:21:02, 18.01s/it]                                                                                                                                         {'loss': 0.2312, 'grad_norm': 27.291620477112797, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.94921875, 'rewards/rejected': -1.3955078125, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.3427734375, 'logps/chosen': -259.875, 'logps/rejected': -114.71875, 'logits/chosen': -0.955078125, 'logits/rejected': -0.9287109375, 'epoch': 0.28}
 28%|██████████████████████████▏                                                                  | 575/2044 [2:50:38<7:21:02, 18.01s/it] 28%|██████████████████████████▏                                                                  | 576/2044 [2:50:56<7:20:48, 18.02s/it]                                                                                                                                         {'loss': 0.2214, 'grad_norm': 25.54550870699448, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.91064453125, 'rewards/rejected': -1.537109375, 'rewards/accuracies': 0.953125, 'rewards/margins': 2.447265625, 'logps/chosen': -329.25, 'logps/rejected': -136.5, 'logits/chosen': -1.05419921875, 'logits/rejected': -0.90576171875, 'epoch': 0.28}
 28%|██████████████████████████▏                                                                  | 576/2044 [2:50:56<7:20:48, 18.02s/it] 28%|██████████████████████████▎                                                                  | 577/2044 [2:51:14<7:19:35, 17.98s/it]                                                                                                                                         {'loss': 0.2538, 'grad_norm': 32.91661243411516, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.955078125, 'rewards/rejected': -1.623291015625, 'rewards/accuracies': 0.875, 'rewards/margins': 2.5791015625, 'logps/chosen': -333.125, 'logps/rejected': -124.09375, 'logits/chosen': -1.01513671875, 'logits/rejected': -1.02880859375, 'epoch': 0.28}
 28%|██████████████████████████▎                                                                  | 577/2044 [2:51:14<7:19:35, 17.98s/it] 28%|██████████████████████████▎                                                                  | 578/2044 [2:51:31<7:15:54, 17.84s/it]                                                                                                                                         {'loss': 0.2848, 'grad_norm': 33.36111942914064, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.92333984375, 'rewards/rejected': -1.4541015625, 'rewards/accuracies': 0.8125, 'rewards/margins': 2.376953125, 'logps/chosen': -286.0, 'logps/rejected': -120.25, 'logits/chosen': -0.861083984375, 'logits/rejected': -0.92919921875, 'epoch': 0.28}
 28%|██████████████████████████▎                                                                  | 578/2044 [2:51:31<7:15:54, 17.84s/it] 28%|██████████████████████████▎                                                                  | 579/2044 [2:51:49<7:16:26, 17.87s/it]                                                                                                                                         {'loss': 0.3942, 'grad_norm': 45.90128908946249, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8193359375, 'rewards/rejected': -1.106689453125, 'rewards/accuracies': 0.828125, 'rewards/margins': 1.92578125, 'logps/chosen': -271.8125, 'logps/rejected': -185.09375, 'logits/chosen': -0.96728515625, 'logits/rejected': -0.93994140625, 'epoch': 0.28}
 28%|██████████████████████████▎                                                                  | 579/2044 [2:51:49<7:16:26, 17.87s/it] 28%|██████████████████████████▍                                                                  | 580/2044 [2:52:08<7:23:09, 18.16s/it]                                                                                                                                         {'loss': 0.193, 'grad_norm': 26.285272528721496, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.1162109375, 'rewards/rejected': -1.7158203125, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.833984375, 'logps/chosen': -305.625, 'logps/rejected': -115.125, 'logits/chosen': -0.920654296875, 'logits/rejected': -0.888671875, 'epoch': 0.28}
 28%|██████████████████████████▍                                                                  | 580/2044 [2:52:08<7:23:09, 18.16s/it] 28%|██████████████████████████▍                                                                  | 581/2044 [2:52:25<7:16:36, 17.91s/it]                                                                                                                                         {'loss': 0.247, 'grad_norm': 28.046828411458897, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.927978515625, 'rewards/rejected': -1.37841796875, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.3076171875, 'logps/chosen': -276.5, 'logps/rejected': -111.375, 'logits/chosen': -0.74853515625, 'logits/rejected': -0.8433837890625, 'epoch': 0.28}
 28%|██████████████████████████▍                                                                  | 581/2044 [2:52:25<7:16:36, 17.91s/it] 28%|██████████████████████████▍                                                                  | 582/2044 [2:52:44<7:20:06, 18.06s/it]                                                                                                                                         {'loss': 0.2341, 'grad_norm': 26.8234922127821, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.907958984375, 'rewards/rejected': -1.533203125, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.4423828125, 'logps/chosen': -304.25, 'logps/rejected': -112.8125, 'logits/chosen': -0.99853515625, 'logits/rejected': -0.87060546875, 'epoch': 0.28}
 28%|██████████████████████████▍                                                                  | 582/2044 [2:52:44<7:20:06, 18.06s/it] 29%|██████████████████████████▌                                                                  | 583/2044 [2:53:03<7:28:18, 18.41s/it]                                                                                                                                         {'loss': 0.3154, 'grad_norm': 42.959484368730465, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8094482421875, 'rewards/rejected': -1.399658203125, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.2109375, 'logps/chosen': -278.625, 'logps/rejected': -168.375, 'logits/chosen': -0.84033203125, 'logits/rejected': -0.8720703125, 'epoch': 0.29}
 29%|██████████████████████████▌                                                                  | 583/2044 [2:53:03<7:28:18, 18.41s/it] 29%|██████████████████████████▌                                                                  | 584/2044 [2:53:22<7:34:17, 18.67s/it]                                                                                                                                         {'loss': 0.3408, 'grad_norm': 39.40665687638113, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.84619140625, 'rewards/rejected': -1.095703125, 'rewards/accuracies': 0.859375, 'rewards/margins': 1.9423828125, 'logps/chosen': -293.25, 'logps/rejected': -138.4375, 'logits/chosen': -0.94775390625, 'logits/rejected': -0.93310546875, 'epoch': 0.29}
 29%|██████████████████████████▌                                                                  | 584/2044 [2:53:22<7:34:17, 18.67s/it] 29%|██████████████████████████▌                                                                  | 585/2044 [2:53:41<7:35:11, 18.72s/it]                                                                                                                                         {'loss': 0.2655, 'grad_norm': 32.55756076816667, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.943359375, 'rewards/rejected': -1.30419921875, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.248046875, 'logps/chosen': -349.375, 'logps/rejected': -149.8125, 'logits/chosen': -1.05029296875, 'logits/rejected': -0.829833984375, 'epoch': 0.29}
 29%|██████████████████████████▌                                                                  | 585/2044 [2:53:41<7:35:11, 18.72s/it] 29%|██████████████████████████▋                                                                  | 586/2044 [2:53:59<7:26:37, 18.38s/it]                                                                                                                                         {'loss': 0.2553, 'grad_norm': 26.556225999034208, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.80712890625, 'rewards/rejected': -1.521484375, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.33203125, 'logps/chosen': -219.375, 'logps/rejected': -107.125, 'logits/chosen': -0.984375, 'logits/rejected': -0.8721923828125, 'epoch': 0.29}
 29%|██████████████████████████▋                                                                  | 586/2044 [2:53:59<7:26:37, 18.38s/it] 29%|██████████████████████████▋                                                                  | 587/2044 [2:54:17<7:26:08, 18.37s/it]                                                                                                                                         {'loss': 0.3105, 'grad_norm': 41.497274440242194, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0035400390625, 'rewards/rejected': -1.3505859375, 'rewards/accuracies': 0.8125, 'rewards/margins': 2.35546875, 'logps/chosen': -299.75, 'logps/rejected': -145.0625, 'logits/chosen': -0.931640625, 'logits/rejected': -0.95751953125, 'epoch': 0.29}
 29%|██████████████████████████▋                                                                  | 587/2044 [2:54:17<7:26:08, 18.37s/it] 29%|██████████████████████████▊                                                                  | 588/2044 [2:54:36<7:32:36, 18.65s/it]                                                                                                                                         {'loss': 0.2777, 'grad_norm': 36.614397590424595, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.05322265625, 'rewards/rejected': -1.23046875, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.2841796875, 'logps/chosen': -295.625, 'logps/rejected': -154.6875, 'logits/chosen': -0.952392578125, 'logits/rejected': -0.94189453125, 'epoch': 0.29}
 29%|██████████████████████████▊                                                                  | 588/2044 [2:54:36<7:32:36, 18.65s/it] 29%|██████████████████████████▊                                                                  | 589/2044 [2:54:53<7:20:37, 18.17s/it]                                                                                                                                         {'loss': 0.2424, 'grad_norm': 23.97066658545752, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.942626953125, 'rewards/rejected': -1.4990234375, 'rewards/accuracies': 0.875, 'rewards/margins': 2.443359375, 'logps/chosen': -321.0, 'logps/rejected': -125.96875, 'logits/chosen': -0.95166015625, 'logits/rejected': -0.81689453125, 'epoch': 0.29}
 29%|██████████████████████████▊                                                                  | 589/2044 [2:54:53<7:20:37, 18.17s/it] 29%|██████████████████████████▊                                                                  | 590/2044 [2:55:12<7:25:35, 18.39s/it]                                                                                                                                         {'loss': 0.293, 'grad_norm': 38.36107038133294, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8818359375, 'rewards/rejected': -1.2421875, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.123046875, 'logps/chosen': -270.375, 'logps/rejected': -172.375, 'logits/chosen': -0.91064453125, 'logits/rejected': -1.041015625, 'epoch': 0.29}
 29%|██████████████████████████▊                                                                  | 590/2044 [2:55:12<7:25:35, 18.39s/it] 29%|██████████████████████████▉                                                                  | 591/2044 [2:55:31<7:29:09, 18.55s/it]                                                                                                                                         {'loss': 0.2727, 'grad_norm': 35.73924547483969, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.93212890625, 'rewards/rejected': -1.376953125, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.3076171875, 'logps/chosen': -318.625, 'logps/rejected': -144.6875, 'logits/chosen': -0.916015625, 'logits/rejected': -1.01318359375, 'epoch': 0.29}
 29%|██████████████████████████▉                                                                  | 591/2044 [2:55:31<7:29:09, 18.55s/it] 29%|██████████████████████████▉                                                                  | 592/2044 [2:55:50<7:27:17, 18.48s/it]                                                                                                                                         {'loss': 0.2655, 'grad_norm': 25.75978136913433, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.81591796875, 'rewards/rejected': -1.533203125, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.3486328125, 'logps/chosen': -250.6875, 'logps/rejected': -109.3125, 'logits/chosen': -0.86181640625, 'logits/rejected': -0.907470703125, 'epoch': 0.29}
 29%|██████████████████████████▉                                                                  | 592/2044 [2:55:50<7:27:17, 18.48s/it] 29%|██████████████████████████▉                                                                  | 593/2044 [2:56:07<7:18:02, 18.11s/it]                                                                                                                                         {'loss': 0.1976, 'grad_norm': 23.831106859507496, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.2216796875, 'rewards/rejected': -1.6259765625, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.84765625, 'logps/chosen': -359.375, 'logps/rejected': -116.21875, 'logits/chosen': -0.96044921875, 'logits/rejected': -0.8134765625, 'epoch': 0.29}
 29%|██████████████████████████▉                                                                  | 593/2044 [2:56:07<7:18:02, 18.11s/it] 29%|███████████████████████████                                                                  | 594/2044 [2:56:25<7:19:23, 18.18s/it]                                                                                                                                         {'loss': 0.2922, 'grad_norm': 31.532604046810285, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.028076171875, 'rewards/rejected': -1.43896484375, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.466796875, 'logps/chosen': -316.75, 'logps/rejected': -118.375, 'logits/chosen': -0.951171875, 'logits/rejected': -0.859375, 'epoch': 0.29}
 29%|███████████████████████████                                                                  | 594/2044 [2:56:25<7:19:23, 18.18s/it] 29%|███████████████████████████                                                                  | 595/2044 [2:56:43<7:18:58, 18.18s/it]                                                                                                                                         {'loss': 0.2242, 'grad_norm': 30.254470585163617, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.04541015625, 'rewards/rejected': -1.66455078125, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.7138671875, 'logps/chosen': -310.5, 'logps/rejected': -125.03125, 'logits/chosen': -0.95361328125, 'logits/rejected': -0.953125, 'epoch': 0.29}
 29%|███████████████████████████                                                                  | 595/2044 [2:56:43<7:18:58, 18.18s/it] 29%|███████████████████████████                                                                  | 596/2044 [2:57:02<7:20:29, 18.25s/it]                                                                                                                                         {'loss': 0.3523, 'grad_norm': 39.97272316212828, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.83203125, 'rewards/rejected': -1.04931640625, 'rewards/accuracies': 0.828125, 'rewards/margins': 1.8798828125, 'logps/chosen': -282.875, 'logps/rejected': -144.8125, 'logits/chosen': -0.9794921875, 'logits/rejected': -0.87109375, 'epoch': 0.29}
 29%|███████████████████████████                                                                  | 596/2044 [2:57:02<7:20:29, 18.25s/it] 29%|███████████████████████████▏                                                                 | 597/2044 [2:57:18<7:05:53, 17.66s/it]                                                                                                                                         {'loss': 0.1767, 'grad_norm': 25.30520716641321, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.014404296875, 'rewards/rejected': -1.7763671875, 'rewards/accuracies': 0.96875, 'rewards/margins': 2.791015625, 'logps/chosen': -299.375, 'logps/rejected': -84.125, 'logits/chosen': -1.03955078125, 'logits/rejected': -0.88720703125, 'epoch': 0.29}
 29%|███████████████████████████▏                                                                 | 597/2044 [2:57:18<7:05:53, 17.66s/it] 29%|███████████████████████████▏                                                                 | 598/2044 [2:57:36<7:10:40, 17.87s/it]                                                                                                                                         {'loss': 0.2394, 'grad_norm': 34.70989085246109, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.753173828125, 'rewards/rejected': -1.5927734375, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.3427734375, 'logps/chosen': -260.0, 'logps/rejected': -119.4375, 'logits/chosen': -0.990234375, 'logits/rejected': -1.04443359375, 'epoch': 0.29}
 29%|███████████████████████████▏                                                                 | 598/2044 [2:57:36<7:10:40, 17.87s/it] 29%|███████████████████████████▎                                                                 | 599/2044 [2:57:54<7:10:09, 17.86s/it]                                                                                                                                         {'loss': 0.1992, 'grad_norm': 32.52793206124298, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.00830078125, 'rewards/rejected': -1.7939453125, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.80078125, 'logps/chosen': -327.625, 'logps/rejected': -161.5, 'logits/chosen': -1.02099609375, 'logits/rejected': -0.920166015625, 'epoch': 0.29}
 29%|███████████████████████████▎                                                                 | 599/2044 [2:57:54<7:10:09, 17.86s/it] 29%|███████████████████████████▎                                                                 | 600/2044 [2:58:13<7:18:22, 18.22s/it]                                                                                                                                         {'loss': 0.1751, 'grad_norm': 22.563757100287994, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.341796875, 'rewards/rejected': -1.6708984375, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.01171875, 'logps/chosen': -380.0, 'logps/rejected': -109.5625, 'logits/chosen': -0.98095703125, 'logits/rejected': -0.9677734375, 'epoch': 0.29}
 29%|███████████████████████████▎                                                                 | 600/2044 [2:58:13<7:18:22, 18.22s/it] 29%|███████████████████████████▎                                                                 | 601/2044 [2:58:30<7:10:26, 17.90s/it]                                                                                                                                         {'loss': 0.2896, 'grad_norm': 34.98233221068166, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.769287109375, 'rewards/rejected': -1.4873046875, 'rewards/accuracies': 0.875, 'rewards/margins': 2.255859375, 'logps/chosen': -271.5, 'logps/rejected': -131.21875, 'logits/chosen': -0.90283203125, 'logits/rejected': -0.9365234375, 'epoch': 0.29}
 29%|███████████████████████████▎                                                                 | 601/2044 [2:58:30<7:10:26, 17.90s/it] 29%|███████████████████████████▍                                                                 | 602/2044 [2:58:48<7:04:42, 17.67s/it]                                                                                                                                         {'loss': 0.1971, 'grad_norm': 23.536637245546263, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.121826171875, 'rewards/rejected': -1.6689453125, 'rewards/accuracies': 0.9375, 'rewards/margins': 2.791015625, 'logps/chosen': -280.625, 'logps/rejected': -97.8125, 'logits/chosen': -0.96630859375, 'logits/rejected': -0.8095703125, 'epoch': 0.29}
 29%|███████████████████████████▍                                                                 | 602/2044 [2:58:48<7:04:42, 17.67s/it] 30%|███████████████████████████▍                                                                 | 603/2044 [2:59:06<7:07:45, 17.81s/it]                                                                                                                                         {'loss': 0.2393, 'grad_norm': 28.757888960698082, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.963623046875, 'rewards/rejected': -1.45263671875, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.416015625, 'logps/chosen': -252.625, 'logps/rejected': -148.8125, 'logits/chosen': -1.03564453125, 'logits/rejected': -0.851806640625, 'epoch': 0.3}
 30%|███████████████████████████▍                                                                 | 603/2044 [2:59:06<7:07:45, 17.81s/it] 30%|███████████████████████████▍                                                                 | 604/2044 [2:59:24<7:07:29, 17.81s/it]                                                                                                                                         {'loss': 0.2005, 'grad_norm': 30.666489725167775, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.1240234375, 'rewards/rejected': -1.75390625, 'rewards/accuracies': 0.875, 'rewards/margins': 2.8740234375, 'logps/chosen': -305.125, 'logps/rejected': -114.5, 'logits/chosen': -0.906494140625, 'logits/rejected': -0.978515625, 'epoch': 0.3}
 30%|███████████████████████████▍                                                                 | 604/2044 [2:59:24<7:07:29, 17.81s/it] 30%|███████████████████████████▌                                                                 | 605/2044 [2:59:41<7:06:39, 17.79s/it]                                                                                                                                         {'loss': 0.2472, 'grad_norm': 33.439924258099346, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.23828125, 'rewards/rejected': -1.61944580078125, 'rewards/accuracies': 0.875, 'rewards/margins': 2.859375, 'logps/chosen': -389.0, 'logps/rejected': -122.03125, 'logits/chosen': -1.0185546875, 'logits/rejected': -0.8701171875, 'epoch': 0.3}
 30%|███████████████████████████▌                                                                 | 605/2044 [2:59:41<7:06:39, 17.79s/it] 30%|███████████████████████████▌                                                                 | 606/2044 [3:00:00<7:09:43, 17.93s/it]                                                                                                                                         {'loss': 0.2278, 'grad_norm': 29.921484678933364, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.090576171875, 'rewards/rejected': -1.62646484375, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.7177734375, 'logps/chosen': -297.1875, 'logps/rejected': -109.21875, 'logits/chosen': -0.861083984375, 'logits/rejected': -0.89990234375, 'epoch': 0.3}
 30%|███████████████████████████▌                                                                 | 606/2044 [3:00:00<7:09:43, 17.93s/it] 30%|███████████████████████████▌                                                                 | 607/2044 [3:00:18<7:14:20, 18.14s/it]                                                                                                                                         {'loss': 0.2839, 'grad_norm': 36.52089091577293, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.885009765625, 'rewards/rejected': -1.57745361328125, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.46240234375, 'logps/chosen': -293.75, 'logps/rejected': -167.5, 'logits/chosen': -0.98876953125, 'logits/rejected': -0.935546875, 'epoch': 0.3}
 30%|███████████████████████████▌                                                                 | 607/2044 [3:00:18<7:14:20, 18.14s/it] 30%|███████████████████████████▋                                                                 | 608/2044 [3:00:36<7:14:06, 18.14s/it]                                                                                                                                         {'loss': 0.2271, 'grad_norm': 31.816258329769102, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.97412109375, 'rewards/rejected': -1.6796875, 'rewards/accuracies': 0.875, 'rewards/margins': 2.6572265625, 'logps/chosen': -269.0, 'logps/rejected': -105.625, 'logits/chosen': -0.7676239013671875, 'logits/rejected': -0.7923431396484375, 'epoch': 0.3}
 30%|███████████████████████████▋                                                                 | 608/2044 [3:00:36<7:14:06, 18.14s/it] 30%|███████████████████████████▋                                                                 | 609/2044 [3:00:53<7:03:24, 17.70s/it]                                                                                                                                         {'loss': 0.2828, 'grad_norm': 28.753313976713937, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.95062255859375, 'rewards/rejected': -1.53955078125, 'rewards/accuracies': 0.875, 'rewards/margins': 2.4921875, 'logps/chosen': -314.375, 'logps/rejected': -113.1875, 'logits/chosen': -0.8798828125, 'logits/rejected': -0.7052001953125, 'epoch': 0.3}
 30%|███████████████████████████▋                                                                 | 609/2044 [3:00:53<7:03:24, 17.70s/it] 30%|███████████████████████████▊                                                                 | 610/2044 [3:01:10<6:56:58, 17.45s/it]                                                                                                                                         {'loss': 0.2684, 'grad_norm': 27.424488458306506, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.895263671875, 'rewards/rejected': -1.814453125, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.708984375, 'logps/chosen': -322.25, 'logps/rejected': -98.9375, 'logits/chosen': -1.09375, 'logits/rejected': -0.99755859375, 'epoch': 0.3}
 30%|███████████████████████████▊                                                                 | 610/2044 [3:01:10<6:56:58, 17.45s/it] 30%|███████████████████████████▊                                                                 | 611/2044 [3:01:28<7:04:19, 17.77s/it]                                                                                                                                         {'loss': 0.2342, 'grad_norm': 28.95138565315306, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8408203125, 'rewards/rejected': -1.5458984375, 'rewards/accuracies': 0.875, 'rewards/margins': 2.388671875, 'logps/chosen': -240.0, 'logps/rejected': -126.09375, 'logits/chosen': -1.09130859375, 'logits/rejected': -0.9697265625, 'epoch': 0.3}
 30%|███████████████████████████▊                                                                 | 611/2044 [3:01:28<7:04:19, 17.77s/it] 30%|███████████████████████████▊                                                                 | 612/2044 [3:01:47<7:13:12, 18.15s/it]                                                                                                                                         {'loss': 0.2736, 'grad_norm': 27.32355630610051, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.010986328125, 'rewards/rejected': -1.521484375, 'rewards/accuracies': 0.875, 'rewards/margins': 2.5302734375, 'logps/chosen': -334.5, 'logps/rejected': -97.15625, 'logits/chosen': -0.98095703125, 'logits/rejected': -0.9091796875, 'epoch': 0.3}
 30%|███████████████████████████▊                                                                 | 612/2044 [3:01:47<7:13:12, 18.15s/it] 30%|███████████████████████████▉                                                                 | 613/2044 [3:02:07<7:21:01, 18.49s/it]                                                                                                                                         {'loss': 0.377, 'grad_norm': 41.78736824702638, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.71533203125, 'rewards/rejected': -1.2569580078125, 'rewards/accuracies': 0.8125, 'rewards/margins': 1.973876953125, 'logps/chosen': -236.125, 'logps/rejected': -130.9375, 'logits/chosen': -0.89794921875, 'logits/rejected': -0.9150390625, 'epoch': 0.3}
 30%|███████████████████████████▉                                                                 | 613/2044 [3:02:07<7:21:01, 18.49s/it] 30%|███████████████████████████▉                                                                 | 614/2044 [3:02:24<7:11:44, 18.12s/it]                                                                                                                                         {'loss': 0.2729, 'grad_norm': 49.857200785228535, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.78857421875, 'rewards/rejected': -1.58642578125, 'rewards/accuracies': 0.875, 'rewards/margins': 2.3720703125, 'logps/chosen': -266.6875, 'logps/rejected': -100.84375, 'logits/chosen': -0.9580078125, 'logits/rejected': -0.859375, 'epoch': 0.3}
 30%|███████████████████████████▉                                                                 | 614/2044 [3:02:24<7:11:44, 18.12s/it] 30%|███████████████████████████▉                                                                 | 615/2044 [3:02:42<7:13:15, 18.19s/it]                                                                                                                                         {'loss': 0.2336, 'grad_norm': 35.060852874840606, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9970703125, 'rewards/rejected': -1.52880859375, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.5244140625, 'logps/chosen': -279.625, 'logps/rejected': -155.6875, 'logits/chosen': -0.763671875, 'logits/rejected': -0.994140625, 'epoch': 0.3}
 30%|███████████████████████████▉                                                                 | 615/2044 [3:02:42<7:13:15, 18.19s/it] 30%|████████████████████████████                                                                 | 616/2044 [3:03:00<7:12:07, 18.16s/it]                                                                                                                                         {'loss': 0.2196, 'grad_norm': 30.0828860601298, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.75439453125, 'rewards/rejected': -1.66943359375, 'rewards/accuracies': 0.9375, 'rewards/margins': 2.42578125, 'logps/chosen': -205.3125, 'logps/rejected': -126.0625, 'logits/chosen': -0.83837890625, 'logits/rejected': -0.8720703125, 'epoch': 0.3}
 30%|████████████████████████████                                                                 | 616/2044 [3:03:00<7:12:07, 18.16s/it] 30%|████████████████████████████                                                                 | 617/2044 [3:03:19<7:14:00, 18.25s/it]                                                                                                                                         {'loss': 0.2485, 'grad_norm': 37.70880387409113, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.91796875, 'rewards/rejected': -1.37109375, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.2900390625, 'logps/chosen': -308.375, 'logps/rejected': -174.03125, 'logits/chosen': -0.9293212890625, 'logits/rejected': -0.89404296875, 'epoch': 0.3}
 30%|████████████████████████████                                                                 | 617/2044 [3:03:19<7:14:00, 18.25s/it] 30%|████████████████████████████                                                                 | 618/2044 [3:03:36<7:06:07, 17.93s/it]                                                                                                                                         {'loss': 0.232, 'grad_norm': 25.762165900361545, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.798828125, 'rewards/rejected': -1.73486328125, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.5302734375, 'logps/chosen': -221.75, 'logps/rejected': -99.875, 'logits/chosen': -0.800537109375, 'logits/rejected': -0.9638671875, 'epoch': 0.3}
 30%|████████████████████████████                                                                 | 618/2044 [3:03:36<7:06:07, 17.93s/it] 30%|████████████████████████████▏                                                                | 619/2044 [3:03:53<7:01:12, 17.74s/it]                                                                                                                                         {'loss': 0.2429, 'grad_norm': 30.96733110995775, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.795166015625, 'rewards/rejected': -1.615234375, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.412109375, 'logps/chosen': -282.75, 'logps/rejected': -102.6875, 'logits/chosen': -0.95703125, 'logits/rejected': -0.9267578125, 'epoch': 0.3}
 30%|████████████████████████████▏                                                                | 619/2044 [3:03:53<7:01:12, 17.74s/it] 30%|████████████████████████████▏                                                                | 620/2044 [3:04:11<7:01:20, 17.75s/it]                                                                                                                                         {'loss': 0.2391, 'grad_norm': 26.064352798603924, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.04736328125, 'rewards/rejected': -1.44189453125, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.490234375, 'logps/chosen': -369.0, 'logps/rejected': -159.8125, 'logits/chosen': -1.01171875, 'logits/rejected': -0.953125, 'epoch': 0.3}
 30%|████████████████████████████▏                                                                | 620/2044 [3:04:11<7:01:20, 17.75s/it] 30%|████████████████████████████▎                                                                | 621/2044 [3:04:29<7:03:38, 17.86s/it]                                                                                                                                         {'loss': 0.2115, 'grad_norm': 34.302128267088605, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.95458984375, 'rewards/rejected': -1.70751953125, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.6591796875, 'logps/chosen': -310.25, 'logps/rejected': -105.71875, 'logits/chosen': -0.9541015625, 'logits/rejected': -0.652099609375, 'epoch': 0.3}
 30%|████████████████████████████▎                                                                | 621/2044 [3:04:29<7:03:38, 17.86s/it] 30%|████████████████████████████▎                                                                | 622/2044 [3:04:47<7:05:43, 17.96s/it]                                                                                                                                         {'loss': 0.3247, 'grad_norm': 47.99743080366049, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.91748046875, 'rewards/rejected': -1.50341796875, 'rewards/accuracies': 0.78125, 'rewards/margins': 2.421875, 'logps/chosen': -270.125, 'logps/rejected': -173.125, 'logits/chosen': -0.83056640625, 'logits/rejected': -0.90966796875, 'epoch': 0.3}
 30%|████████████████████████████▎                                                                | 622/2044 [3:04:47<7:05:43, 17.96s/it] 30%|████████████████████████████▎                                                                | 623/2044 [3:05:05<7:05:09, 17.95s/it]                                                                                                                                         {'loss': 0.285, 'grad_norm': 33.014954911408154, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.80517578125, 'rewards/rejected': -1.53369140625, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.3369140625, 'logps/chosen': -266.5, 'logps/rejected': -118.25, 'logits/chosen': -0.849853515625, 'logits/rejected': -0.8369140625, 'epoch': 0.3}
 30%|████████████████████████████▎                                                                | 623/2044 [3:05:05<7:05:09, 17.95s/it] 31%|████████████████████████████▍                                                                | 624/2044 [3:05:21<6:50:19, 17.34s/it]                                                                                                                                         {'loss': 0.193, 'grad_norm': 21.190834353000408, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.90625, 'rewards/rejected': -1.900390625, 'rewards/accuracies': 0.9375, 'rewards/margins': 2.8046875, 'logps/chosen': -253.5, 'logps/rejected': -96.4375, 'logits/chosen': -0.93115234375, 'logits/rejected': -0.90234375, 'epoch': 0.31}
 31%|████████████████████████████▍                                                                | 624/2044 [3:05:21<6:50:19, 17.34s/it] 31%|████████████████████████████▍                                                                | 625/2044 [3:05:40<7:00:00, 17.76s/it]                                                                                                                                         {'loss': 0.2766, 'grad_norm': 28.18451723676412, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.81298828125, 'rewards/rejected': -1.559326171875, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.375, 'logps/chosen': -267.125, 'logps/rejected': -104.40625, 'logits/chosen': -0.966552734375, 'logits/rejected': -0.92626953125, 'epoch': 0.31}
 31%|████████████████████████████▍                                                                | 625/2044 [3:05:40<7:00:00, 17.76s/it] 31%|████████████████████████████▍                                                                | 626/2044 [3:05:59<7:07:01, 18.07s/it]                                                                                                                                         {'loss': 0.2374, 'grad_norm': 25.700947814815123, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0390625, 'rewards/rejected': -1.45361328125, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.4951171875, 'logps/chosen': -285.375, 'logps/rejected': -102.6875, 'logits/chosen': -1.064453125, 'logits/rejected': -0.861328125, 'epoch': 0.31}
 31%|████████████████████████████▍                                                                | 626/2044 [3:05:59<7:07:01, 18.07s/it] 31%|████████████████████████████▌                                                                | 627/2044 [3:06:16<7:02:42, 17.90s/it]                                                                                                                                         {'loss': 0.2457, 'grad_norm': 32.655321394531846, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.01171875, 'rewards/rejected': -1.5244140625, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.53515625, 'logps/chosen': -348.875, 'logps/rejected': -105.25, 'logits/chosen': -0.9306640625, 'logits/rejected': -0.82373046875, 'epoch': 0.31}
 31%|████████████████████████████▌                                                                | 627/2044 [3:06:16<7:02:42, 17.90s/it] 31%|████████████████████████████▌                                                                | 628/2044 [3:06:34<7:03:03, 17.93s/it]                                                                                                                                         {'loss': 0.2765, 'grad_norm': 37.13272482566983, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.88623046875, 'rewards/rejected': -1.6396484375, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.5283203125, 'logps/chosen': -293.875, 'logps/rejected': -166.25, 'logits/chosen': -0.9150390625, 'logits/rejected': -1.04443359375, 'epoch': 0.31}
 31%|████████████████████████████▌                                                                | 628/2044 [3:06:34<7:03:03, 17.93s/it] 31%|████████████████████████████▌                                                                | 629/2044 [3:06:53<7:05:43, 18.05s/it]                                                                                                                                         {'loss': 0.2961, 'grad_norm': 46.77316797672366, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.008544921875, 'rewards/rejected': -1.453125, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.4609375, 'logps/chosen': -339.875, 'logps/rejected': -157.75, 'logits/chosen': -1.1240234375, 'logits/rejected': -1.02978515625, 'epoch': 0.31}
 31%|████████████████████████████▌                                                                | 629/2044 [3:06:53<7:05:43, 18.05s/it] 31%|████████████████████████████▋                                                                | 630/2044 [3:07:11<7:05:40, 18.06s/it]                                                                                                                                         {'loss': 0.2817, 'grad_norm': 35.774614552799136, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.00927734375, 'rewards/rejected': -1.468994140625, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.4775390625, 'logps/chosen': -341.625, 'logps/rejected': -165.75, 'logits/chosen': -0.8720703125, 'logits/rejected': -0.87109375, 'epoch': 0.31}
 31%|████████████████████████████▋                                                                | 630/2044 [3:07:11<7:05:40, 18.06s/it] 31%|████████████████████████████▋                                                                | 631/2044 [3:07:29<7:06:44, 18.12s/it]                                                                                                                                         {'loss': 0.3474, 'grad_norm': 38.802848708868126, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.43603515625, 'rewards/rejected': -1.42108154296875, 'rewards/accuracies': 0.8125, 'rewards/margins': 1.85400390625, 'logps/chosen': -157.3125, 'logps/rejected': -136.3125, 'logits/chosen': -0.86865234375, 'logits/rejected': -0.99560546875, 'epoch': 0.31}
 31%|████████████████████████████▋                                                                | 631/2044 [3:07:29<7:06:44, 18.12s/it] 31%|████████████████████████████▊                                                                | 632/2044 [3:07:48<7:14:16, 18.45s/it]                                                                                                                                         {'loss': 0.2742, 'grad_norm': 32.29076909431723, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.856689453125, 'rewards/rejected': -1.440673828125, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.2978515625, 'logps/chosen': -268.125, 'logps/rejected': -147.1875, 'logits/chosen': -0.867919921875, 'logits/rejected': -0.9609375, 'epoch': 0.31}
 31%|████████████████████████████▊                                                                | 632/2044 [3:07:48<7:14:16, 18.45s/it] 31%|████████████████████████████▊                                                                | 633/2044 [3:08:04<6:55:47, 17.68s/it]                                                                                                                                         {'loss': 0.2841, 'grad_norm': 30.984800477337433, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.019287109375, 'rewards/rejected': -1.659912109375, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.673828125, 'logps/chosen': -335.625, 'logps/rejected': -183.46875, 'logits/chosen': -1.01416015625, 'logits/rejected': -0.9373779296875, 'epoch': 0.31}
 31%|████████████████████████████▊                                                                | 633/2044 [3:08:04<6:55:47, 17.68s/it] 31%|████████████████████████████▊                                                                | 634/2044 [3:08:23<7:05:11, 18.09s/it]                                                                                                                                         {'loss': 0.3396, 'grad_norm': 45.46377321230794, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.052490234375, 'rewards/rejected': -1.279052734375, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.333984375, 'logps/chosen': -311.8125, 'logps/rejected': -172.8125, 'logits/chosen': -1.0166015625, 'logits/rejected': -0.98193359375, 'epoch': 0.31}
 31%|████████████████████████████▊                                                                | 634/2044 [3:08:23<7:05:11, 18.09s/it] 31%|████████████████████████████▉                                                                | 635/2044 [3:08:40<6:59:14, 17.85s/it]                                                                                                                                         {'loss': 0.2384, 'grad_norm': 26.343979249333735, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0537109375, 'rewards/rejected': -1.64306640625, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.6953125, 'logps/chosen': -322.875, 'logps/rejected': -108.125, 'logits/chosen': -0.9716796875, 'logits/rejected': -0.846435546875, 'epoch': 0.31}
 31%|████████████████████████████▉                                                                | 635/2044 [3:08:40<6:59:14, 17.85s/it] 31%|████████████████████████████▉                                                                | 636/2044 [3:08:59<7:05:48, 18.15s/it]                                                                                                                                         {'loss': 0.2867, 'grad_norm': 30.278708665188525, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.83203125, 'rewards/rejected': -1.5, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.3359375, 'logps/chosen': -285.0, 'logps/rejected': -118.6875, 'logits/chosen': -1.0361328125, 'logits/rejected': -0.96875, 'epoch': 0.31}
 31%|████████████████████████████▉                                                                | 636/2044 [3:08:59<7:05:48, 18.15s/it] 31%|████████████████████████████▉                                                                | 637/2044 [3:09:18<7:12:12, 18.43s/it]                                                                                                                                         {'loss': 0.3558, 'grad_norm': 44.82440846763378, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.747528076171875, 'rewards/rejected': -1.20361328125, 'rewards/accuracies': 0.796875, 'rewards/margins': 1.94921875, 'logps/chosen': -263.6875, 'logps/rejected': -180.125, 'logits/chosen': -0.87939453125, 'logits/rejected': -0.88623046875, 'epoch': 0.31}
 31%|████████████████████████████▉                                                                | 637/2044 [3:09:18<7:12:12, 18.43s/it] 31%|█████████████████████████████                                                                | 638/2044 [3:09:37<7:13:20, 18.49s/it]                                                                                                                                         {'loss': 0.3158, 'grad_norm': 50.19648507770941, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.17919921875, 'rewards/rejected': -1.37939453125, 'rewards/accuracies': 0.796875, 'rewards/margins': 2.559814453125, 'logps/chosen': -362.5, 'logps/rejected': -184.25, 'logits/chosen': -0.770751953125, 'logits/rejected': -0.8447265625, 'epoch': 0.31}
 31%|█████████████████████████████                                                                | 638/2044 [3:09:37<7:13:20, 18.49s/it] 31%|█████████████████████████████                                                                | 639/2044 [3:09:56<7:20:10, 18.80s/it]                                                                                                                                         {'loss': 0.3419, 'grad_norm': 41.84261289060887, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.068359375, 'rewards/rejected': -1.2568359375, 'rewards/accuracies': 0.796875, 'rewards/margins': 2.323974609375, 'logps/chosen': -346.625, 'logps/rejected': -174.0, 'logits/chosen': -0.9111328125, 'logits/rejected': -0.94482421875, 'epoch': 0.31}
 31%|█████████████████████████████                                                                | 639/2044 [3:09:56<7:20:10, 18.80s/it] 31%|█████████████████████████████                                                                | 640/2044 [3:10:14<7:11:41, 18.45s/it]                                                                                                                                         {'loss': 0.1532, 'grad_norm': 23.478554906149043, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.3408203125, 'rewards/rejected': -1.974609375, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.3154296875, 'logps/chosen': -399.25, 'logps/rejected': -133.1875, 'logits/chosen': -1.02294921875, 'logits/rejected': -1.0380859375, 'epoch': 0.31}
 31%|█████████████████████████████                                                                | 640/2044 [3:10:14<7:11:41, 18.45s/it] 31%|█████████████████████████████▏                                                               | 641/2044 [3:10:33<7:12:33, 18.50s/it]                                                                                                                                         {'loss': 0.3076, 'grad_norm': 51.64808683948033, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.04052734375, 'rewards/rejected': -1.5732421875, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.6142578125, 'logps/chosen': -307.5, 'logps/rejected': -157.5, 'logits/chosen': -0.851318359375, 'logits/rejected': -1.02978515625, 'epoch': 0.31}
 31%|█████████████████████████████▏                                                               | 641/2044 [3:10:33<7:12:33, 18.50s/it] 31%|█████████████████████████████▏                                                               | 642/2044 [3:10:50<7:00:25, 17.99s/it]                                                                                                                                         {'loss': 0.1708, 'grad_norm': 20.524882225958745, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.1943359375, 'rewards/rejected': -2.05078125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.244140625, 'logps/chosen': -339.5, 'logps/rejected': -90.3125, 'logits/chosen': -0.9268798828125, 'logits/rejected': -0.90234375, 'epoch': 0.31}
 31%|█████████████████████████████▏                                                               | 642/2044 [3:10:50<7:00:25, 17.99s/it] 31%|█████████████████████████████▎                                                               | 643/2044 [3:11:08<7:02:56, 18.11s/it]                                                                                                                                         {'loss': 0.2343, 'grad_norm': 24.585860853000135, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.876220703125, 'rewards/rejected': -1.6123046875, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.4853515625, 'logps/chosen': -279.375, 'logps/rejected': -100.4375, 'logits/chosen': -1.1923828125, 'logits/rejected': -0.877197265625, 'epoch': 0.31}
 31%|█████████████████████████████▎                                                               | 643/2044 [3:11:08<7:02:56, 18.11s/it] 32%|█████████████████████████████▎                                                               | 644/2044 [3:11:26<7:04:56, 18.21s/it]                                                                                                                                         {'loss': 0.255, 'grad_norm': 30.847107215160957, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.89111328125, 'rewards/rejected': -1.5810546875, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.470703125, 'logps/chosen': -315.5, 'logps/rejected': -148.9375, 'logits/chosen': -0.8916015625, 'logits/rejected': -0.9609375, 'epoch': 0.32}
 32%|█████████████████████████████▎                                                               | 644/2044 [3:11:26<7:04:56, 18.21s/it] 32%|█████████████████████████████▎                                                               | 645/2044 [3:11:45<7:07:18, 18.33s/it]                                                                                                                                         {'loss': 0.2631, 'grad_norm': 31.707019954494882, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.942138671875, 'rewards/rejected': -1.564453125, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.505859375, 'logps/chosen': -292.875, 'logps/rejected': -118.1875, 'logits/chosen': -1.00830078125, 'logits/rejected': -0.96630859375, 'epoch': 0.32}
 32%|█████████████████████████████▎                                                               | 645/2044 [3:11:45<7:07:18, 18.33s/it] 32%|█████████████████████████████▍                                                               | 646/2044 [3:12:03<7:01:41, 18.10s/it]                                                                                                                                         {'loss': 0.2955, 'grad_norm': 36.56725862731316, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.887451171875, 'rewards/rejected': -1.52587890625, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.4130859375, 'logps/chosen': -258.4375, 'logps/rejected': -142.3125, 'logits/chosen': -0.912109375, 'logits/rejected': -0.78240966796875, 'epoch': 0.32}
 32%|█████████████████████████████▍                                                               | 646/2044 [3:12:03<7:01:41, 18.10s/it] 32%|█████████████████████████████▍                                                               | 647/2044 [3:12:19<6:49:22, 17.58s/it]                                                                                                                                         {'loss': 0.1926, 'grad_norm': 24.76888303376478, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.785888671875, 'rewards/rejected': -1.943359375, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.728515625, 'logps/chosen': -270.9375, 'logps/rejected': -109.4375, 'logits/chosen': -0.99072265625, 'logits/rejected': -0.79296875, 'epoch': 0.32}
 32%|█████████████████████████████▍                                                               | 647/2044 [3:12:19<6:49:22, 17.58s/it] 32%|█████████████████████████████▍                                                               | 648/2044 [3:12:38<6:59:25, 18.03s/it]                                                                                                                                         {'loss': 0.3563, 'grad_norm': 44.81281184502485, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.048828125, 'rewards/rejected': -1.52099609375, 'rewards/accuracies': 0.765625, 'rewards/margins': 2.572265625, 'logps/chosen': -324.75, 'logps/rejected': -147.375, 'logits/chosen': -0.7998046875, 'logits/rejected': -0.90771484375, 'epoch': 0.32}
 32%|█████████████████████████████▍                                                               | 648/2044 [3:12:38<6:59:25, 18.03s/it] 32%|█████████████████████████████▌                                                               | 649/2044 [3:12:57<7:03:50, 18.23s/it]                                                                                                                                         {'loss': 0.1927, 'grad_norm': 28.535490023389098, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.787353515625, 'rewards/rejected': -1.9296875, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.7158203125, 'logps/chosen': -387.75, 'logps/rejected': -179.5, 'logits/chosen': -0.90966796875, 'logits/rejected': -1.00439453125, 'epoch': 0.32}
 32%|█████████████████████████████▌                                                               | 649/2044 [3:12:57<7:03:50, 18.23s/it] 32%|█████████████████████████████▌                                                               | 650/2044 [3:13:14<7:00:02, 18.08s/it]                                                                                                                                         {'loss': 0.2792, 'grad_norm': 33.58846612873899, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9501953125, 'rewards/rejected': -1.8203125, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.7705078125, 'logps/chosen': -295.625, 'logps/rejected': -109.9375, 'logits/chosen': -0.8524169921875, 'logits/rejected': -0.89208984375, 'epoch': 0.32}
 32%|█████████████████████████████▌                                                               | 650/2044 [3:13:14<7:00:02, 18.08s/it] 32%|█████████████████████████████▌                                                               | 651/2044 [3:13:32<6:54:44, 17.86s/it]                                                                                                                                         {'loss': 0.1997, 'grad_norm': 27.79334576116152, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.928466796875, 'rewards/rejected': -1.880859375, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.8115234375, 'logps/chosen': -297.25, 'logps/rejected': -102.28125, 'logits/chosen': -0.956298828125, 'logits/rejected': -0.8818359375, 'epoch': 0.32}
 32%|█████████████████████████████▌                                                               | 651/2044 [3:13:32<6:54:44, 17.86s/it] 32%|█████████████████████████████▋                                                               | 652/2044 [3:13:51<7:06:16, 18.37s/it]                                                                                                                                         {'loss': 0.2791, 'grad_norm': 40.30545328089789, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8154296875, 'rewards/rejected': -1.5546875, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.369140625, 'logps/chosen': -282.125, 'logps/rejected': -153.75, 'logits/chosen': -0.970703125, 'logits/rejected': -0.93994140625, 'epoch': 0.32}
 32%|█████████████████████████████▋                                                               | 652/2044 [3:13:51<7:06:16, 18.37s/it] 32%|█████████████████████████████▋                                                               | 653/2044 [3:14:09<7:00:03, 18.12s/it]                                                                                                                                         {'loss': 0.1978, 'grad_norm': 27.360571845927684, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.86669921875, 'rewards/rejected': -2.056640625, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.92578125, 'logps/chosen': -262.375, 'logps/rejected': -108.75, 'logits/chosen': -0.892578125, 'logits/rejected': -0.7562255859375, 'epoch': 0.32}
 32%|█████████████████████████████▋                                                               | 653/2044 [3:14:09<7:00:03, 18.12s/it] 32%|█████████████████████████████▊                                                               | 654/2044 [3:14:28<7:05:47, 18.38s/it]                                                                                                                                         {'loss': 0.2806, 'grad_norm': 31.586798392467717, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.85791015625, 'rewards/rejected': -1.49853515625, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.3583984375, 'logps/chosen': -310.125, 'logps/rejected': -134.6875, 'logits/chosen': -0.8409423828125, 'logits/rejected': -0.85693359375, 'epoch': 0.32}
 32%|█████████████████████████████▊                                                               | 654/2044 [3:14:28<7:05:47, 18.38s/it] 32%|█████████████████████████████▊                                                               | 655/2044 [3:14:47<7:10:17, 18.59s/it]                                                                                                                                         {'loss': 0.3003, 'grad_norm': 39.169472751791744, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.98193359375, 'rewards/rejected': -1.50830078125, 'rewards/accuracies': 0.875, 'rewards/margins': 2.486328125, 'logps/chosen': -312.5, 'logps/rejected': -128.6875, 'logits/chosen': -1.15673828125, 'logits/rejected': -1.05908203125, 'epoch': 0.32}
 32%|█████████████████████████████▊                                                               | 655/2044 [3:14:47<7:10:17, 18.59s/it] 32%|█████████████████████████████▊                                                               | 656/2044 [3:15:04<6:59:09, 18.12s/it]                                                                                                                                         {'loss': 0.2774, 'grad_norm': 33.474587016030206, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.630126953125, 'rewards/rejected': -1.7412109375, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.3701171875, 'logps/chosen': -285.5, 'logps/rejected': -131.0, 'logits/chosen': -1.12255859375, 'logits/rejected': -0.8868408203125, 'epoch': 0.32}
 32%|█████████████████████████████▊                                                               | 656/2044 [3:15:04<6:59:09, 18.12s/it] 32%|█████████████████████████████▉                                                               | 657/2044 [3:15:24<7:09:45, 18.59s/it]                                                                                                                                         {'loss': 0.2654, 'grad_norm': 28.641714760739085, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.87841796875, 'rewards/rejected': -1.7529296875, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.6328125, 'logps/chosen': -334.625, 'logps/rejected': -117.0625, 'logits/chosen': -1.03369140625, 'logits/rejected': -0.888671875, 'epoch': 0.32}
 32%|█████████████████████████████▉                                                               | 657/2044 [3:15:24<7:09:45, 18.59s/it] 32%|█████████████████████████████▉                                                               | 658/2044 [3:15:42<7:09:36, 18.60s/it]                                                                                                                                         {'loss': 0.2726, 'grad_norm': 33.88970565494408, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.81536865234375, 'rewards/rejected': -1.833984375, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.646484375, 'logps/chosen': -312.5, 'logps/rejected': -125.25, 'logits/chosen': -1.07568359375, 'logits/rejected': -0.986328125, 'epoch': 0.32}
 32%|█████████████████████████████▉                                                               | 658/2044 [3:15:42<7:09:36, 18.60s/it] 32%|█████████████████████████████▉                                                               | 659/2044 [3:15:59<6:59:36, 18.18s/it]                                                                                                                                         {'loss': 0.2105, 'grad_norm': 30.8145259122331, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.00927734375, 'rewards/rejected': -1.849609375, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.857421875, 'logps/chosen': -304.875, 'logps/rejected': -123.78125, 'logits/chosen': -1.1298828125, 'logits/rejected': -0.9208984375, 'epoch': 0.32}
 32%|█████████████████████████████▉                                                               | 659/2044 [3:15:59<6:59:36, 18.18s/it] 32%|██████████████████████████████                                                               | 660/2044 [3:16:19<7:06:09, 18.47s/it]                                                                                                                                         {'loss': 0.3057, 'grad_norm': 33.51686548452507, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.84130859375, 'rewards/rejected': -1.318603515625, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.16015625, 'logps/chosen': -293.375, 'logps/rejected': -173.5, 'logits/chosen': -0.9840087890625, 'logits/rejected': -0.878173828125, 'epoch': 0.32}
 32%|██████████████████████████████                                                               | 660/2044 [3:16:19<7:06:09, 18.47s/it] 32%|██████████████████████████████                                                               | 661/2044 [3:16:38<7:11:37, 18.73s/it]                                                                                                                                         {'loss': 0.2719, 'grad_norm': 35.6088470010839, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.900390625, 'rewards/rejected': -1.40380859375, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.3046875, 'logps/chosen': -283.25, 'logps/rejected': -153.9375, 'logits/chosen': -0.95947265625, 'logits/rejected': -0.966796875, 'epoch': 0.32}
 32%|██████████████████████████████                                                               | 661/2044 [3:16:38<7:11:37, 18.73s/it] 32%|██████████████████████████████                                                               | 662/2044 [3:16:56<7:04:09, 18.42s/it]                                                                                                                                         {'loss': 0.268, 'grad_norm': 29.70706654785457, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.89501953125, 'rewards/rejected': -1.73095703125, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.6279296875, 'logps/chosen': -295.25, 'logps/rejected': -178.28125, 'logits/chosen': -0.93994140625, 'logits/rejected': -0.895263671875, 'epoch': 0.32}
 32%|██████████████████████████████                                                               | 662/2044 [3:16:56<7:04:09, 18.42s/it] 32%|██████████████████████████████▏                                                              | 663/2044 [3:17:13<6:59:13, 18.21s/it]                                                                                                                                         {'loss': 0.2001, 'grad_norm': 29.82643360406384, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.068359375, 'rewards/rejected': -1.798828125, 'rewards/accuracies': 0.9375, 'rewards/margins': 2.869140625, 'logps/chosen': -294.375, 'logps/rejected': -127.5, 'logits/chosen': -1.0096435546875, 'logits/rejected': -0.9052734375, 'epoch': 0.32}
 32%|██████████████████████████████▏                                                              | 663/2044 [3:17:13<6:59:13, 18.21s/it] 32%|██████████████████████████████▏                                                              | 664/2044 [3:17:32<7:01:15, 18.32s/it]                                                                                                                                         {'loss': 0.3523, 'grad_norm': 32.61549888412596, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.73193359375, 'rewards/rejected': -1.53515625, 'rewards/accuracies': 0.78125, 'rewards/margins': 2.2666015625, 'logps/chosen': -290.0, 'logps/rejected': -118.3125, 'logits/chosen': -0.96484375, 'logits/rejected': -0.93115234375, 'epoch': 0.32}
 32%|██████████████████████████████▏                                                              | 664/2044 [3:17:32<7:01:15, 18.32s/it] 33%|██████████████████████████████▎                                                              | 665/2044 [3:17:50<7:00:07, 18.28s/it]                                                                                                                                         {'loss': 0.2916, 'grad_norm': 31.506826899867814, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.84228515625, 'rewards/rejected': -1.619140625, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.4638671875, 'logps/chosen': -310.5625, 'logps/rejected': -181.15625, 'logits/chosen': -1.0537109375, 'logits/rejected': -0.97705078125, 'epoch': 0.33}
 33%|██████████████████████████████▎                                                              | 665/2044 [3:17:50<7:00:07, 18.28s/it] 33%|██████████████████████████████▎                                                              | 666/2044 [3:18:09<7:01:37, 18.36s/it]                                                                                                                                         {'loss': 0.1655, 'grad_norm': 27.02609913204551, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.033203125, 'rewards/rejected': -1.7890625, 'rewards/accuracies': 0.9375, 'rewards/margins': 2.822265625, 'logps/chosen': -286.125, 'logps/rejected': -151.625, 'logits/chosen': -0.96142578125, 'logits/rejected': -0.8388671875, 'epoch': 0.33}
 33%|██████████████████████████████▎                                                              | 666/2044 [3:18:09<7:01:37, 18.36s/it] 33%|██████████████████████████████▎                                                              | 667/2044 [3:18:29<7:11:51, 18.82s/it]                                                                                                                                         {'loss': 0.2735, 'grad_norm': 31.55062638786363, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.972412109375, 'rewards/rejected': -1.501953125, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.4775390625, 'logps/chosen': -326.0, 'logps/rejected': -164.125, 'logits/chosen': -0.82177734375, 'logits/rejected': -0.7958984375, 'epoch': 0.33}
 33%|██████████████████████████████▎                                                              | 667/2044 [3:18:29<7:11:51, 18.82s/it] 33%|██████████████████████████████▍                                                              | 668/2044 [3:18:47<7:10:41, 18.78s/it]                                                                                                                                         {'loss': 0.2531, 'grad_norm': 35.3244659537869, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7467041015625, 'rewards/rejected': -1.7783203125, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.5244140625, 'logps/chosen': -247.25, 'logps/rejected': -138.3125, 'logits/chosen': -0.89990234375, 'logits/rejected': -0.83984375, 'epoch': 0.33}
 33%|██████████████████████████████▍                                                              | 668/2044 [3:18:47<7:10:41, 18.78s/it] 33%|██████████████████████████████▍                                                              | 669/2044 [3:19:06<7:12:46, 18.88s/it]                                                                                                                                         {'loss': 0.2341, 'grad_norm': 29.999236868401987, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9521484375, 'rewards/rejected': -1.5498046875, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.501953125, 'logps/chosen': -347.25, 'logps/rejected': -170.6875, 'logits/chosen': -1.041015625, 'logits/rejected': -0.9951171875, 'epoch': 0.33}
 33%|██████████████████████████████▍                                                              | 669/2044 [3:19:06<7:12:46, 18.88s/it] 33%|██████████████████████████████▍                                                              | 670/2044 [3:19:25<7:11:50, 18.86s/it]                                                                                                                                         {'loss': 0.2607, 'grad_norm': 27.99346850769393, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9365234375, 'rewards/rejected': -1.7294921875, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.6650390625, 'logps/chosen': -329.5, 'logps/rejected': -127.6875, 'logits/chosen': -0.99072265625, 'logits/rejected': -0.78076171875, 'epoch': 0.33}
 33%|██████████████████████████████▍                                                              | 670/2044 [3:19:25<7:11:50, 18.86s/it] 33%|██████████████████████████████▌                                                              | 671/2044 [3:19:43<7:05:59, 18.62s/it]                                                                                                                                         {'loss': 0.2276, 'grad_norm': 29.570680824618798, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.94189453125, 'rewards/rejected': -1.9287109375, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.8701171875, 'logps/chosen': -310.75, 'logps/rejected': -127.0, 'logits/chosen': -1.0849609375, 'logits/rejected': -0.97607421875, 'epoch': 0.33}
 33%|██████████████████████████████▌                                                              | 671/2044 [3:19:43<7:05:59, 18.62s/it] 33%|██████████████████████████████▌                                                              | 672/2044 [3:20:02<7:07:57, 18.72s/it]                                                                                                                                         {'loss': 0.2511, 'grad_norm': 30.521117333503646, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.892822265625, 'rewards/rejected': -1.6015625, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.4951171875, 'logps/chosen': -326.0, 'logps/rejected': -130.0625, 'logits/chosen': -1.111328125, 'logits/rejected': -0.890625, 'epoch': 0.33}
 33%|██████████████████████████████▌                                                              | 672/2044 [3:20:02<7:07:57, 18.72s/it] 33%|██████████████████████████████▌                                                              | 673/2044 [3:20:19<6:56:38, 18.23s/it]                                                                                                                                         {'loss': 0.2245, 'grad_norm': 26.656669702557082, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.04638671875, 'rewards/rejected': -1.791015625, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.837890625, 'logps/chosen': -315.0, 'logps/rejected': -110.6875, 'logits/chosen': -0.990234375, 'logits/rejected': -0.8560791015625, 'epoch': 0.33}
 33%|██████████████████████████████▌                                                              | 673/2044 [3:20:19<6:56:38, 18.23s/it] 33%|██████████████████████████████▋                                                              | 674/2044 [3:20:38<6:57:58, 18.31s/it]                                                                                                                                         {'loss': 0.2391, 'grad_norm': 24.669861665378207, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.829345703125, 'rewards/rejected': -1.87109375, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.701171875, 'logps/chosen': -365.625, 'logps/rejected': -170.4375, 'logits/chosen': -1.1376953125, 'logits/rejected': -0.95849609375, 'epoch': 0.33}
 33%|██████████████████████████████▋                                                              | 674/2044 [3:20:38<6:57:58, 18.31s/it] 33%|██████████████████████████████▋                                                              | 675/2044 [3:20:57<7:02:20, 18.51s/it]                                                                                                                                         {'loss': 0.287, 'grad_norm': 35.100759569607646, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.96923828125, 'rewards/rejected': -1.5830078125, 'rewards/accuracies': 0.875, 'rewards/margins': 2.5517578125, 'logps/chosen': -320.625, 'logps/rejected': -168.1875, 'logits/chosen': -0.99267578125, 'logits/rejected': -0.9638671875, 'epoch': 0.33}
 33%|██████████████████████████████▋                                                              | 675/2044 [3:20:57<7:02:20, 18.51s/it] 33%|██████████████████████████████▊                                                              | 676/2044 [3:21:16<7:05:41, 18.67s/it]                                                                                                                                         {'loss': 0.2408, 'grad_norm': 30.263100996879462, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.11865234375, 'rewards/rejected': -1.63134765625, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.7509765625, 'logps/chosen': -333.0, 'logps/rejected': -116.375, 'logits/chosen': -0.8681640625, 'logits/rejected': -0.85107421875, 'epoch': 0.33}
 33%|██████████████████████████████▊                                                              | 676/2044 [3:21:16<7:05:41, 18.67s/it] 33%|██████████████████████████████▊                                                              | 677/2044 [3:21:34<7:04:06, 18.61s/it]                                                                                                                                         {'loss': 0.2371, 'grad_norm': 31.236026377903983, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.03515625, 'rewards/rejected': -1.6484375, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.6826171875, 'logps/chosen': -359.125, 'logps/rejected': -127.5625, 'logits/chosen': -0.96728515625, 'logits/rejected': -0.8466796875, 'epoch': 0.33}
 33%|██████████████████████████████▊                                                              | 677/2044 [3:21:34<7:04:06, 18.61s/it] 33%|██████████████████████████████▊                                                              | 678/2044 [3:21:52<7:00:05, 18.45s/it]                                                                                                                                         {'loss': 0.2635, 'grad_norm': 42.70681235273561, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.94384765625, 'rewards/rejected': -1.74462890625, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.6884765625, 'logps/chosen': -340.125, 'logps/rejected': -143.125, 'logits/chosen': -0.9931640625, 'logits/rejected': -0.89990234375, 'epoch': 0.33}
 33%|██████████████████████████████▊                                                              | 678/2044 [3:21:52<7:00:05, 18.45s/it] 33%|██████████████████████████████▉                                                              | 679/2044 [3:22:10<6:54:54, 18.24s/it]                                                                                                                                         {'loss': 0.2546, 'grad_norm': 30.7255400150584, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.91015625, 'rewards/rejected': -1.9208984375, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.830078125, 'logps/chosen': -275.0, 'logps/rejected': -108.0625, 'logits/chosen': -0.8525390625, 'logits/rejected': -0.8382568359375, 'epoch': 0.33}
 33%|██████████████████████████████▉                                                              | 679/2044 [3:22:10<6:54:54, 18.24s/it] 33%|██████████████████████████████▉                                                              | 680/2044 [3:22:29<6:56:13, 18.31s/it]                                                                                                                                         {'loss': 0.2683, 'grad_norm': 34.47863323758791, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8154296875, 'rewards/rejected': -1.665771484375, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.4833984375, 'logps/chosen': -253.125, 'logps/rejected': -151.8125, 'logits/chosen': -0.951171875, 'logits/rejected': -0.851806640625, 'epoch': 0.33}
 33%|██████████████████████████████▉                                                              | 680/2044 [3:22:29<6:56:13, 18.31s/it] 33%|██████████████████████████████▉                                                              | 681/2044 [3:22:47<6:54:54, 18.26s/it]                                                                                                                                         {'loss': 0.1663, 'grad_norm': 26.784986998473173, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.09423828125, 'rewards/rejected': -1.92578125, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.0166015625, 'logps/chosen': -327.5, 'logps/rejected': -138.75, 'logits/chosen': -0.93310546875, 'logits/rejected': -0.777587890625, 'epoch': 0.33}
 33%|██████████████████████████████▉                                                              | 681/2044 [3:22:47<6:54:54, 18.26s/it] 33%|███████████████████████████████                                                              | 682/2044 [3:23:05<6:53:36, 18.22s/it]                                                                                                                                         {'loss': 0.2703, 'grad_norm': 39.66107347883922, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8876953125, 'rewards/rejected': -1.79736328125, 'rewards/accuracies': 0.8125, 'rewards/margins': 2.6845703125, 'logps/chosen': -311.625, 'logps/rejected': -159.0, 'logits/chosen': -1.06982421875, 'logits/rejected': -0.94189453125, 'epoch': 0.33}
 33%|███████████████████████████████                                                              | 682/2044 [3:23:05<6:53:36, 18.22s/it] 33%|███████████████████████████████                                                              | 683/2044 [3:23:23<6:52:59, 18.21s/it]                                                                                                                                         {'loss': 0.2722, 'grad_norm': 36.18768846921527, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.1904296875, 'rewards/rejected': -1.638671875, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.830078125, 'logps/chosen': -370.0, 'logps/rejected': -153.3125, 'logits/chosen': -1.06689453125, 'logits/rejected': -0.920166015625, 'epoch': 0.33}
 33%|███████████████████████████████                                                              | 683/2044 [3:23:23<6:52:59, 18.21s/it] 33%|███████████████████████████████                                                              | 684/2044 [3:23:41<6:48:39, 18.03s/it]                                                                                                                                         {'loss': 0.2624, 'grad_norm': 30.838058331391522, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.84033203125, 'rewards/rejected': -1.8544921875, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.693359375, 'logps/chosen': -260.625, 'logps/rejected': -119.1875, 'logits/chosen': -0.918212890625, 'logits/rejected': -0.880859375, 'epoch': 0.33}
 33%|███████████████████████████████                                                              | 684/2044 [3:23:41<6:48:39, 18.03s/it] 34%|███████████████████████████████▏                                                             | 685/2044 [3:23:59<6:50:31, 18.12s/it]                                                                                                                                         {'loss': 0.2608, 'grad_norm': 25.62567193077495, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.83056640625, 'rewards/rejected': -1.751220703125, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.58154296875, 'logps/chosen': -301.125, 'logps/rejected': -100.84375, 'logits/chosen': -0.84033203125, 'logits/rejected': -0.90185546875, 'epoch': 0.34}
 34%|███████████████████████████████▏                                                             | 685/2044 [3:23:59<6:50:31, 18.12s/it] 34%|███████████████████████████████▏                                                             | 686/2044 [3:24:15<6:39:27, 17.65s/it]                                                                                                                                         {'loss': 0.2168, 'grad_norm': 23.581651635063068, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6418609619140625, 'rewards/rejected': -1.78515625, 'rewards/accuracies': 0.9375, 'rewards/margins': 2.42578125, 'logps/chosen': -253.625, 'logps/rejected': -107.375, 'logits/chosen': -0.89794921875, 'logits/rejected': -0.833251953125, 'epoch': 0.34}
 34%|███████████████████████████████▏                                                             | 686/2044 [3:24:15<6:39:27, 17.65s/it] 34%|███████████████████████████████▎                                                             | 687/2044 [3:24:34<6:44:29, 17.88s/it]                                                                                                                                         {'loss': 0.233, 'grad_norm': 27.56477656027324, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.741455078125, 'rewards/rejected': -1.884765625, 'rewards/accuracies': 0.875, 'rewards/margins': 2.626953125, 'logps/chosen': -201.875, 'logps/rejected': -117.4375, 'logits/chosen': -0.99072265625, 'logits/rejected': -0.95166015625, 'epoch': 0.34}
 34%|███████████████████████████████▎                                                             | 687/2044 [3:24:34<6:44:29, 17.88s/it] 34%|███████████████████████████████▎                                                             | 688/2044 [3:24:52<6:48:16, 18.07s/it]                                                                                                                                         {'loss': 0.2675, 'grad_norm': 37.89913250844026, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.855712890625, 'rewards/rejected': -1.64013671875, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.4931640625, 'logps/chosen': -298.0, 'logps/rejected': -159.0625, 'logits/chosen': -0.904541015625, 'logits/rejected': -0.99365234375, 'epoch': 0.34}
 34%|███████████████████████████████▎                                                             | 688/2044 [3:24:52<6:48:16, 18.07s/it] 34%|███████████████████████████████▎                                                             | 689/2044 [3:25:10<6:43:25, 17.86s/it]                                                                                                                                         {'loss': 0.295, 'grad_norm': 37.7672788625501, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8515625, 'rewards/rejected': -1.47607421875, 'rewards/accuracies': 0.8125, 'rewards/margins': 2.330078125, 'logps/chosen': -264.5, 'logps/rejected': -165.0625, 'logits/chosen': -0.942138671875, 'logits/rejected': -1.0888671875, 'epoch': 0.34}
 34%|███████████████████████████████▎                                                             | 689/2044 [3:25:10<6:43:25, 17.86s/it] 34%|███████████████████████████████▍                                                             | 690/2044 [3:25:29<6:50:09, 18.18s/it]                                                                                                                                         {'loss': 0.2383, 'grad_norm': 27.08878198854577, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.95458984375, 'rewards/rejected': -1.7197265625, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.6728515625, 'logps/chosen': -317.25, 'logps/rejected': -125.625, 'logits/chosen': -0.888427734375, 'logits/rejected': -0.94287109375, 'epoch': 0.34}
 34%|███████████████████████████████▍                                                             | 690/2044 [3:25:29<6:50:09, 18.18s/it] 34%|███████████████████████████████▍                                                             | 691/2044 [3:25:47<6:53:24, 18.33s/it]                                                                                                                                         {'loss': 0.2835, 'grad_norm': 31.691929644835408, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0009765625, 'rewards/rejected': -1.514404296875, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.51416015625, 'logps/chosen': -304.0, 'logps/rejected': -147.9375, 'logits/chosen': -0.88134765625, 'logits/rejected': -0.89306640625, 'epoch': 0.34}
 34%|███████████████████████████████▍                                                             | 691/2044 [3:25:47<6:53:24, 18.33s/it] 34%|███████████████████████████████▍                                                             | 692/2044 [3:26:07<6:58:40, 18.58s/it]                                                                                                                                         {'loss': 0.2433, 'grad_norm': 25.787370914992472, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.087890625, 'rewards/rejected': -1.7802734375, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.8671875, 'logps/chosen': -320.0, 'logps/rejected': -118.8125, 'logits/chosen': -0.96533203125, 'logits/rejected': -0.8583984375, 'epoch': 0.34}
 34%|███████████████████████████████▍                                                             | 692/2044 [3:26:07<6:58:40, 18.58s/it] 34%|███████████████████████████████▌                                                             | 693/2044 [3:26:25<6:57:02, 18.52s/it]                                                                                                                                         {'loss': 0.3126, 'grad_norm': 31.65946795404763, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6644287109375, 'rewards/rejected': -1.348876953125, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.013671875, 'logps/chosen': -235.5, 'logps/rejected': -138.53125, 'logits/chosen': -0.940673828125, 'logits/rejected': -0.9990234375, 'epoch': 0.34}
 34%|███████████████████████████████▌                                                             | 693/2044 [3:26:25<6:57:02, 18.52s/it] 34%|███████████████████████████████▌                                                             | 694/2044 [3:26:43<6:53:45, 18.39s/it]                                                                                                                                         {'loss': 0.1625, 'grad_norm': 19.85221393662585, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.966064453125, 'rewards/rejected': -2.15625, 'rewards/accuracies': 0.984375, 'rewards/margins': 3.119140625, 'logps/chosen': -276.875, 'logps/rejected': -91.875, 'logits/chosen': -0.9873046875, 'logits/rejected': -0.869140625, 'epoch': 0.34}
 34%|███████████████████████████████▌                                                             | 694/2044 [3:26:43<6:53:45, 18.39s/it] 34%|███████████████████████████████▌                                                             | 695/2044 [3:27:02<6:57:44, 18.58s/it]                                                                                                                                         {'loss': 0.2072, 'grad_norm': 27.411692059944993, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.02978515625, 'rewards/rejected': -1.82666015625, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.85546875, 'logps/chosen': -408.0, 'logps/rejected': -189.375, 'logits/chosen': -0.891845703125, 'logits/rejected': -0.9716796875, 'epoch': 0.34}
 34%|███████████████████████████████▌                                                             | 695/2044 [3:27:02<6:57:44, 18.58s/it] 34%|███████████████████████████████▋                                                             | 696/2044 [3:27:20<6:50:44, 18.28s/it]                                                                                                                                         {'loss': 0.2603, 'grad_norm': 33.501801954197056, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.88037109375, 'rewards/rejected': -1.970703125, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.8515625, 'logps/chosen': -310.625, 'logps/rejected': -138.875, 'logits/chosen': -0.9833984375, 'logits/rejected': -0.93798828125, 'epoch': 0.34}
 34%|███████████████████████████████▋                                                             | 696/2044 [3:27:20<6:50:44, 18.28s/it] 34%|███████████████████████████████▋                                                             | 697/2044 [3:27:37<6:44:51, 18.03s/it]                                                                                                                                         {'loss': 0.1773, 'grad_norm': 29.243555295994653, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.060302734375, 'rewards/rejected': -1.95703125, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.0185546875, 'logps/chosen': -299.9375, 'logps/rejected': -93.375, 'logits/chosen': -0.94677734375, 'logits/rejected': -0.783538818359375, 'epoch': 0.34}
 34%|███████████████████████████████▋                                                             | 697/2044 [3:27:37<6:44:51, 18.03s/it] 34%|███████████████████████████████▊                                                             | 698/2044 [3:27:56<6:49:15, 18.24s/it]                                                                                                                                         {'loss': 0.2957, 'grad_norm': 44.18836260723455, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.059814453125, 'rewards/rejected': -1.85205078125, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.9091796875, 'logps/chosen': -315.75, 'logps/rejected': -162.75, 'logits/chosen': -0.91015625, 'logits/rejected': -0.84375, 'epoch': 0.34}
 34%|███████████████████████████████▊                                                             | 698/2044 [3:27:56<6:49:15, 18.24s/it] 34%|███████████████████████████████▊                                                             | 699/2044 [3:28:14<6:46:39, 18.14s/it]                                                                                                                                         {'loss': 0.2459, 'grad_norm': 33.771258110410805, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.86663818359375, 'rewards/rejected': -1.8388671875, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.703125, 'logps/chosen': -274.6875, 'logps/rejected': -127.875, 'logits/chosen': -1.0048828125, 'logits/rejected': -0.906494140625, 'epoch': 0.34}
 34%|███████████████████████████████▊                                                             | 699/2044 [3:28:14<6:46:39, 18.14s/it] 34%|███████████████████████████████▊                                                             | 700/2044 [3:28:33<6:50:49, 18.34s/it]                                                                                                                                         {'loss': 0.2428, 'grad_norm': 28.945118470731316, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.96923828125, 'rewards/rejected': -1.857421875, 'rewards/accuracies': 0.875, 'rewards/margins': 2.8251953125, 'logps/chosen': -277.0, 'logps/rejected': -126.0, 'logits/chosen': -0.8076171875, 'logits/rejected': -0.81103515625, 'epoch': 0.34}
 34%|███████████████████████████████▊                                                             | 700/2044 [3:28:33<6:50:49, 18.34s/it] 34%|███████████████████████████████▉                                                             | 701/2044 [3:28:52<6:56:18, 18.60s/it]                                                                                                                                         {'loss': 0.3001, 'grad_norm': 36.453417903811385, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.867431640625, 'rewards/rejected': -1.79296875, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.662109375, 'logps/chosen': -304.0, 'logps/rejected': -151.0625, 'logits/chosen': -0.881591796875, 'logits/rejected': -0.9052734375, 'epoch': 0.34}
 34%|███████████████████████████████▉                                                             | 701/2044 [3:28:52<6:56:18, 18.60s/it] 34%|███████████████████████████████▉                                                             | 702/2044 [3:29:10<6:52:26, 18.44s/it]                                                                                                                                         {'loss': 0.2673, 'grad_norm': 31.87767831748641, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.79833984375, 'rewards/rejected': -1.714599609375, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.509765625, 'logps/chosen': -301.125, 'logps/rejected': -130.75, 'logits/chosen': -0.99267578125, 'logits/rejected': -1.04052734375, 'epoch': 0.34}
 34%|███████████████████████████████▉                                                             | 702/2044 [3:29:10<6:52:26, 18.44s/it] 34%|███████████████████████████████▉                                                             | 703/2044 [3:29:28<6:50:54, 18.39s/it]                                                                                                                                         {'loss': 0.2771, 'grad_norm': 55.17970171663349, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7841796875, 'rewards/rejected': -1.62890625, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.412109375, 'logps/chosen': -274.875, 'logps/rejected': -177.1875, 'logits/chosen': -1.00537109375, 'logits/rejected': -0.85302734375, 'epoch': 0.34}
 34%|███████████████████████████████▉                                                             | 703/2044 [3:29:28<6:50:54, 18.39s/it] 34%|████████████████████████████████                                                             | 704/2044 [3:29:46<6:47:15, 18.24s/it]                                                                                                                                         {'loss': 0.2117, 'grad_norm': 28.412553152408318, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.918701171875, 'rewards/rejected': -1.9892578125, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.9091796875, 'logps/chosen': -296.75, 'logps/rejected': -120.375, 'logits/chosen': -0.95849609375, 'logits/rejected': -0.92822265625, 'epoch': 0.34}
 34%|████████████████████████████████                                                             | 704/2044 [3:29:46<6:47:15, 18.24s/it] 34%|████████████████████████████████                                                             | 705/2044 [3:30:04<6:46:40, 18.22s/it]                                                                                                                                         {'loss': 0.2189, 'grad_norm': 24.843527971310174, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.04296875, 'rewards/rejected': -1.765625, 'rewards/accuracies': 0.9375, 'rewards/margins': 2.8125, 'logps/chosen': -303.5, 'logps/rejected': -116.4375, 'logits/chosen': -0.890869140625, 'logits/rejected': -0.8740234375, 'epoch': 0.34}
 34%|████████████████████████████████                                                             | 705/2044 [3:30:04<6:46:40, 18.22s/it] 35%|████████████████████████████████                                                             | 706/2044 [3:30:22<6:43:45, 18.11s/it]                                                                                                                                         {'loss': 0.2526, 'grad_norm': 32.61412266835808, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.890869140625, 'rewards/rejected': -1.85302734375, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.740234375, 'logps/chosen': -275.875, 'logps/rejected': -122.40625, 'logits/chosen': -0.968994140625, 'logits/rejected': -0.81640625, 'epoch': 0.35}
 35%|████████████████████████████████                                                             | 706/2044 [3:30:22<6:43:45, 18.11s/it] 35%|████████████████████████████████▏                                                            | 707/2044 [3:30:39<6:34:52, 17.72s/it]                                                                                                                                         {'loss': 0.246, 'grad_norm': 24.948009379696757, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.813232421875, 'rewards/rejected': -1.83349609375, 'rewards/accuracies': 0.875, 'rewards/margins': 2.6455078125, 'logps/chosen': -261.59375, 'logps/rejected': -101.25, 'logits/chosen': -0.84814453125, 'logits/rejected': -0.73291015625, 'epoch': 0.35}
 35%|████████████████████████████████▏                                                            | 707/2044 [3:30:39<6:34:52, 17.72s/it] 35%|████████████████████████████████▏                                                            | 708/2044 [3:30:58<6:42:12, 18.06s/it]                                                                                                                                         {'loss': 0.2184, 'grad_norm': 33.36458291190736, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.92333984375, 'rewards/rejected': -1.927734375, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.84765625, 'logps/chosen': -257.3125, 'logps/rejected': -118.25, 'logits/chosen': -1.001953125, 'logits/rejected': -0.802978515625, 'epoch': 0.35}
 35%|████████████████████████████████▏                                                            | 708/2044 [3:30:58<6:42:12, 18.06s/it] 35%|████████████████████████████████▎                                                            | 709/2044 [3:31:16<6:43:32, 18.14s/it]                                                                                                                                         {'loss': 0.301, 'grad_norm': 43.020969672864204, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.93115234375, 'rewards/rejected': -1.659912109375, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.58984375, 'logps/chosen': -334.125, 'logps/rejected': -136.53125, 'logits/chosen': -0.9560546875, 'logits/rejected': -0.813232421875, 'epoch': 0.35}
 35%|████████████████████████████████▎                                                            | 709/2044 [3:31:16<6:43:32, 18.14s/it] 35%|████████████████████████████████▎                                                            | 710/2044 [3:31:35<6:49:42, 18.43s/it]                                                                                                                                         {'loss': 0.2407, 'grad_norm': 27.0928066058129, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0023193359375, 'rewards/rejected': -1.51025390625, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.513671875, 'logps/chosen': -380.0, 'logps/rejected': -193.0, 'logits/chosen': -0.985595703125, 'logits/rejected': -0.8759765625, 'epoch': 0.35}
 35%|████████████████████████████████▎                                                            | 710/2044 [3:31:35<6:49:42, 18.43s/it] 35%|████████████████████████████████▎                                                            | 711/2044 [3:31:52<6:41:35, 18.08s/it]                                                                                                                                         {'loss': 0.2469, 'grad_norm': 34.47246072118778, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.811767578125, 'rewards/rejected': -1.9794921875, 'rewards/accuracies': 0.875, 'rewards/margins': 2.7919921875, 'logps/chosen': -272.3125, 'logps/rejected': -125.5, 'logits/chosen': -0.96484375, 'logits/rejected': -1.02197265625, 'epoch': 0.35}
 35%|████████████████████████████████▎                                                            | 711/2044 [3:31:52<6:41:35, 18.08s/it] 35%|████████████████████████████████▍                                                            | 712/2044 [3:32:12<6:52:15, 18.57s/it]                                                                                                                                         {'loss': 0.2042, 'grad_norm': 31.289569912022483, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.1484375, 'rewards/rejected': -2.0087890625, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.15625, 'logps/chosen': -338.625, 'logps/rejected': -142.5625, 'logits/chosen': -1.00537109375, 'logits/rejected': -0.93798828125, 'epoch': 0.35}
 35%|████████████████████████████████▍                                                            | 712/2044 [3:32:12<6:52:15, 18.57s/it] 35%|████████████████████████████████▍                                                            | 713/2044 [3:32:31<6:52:07, 18.58s/it]                                                                                                                                         {'loss': 0.3043, 'grad_norm': 32.013319047422556, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.712158203125, 'rewards/rejected': -1.65478515625, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.3662109375, 'logps/chosen': -284.625, 'logps/rejected': -165.5, 'logits/chosen': -1.0498046875, 'logits/rejected': -0.92236328125, 'epoch': 0.35}
 35%|████████████████████████████████▍                                                            | 713/2044 [3:32:31<6:52:07, 18.58s/it] 35%|████████████████████████████████▍                                                            | 714/2044 [3:32:49<6:50:59, 18.54s/it]                                                                                                                                         {'loss': 0.3088, 'grad_norm': 38.35786403469817, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.82666015625, 'rewards/rejected': -1.68115234375, 'rewards/accuracies': 0.8125, 'rewards/margins': 2.50390625, 'logps/chosen': -302.875, 'logps/rejected': -211.34375, 'logits/chosen': -0.97412109375, 'logits/rejected': -0.94140625, 'epoch': 0.35}
 35%|████████████████████████████████▍                                                            | 714/2044 [3:32:49<6:50:59, 18.54s/it] 35%|████████████████████████████████▌                                                            | 715/2044 [3:33:08<6:52:09, 18.61s/it]                                                                                                                                         {'loss': 0.2261, 'grad_norm': 28.587850764266566, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.816650390625, 'rewards/rejected': -1.73046875, 'rewards/accuracies': 0.875, 'rewards/margins': 2.54541015625, 'logps/chosen': -260.625, 'logps/rejected': -112.875, 'logits/chosen': -0.758056640625, 'logits/rejected': -0.82666015625, 'epoch': 0.35}
 35%|████████████████████████████████▌                                                            | 715/2044 [3:33:08<6:52:09, 18.61s/it] 35%|████████████████████████████████▌                                                            | 716/2044 [3:33:23<6:30:18, 17.63s/it]                                                                                                                                         {'loss': 0.1797, 'grad_norm': 26.973925652357277, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.672119140625, 'rewards/rejected': -2.1142578125, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.78515625, 'logps/chosen': -177.5625, 'logps/rejected': -129.84375, 'logits/chosen': -0.93408203125, 'logits/rejected': -0.8607177734375, 'epoch': 0.35}
 35%|████████████████████████████████▌                                                            | 716/2044 [3:33:23<6:30:18, 17.63s/it] 35%|████████████████████████████████▌                                                            | 717/2044 [3:33:42<6:38:29, 18.02s/it]                                                                                                                                         {'loss': 0.2476, 'grad_norm': 41.371682621925295, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.882568359375, 'rewards/rejected': -1.890625, 'rewards/accuracies': 0.875, 'rewards/margins': 2.775390625, 'logps/chosen': -295.75, 'logps/rejected': -161.78125, 'logits/chosen': -0.89306640625, 'logits/rejected': -0.873046875, 'epoch': 0.35}
 35%|████████████████████████████████▌                                                            | 717/2044 [3:33:42<6:38:29, 18.02s/it] 35%|████████████████████████████████▋                                                            | 718/2044 [3:34:00<6:36:39, 17.95s/it]                                                                                                                                         {'loss': 0.268, 'grad_norm': 30.84948707557221, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.78778076171875, 'rewards/rejected': -1.7587890625, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.548828125, 'logps/chosen': -266.0625, 'logps/rejected': -134.5, 'logits/chosen': -1.00048828125, 'logits/rejected': -0.897216796875, 'epoch': 0.35}
 35%|████████████████████████████████▋                                                            | 718/2044 [3:34:00<6:36:39, 17.95s/it] 35%|████████████████████████████████▋                                                            | 719/2044 [3:34:16<6:26:08, 17.49s/it]                                                                                                                                         {'loss': 0.1227, 'grad_norm': 14.40055447535625, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.93359375, 'rewards/rejected': -2.2861328125, 'rewards/accuracies': 0.984375, 'rewards/margins': 3.21875, 'logps/chosen': -279.625, 'logps/rejected': -100.53125, 'logits/chosen': -0.854736328125, 'logits/rejected': -0.6380615234375, 'epoch': 0.35}
 35%|████████████████████████████████▋                                                            | 719/2044 [3:34:16<6:26:08, 17.49s/it] 35%|████████████████████████████████▊                                                            | 720/2044 [3:34:34<6:24:25, 17.42s/it]                                                                                                                                         {'loss': 0.1842, 'grad_norm': 27.725987926089218, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.89990234375, 'rewards/rejected': -2.39453125, 'rewards/accuracies': 0.875, 'rewards/margins': 3.291015625, 'logps/chosen': -274.0, 'logps/rejected': -112.8125, 'logits/chosen': -0.89697265625, 'logits/rejected': -0.83642578125, 'epoch': 0.35}
 35%|████████████████████████████████▊                                                            | 720/2044 [3:34:34<6:24:25, 17.42s/it] 35%|████████████████████████████████▊                                                            | 721/2044 [3:34:53<6:36:45, 17.99s/it]                                                                                                                                         {'loss': 0.2708, 'grad_norm': 35.08901647895913, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.727294921875, 'rewards/rejected': -1.749267578125, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.4794921875, 'logps/chosen': -302.75, 'logps/rejected': -141.0, 'logits/chosen': -0.9521484375, 'logits/rejected': -0.99560546875, 'epoch': 0.35}
 35%|████████████████████████████████▊                                                            | 721/2044 [3:34:53<6:36:45, 17.99s/it] 35%|████████████████████████████████▊                                                            | 722/2044 [3:35:12<6:44:18, 18.35s/it]                                                                                                                                         {'loss': 0.2614, 'grad_norm': 32.229648804291806, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.83935546875, 'rewards/rejected': -1.86279296875, 'rewards/accuracies': 0.875, 'rewards/margins': 2.69921875, 'logps/chosen': -257.25, 'logps/rejected': -148.75, 'logits/chosen': -1.0126953125, 'logits/rejected': -0.97314453125, 'epoch': 0.35}
 35%|████████████████████████████████▊                                                            | 722/2044 [3:35:12<6:44:18, 18.35s/it] 35%|████████████████████████████████▉                                                            | 723/2044 [3:35:30<6:43:17, 18.32s/it]                                                                                                                                         {'loss': 0.241, 'grad_norm': 37.26605319963049, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.811767578125, 'rewards/rejected': -2.0849609375, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.8984375, 'logps/chosen': -336.25, 'logps/rejected': -184.1875, 'logits/chosen': -0.99853515625, 'logits/rejected': -0.9814453125, 'epoch': 0.35}
 35%|████████████████████████████████▉                                                            | 723/2044 [3:35:30<6:43:17, 18.32s/it] 35%|████████████████████████████████▉                                                            | 724/2044 [3:35:48<6:39:15, 18.15s/it]                                                                                                                                         {'loss': 0.2301, 'grad_norm': 27.428218557173523, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.931640625, 'rewards/rejected': -1.798828125, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.732421875, 'logps/chosen': -335.625, 'logps/rejected': -121.0625, 'logits/chosen': -1.01806640625, 'logits/rejected': -0.8388671875, 'epoch': 0.35}
 35%|████████████████████████████████▉                                                            | 724/2044 [3:35:48<6:39:15, 18.15s/it] 35%|████████████████████████████████▉                                                            | 725/2044 [3:36:06<6:39:31, 18.17s/it]                                                                                                                                         {'loss': 0.1564, 'grad_norm': 20.85769479295303, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.97509765625, 'rewards/rejected': -2.1416015625, 'rewards/accuracies': 0.953125, 'rewards/margins': 3.115234375, 'logps/chosen': -311.5, 'logps/rejected': -105.75, 'logits/chosen': -0.92730712890625, 'logits/rejected': -0.9501953125, 'epoch': 0.35}
 35%|████████████████████████████████▉                                                            | 725/2044 [3:36:06<6:39:31, 18.17s/it] 36%|█████████████████████████████████                                                            | 726/2044 [3:36:25<6:41:12, 18.26s/it]                                                                                                                                         {'loss': 0.2546, 'grad_norm': 33.69422546526291, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.832275390625, 'rewards/rejected': -1.67626953125, 'rewards/accuracies': 0.875, 'rewards/margins': 2.50439453125, 'logps/chosen': -261.75, 'logps/rejected': -129.1875, 'logits/chosen': -0.895751953125, 'logits/rejected': -0.92822265625, 'epoch': 0.36}
 36%|█████████████████████████████████                                                            | 726/2044 [3:36:25<6:41:12, 18.26s/it] 36%|█████████████████████████████████                                                            | 727/2044 [3:36:43<6:41:21, 18.28s/it]                                                                                                                                         {'loss': 0.2541, 'grad_norm': 30.009832083758475, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8125, 'rewards/rejected': -1.8486328125, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.658203125, 'logps/chosen': -231.375, 'logps/rejected': -139.6875, 'logits/chosen': -0.831787109375, 'logits/rejected': -0.811767578125, 'epoch': 0.36}
 36%|█████████████████████████████████                                                            | 727/2044 [3:36:43<6:41:21, 18.28s/it] 36%|█████████████████████████████████                                                            | 728/2044 [3:37:01<6:41:16, 18.30s/it]                                                                                                                                         {'loss': 0.167, 'grad_norm': 28.75694723373907, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.998291015625, 'rewards/rejected': -2.08203125, 'rewards/accuracies': 0.96875, 'rewards/margins': 3.08203125, 'logps/chosen': -295.625, 'logps/rejected': -130.0625, 'logits/chosen': -0.99169921875, 'logits/rejected': -0.909423828125, 'epoch': 0.36}
 36%|█████████████████████████████████                                                            | 728/2044 [3:37:01<6:41:16, 18.30s/it] 36%|█████████████████████████████████▏                                                           | 729/2044 [3:37:18<6:28:42, 17.74s/it]                                                                                                                                         {'loss': 0.1821, 'grad_norm': 26.89943809864775, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.982421875, 'rewards/rejected': -2.203125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.185546875, 'logps/chosen': -281.9375, 'logps/rejected': -103.15625, 'logits/chosen': -0.927734375, 'logits/rejected': -0.9208984375, 'epoch': 0.36}
 36%|█████████████████████████████████▏                                                           | 729/2044 [3:37:18<6:28:42, 17.74s/it] 36%|█████████████████████████████████▏                                                           | 730/2044 [3:37:36<6:30:20, 17.82s/it]                                                                                                                                         {'loss': 0.186, 'grad_norm': 23.728119543471905, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.04833984375, 'rewards/rejected': -1.9599609375, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.0107421875, 'logps/chosen': -294.8125, 'logps/rejected': -119.6875, 'logits/chosen': -1.0869140625, 'logits/rejected': -1.20703125, 'epoch': 0.36}
 36%|█████████████████████████████████▏                                                           | 730/2044 [3:37:36<6:30:20, 17.82s/it] 36%|█████████████████████████████████▎                                                           | 731/2044 [3:37:54<6:34:08, 18.01s/it]                                                                                                                                         {'loss': 0.2712, 'grad_norm': 29.19893042167158, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.907958984375, 'rewards/rejected': -1.8349609375, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.7412109375, 'logps/chosen': -265.8125, 'logps/rejected': -121.6875, 'logits/chosen': -1.03173828125, 'logits/rejected': -0.871826171875, 'epoch': 0.36}
 36%|█████████████████████████████████▎                                                           | 731/2044 [3:37:54<6:34:08, 18.01s/it] 36%|█████████████████████████████████▎                                                           | 732/2044 [3:38:13<6:40:07, 18.30s/it]                                                                                                                                         {'loss': 0.1944, 'grad_norm': 26.75127815960962, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.915283203125, 'rewards/rejected': -2.265625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.18359375, 'logps/chosen': -307.875, 'logps/rejected': -123.125, 'logits/chosen': -0.892578125, 'logits/rejected': -0.96142578125, 'epoch': 0.36}
 36%|█████████████████████████████████▎                                                           | 732/2044 [3:38:13<6:40:07, 18.30s/it] 36%|█████████████████████████████████▎                                                           | 733/2044 [3:38:31<6:32:41, 17.97s/it]                                                                                                                                         {'loss': 0.2733, 'grad_norm': 33.002019657084894, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.982421875, 'rewards/rejected': -1.9541015625, 'rewards/accuracies': 0.796875, 'rewards/margins': 2.9365234375, 'logps/chosen': -281.125, 'logps/rejected': -143.625, 'logits/chosen': -0.938232421875, 'logits/rejected': -0.955322265625, 'epoch': 0.36}
 36%|█████████████████████████████████▎                                                           | 733/2044 [3:38:31<6:32:41, 17.97s/it] 36%|█████████████████████████████████▍                                                           | 734/2044 [3:38:49<6:34:26, 18.07s/it]                                                                                                                                         {'loss': 0.2075, 'grad_norm': 29.520294339181884, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.075439453125, 'rewards/rejected': -1.9267578125, 'rewards/accuracies': 0.875, 'rewards/margins': 3.001953125, 'logps/chosen': -369.625, 'logps/rejected': -118.0625, 'logits/chosen': -0.9833984375, 'logits/rejected': -0.95703125, 'epoch': 0.36}
 36%|█████████████████████████████████▍                                                           | 734/2044 [3:38:49<6:34:26, 18.07s/it] 36%|█████████████████████████████████▍                                                           | 735/2044 [3:39:07<6:36:47, 18.19s/it]                                                                                                                                         {'loss': 0.2339, 'grad_norm': 27.761326175611227, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0234375, 'rewards/rejected': -1.97998046875, 'rewards/accuracies': 0.875, 'rewards/margins': 3.001953125, 'logps/chosen': -347.125, 'logps/rejected': -136.9375, 'logits/chosen': -0.9677734375, 'logits/rejected': -1.00048828125, 'epoch': 0.36}
 36%|█████████████████████████████████▍                                                           | 735/2044 [3:39:07<6:36:47, 18.19s/it] 36%|█████████████████████████████████▍                                                           | 736/2044 [3:39:26<6:40:15, 18.36s/it]                                                                                                                                         {'loss': 0.2308, 'grad_norm': 35.784877043352175, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9091796875, 'rewards/rejected': -2.005859375, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.916015625, 'logps/chosen': -291.625, 'logps/rejected': -141.1875, 'logits/chosen': -0.935302734375, 'logits/rejected': -0.96142578125, 'epoch': 0.36}
 36%|█████████████████████████████████▍                                                           | 736/2044 [3:39:26<6:40:15, 18.36s/it] 36%|█████████████████████████████████▌                                                           | 737/2044 [3:39:44<6:39:08, 18.32s/it]                                                                                                                                         {'loss': 0.1964, 'grad_norm': 22.34596562570302, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.729248046875, 'rewards/rejected': -2.07421875, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.8046875, 'logps/chosen': -240.375, 'logps/rejected': -121.1875, 'logits/chosen': -0.832275390625, 'logits/rejected': -0.797119140625, 'epoch': 0.36}
 36%|█████████████████████████████████▌                                                           | 737/2044 [3:39:44<6:39:08, 18.32s/it] 36%|█████████████████████████████████▌                                                           | 738/2044 [3:40:03<6:39:35, 18.36s/it]                                                                                                                                         {'loss': 0.1915, 'grad_norm': 27.6091155040665, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.91064453125, 'rewards/rejected': -2.0908203125, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.0, 'logps/chosen': -315.75, 'logps/rejected': -134.4375, 'logits/chosen': -0.87890625, 'logits/rejected': -1.07275390625, 'epoch': 0.36}
 36%|█████████████████████████████████▌                                                           | 738/2044 [3:40:03<6:39:35, 18.36s/it] 36%|█████████████████████████████████▌                                                           | 739/2044 [3:40:22<6:42:18, 18.50s/it]                                                                                                                                         {'loss': 0.3234, 'grad_norm': 46.28470259138066, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.880859375, 'rewards/rejected': -1.66259765625, 'rewards/accuracies': 0.78125, 'rewards/margins': 2.54296875, 'logps/chosen': -353.875, 'logps/rejected': -208.875, 'logits/chosen': -0.88037109375, 'logits/rejected': -0.94287109375, 'epoch': 0.36}
 36%|█████████████████████████████████▌                                                           | 739/2044 [3:40:22<6:42:18, 18.50s/it] 36%|█████████████████████████████████▋                                                           | 740/2044 [3:40:40<6:39:55, 18.40s/it]                                                                                                                                         {'loss': 0.2194, 'grad_norm': 24.548198843433934, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8466796875, 'rewards/rejected': -1.8720703125, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.71875, 'logps/chosen': -269.75, 'logps/rejected': -131.75, 'logits/chosen': -0.93359375, 'logits/rejected': -0.84716796875, 'epoch': 0.36}
 36%|█████████████████████████████████▋                                                           | 740/2044 [3:40:40<6:39:55, 18.40s/it] 36%|█████████████████████████████████▋                                                           | 741/2044 [3:40:58<6:41:32, 18.49s/it]                                                                                                                                         {'loss': 0.2999, 'grad_norm': 36.819442450201635, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.75341796875, 'rewards/rejected': -1.805908203125, 'rewards/accuracies': 0.78125, 'rewards/margins': 2.560546875, 'logps/chosen': -290.25, 'logps/rejected': -126.9375, 'logits/chosen': -0.82568359375, 'logits/rejected': -0.84765625, 'epoch': 0.36}
 36%|█████████████████████████████████▋                                                           | 741/2044 [3:40:58<6:41:32, 18.49s/it] 36%|█████████████████████████████████▊                                                           | 742/2044 [3:41:17<6:41:12, 18.49s/it]                                                                                                                                         {'loss': 0.2526, 'grad_norm': 34.224341375513106, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.92333984375, 'rewards/rejected': -1.86328125, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.7880859375, 'logps/chosen': -305.375, 'logps/rejected': -124.1875, 'logits/chosen': -0.8798828125, 'logits/rejected': -0.843994140625, 'epoch': 0.36}
 36%|█████████████████████████████████▊                                                           | 742/2044 [3:41:17<6:41:12, 18.49s/it] 36%|█████████████████████████████████▊                                                           | 743/2044 [3:41:36<6:45:17, 18.69s/it]                                                                                                                                         {'loss': 0.2424, 'grad_norm': 42.17162332421565, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.005859375, 'rewards/rejected': -1.9892578125, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.99609375, 'logps/chosen': -376.0, 'logps/rejected': -148.4375, 'logits/chosen': -0.9912109375, 'logits/rejected': -0.845703125, 'epoch': 0.36}
 36%|█████████████████████████████████▊                                                           | 743/2044 [3:41:36<6:45:17, 18.69s/it] 36%|█████████████████████████████████▊                                                           | 744/2044 [3:41:55<6:46:18, 18.75s/it]                                                                                                                                         {'loss': 0.31, 'grad_norm': 39.62174051279512, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.796142578125, 'rewards/rejected': -1.79052734375, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.58984375, 'logps/chosen': -302.25, 'logps/rejected': -165.375, 'logits/chosen': -0.92431640625, 'logits/rejected': -0.9404296875, 'epoch': 0.36}
 36%|█████████████████████████████████▊                                                           | 744/2044 [3:41:55<6:46:18, 18.75s/it] 36%|█████████████████████████████████▉                                                           | 745/2044 [3:42:15<6:51:41, 19.02s/it]                                                                                                                                         {'loss': 0.2612, 'grad_norm': 31.26414582099464, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8115234375, 'rewards/rejected': -1.3984375, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.20703125, 'logps/chosen': -268.75, 'logps/rejected': -157.375, 'logits/chosen': -0.729248046875, 'logits/rejected': -0.7232666015625, 'epoch': 0.36}
 36%|█████████████████████████████████▉                                                           | 745/2044 [3:42:15<6:51:41, 19.02s/it] 36%|█████████████████████████████████▉                                                           | 746/2044 [3:42:32<6:42:58, 18.63s/it]                                                                                                                                         {'loss': 0.2498, 'grad_norm': 33.83075301311576, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.977783203125, 'rewards/rejected': -1.94140625, 'rewards/accuracies': 0.8125, 'rewards/margins': 2.919921875, 'logps/chosen': -255.75, 'logps/rejected': -153.25, 'logits/chosen': -0.783447265625, 'logits/rejected': -0.90380859375, 'epoch': 0.36}
 36%|█████████████████████████████████▉                                                           | 746/2044 [3:42:32<6:42:58, 18.63s/it] 37%|█████████████████████████████████▉                                                           | 747/2044 [3:42:52<6:48:03, 18.88s/it]                                                                                                                                         {'loss': 0.2646, 'grad_norm': 31.790147065894907, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.772705078125, 'rewards/rejected': -1.658935546875, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.4306640625, 'logps/chosen': -358.875, 'logps/rejected': -204.0625, 'logits/chosen': -1.10791015625, 'logits/rejected': -0.973419189453125, 'epoch': 0.37}
 37%|█████████████████████████████████▉                                                           | 747/2044 [3:42:52<6:48:03, 18.88s/it] 37%|██████████████████████████████████                                                           | 748/2044 [3:43:10<6:43:40, 18.69s/it]                                                                                                                                         {'loss': 0.1891, 'grad_norm': 26.422957741518424, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9970703125, 'rewards/rejected': -2.146484375, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.1455078125, 'logps/chosen': -284.75, 'logps/rejected': -117.625, 'logits/chosen': -0.8164520263671875, 'logits/rejected': -0.75927734375, 'epoch': 0.37}
 37%|██████████████████████████████████                                                           | 748/2044 [3:43:10<6:43:40, 18.69s/it] 37%|██████████████████████████████████                                                           | 749/2044 [3:43:26<6:27:32, 17.96s/it]                                                                                                                                         {'loss': 0.1971, 'grad_norm': 31.99487966083917, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.06640625, 'rewards/rejected': -2.205078125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.275390625, 'logps/chosen': -327.125, 'logps/rejected': -129.9375, 'logits/chosen': -1.0, 'logits/rejected': -0.892578125, 'epoch': 0.37}
 37%|██████████████████████████████████                                                           | 749/2044 [3:43:26<6:27:32, 17.96s/it] 37%|██████████████████████████████████                                                           | 750/2044 [3:43:44<6:25:17, 17.87s/it]                                                                                                                                         {'loss': 0.2019, 'grad_norm': 29.215488765824194, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.901611328125, 'rewards/rejected': -2.095703125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.0, 'logps/chosen': -262.9375, 'logps/rejected': -133.1875, 'logits/chosen': -0.96240234375, 'logits/rejected': -1.05224609375, 'epoch': 0.37}
 37%|██████████████████████████████████                                                           | 750/2044 [3:43:44<6:25:17, 17.87s/it] 37%|██████████████████████████████████▏                                                          | 751/2044 [3:44:02<6:24:01, 17.82s/it]                                                                                                                                         {'loss': 0.2462, 'grad_norm': 30.884735574411618, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.81201171875, 'rewards/rejected': -2.1396484375, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.951171875, 'logps/chosen': -300.9375, 'logps/rejected': -130.5625, 'logits/chosen': -1.0634765625, 'logits/rejected': -0.913330078125, 'epoch': 0.37}
 37%|██████████████████████████████████▏                                                          | 751/2044 [3:44:02<6:24:01, 17.82s/it] 37%|██████████████████████████████████▏                                                          | 752/2044 [3:44:20<6:29:05, 18.07s/it]                                                                                                                                         {'loss': 0.191, 'grad_norm': 24.93734625906294, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.938232421875, 'rewards/rejected': -2.4306640625, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.365234375, 'logps/chosen': -307.375, 'logps/rejected': -111.4375, 'logits/chosen': -0.97900390625, 'logits/rejected': -0.856353759765625, 'epoch': 0.37}
 37%|██████████████████████████████████▏                                                          | 752/2044 [3:44:20<6:29:05, 18.07s/it] 37%|██████████████████████████████████▎                                                          | 753/2044 [3:44:39<6:32:36, 18.25s/it]                                                                                                                                         {'loss': 0.2128, 'grad_norm': 30.750691296491638, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.044189453125, 'rewards/rejected': -2.0712890625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.1142578125, 'logps/chosen': -362.125, 'logps/rejected': -119.5, 'logits/chosen': -0.94140625, 'logits/rejected': -0.82861328125, 'epoch': 0.37}
 37%|██████████████████████████████████▎                                                          | 753/2044 [3:44:39<6:32:36, 18.25s/it] 37%|██████████████████████████████████▎                                                          | 754/2044 [3:44:57<6:29:02, 18.10s/it]                                                                                                                                         {'loss': 0.2073, 'grad_norm': 25.16210838794511, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.70068359375, 'rewards/rejected': -2.177734375, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.87890625, 'logps/chosen': -254.1875, 'logps/rejected': -113.90625, 'logits/chosen': -0.860595703125, 'logits/rejected': -0.85400390625, 'epoch': 0.37}
 37%|██████████████████████████████████▎                                                          | 754/2044 [3:44:57<6:29:02, 18.10s/it] 37%|██████████████████████████████████▎                                                          | 755/2044 [3:45:15<6:28:10, 18.07s/it]                                                                                                                                         {'loss': 0.1607, 'grad_norm': 17.441162986289932, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.072265625, 'rewards/rejected': -2.3623046875, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.4404296875, 'logps/chosen': -371.125, 'logps/rejected': -163.03125, 'logits/chosen': -0.8760986328125, 'logits/rejected': -0.71148681640625, 'epoch': 0.37}
 37%|██████████████████████████████████▎                                                          | 755/2044 [3:45:15<6:28:10, 18.07s/it] 37%|██████████████████████████████████▍                                                          | 756/2044 [3:45:31<6:18:11, 17.62s/it]                                                                                                                                         {'loss': 0.2141, 'grad_norm': 28.301807085518806, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8623046875, 'rewards/rejected': -2.04150390625, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.90234375, 'logps/chosen': -293.125, 'logps/rejected': -126.40625, 'logits/chosen': -0.96337890625, 'logits/rejected': -0.820556640625, 'epoch': 0.37}
 37%|██████████████████████████████████▍                                                          | 756/2044 [3:45:31<6:18:11, 17.62s/it] 37%|██████████████████████████████████▍                                                          | 757/2044 [3:45:50<6:22:46, 17.84s/it]                                                                                                                                         {'loss': 0.2639, 'grad_norm': 45.553981785486386, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.737548828125, 'rewards/rejected': -1.951171875, 'rewards/accuracies': 0.875, 'rewards/margins': 2.693359375, 'logps/chosen': -264.625, 'logps/rejected': -136.125, 'logits/chosen': -0.6982421875, 'logits/rejected': -0.8232421875, 'epoch': 0.37}
 37%|██████████████████████████████████▍                                                          | 757/2044 [3:45:50<6:22:46, 17.84s/it] 37%|██████████████████████████████████▍                                                          | 758/2044 [3:46:09<6:33:13, 18.35s/it]                                                                                                                                         {'loss': 0.3103, 'grad_norm': 34.50447209572421, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9580078125, 'rewards/rejected': -1.65625, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.615234375, 'logps/chosen': -317.875, 'logps/rejected': -141.375, 'logits/chosen': -1.045654296875, 'logits/rejected': -1.0576171875, 'epoch': 0.37}
 37%|██████████████████████████████████▍                                                          | 758/2044 [3:46:09<6:33:13, 18.35s/it] 37%|██████████████████████████████████▌                                                          | 759/2044 [3:46:27<6:28:10, 18.12s/it]                                                                                                                                         {'loss': 0.2588, 'grad_norm': 32.70652985800257, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8720703125, 'rewards/rejected': -2.0400390625, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.9130859375, 'logps/chosen': -339.0, 'logps/rejected': -96.53125, 'logits/chosen': -1.1064453125, 'logits/rejected': -0.98193359375, 'epoch': 0.37}
 37%|██████████████████████████████████▌                                                          | 759/2044 [3:46:27<6:28:10, 18.12s/it] 37%|██████████████████████████████████▌                                                          | 760/2044 [3:46:44<6:21:34, 17.83s/it]                                                                                                                                         {'loss': 0.2073, 'grad_norm': 24.313193797033925, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.947265625, 'rewards/rejected': -2.07275390625, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.0185546875, 'logps/chosen': -245.625, 'logps/rejected': -109.3125, 'logits/chosen': -0.82373046875, 'logits/rejected': -0.775634765625, 'epoch': 0.37}
 37%|██████████████████████████████████▌                                                          | 760/2044 [3:46:44<6:21:34, 17.83s/it] 37%|██████████████████████████████████▌                                                          | 761/2044 [3:47:03<6:27:46, 18.13s/it]                                                                                                                                         {'loss': 0.2385, 'grad_norm': 249.187036119984, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.997802734375, 'rewards/rejected': -1.9013671875, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.900390625, 'logps/chosen': -429.625, 'logps/rejected': -156.8125, 'logits/chosen': -0.95556640625, 'logits/rejected': -1.033203125, 'epoch': 0.37}
 37%|██████████████████████████████████▌                                                          | 761/2044 [3:47:03<6:27:46, 18.13s/it] 37%|██████████████████████████████████▋                                                          | 762/2044 [3:47:22<6:35:29, 18.51s/it]                                                                                                                                         {'loss': 0.3019, 'grad_norm': 46.01876538232884, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7723388671875, 'rewards/rejected': -1.673828125, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.447265625, 'logps/chosen': -288.625, 'logps/rejected': -197.0, 'logits/chosen': -0.802490234375, 'logits/rejected': -0.9501953125, 'epoch': 0.37}
 37%|██████████████████████████████████▋                                                          | 762/2044 [3:47:22<6:35:29, 18.51s/it] 37%|██████████████████████████████████▋                                                          | 763/2044 [3:47:41<6:38:53, 18.68s/it]                                                                                                                                         {'loss': 0.25, 'grad_norm': 31.02363109330908, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.05810546875, 'rewards/rejected': -1.8896484375, 'rewards/accuracies': 0.875, 'rewards/margins': 2.9501953125, 'logps/chosen': -369.0, 'logps/rejected': -116.6875, 'logits/chosen': -0.82861328125, 'logits/rejected': -0.8623046875, 'epoch': 0.37}
 37%|██████████████████████████████████▋                                                          | 763/2044 [3:47:41<6:38:53, 18.68s/it] 37%|██████████████████████████████████▊                                                          | 764/2044 [3:48:01<6:43:48, 18.93s/it]                                                                                                                                         {'loss': 0.2072, 'grad_norm': 37.95679265890837, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9207763671875, 'rewards/rejected': -2.041015625, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.9609375, 'logps/chosen': -334.0, 'logps/rejected': -156.4375, 'logits/chosen': -1.00244140625, 'logits/rejected': -0.99609375, 'epoch': 0.37}
 37%|██████████████████████████████████▊                                                          | 764/2044 [3:48:01<6:43:48, 18.93s/it] 37%|██████████████████████████████████▊                                                          | 765/2044 [3:48:19<6:38:38, 18.70s/it]                                                                                                                                         {'loss': 0.228, 'grad_norm': 35.59974708114099, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.86090087890625, 'rewards/rejected': -2.20703125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.0673828125, 'logps/chosen': -287.3125, 'logps/rejected': -131.1875, 'logits/chosen': -0.91015625, 'logits/rejected': -0.994140625, 'epoch': 0.37}
 37%|██████████████████████████████████▊                                                          | 765/2044 [3:48:19<6:38:38, 18.70s/it] 37%|██████████████████████████████████▊                                                          | 766/2044 [3:48:38<6:37:40, 18.67s/it]                                                                                                                                         {'loss': 0.2286, 'grad_norm': 45.047992498438845, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.861328125, 'rewards/rejected': -2.0322265625, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.896484375, 'logps/chosen': -281.25, 'logps/rejected': -133.0625, 'logits/chosen': -0.9677734375, 'logits/rejected': -0.910888671875, 'epoch': 0.37}
 37%|██████████████████████████████████▊                                                          | 766/2044 [3:48:38<6:37:40, 18.67s/it] 38%|██████████████████████████████████▉                                                          | 767/2044 [3:48:56<6:38:15, 18.71s/it]                                                                                                                                         {'loss': 0.2425, 'grad_norm': 25.66001142037763, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7391357421875, 'rewards/rejected': -2.0439453125, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.7802734375, 'logps/chosen': -290.625, 'logps/rejected': -117.5, 'logits/chosen': -1.087890625, 'logits/rejected': -0.9033203125, 'epoch': 0.38}
 38%|██████████████████████████████████▉                                                          | 767/2044 [3:48:56<6:38:15, 18.71s/it] 38%|██████████████████████████████████▉                                                          | 768/2044 [3:49:14<6:33:05, 18.48s/it]                                                                                                                                         {'loss': 0.2567, 'grad_norm': 28.96562558619749, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.962158203125, 'rewards/rejected': -1.8515625, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.8134765625, 'logps/chosen': -345.75, 'logps/rejected': -190.25, 'logits/chosen': -0.97216796875, 'logits/rejected': -0.885986328125, 'epoch': 0.38}
 38%|██████████████████████████████████▉                                                          | 768/2044 [3:49:14<6:33:05, 18.48s/it] 38%|██████████████████████████████████▉                                                          | 769/2044 [3:49:33<6:32:03, 18.45s/it]                                                                                                                                         {'loss': 0.2164, 'grad_norm': 36.17561072141069, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.962646484375, 'rewards/rejected': -2.2568359375, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.220703125, 'logps/chosen': -337.25, 'logps/rejected': -119.625, 'logits/chosen': -0.82861328125, 'logits/rejected': -0.95166015625, 'epoch': 0.38}
 38%|██████████████████████████████████▉                                                          | 769/2044 [3:49:33<6:32:03, 18.45s/it] 38%|███████████████████████████████████                                                          | 770/2044 [3:49:51<6:30:51, 18.41s/it]                                                                                                                                         {'loss': 0.2005, 'grad_norm': 27.25008424653292, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.022705078125, 'rewards/rejected': -2.173828125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.193359375, 'logps/chosen': -348.25, 'logps/rejected': -174.6875, 'logits/chosen': -0.9189453125, 'logits/rejected': -1.0537109375, 'epoch': 0.38}
 38%|███████████████████████████████████                                                          | 770/2044 [3:49:51<6:30:51, 18.41s/it] 38%|███████████████████████████████████                                                          | 771/2044 [3:50:09<6:28:21, 18.30s/it]                                                                                                                                         {'loss': 0.1765, 'grad_norm': 26.693445505850562, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.81640625, 'rewards/rejected': -2.3193359375, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.13671875, 'logps/chosen': -273.125, 'logps/rejected': -112.25, 'logits/chosen': -0.85986328125, 'logits/rejected': -0.7607421875, 'epoch': 0.38}
 38%|███████████████████████████████████                                                          | 771/2044 [3:50:09<6:28:21, 18.30s/it] 38%|███████████████████████████████████▏                                                         | 772/2044 [3:50:28<6:31:52, 18.48s/it]                                                                                                                                         {'loss': 0.3163, 'grad_norm': 54.63203346354657, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.713623046875, 'rewards/rejected': -1.671875, 'rewards/accuracies': 0.875, 'rewards/margins': 2.3837890625, 'logps/chosen': -321.125, 'logps/rejected': -165.0, 'logits/chosen': -0.982421875, 'logits/rejected': -0.897705078125, 'epoch': 0.38}
 38%|███████████████████████████████████▏                                                         | 772/2044 [3:50:28<6:31:52, 18.48s/it] 38%|███████████████████████████████████▏                                                         | 773/2044 [3:50:46<6:30:41, 18.44s/it]                                                                                                                                         {'loss': 0.2479, 'grad_norm': 32.922392126185066, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.01904296875, 'rewards/rejected': -1.931640625, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.953125, 'logps/chosen': -306.125, 'logps/rejected': -140.0625, 'logits/chosen': -1.009765625, 'logits/rejected': -0.77197265625, 'epoch': 0.38}
 38%|███████████████████████████████████▏                                                         | 773/2044 [3:50:46<6:30:41, 18.44s/it] 38%|███████████████████████████████████▏                                                         | 774/2044 [3:51:04<6:24:01, 18.14s/it]                                                                                                                                         {'loss': 0.2901, 'grad_norm': 40.40775774879613, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7801513671875, 'rewards/rejected': -1.8271484375, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.6064453125, 'logps/chosen': -249.0625, 'logps/rejected': -137.4375, 'logits/chosen': -0.9052734375, 'logits/rejected': -0.83056640625, 'epoch': 0.38}
 38%|███████████████████████████████████▏                                                         | 774/2044 [3:51:04<6:24:01, 18.14s/it] 38%|███████████████████████████████████▎                                                         | 775/2044 [3:51:21<6:20:39, 18.00s/it]                                                                                                                                         {'loss': 0.2375, 'grad_norm': 26.438108683367478, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.753662109375, 'rewards/rejected': -2.11328125, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.8671875, 'logps/chosen': -279.0, 'logps/rejected': -116.8125, 'logits/chosen': -0.747802734375, 'logits/rejected': -0.916748046875, 'epoch': 0.38}
 38%|███████████████████████████████████▎                                                         | 775/2044 [3:51:21<6:20:39, 18.00s/it] 38%|███████████████████████████████████▎                                                         | 776/2044 [3:51:40<6:24:06, 18.18s/it]                                                                                                                                         {'loss': 0.2473, 'grad_norm': 30.181698104362283, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6773681640625, 'rewards/rejected': -2.1611328125, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.83984375, 'logps/chosen': -277.0, 'logps/rejected': -136.5, 'logits/chosen': -0.96044921875, 'logits/rejected': -0.853515625, 'epoch': 0.38}
 38%|███████████████████████████████████▎                                                         | 776/2044 [3:51:40<6:24:06, 18.18s/it] 38%|███████████████████████████████████▎                                                         | 777/2044 [3:51:58<6:22:49, 18.13s/it]                                                                                                                                         {'loss': 0.3168, 'grad_norm': 37.81768800402544, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6134033203125, 'rewards/rejected': -1.9697265625, 'rewards/accuracies': 0.78125, 'rewards/margins': 2.58203125, 'logps/chosen': -311.625, 'logps/rejected': -126.6875, 'logits/chosen': -1.02880859375, 'logits/rejected': -0.87353515625, 'epoch': 0.38}
 38%|███████████████████████████████████▎                                                         | 777/2044 [3:51:58<6:22:49, 18.13s/it] 38%|███████████████████████████████████▍                                                         | 778/2044 [3:52:17<6:28:12, 18.40s/it]                                                                                                                                         {'loss': 0.2993, 'grad_norm': 38.3930580552016, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.76123046875, 'rewards/rejected': -1.8935546875, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.650390625, 'logps/chosen': -300.3125, 'logps/rejected': -174.375, 'logits/chosen': -0.85382080078125, 'logits/rejected': -0.779296875, 'epoch': 0.38}
 38%|███████████████████████████████████▍                                                         | 778/2044 [3:52:17<6:28:12, 18.40s/it] 38%|███████████████████████████████████▍                                                         | 779/2044 [3:52:35<6:25:48, 18.30s/it]                                                                                                                                         {'loss': 0.2935, 'grad_norm': 28.49296719037301, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7958984375, 'rewards/rejected': -1.865234375, 'rewards/accuracies': 0.8125, 'rewards/margins': 2.666015625, 'logps/chosen': -245.125, 'logps/rejected': -116.875, 'logits/chosen': -0.9377899169921875, 'logits/rejected': -0.95361328125, 'epoch': 0.38}
 38%|███████████████████████████████████▍                                                         | 779/2044 [3:52:35<6:25:48, 18.30s/it] 38%|███████████████████████████████████▍                                                         | 780/2044 [3:52:52<6:16:03, 17.85s/it]                                                                                                                                         {'loss': 0.2086, 'grad_norm': 26.512234346744666, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.85400390625, 'rewards/rejected': -2.322265625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.177734375, 'logps/chosen': -269.625, 'logps/rejected': -115.5, 'logits/chosen': -0.91015625, 'logits/rejected': -0.9853515625, 'epoch': 0.38}
 38%|███████████████████████████████████▍                                                         | 780/2044 [3:52:52<6:16:03, 17.85s/it] 38%|███████████████████████████████████▌                                                         | 781/2044 [3:53:09<6:12:00, 17.67s/it]                                                                                                                                         {'loss': 0.207, 'grad_norm': 34.17979262998649, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.03173828125, 'rewards/rejected': -2.181640625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.2177734375, 'logps/chosen': -293.5, 'logps/rejected': -133.3125, 'logits/chosen': -1.03076171875, 'logits/rejected': -0.90576171875, 'epoch': 0.38}
 38%|███████████████████████████████████▌                                                         | 781/2044 [3:53:09<6:12:00, 17.67s/it] 38%|███████████████████████████████████▌                                                         | 782/2044 [3:53:28<6:18:26, 17.99s/it]                                                                                                                                         {'loss': 0.243, 'grad_norm': 31.18364653065684, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5074462890625, 'rewards/rejected': -2.2294921875, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.740234375, 'logps/chosen': -266.0, 'logps/rejected': -149.25, 'logits/chosen': -0.94189453125, 'logits/rejected': -1.0205078125, 'epoch': 0.38}
 38%|███████████████████████████████████▌                                                         | 782/2044 [3:53:28<6:18:26, 17.99s/it] 38%|███████████████████████████████████▋                                                         | 783/2044 [3:53:47<6:27:43, 18.45s/it]                                                                                                                                         {'loss': 0.2368, 'grad_norm': 33.49745656556068, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.1416015625, 'rewards/rejected': -1.8046875, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.94921875, 'logps/chosen': -351.75, 'logps/rejected': -114.875, 'logits/chosen': -0.921142578125, 'logits/rejected': -0.91796875, 'epoch': 0.38}
 38%|███████████████████████████████████▋                                                         | 783/2044 [3:53:47<6:27:43, 18.45s/it] 38%|███████████████████████████████████▋                                                         | 784/2044 [3:54:06<6:28:13, 18.49s/it]                                                                                                                                         {'loss': 0.2697, 'grad_norm': 30.574801536990748, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8192138671875, 'rewards/rejected': -2.001953125, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.8193359375, 'logps/chosen': -280.25, 'logps/rejected': -126.5, 'logits/chosen': -0.953125, 'logits/rejected': -0.83544921875, 'epoch': 0.38}
 38%|███████████████████████████████████▋                                                         | 784/2044 [3:54:06<6:28:13, 18.49s/it] 38%|███████████████████████████████████▋                                                         | 785/2044 [3:54:23<6:20:40, 18.14s/it]                                                                                                                                         {'loss': 0.2362, 'grad_norm': 26.468564066742232, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.758056640625, 'rewards/rejected': -1.970703125, 'rewards/accuracies': 0.875, 'rewards/margins': 2.7294921875, 'logps/chosen': -257.25, 'logps/rejected': -125.5625, 'logits/chosen': -0.89013671875, 'logits/rejected': -0.8828125, 'epoch': 0.38}
 38%|███████████████████████████████████▋                                                         | 785/2044 [3:54:23<6:20:40, 18.14s/it] 38%|███████████████████████████████████▊                                                         | 786/2044 [3:54:41<6:16:12, 17.94s/it]                                                                                                                                         {'loss': 0.2747, 'grad_norm': 35.15212129707537, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.701171875, 'rewards/rejected': -2.15625, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.8564453125, 'logps/chosen': -259.875, 'logps/rejected': -136.125, 'logits/chosen': -0.801025390625, 'logits/rejected': -1.0126953125, 'epoch': 0.38}
 38%|███████████████████████████████████▊                                                         | 786/2044 [3:54:41<6:16:12, 17.94s/it] 39%|███████████████████████████████████▊                                                         | 787/2044 [3:55:00<6:22:19, 18.25s/it]                                                                                                                                         {'loss': 0.2775, 'grad_norm': 32.62242979416324, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.905029296875, 'rewards/rejected': -1.84765625, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.7529296875, 'logps/chosen': -289.9375, 'logps/rejected': -133.78125, 'logits/chosen': -1.005859375, 'logits/rejected': -0.984375, 'epoch': 0.39}
 39%|███████████████████████████████████▊                                                         | 787/2044 [3:55:00<6:22:19, 18.25s/it] 39%|███████████████████████████████████▊                                                         | 788/2044 [3:55:18<6:22:21, 18.27s/it]                                                                                                                                         {'loss': 0.3173, 'grad_norm': 42.03463610611764, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.847412109375, 'rewards/rejected': -2.2060546875, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.05078125, 'logps/chosen': -287.0, 'logps/rejected': -139.65625, 'logits/chosen': -0.88525390625, 'logits/rejected': -0.833984375, 'epoch': 0.39}
 39%|███████████████████████████████████▊                                                         | 788/2044 [3:55:18<6:22:21, 18.27s/it] 39%|███████████████████████████████████▉                                                         | 789/2044 [3:55:37<6:24:41, 18.39s/it]                                                                                                                                         {'loss': 0.2981, 'grad_norm': 32.80042192761645, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.882080078125, 'rewards/rejected': -1.8203125, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.703125, 'logps/chosen': -317.375, 'logps/rejected': -132.5625, 'logits/chosen': -1.0966796875, 'logits/rejected': -0.9296875, 'epoch': 0.39}
 39%|███████████████████████████████████▉                                                         | 789/2044 [3:55:37<6:24:41, 18.39s/it] 39%|███████████████████████████████████▉                                                         | 790/2044 [3:55:56<6:26:51, 18.51s/it]                                                                                                                                         {'loss': 0.1696, 'grad_norm': 23.679149781926522, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.923828125, 'rewards/rejected': -2.203125, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.126953125, 'logps/chosen': -316.5, 'logps/rejected': -134.0, 'logits/chosen': -0.8955078125, 'logits/rejected': -0.94921875, 'epoch': 0.39}
 39%|███████████████████████████████████▉                                                         | 790/2044 [3:55:56<6:26:51, 18.51s/it] 39%|███████████████████████████████████▉                                                         | 791/2044 [3:56:14<6:23:59, 18.39s/it]                                                                                                                                         {'loss': 0.2314, 'grad_norm': 31.22733116264396, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.79296875, 'rewards/rejected': -2.1787109375, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.9716796875, 'logps/chosen': -274.25, 'logps/rejected': -108.5, 'logits/chosen': -0.9541015625, 'logits/rejected': -0.85791015625, 'epoch': 0.39}
 39%|███████████████████████████████████▉                                                         | 791/2044 [3:56:14<6:23:59, 18.39s/it] 39%|████████████████████████████████████                                                         | 792/2044 [3:56:31<6:18:15, 18.13s/it]                                                                                                                                         {'loss': 0.2432, 'grad_norm': 32.98318424776323, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.82421875, 'rewards/rejected': -1.9931640625, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.81640625, 'logps/chosen': -275.875, 'logps/rejected': -124.46875, 'logits/chosen': -0.935546875, 'logits/rejected': -0.830078125, 'epoch': 0.39}
 39%|████████████████████████████████████                                                         | 792/2044 [3:56:31<6:18:15, 18.13s/it] 39%|████████████████████████████████████                                                         | 793/2044 [3:56:50<6:22:49, 18.36s/it]                                                                                                                                         {'loss': 0.2219, 'grad_norm': 29.250172674638073, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.99267578125, 'rewards/rejected': -2.240234375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.2333984375, 'logps/chosen': -319.0625, 'logps/rejected': -134.3125, 'logits/chosen': -0.709716796875, 'logits/rejected': -0.78955078125, 'epoch': 0.39}
 39%|████████████████████████████████████                                                         | 793/2044 [3:56:50<6:22:49, 18.36s/it] 39%|████████████████████████████████████▏                                                        | 794/2044 [3:57:08<6:22:07, 18.34s/it]                                                                                                                                         {'loss': 0.2913, 'grad_norm': 38.165630382769514, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7874755859375, 'rewards/rejected': -2.1884765625, 'rewards/accuracies': 0.8125, 'rewards/margins': 2.9765625, 'logps/chosen': -283.25, 'logps/rejected': -142.40625, 'logits/chosen': -1.0322265625, 'logits/rejected': -0.90185546875, 'epoch': 0.39}
 39%|████████████████████████████████████▏                                                        | 794/2044 [3:57:08<6:22:07, 18.34s/it] 39%|████████████████████████████████████▏                                                        | 795/2044 [3:57:26<6:16:00, 18.06s/it]                                                                                                                                         {'loss': 0.215, 'grad_norm': 37.883241745086075, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8876953125, 'rewards/rejected': -2.4462890625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.3359375, 'logps/chosen': -280.375, 'logps/rejected': -114.5625, 'logits/chosen': -0.84130859375, 'logits/rejected': -0.826171875, 'epoch': 0.39}
 39%|████████████████████████████████████▏                                                        | 795/2044 [3:57:26<6:16:00, 18.06s/it] 39%|████████████████████████████████████▏                                                        | 796/2044 [3:57:44<6:17:56, 18.17s/it]                                                                                                                                         {'loss': 0.2933, 'grad_norm': 36.08188137509254, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.83642578125, 'rewards/rejected': -1.9453125, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.77978515625, 'logps/chosen': -308.875, 'logps/rejected': -117.6875, 'logits/chosen': -1.0185546875, 'logits/rejected': -0.89208984375, 'epoch': 0.39}
 39%|████████████████████████████████████▏                                                        | 796/2044 [3:57:44<6:17:56, 18.17s/it] 39%|████████████████████████████████████▎                                                        | 797/2044 [3:58:02<6:17:06, 18.15s/it]                                                                                                                                         {'loss': 0.2093, 'grad_norm': 23.251690139032974, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7919921875, 'rewards/rejected': -2.248046875, 'rewards/accuracies': 0.953125, 'rewards/margins': 3.0400390625, 'logps/chosen': -250.25, 'logps/rejected': -108.5625, 'logits/chosen': -0.70068359375, 'logits/rejected': -0.763671875, 'epoch': 0.39}
 39%|████████████████████████████████████▎                                                        | 797/2044 [3:58:02<6:17:06, 18.15s/it] 39%|████████████████████████████████████▎                                                        | 798/2044 [3:58:21<6:21:05, 18.35s/it]                                                                                                                                         {'loss': 0.2484, 'grad_norm': 34.6228525286775, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.88922119140625, 'rewards/rejected': -2.07958984375, 'rewards/accuracies': 0.875, 'rewards/margins': 2.974609375, 'logps/chosen': -299.75, 'logps/rejected': -131.375, 'logits/chosen': -0.80487060546875, 'logits/rejected': -0.834228515625, 'epoch': 0.39}
 39%|████████████████████████████████████▎                                                        | 798/2044 [3:58:21<6:21:05, 18.35s/it] 39%|████████████████████████████████████▎                                                        | 799/2044 [3:58:38<6:11:12, 17.89s/it]                                                                                                                                         {'loss': 0.2664, 'grad_norm': 26.273284475272717, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.646209716796875, 'rewards/rejected': -2.2080078125, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.853515625, 'logps/chosen': -223.875, 'logps/rejected': -100.625, 'logits/chosen': -0.87158203125, 'logits/rejected': -0.84033203125, 'epoch': 0.39}
 39%|████████████████████████████████████▎                                                        | 799/2044 [3:58:38<6:11:12, 17.89s/it] 39%|████████████████████████████████████▍                                                        | 800/2044 [3:58:56<6:10:18, 17.86s/it]                                                                                                                                         {'loss': 0.231, 'grad_norm': 34.55736381820336, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7695770263671875, 'rewards/rejected': -2.08642578125, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.8515625, 'logps/chosen': -300.6875, 'logps/rejected': -127.5625, 'logits/chosen': -0.8837890625, 'logits/rejected': -0.7705078125, 'epoch': 0.39}
 39%|████████████████████████████████████▍                                                        | 800/2044 [3:58:56<6:10:18, 17.86s/it] 39%|████████████████████████████████████▍                                                        | 801/2044 [3:59:13<6:06:00, 17.67s/it]                                                                                                                                         {'loss': 0.2426, 'grad_norm': 26.721361422967874, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6861572265625, 'rewards/rejected': -1.93212890625, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.6181640625, 'logps/chosen': -219.625, 'logps/rejected': -119.0625, 'logits/chosen': -0.6904296875, 'logits/rejected': -0.79345703125, 'epoch': 0.39}
 39%|████████████████████████████████████▍                                                        | 801/2044 [3:59:13<6:06:00, 17.67s/it] 39%|████████████████████████████████████▍                                                        | 802/2044 [3:59:32<6:15:03, 18.12s/it]                                                                                                                                         {'loss': 0.2244, 'grad_norm': 30.66841566906311, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.10693359375, 'rewards/rejected': -1.9609375, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.068359375, 'logps/chosen': -352.0, 'logps/rejected': -121.4375, 'logits/chosen': -1.0205078125, 'logits/rejected': -0.83154296875, 'epoch': 0.39}
 39%|████████████████████████████████████▍                                                        | 802/2044 [3:59:32<6:15:03, 18.12s/it] 39%|████████████████████████████████████▌                                                        | 803/2044 [3:59:51<6:16:35, 18.21s/it]                                                                                                                                         {'loss': 0.2657, 'grad_norm': 35.159322153922, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.90625, 'rewards/rejected': -1.843994140625, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.75341796875, 'logps/chosen': -287.625, 'logps/rejected': -164.125, 'logits/chosen': -1.01220703125, 'logits/rejected': -0.8687744140625, 'epoch': 0.39}
 39%|████████████████████████████████████▌                                                        | 803/2044 [3:59:51<6:16:35, 18.21s/it] 39%|████████████████████████████████████▌                                                        | 804/2044 [4:00:09<6:15:49, 18.19s/it]                                                                                                                                         {'loss': 0.2107, 'grad_norm': 25.2447439956842, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.01416015625, 'rewards/rejected': -2.2275390625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.2470703125, 'logps/chosen': -294.875, 'logps/rejected': -107.3125, 'logits/chosen': -0.93896484375, 'logits/rejected': -0.8631591796875, 'epoch': 0.39}
 39%|████████████████████████████████████▌                                                        | 804/2044 [4:00:09<6:15:49, 18.19s/it] 39%|████████████████████████████████████▋                                                        | 805/2044 [4:00:28<6:22:26, 18.52s/it]                                                                                                                                         {'loss': 0.2505, 'grad_norm': 32.47083585454688, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.78204345703125, 'rewards/rejected': -1.94970703125, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.7314453125, 'logps/chosen': -327.5, 'logps/rejected': -144.6875, 'logits/chosen': -0.93896484375, 'logits/rejected': -0.896484375, 'epoch': 0.39}
 39%|████████████████████████████████████▋                                                        | 805/2044 [4:00:28<6:22:26, 18.52s/it] 39%|████████████████████████████████████▋                                                        | 806/2044 [4:00:47<6:26:42, 18.74s/it]                                                                                                                                         {'loss': 0.3145, 'grad_norm': 42.53071429898469, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.71240234375, 'rewards/rejected': -1.9140625, 'rewards/accuracies': 0.78125, 'rewards/margins': 2.625, 'logps/chosen': -249.875, 'logps/rejected': -171.5625, 'logits/chosen': -0.774658203125, 'logits/rejected': -0.9736328125, 'epoch': 0.39}
 39%|████████████████████████████████████▋                                                        | 806/2044 [4:00:47<6:26:42, 18.74s/it] 39%|████████████████████████████████████▋                                                        | 807/2044 [4:01:07<6:29:57, 18.92s/it]                                                                                                                                         {'loss': 0.2566, 'grad_norm': 43.51635529631797, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.024169921875, 'rewards/rejected': -1.998779296875, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.0205078125, 'logps/chosen': -320.375, 'logps/rejected': -163.25, 'logits/chosen': -0.98388671875, 'logits/rejected': -0.92431640625, 'epoch': 0.39}
 39%|████████████████████████████████████▋                                                        | 807/2044 [4:01:07<6:29:57, 18.92s/it] 40%|████████████████████████████████████▊                                                        | 808/2044 [4:01:26<6:34:01, 19.13s/it]                                                                                                                                         {'loss': 0.2311, 'grad_norm': 30.812082717712237, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.862060546875, 'rewards/rejected': -1.8759765625, 'rewards/accuracies': 0.875, 'rewards/margins': 2.7412109375, 'logps/chosen': -310.25, 'logps/rejected': -132.625, 'logits/chosen': -0.9033203125, 'logits/rejected': -0.8837890625, 'epoch': 0.4}
 40%|████████████████████████████████████▊                                                        | 808/2044 [4:01:26<6:34:01, 19.13s/it] 40%|████████████████████████████████████▊                                                        | 809/2044 [4:01:42<6:13:51, 18.16s/it]                                                                                                                                         {'loss': 0.1989, 'grad_norm': 23.931800071714978, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.951416015625, 'rewards/rejected': -2.626953125, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.58203125, 'logps/chosen': -305.875, 'logps/rejected': -88.75, 'logits/chosen': -0.99267578125, 'logits/rejected': -0.6651611328125, 'epoch': 0.4}
 40%|████████████████████████████████████▊                                                        | 809/2044 [4:01:42<6:13:51, 18.16s/it] 40%|████████████████████████████████████▊                                                        | 810/2044 [4:02:01<6:16:36, 18.31s/it]                                                                                                                                         {'loss': 0.3032, 'grad_norm': 37.70889128204722, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.793701171875, 'rewards/rejected': -1.64697265625, 'rewards/accuracies': 0.78125, 'rewards/margins': 2.443359375, 'logps/chosen': -256.125, 'logps/rejected': -149.25, 'logits/chosen': -0.842041015625, 'logits/rejected': -0.87841796875, 'epoch': 0.4}
 40%|████████████████████████████████████▊                                                        | 810/2044 [4:02:01<6:16:36, 18.31s/it] 40%|████████████████████████████████████▉                                                        | 811/2044 [4:02:19<6:16:40, 18.33s/it]                                                                                                                                         {'loss': 0.2012, 'grad_norm': 32.32360388032308, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.95751953125, 'rewards/rejected': -2.20703125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.1640625, 'logps/chosen': -328.375, 'logps/rejected': -118.75, 'logits/chosen': -0.88525390625, 'logits/rejected': -0.90234375, 'epoch': 0.4}
 40%|████████████████████████████████████▉                                                        | 811/2044 [4:02:19<6:16:40, 18.33s/it] 40%|████████████████████████████████████▉                                                        | 812/2044 [4:02:36<6:05:46, 17.81s/it]                                                                                                                                         {'loss': 0.1686, 'grad_norm': 21.36804146735139, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.829925537109375, 'rewards/rejected': -2.5458984375, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.373046875, 'logps/chosen': -254.625, 'logps/rejected': -97.21875, 'logits/chosen': -0.746337890625, 'logits/rejected': -0.722412109375, 'epoch': 0.4}
 40%|████████████████████████████████████▉                                                        | 812/2044 [4:02:36<6:05:46, 17.81s/it] 40%|████████████████████████████████████▉                                                        | 813/2044 [4:02:54<6:06:03, 17.84s/it]                                                                                                                                         {'loss': 0.2416, 'grad_norm': 31.743553911283403, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0302734375, 'rewards/rejected': -2.2119140625, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.2421875, 'logps/chosen': -368.125, 'logps/rejected': -118.4375, 'logits/chosen': -0.95947265625, 'logits/rejected': -0.95458984375, 'epoch': 0.4}
 40%|████████████████████████████████████▉                                                        | 813/2044 [4:02:54<6:06:03, 17.84s/it] 40%|█████████████████████████████████████                                                        | 814/2044 [4:03:12<6:07:54, 17.95s/it]                                                                                                                                         {'loss': 0.291, 'grad_norm': 33.13668974955243, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5919189453125, 'rewards/rejected': -1.924072265625, 'rewards/accuracies': 0.875, 'rewards/margins': 2.5185546875, 'logps/chosen': -237.625, 'logps/rejected': -130.8125, 'logits/chosen': -1.09521484375, 'logits/rejected': -0.9169921875, 'epoch': 0.4}
 40%|█████████████████████████████████████                                                        | 814/2044 [4:03:12<6:07:54, 17.95s/it] 40%|█████████████████████████████████████                                                        | 815/2044 [4:03:30<6:12:01, 18.16s/it]                                                                                                                                         {'loss': 0.2795, 'grad_norm': 30.407825519945238, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.585205078125, 'rewards/rejected': -1.99365234375, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.57861328125, 'logps/chosen': -255.625, 'logps/rejected': -129.0625, 'logits/chosen': -0.938232421875, 'logits/rejected': -0.873046875, 'epoch': 0.4}
 40%|█████████████████████████████████████                                                        | 815/2044 [4:03:30<6:12:01, 18.16s/it] 40%|█████████████████████████████████████▏                                                       | 816/2044 [4:03:49<6:14:30, 18.30s/it]                                                                                                                                         {'loss': 0.2402, 'grad_norm': 37.49238687808417, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.1982421875, 'rewards/rejected': -2.11328125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.3125, 'logps/chosen': -365.25, 'logps/rejected': -145.75, 'logits/chosen': -1.12548828125, 'logits/rejected': -0.9716796875, 'epoch': 0.4}
 40%|█████████████████████████████████████▏                                                       | 816/2044 [4:03:49<6:14:30, 18.30s/it] 40%|█████████████████████████████████████▏                                                       | 817/2044 [4:04:08<6:19:34, 18.56s/it]                                                                                                                                         {'loss': 0.2245, 'grad_norm': 34.326935483421636, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.083740234375, 'rewards/rejected': -1.990234375, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.068359375, 'logps/chosen': -382.125, 'logps/rejected': -157.8125, 'logits/chosen': -0.9501953125, 'logits/rejected': -0.8505859375, 'epoch': 0.4}
 40%|█████████████████████████████████████▏                                                       | 817/2044 [4:04:08<6:19:34, 18.56s/it] 40%|█████████████████████████████████████▏                                                       | 818/2044 [4:04:27<6:21:46, 18.68s/it]                                                                                                                                         {'loss': 0.2263, 'grad_norm': 29.26296201700699, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8857421875, 'rewards/rejected': -2.0986328125, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.986328125, 'logps/chosen': -281.0, 'logps/rejected': -137.75, 'logits/chosen': -0.96533203125, 'logits/rejected': -0.98779296875, 'epoch': 0.4}
 40%|█████████████████████████████████████▏                                                       | 818/2044 [4:04:27<6:21:46, 18.68s/it] 40%|█████████████████████████████████████▎                                                       | 819/2044 [4:04:46<6:21:33, 18.69s/it]                                                                                                                                         {'loss': 0.2193, 'grad_norm': 31.53806554469545, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.95654296875, 'rewards/rejected': -2.28515625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.244140625, 'logps/chosen': -318.25, 'logps/rejected': -125.03125, 'logits/chosen': -0.92041015625, 'logits/rejected': -0.79669189453125, 'epoch': 0.4}
 40%|█████████████████████████████████████▎                                                       | 819/2044 [4:04:46<6:21:33, 18.69s/it] 40%|█████████████████████████████████████▎                                                       | 820/2044 [4:05:05<6:22:24, 18.75s/it]                                                                                                                                         {'loss': 0.2371, 'grad_norm': 28.88855757677544, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.646240234375, 'rewards/rejected': -2.1064453125, 'rewards/accuracies': 0.875, 'rewards/margins': 2.75, 'logps/chosen': -220.25, 'logps/rejected': -130.125, 'logits/chosen': -0.92333984375, 'logits/rejected': -0.9716796875, 'epoch': 0.4}
 40%|█████████████████████████████████████▎                                                       | 820/2044 [4:05:05<6:22:24, 18.75s/it] 40%|█████████████████████████████████████▎                                                       | 821/2044 [4:05:23<6:20:55, 18.69s/it]                                                                                                                                         {'loss': 0.2231, 'grad_norm': 27.254379886790066, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.1064453125, 'rewards/rejected': -2.142578125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.24609375, 'logps/chosen': -328.5, 'logps/rejected': -123.1875, 'logits/chosen': -0.98876953125, 'logits/rejected': -0.89892578125, 'epoch': 0.4}
 40%|█████████████████████████████████████▎                                                       | 821/2044 [4:05:23<6:20:55, 18.69s/it] 40%|█████████████████████████████████████▍                                                       | 822/2044 [4:05:41<6:15:46, 18.45s/it]                                                                                                                                         {'loss': 0.1872, 'grad_norm': 26.43332949384823, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.00634765625, 'rewards/rejected': -2.4287109375, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.435546875, 'logps/chosen': -298.375, 'logps/rejected': -116.875, 'logits/chosen': -1.08447265625, 'logits/rejected': -0.8193359375, 'epoch': 0.4}
 40%|█████████████████████████████████████▍                                                       | 822/2044 [4:05:41<6:15:46, 18.45s/it] 40%|█████████████████████████████████████▍                                                       | 823/2044 [4:06:01<6:20:26, 18.70s/it]                                                                                                                                         {'loss': 0.2244, 'grad_norm': 32.12728176680122, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.935546875, 'rewards/rejected': -1.77392578125, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.708984375, 'logps/chosen': -315.0, 'logps/rejected': -139.0, 'logits/chosen': -0.99658203125, 'logits/rejected': -0.98486328125, 'epoch': 0.4}
 40%|█████████████████████████████████████▍                                                       | 823/2044 [4:06:01<6:20:26, 18.70s/it] 40%|█████████████████████████████████████▍                                                       | 824/2044 [4:06:18<6:10:47, 18.24s/it]                                                                                                                                         {'loss': 0.216, 'grad_norm': 23.543779473102646, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.961181640625, 'rewards/rejected': -2.302734375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.267578125, 'logps/chosen': -264.5, 'logps/rejected': -106.03125, 'logits/chosen': -0.99658203125, 'logits/rejected': -0.94140625, 'epoch': 0.4}
 40%|█████████████████████████████████████▍                                                       | 824/2044 [4:06:18<6:10:47, 18.24s/it] 40%|█████████████████████████████████████▌                                                       | 825/2044 [4:06:36<6:13:07, 18.37s/it]                                                                                                                                         {'loss': 0.2282, 'grad_norm': 29.680746923938038, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.964599609375, 'rewards/rejected': -2.1845703125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.1484375, 'logps/chosen': -377.125, 'logps/rejected': -207.5625, 'logits/chosen': -0.9228515625, 'logits/rejected': -0.86328125, 'epoch': 0.4}
 40%|█████████████████████████████████████▌                                                       | 825/2044 [4:06:36<6:13:07, 18.37s/it] 40%|█████████████████████████████████████▌                                                       | 826/2044 [4:06:53<6:00:50, 17.78s/it]                                                                                                                                         {'loss': 0.168, 'grad_norm': 23.380111570483923, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.98681640625, 'rewards/rejected': -2.5869140625, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.576171875, 'logps/chosen': -292.0, 'logps/rejected': -110.625, 'logits/chosen': -1.1416015625, 'logits/rejected': -0.795654296875, 'epoch': 0.4}
 40%|█████████████████████████████████████▌                                                       | 826/2044 [4:06:53<6:00:50, 17.78s/it] 40%|█████████████████████████████████████▋                                                       | 827/2044 [4:07:12<6:09:22, 18.21s/it]                                                                                                                                         {'loss': 0.2981, 'grad_norm': 47.780742003145264, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8760986328125, 'rewards/rejected': -1.9384765625, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.8115234375, 'logps/chosen': -326.4375, 'logps/rejected': -174.5, 'logits/chosen': -0.96533203125, 'logits/rejected': -0.95703125, 'epoch': 0.4}
 40%|█████████████████████████████████████▋                                                       | 827/2044 [4:07:12<6:09:22, 18.21s/it] 41%|█████████████████████████████████████▋                                                       | 828/2044 [4:07:30<6:08:56, 18.20s/it]                                                                                                                                         {'loss': 0.2866, 'grad_norm': 46.29883749365072, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.843017578125, 'rewards/rejected': -2.017578125, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.8623046875, 'logps/chosen': -292.125, 'logps/rejected': -188.15625, 'logits/chosen': -0.822998046875, 'logits/rejected': -0.98828125, 'epoch': 0.41}
 41%|█████████████████████████████████████▋                                                       | 828/2044 [4:07:30<6:08:56, 18.20s/it] 41%|█████████████████████████████████████▋                                                       | 829/2044 [4:07:49<6:10:35, 18.30s/it]                                                                                                                                         {'loss': 0.1785, 'grad_norm': 23.411233697630795, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8544921875, 'rewards/rejected': -2.4228515625, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.27734375, 'logps/chosen': -375.0625, 'logps/rejected': -186.1875, 'logits/chosen': -1.05810546875, 'logits/rejected': -1.00634765625, 'epoch': 0.41}
 41%|█████████████████████████████████████▋                                                       | 829/2044 [4:07:49<6:10:35, 18.30s/it] 41%|█████████████████████████████████████▊                                                       | 830/2044 [4:08:08<6:16:17, 18.60s/it]                                                                                                                                         {'loss': 0.2874, 'grad_norm': 36.545058463150234, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.07568359375, 'rewards/rejected': -1.8125, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.884765625, 'logps/chosen': -450.0, 'logps/rejected': -137.75, 'logits/chosen': -0.93994140625, 'logits/rejected': -0.8935546875, 'epoch': 0.41}
 41%|█████████████████████████████████████▊                                                       | 830/2044 [4:08:08<6:16:17, 18.60s/it] 41%|█████████████████████████████████████▊                                                       | 831/2044 [4:08:26<6:12:58, 18.45s/it]                                                                                                                                         {'loss': 0.1851, 'grad_norm': 28.10885376246388, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.874267578125, 'rewards/rejected': -2.3125, 'rewards/accuracies': 0.953125, 'rewards/margins': 3.185546875, 'logps/chosen': -304.5, 'logps/rejected': -171.25, 'logits/chosen': -1.021484375, 'logits/rejected': -0.97412109375, 'epoch': 0.41}
 41%|█████████████████████████████████████▊                                                       | 831/2044 [4:08:26<6:12:58, 18.45s/it] 41%|█████████████████████████████████████▊                                                       | 832/2044 [4:08:44<6:06:40, 18.15s/it]                                                                                                                                         {'loss': 0.2072, 'grad_norm': 28.134759805646958, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.88134765625, 'rewards/rejected': -2.2275390625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.109375, 'logps/chosen': -273.125, 'logps/rejected': -118.5625, 'logits/chosen': -0.92822265625, 'logits/rejected': -0.81689453125, 'epoch': 0.41}
 41%|█████████████████████████████████████▊                                                       | 832/2044 [4:08:44<6:06:40, 18.15s/it] 41%|█████████████████████████████████████▉                                                       | 833/2044 [4:09:01<6:04:54, 18.08s/it]                                                                                                                                         {'loss': 0.2499, 'grad_norm': 32.46123720910619, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.782989501953125, 'rewards/rejected': -2.2138671875, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.0, 'logps/chosen': -278.25, 'logps/rejected': -126.875, 'logits/chosen': -1.0, 'logits/rejected': -0.95458984375, 'epoch': 0.41}
 41%|█████████████████████████████████████▉                                                       | 833/2044 [4:09:01<6:04:54, 18.08s/it] 41%|█████████████████████████████████████▉                                                       | 834/2044 [4:09:20<6:08:33, 18.28s/it]                                                                                                                                         {'loss': 0.1851, 'grad_norm': 24.65205847272927, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.74835205078125, 'rewards/rejected': -2.1162109375, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.8623046875, 'logps/chosen': -289.125, 'logps/rejected': -185.375, 'logits/chosen': -0.90966796875, 'logits/rejected': -0.9580078125, 'epoch': 0.41}
 41%|█████████████████████████████████████▉                                                       | 834/2044 [4:09:20<6:08:33, 18.28s/it] 41%|█████████████████████████████████████▉                                                       | 835/2044 [4:09:39<6:08:46, 18.30s/it]                                                                                                                                         {'loss': 0.2407, 'grad_norm': 25.981736549123475, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.55462646484375, 'rewards/rejected': -2.1611328125, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.716796875, 'logps/chosen': -222.8125, 'logps/rejected': -121.5625, 'logits/chosen': -0.88818359375, 'logits/rejected': -0.95068359375, 'epoch': 0.41}
 41%|█████████████████████████████████████▉                                                       | 835/2044 [4:09:39<6:08:46, 18.30s/it] 41%|██████████████████████████████████████                                                       | 836/2044 [4:09:57<6:12:02, 18.48s/it]                                                                                                                                         {'loss': 0.2229, 'grad_norm': 27.37560940866078, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7447509765625, 'rewards/rejected': -2.3740234375, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.1171875, 'logps/chosen': -280.125, 'logps/rejected': -124.5, 'logits/chosen': -0.876953125, 'logits/rejected': -0.755615234375, 'epoch': 0.41}
 41%|██████████████████████████████████████                                                       | 836/2044 [4:09:57<6:12:02, 18.48s/it] 41%|██████████████████████████████████████                                                       | 837/2044 [4:10:17<6:18:28, 18.81s/it]                                                                                                                                         {'loss': 0.2163, 'grad_norm': 31.320276728517033, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.04248046875, 'rewards/rejected': -1.8330078125, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.8759765625, 'logps/chosen': -327.375, 'logps/rejected': -167.1875, 'logits/chosen': -0.86083984375, 'logits/rejected': -0.8916015625, 'epoch': 0.41}
 41%|██████████████████████████████████████                                                       | 837/2044 [4:10:17<6:18:28, 18.81s/it] 41%|██████████████████████████████████████▏                                                      | 838/2044 [4:10:35<6:15:33, 18.68s/it]                                                                                                                                         {'loss': 0.2313, 'grad_norm': 27.66415075495322, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.759765625, 'rewards/rejected': -1.9365234375, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.6962890625, 'logps/chosen': -315.5, 'logps/rejected': -171.1875, 'logits/chosen': -0.93841552734375, 'logits/rejected': -0.9501953125, 'epoch': 0.41}
 41%|██████████████████████████████████████▏                                                      | 838/2044 [4:10:35<6:15:33, 18.68s/it] 41%|██████████████████████████████████████▏                                                      | 839/2044 [4:10:54<6:14:19, 18.64s/it]                                                                                                                                         {'loss': 0.1952, 'grad_norm': 29.93571301098728, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.12646484375, 'rewards/rejected': -2.46875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.59765625, 'logps/chosen': -346.75, 'logps/rejected': -123.3125, 'logits/chosen': -0.88134765625, 'logits/rejected': -0.92724609375, 'epoch': 0.41}
 41%|██████████████████████████████████████▏                                                      | 839/2044 [4:10:54<6:14:19, 18.64s/it] 41%|██████████████████████████████████████▏                                                      | 840/2044 [4:11:13<6:16:21, 18.76s/it]                                                                                                                                         {'loss': 0.2174, 'grad_norm': 27.363410668546816, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.858642578125, 'rewards/rejected': -2.1181640625, 'rewards/accuracies': 0.9375, 'rewards/margins': 2.978515625, 'logps/chosen': -305.875, 'logps/rejected': -127.5, 'logits/chosen': -0.88427734375, 'logits/rejected': -0.90380859375, 'epoch': 0.41}
 41%|██████████████████████████████████████▏                                                      | 840/2044 [4:11:13<6:16:21, 18.76s/it] 41%|██████████████████████████████████████▎                                                      | 841/2044 [4:11:31<6:09:50, 18.45s/it]                                                                                                                                         {'loss': 0.2465, 'grad_norm': 35.81705929622805, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.172607421875, 'rewards/rejected': -1.927734375, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.1025390625, 'logps/chosen': -340.625, 'logps/rejected': -149.75, 'logits/chosen': -0.95751953125, 'logits/rejected': -0.820068359375, 'epoch': 0.41}
 41%|██████████████████████████████████████▎                                                      | 841/2044 [4:11:31<6:09:50, 18.45s/it] 41%|██████████████████████████████████████▎                                                      | 842/2044 [4:11:49<6:10:06, 18.47s/it]                                                                                                                                         {'loss': 0.2664, 'grad_norm': 36.84859664821783, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.785736083984375, 'rewards/rejected': -2.16015625, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.9453125, 'logps/chosen': -276.375, 'logps/rejected': -156.25, 'logits/chosen': -1.03369140625, 'logits/rejected': -0.9375, 'epoch': 0.41}
 41%|██████████████████████████████████████▎                                                      | 842/2044 [4:11:49<6:10:06, 18.47s/it] 41%|██████████████████████████████████████▎                                                      | 843/2044 [4:12:08<6:12:18, 18.60s/it]                                                                                                                                         {'loss': 0.2075, 'grad_norm': 31.35727887522131, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.95556640625, 'rewards/rejected': -2.30615234375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.2607421875, 'logps/chosen': -278.5, 'logps/rejected': -152.125, 'logits/chosen': -0.91943359375, 'logits/rejected': -0.9462890625, 'epoch': 0.41}
 41%|██████████████████████████████████████▎                                                      | 843/2044 [4:12:08<6:12:18, 18.60s/it] 41%|██████████████████████████████████████▍                                                      | 844/2044 [4:12:26<6:09:02, 18.45s/it]                                                                                                                                         {'loss': 0.2388, 'grad_norm': 30.44198283275266, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.964263916015625, 'rewards/rejected': -2.2119140625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.173828125, 'logps/chosen': -334.875, 'logps/rejected': -112.6875, 'logits/chosen': -1.056640625, 'logits/rejected': -1.025390625, 'epoch': 0.41}
 41%|██████████████████████████████████████▍                                                      | 844/2044 [4:12:26<6:09:02, 18.45s/it] 41%|██████████████████████████████████████▍                                                      | 845/2044 [4:12:44<6:06:35, 18.35s/it]                                                                                                                                         {'loss': 0.2297, 'grad_norm': 29.877791109221885, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.868896484375, 'rewards/rejected': -1.9169921875, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.787109375, 'logps/chosen': -304.5, 'logps/rejected': -119.9375, 'logits/chosen': -0.90185546875, 'logits/rejected': -0.86181640625, 'epoch': 0.41}
 41%|██████████████████████████████████████▍                                                      | 845/2044 [4:12:44<6:06:35, 18.35s/it] 41%|██████████████████████████████████████▍                                                      | 846/2044 [4:13:02<6:01:13, 18.09s/it]                                                                                                                                         {'loss': 0.2328, 'grad_norm': 30.77728400933567, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.694580078125, 'rewards/rejected': -2.2744140625, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.966796875, 'logps/chosen': -346.625, 'logps/rejected': -190.375, 'logits/chosen': -1.05224609375, 'logits/rejected': -1.01220703125, 'epoch': 0.41}
 41%|██████████████████████████████████████▍                                                      | 846/2044 [4:13:02<6:01:13, 18.09s/it] 41%|██████████████████████████████████████▌                                                      | 847/2044 [4:13:21<6:09:25, 18.52s/it]                                                                                                                                         {'loss': 0.296, 'grad_norm': 34.64880716659095, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6998291015625, 'rewards/rejected': -1.6484375, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.34765625, 'logps/chosen': -268.75, 'logps/rejected': -174.875, 'logits/chosen': -0.91015625, 'logits/rejected': -0.96728515625, 'epoch': 0.41}
 41%|██████████████████████████████████████▌                                                      | 847/2044 [4:13:21<6:09:25, 18.52s/it] 41%|██████████████████████████████████████▌                                                      | 848/2044 [4:13:39<6:06:36, 18.39s/it]                                                                                                                                         {'loss': 0.2881, 'grad_norm': 35.44561739037443, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.62060546875, 'rewards/rejected': -1.84765625, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.46875, 'logps/chosen': -296.375, 'logps/rejected': -131.8125, 'logits/chosen': -0.92138671875, 'logits/rejected': -0.891845703125, 'epoch': 0.41}
 41%|██████████████████████████████████████▌                                                      | 848/2044 [4:13:39<6:06:36, 18.39s/it] 42%|██████████████████████████████████████▋                                                      | 849/2044 [4:13:57<6:03:03, 18.23s/it]                                                                                                                                         {'loss': 0.1724, 'grad_norm': 25.14242074980737, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.886962890625, 'rewards/rejected': -2.3505859375, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.236328125, 'logps/chosen': -257.4375, 'logps/rejected': -122.9375, 'logits/chosen': -0.897216796875, 'logits/rejected': -0.839599609375, 'epoch': 0.42}
 42%|██████████████████████████████████████▋                                                      | 849/2044 [4:13:57<6:03:03, 18.23s/it] 42%|██████████████████████████████████████▋                                                      | 850/2044 [4:14:15<5:57:29, 17.96s/it]                                                                                                                                         {'loss': 0.1708, 'grad_norm': 19.75682802630454, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.888671875, 'rewards/rejected': -2.5087890625, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.3984375, 'logps/chosen': -285.25, 'logps/rejected': -99.0, 'logits/chosen': -1.09423828125, 'logits/rejected': -0.8404541015625, 'epoch': 0.42}
 42%|██████████████████████████████████████▋                                                      | 850/2044 [4:14:15<5:57:29, 17.96s/it] 42%|██████████████████████████████████████▋                                                      | 851/2044 [4:14:32<5:53:33, 17.78s/it]                                                                                                                                         {'loss': 0.1777, 'grad_norm': 26.431068796679455, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9404296875, 'rewards/rejected': -2.541015625, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.482421875, 'logps/chosen': -291.5, 'logps/rejected': -123.75, 'logits/chosen': -0.98974609375, 'logits/rejected': -0.6182861328125, 'epoch': 0.42}
 42%|██████████████████████████████████████▋                                                      | 851/2044 [4:14:32<5:53:33, 17.78s/it] 42%|██████████████████████████████████████▊                                                      | 852/2044 [4:14:50<5:57:16, 17.98s/it]                                                                                                                                         {'loss': 0.1899, 'grad_norm': 31.098031947569073, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.11767578125, 'rewards/rejected': -2.408203125, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.51953125, 'logps/chosen': -325.375, 'logps/rejected': -115.5, 'logits/chosen': -0.9296875, 'logits/rejected': -0.9033203125, 'epoch': 0.42}
 42%|██████████████████████████████████████▊                                                      | 852/2044 [4:14:50<5:57:16, 17.98s/it] 42%|██████████████████████████████████████▊                                                      | 853/2044 [4:15:10<6:06:03, 18.44s/it]                                                                                                                                         {'loss': 0.3062, 'grad_norm': 32.972401732057506, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.76513671875, 'rewards/rejected': -1.90576171875, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.6728515625, 'logps/chosen': -274.25, 'logps/rejected': -142.25, 'logits/chosen': -0.90576171875, 'logits/rejected': -0.8427734375, 'epoch': 0.42}
 42%|██████████████████████████████████████▊                                                      | 853/2044 [4:15:10<6:06:03, 18.44s/it] 42%|██████████████████████████████████████▊                                                      | 854/2044 [4:15:28<6:04:46, 18.39s/it]                                                                                                                                         {'loss': 0.1833, 'grad_norm': 24.963230669264906, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.820648193359375, 'rewards/rejected': -2.51171875, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.3359375, 'logps/chosen': -294.1875, 'logps/rejected': -113.1875, 'logits/chosen': -0.823974609375, 'logits/rejected': -0.827392578125, 'epoch': 0.42}
 42%|██████████████████████████████████████▊                                                      | 854/2044 [4:15:28<6:04:46, 18.39s/it] 42%|██████████████████████████████████████▉                                                      | 855/2044 [4:15:47<6:08:58, 18.62s/it]                                                                                                                                         {'loss': 0.2948, 'grad_norm': 32.37104017537801, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.98779296875, 'rewards/rejected': -2.0, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.986328125, 'logps/chosen': -299.8125, 'logps/rejected': -151.5, 'logits/chosen': -0.951171875, 'logits/rejected': -0.958984375, 'epoch': 0.42}
 42%|██████████████████████████████████████▉                                                      | 855/2044 [4:15:47<6:08:58, 18.62s/it] 42%|██████████████████████████████████████▉                                                      | 856/2044 [4:16:06<6:07:01, 18.54s/it]                                                                                                                                         {'loss': 0.1733, 'grad_norm': 33.759959061153964, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.878173828125, 'rewards/rejected': -2.56640625, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.4453125, 'logps/chosen': -285.25, 'logps/rejected': -109.5625, 'logits/chosen': -1.0859375, 'logits/rejected': -1.015625, 'epoch': 0.42}
 42%|██████████████████████████████████████▉                                                      | 856/2044 [4:16:06<6:07:01, 18.54s/it] 42%|██████████████████████████████████████▉                                                      | 857/2044 [4:16:26<6:15:19, 18.97s/it]                                                                                                                                         {'loss': 0.2653, 'grad_norm': 37.57242682323976, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.90673828125, 'rewards/rejected': -1.767578125, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.6728515625, 'logps/chosen': -265.25, 'logps/rejected': -143.125, 'logits/chosen': -1.02490234375, 'logits/rejected': -0.91015625, 'epoch': 0.42}
 42%|██████████████████████████████████████▉                                                      | 857/2044 [4:16:26<6:15:19, 18.97s/it] 42%|███████████████████████████████████████                                                      | 858/2044 [4:16:43<6:05:37, 18.50s/it]                                                                                                                                         {'loss': 0.2142, 'grad_norm': 36.665464162938115, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.83251953125, 'rewards/rejected': -2.330078125, 'rewards/accuracies': 0.875, 'rewards/margins': 3.1630859375, 'logps/chosen': -252.5, 'logps/rejected': -146.5625, 'logits/chosen': -0.95068359375, 'logits/rejected': -0.916259765625, 'epoch': 0.42}
 42%|███████████████████████████████████████                                                      | 858/2044 [4:16:43<6:05:37, 18.50s/it] 42%|███████████████████████████████████████                                                      | 859/2044 [4:17:01<6:02:04, 18.33s/it]                                                                                                                                         {'loss': 0.2553, 'grad_norm': 48.524821321619264, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.890380859375, 'rewards/rejected': -2.3125, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.19921875, 'logps/chosen': -278.375, 'logps/rejected': -115.9375, 'logits/chosen': -1.0615234375, 'logits/rejected': -0.9228515625, 'epoch': 0.42}
 42%|███████████████████████████████████████                                                      | 859/2044 [4:17:01<6:02:04, 18.33s/it] 42%|███████████████████████████████████████▏                                                     | 860/2044 [4:17:19<6:02:01, 18.35s/it]                                                                                                                                         {'loss': 0.2125, 'grad_norm': 30.17572601388182, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8280029296875, 'rewards/rejected': -2.5283203125, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.359375, 'logps/chosen': -307.625, 'logps/rejected': -129.1875, 'logits/chosen': -0.77978515625, 'logits/rejected': -0.8017578125, 'epoch': 0.42}
 42%|███████████████████████████████████████▏                                                     | 860/2044 [4:17:19<6:02:01, 18.35s/it] 42%|███████████████████████████████████████▏                                                     | 861/2044 [4:17:38<6:01:12, 18.32s/it]                                                                                                                                         {'loss': 0.1813, 'grad_norm': 28.630586999084034, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9066162109375, 'rewards/rejected': -2.3173828125, 'rewards/accuracies': 0.96875, 'rewards/margins': 3.2265625, 'logps/chosen': -300.125, 'logps/rejected': -118.625, 'logits/chosen': -0.7923583984375, 'logits/rejected': -0.91796875, 'epoch': 0.42}
 42%|███████████████████████████████████████▏                                                     | 861/2044 [4:17:38<6:01:12, 18.32s/it] 42%|███████████████████████████████████████▏                                                     | 862/2044 [4:17:57<6:03:48, 18.47s/it]                                                                                                                                         {'loss': 0.2322, 'grad_norm': 35.16494823892758, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.966552734375, 'rewards/rejected': -2.2578125, 'rewards/accuracies': 0.875, 'rewards/margins': 3.22265625, 'logps/chosen': -275.875, 'logps/rejected': -133.25, 'logits/chosen': -0.98779296875, 'logits/rejected': -1.0205078125, 'epoch': 0.42}
 42%|███████████████████████████████████████▏                                                     | 862/2044 [4:17:57<6:03:48, 18.47s/it] 42%|███████████████████████████████████████▎                                                     | 863/2044 [4:18:16<6:08:23, 18.72s/it]                                                                                                                                         {'loss': 0.2193, 'grad_norm': 31.95954722138066, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.79052734375, 'rewards/rejected': -2.2265625, 'rewards/accuracies': 0.953125, 'rewards/margins': 3.01953125, 'logps/chosen': -294.75, 'logps/rejected': -177.3125, 'logits/chosen': -0.84619140625, 'logits/rejected': -0.88671875, 'epoch': 0.42}
 42%|███████████████████████████████████████▎                                                     | 863/2044 [4:18:16<6:08:23, 18.72s/it] 42%|███████████████████████████████████████▎                                                     | 864/2044 [4:18:34<6:07:27, 18.68s/it]                                                                                                                                         {'loss': 0.2058, 'grad_norm': 29.554708750579326, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9229736328125, 'rewards/rejected': -2.3251953125, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.248046875, 'logps/chosen': -311.125, 'logps/rejected': -139.375, 'logits/chosen': -1.05810546875, 'logits/rejected': -0.899169921875, 'epoch': 0.42}
 42%|███████████████████████████████████████▎                                                     | 864/2044 [4:18:34<6:07:27, 18.68s/it] 42%|███████████████████████████████████████▎                                                     | 865/2044 [4:18:51<5:55:26, 18.09s/it]                                                                                                                                         {'loss': 0.2062, 'grad_norm': 23.02489339317812, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.73046875, 'rewards/rejected': -2.189453125, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.919921875, 'logps/chosen': -290.875, 'logps/rejected': -92.125, 'logits/chosen': -1.0947265625, 'logits/rejected': -0.7064208984375, 'epoch': 0.42}
 42%|███████████████████████████████████████▎                                                     | 865/2044 [4:18:51<5:55:26, 18.09s/it] 42%|███████████████████████████████████████▍                                                     | 866/2044 [4:19:10<5:57:53, 18.23s/it]                                                                                                                                         {'loss': 0.2035, 'grad_norm': 24.815712338831023, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.02099609375, 'rewards/rejected': -2.232421875, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.25390625, 'logps/chosen': -302.25, 'logps/rejected': -103.1875, 'logits/chosen': -1.1181640625, 'logits/rejected': -0.85009765625, 'epoch': 0.42}
 42%|███████████████████████████████████████▍                                                     | 866/2044 [4:19:10<5:57:53, 18.23s/it] 42%|███████████████████████████████████████▍                                                     | 867/2044 [4:19:30<6:07:42, 18.74s/it]                                                                                                                                         {'loss': 0.2956, 'grad_norm': 38.56613092849638, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.84228515625, 'rewards/rejected': -1.79443359375, 'rewards/accuracies': 0.8125, 'rewards/margins': 2.6376953125, 'logps/chosen': -272.375, 'logps/rejected': -191.3125, 'logits/chosen': -0.7978515625, 'logits/rejected': -0.900390625, 'epoch': 0.42}
 42%|███████████████████████████████████████▍                                                     | 867/2044 [4:19:30<6:07:42, 18.74s/it] 42%|███████████████████████████████████████▍                                                     | 868/2044 [4:19:49<6:09:58, 18.88s/it]                                                                                                                                         {'loss': 0.2271, 'grad_norm': 31.950082429942547, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.864990234375, 'rewards/rejected': -2.2646484375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.130859375, 'logps/chosen': -357.75, 'logps/rejected': -134.875, 'logits/chosen': -0.955078125, 'logits/rejected': -0.95556640625, 'epoch': 0.42}
 42%|███████████████████████████████████████▍                                                     | 868/2044 [4:19:49<6:09:58, 18.88s/it] 43%|███████████████████████████████████████▌                                                     | 869/2044 [4:20:07<6:04:21, 18.61s/it]                                                                                                                                         {'loss': 0.1873, 'grad_norm': 28.907497055460723, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.05615234375, 'rewards/rejected': -2.4267578125, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.482421875, 'logps/chosen': -292.375, 'logps/rejected': -155.3125, 'logits/chosen': -0.9931640625, 'logits/rejected': -0.9716796875, 'epoch': 0.43}
 43%|███████████████████████████████████████▌                                                     | 869/2044 [4:20:07<6:04:21, 18.61s/it] 43%|███████████████████████████████████████▌                                                     | 870/2044 [4:20:23<5:49:42, 17.87s/it]                                                                                                                                         {'loss': 0.1691, 'grad_norm': 27.0308638257442, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.966796875, 'rewards/rejected': -2.5087890625, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.4765625, 'logps/chosen': -271.4375, 'logps/rejected': -104.34375, 'logits/chosen': -0.8046875, 'logits/rejected': -0.817138671875, 'epoch': 0.43}
 43%|███████████████████████████████████████▌                                                     | 870/2044 [4:20:23<5:49:42, 17.87s/it] 43%|███████████████████████████████████████▋                                                     | 871/2044 [4:20:40<5:44:55, 17.64s/it]                                                                                                                                         {'loss': 0.1872, 'grad_norm': 21.79738456122985, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.941162109375, 'rewards/rejected': -2.603515625, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.54296875, 'logps/chosen': -239.75, 'logps/rejected': -106.25, 'logits/chosen': -0.9599609375, 'logits/rejected': -0.8544921875, 'epoch': 0.43}
 43%|███████████████████████████████████████▋                                                     | 871/2044 [4:20:40<5:44:55, 17.64s/it] 43%|███████████████████████████████████████▋                                                     | 872/2044 [4:20:59<5:51:59, 18.02s/it]                                                                                                                                         {'loss': 0.2599, 'grad_norm': 30.971032612603356, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.84326171875, 'rewards/rejected': -2.123046875, 'rewards/accuracies': 0.875, 'rewards/margins': 2.970703125, 'logps/chosen': -261.625, 'logps/rejected': -131.5625, 'logits/chosen': -0.86328125, 'logits/rejected': -0.80810546875, 'epoch': 0.43}
 43%|███████████████████████████████████████▋                                                     | 872/2044 [4:20:59<5:51:59, 18.02s/it] 43%|███████████████████████████████████████▋                                                     | 873/2044 [4:21:17<5:54:12, 18.15s/it]                                                                                                                                         {'loss': 0.2412, 'grad_norm': 36.36528765944319, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5977783203125, 'rewards/rejected': -2.2763671875, 'rewards/accuracies': 0.875, 'rewards/margins': 2.873046875, 'logps/chosen': -239.0625, 'logps/rejected': -154.1875, 'logits/chosen': -0.7666015625, 'logits/rejected': -0.865234375, 'epoch': 0.43}
 43%|███████████████████████████████████████▋                                                     | 873/2044 [4:21:17<5:54:12, 18.15s/it] 43%|███████████████████████████████████████▊                                                     | 874/2044 [4:21:36<5:55:12, 18.22s/it]                                                                                                                                         {'loss': 0.2368, 'grad_norm': 28.805025504225018, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.931640625, 'rewards/rejected': -2.2783203125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.212890625, 'logps/chosen': -270.0, 'logps/rejected': -144.75, 'logits/chosen': -0.8740234375, 'logits/rejected': -0.689453125, 'epoch': 0.43}
 43%|███████████████████████████████████████▊                                                     | 874/2044 [4:21:36<5:55:12, 18.22s/it] 43%|███████████████████████████████████████▊                                                     | 875/2044 [4:21:54<5:54:37, 18.20s/it]                                                                                                                                         {'loss': 0.2334, 'grad_norm': 30.724737141087374, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.024169921875, 'rewards/rejected': -2.095703125, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.1171875, 'logps/chosen': -354.75, 'logps/rejected': -140.40625, 'logits/chosen': -0.8857421875, 'logits/rejected': -0.758056640625, 'epoch': 0.43}
 43%|███████████████████████████████████████▊                                                     | 875/2044 [4:21:54<5:54:37, 18.20s/it] 43%|███████████████████████████████████████▊                                                     | 876/2044 [4:22:13<5:59:56, 18.49s/it]                                                                                                                                         {'loss': 0.2227, 'grad_norm': 27.99282304348876, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.945556640625, 'rewards/rejected': -2.19580078125, 'rewards/accuracies': 0.875, 'rewards/margins': 3.140625, 'logps/chosen': -301.75, 'logps/rejected': -112.0625, 'logits/chosen': -0.80029296875, 'logits/rejected': -0.859375, 'epoch': 0.43}
 43%|███████████████████████████████████████▊                                                     | 876/2044 [4:22:13<5:59:56, 18.49s/it] 43%|███████████████████████████████████████▉                                                     | 877/2044 [4:22:32<6:01:34, 18.59s/it]                                                                                                                                         {'loss': 0.3215, 'grad_norm': 37.74244329068167, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8037109375, 'rewards/rejected': -1.911865234375, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.7138671875, 'logps/chosen': -284.875, 'logps/rejected': -166.25, 'logits/chosen': -0.93310546875, 'logits/rejected': -0.92138671875, 'epoch': 0.43}
 43%|███████████████████████████████████████▉                                                     | 877/2044 [4:22:32<6:01:34, 18.59s/it] 43%|███████████████████████████████████████▉                                                     | 878/2044 [4:22:51<6:03:52, 18.72s/it]                                                                                                                                         {'loss': 0.2041, 'grad_norm': 28.434731534696294, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9970703125, 'rewards/rejected': -2.421875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.41796875, 'logps/chosen': -292.625, 'logps/rejected': -124.125, 'logits/chosen': -1.0322265625, 'logits/rejected': -0.85693359375, 'epoch': 0.43}
 43%|███████████████████████████████████████▉                                                     | 878/2044 [4:22:51<6:03:52, 18.72s/it] 43%|███████████████████████████████████████▉                                                     | 879/2044 [4:23:10<6:03:38, 18.73s/it]                                                                                                                                         {'loss': 0.3088, 'grad_norm': 40.67716711832799, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.805419921875, 'rewards/rejected': -1.9052734375, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.7119140625, 'logps/chosen': -319.75, 'logps/rejected': -179.0, 'logits/chosen': -0.798828125, 'logits/rejected': -0.726318359375, 'epoch': 0.43}
 43%|███████████████████████████████████████▉                                                     | 879/2044 [4:23:10<6:03:38, 18.73s/it] 43%|████████████████████████████████████████                                                     | 880/2044 [4:23:28<6:00:49, 18.60s/it]                                                                                                                                         {'loss': 0.2386, 'grad_norm': 31.369985402929647, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.93182373046875, 'rewards/rejected': -2.20263671875, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.1328125, 'logps/chosen': -345.25, 'logps/rejected': -210.9375, 'logits/chosen': -0.90869140625, 'logits/rejected': -0.98046875, 'epoch': 0.43}
 43%|████████████████████████████████████████                                                     | 880/2044 [4:23:28<6:00:49, 18.60s/it] 43%|████████████████████████████████████████                                                     | 881/2044 [4:23:46<5:55:16, 18.33s/it]                                                                                                                                         {'loss': 0.1507, 'grad_norm': 20.57359097934698, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.818359375, 'rewards/rejected': -2.7265625, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.544921875, 'logps/chosen': -287.125, 'logps/rejected': -101.125, 'logits/chosen': -1.04541015625, 'logits/rejected': -0.756591796875, 'epoch': 0.43}
 43%|████████████████████████████████████████                                                     | 881/2044 [4:23:46<5:55:16, 18.33s/it] 43%|████████████████████████████████████████▏                                                    | 882/2044 [4:24:04<5:52:33, 18.20s/it]                                                                                                                                         {'loss': 0.295, 'grad_norm': 40.27532885002754, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.740234375, 'rewards/rejected': -2.091796875, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.830078125, 'logps/chosen': -285.375, 'logps/rejected': -157.875, 'logits/chosen': -0.94580078125, 'logits/rejected': -0.7513427734375, 'epoch': 0.43}
 43%|████████████████████████████████████████▏                                                    | 882/2044 [4:24:04<5:52:33, 18.20s/it] 43%|████████████████████████████████████████▏                                                    | 883/2044 [4:24:23<5:57:12, 18.46s/it]                                                                                                                                         {'loss': 0.2383, 'grad_norm': 39.03361570673761, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.82861328125, 'rewards/rejected': -2.115234375, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.943359375, 'logps/chosen': -337.625, 'logps/rejected': -134.25, 'logits/chosen': -1.03662109375, 'logits/rejected': -0.90771484375, 'epoch': 0.43}
 43%|████████████████████████████████████████▏                                                    | 883/2044 [4:24:23<5:57:12, 18.46s/it] 43%|████████████████████████████████████████▏                                                    | 884/2044 [4:24:41<5:53:31, 18.29s/it]                                                                                                                                         {'loss': 0.2124, 'grad_norm': 25.444826687567, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.84130859375, 'rewards/rejected': -2.2626953125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.10546875, 'logps/chosen': -307.25, 'logps/rejected': -126.3125, 'logits/chosen': -0.88525390625, 'logits/rejected': -0.8603515625, 'epoch': 0.43}
 43%|████████████████████████████████████████▏                                                    | 884/2044 [4:24:41<5:53:31, 18.29s/it] 43%|████████████████████████████████████████▎                                                    | 885/2044 [4:24:58<5:45:55, 17.91s/it]                                                                                                                                         {'loss': 0.1451, 'grad_norm': 17.077099836243377, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7952880859375, 'rewards/rejected': -2.732421875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.529296875, 'logps/chosen': -268.0, 'logps/rejected': -95.5625, 'logits/chosen': -0.96826171875, 'logits/rejected': -0.8564453125, 'epoch': 0.43}
 43%|████████████████████████████████████████▎                                                    | 885/2044 [4:24:58<5:45:55, 17.91s/it] 43%|████████████████████████████████████████▎                                                    | 886/2044 [4:25:17<5:52:40, 18.27s/it]                                                                                                                                         {'loss': 0.2653, 'grad_norm': 33.17059888295668, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8898773193359375, 'rewards/rejected': -2.1953125, 'rewards/accuracies': 0.875, 'rewards/margins': 3.0859375, 'logps/chosen': -312.0, 'logps/rejected': -143.125, 'logits/chosen': -1.06689453125, 'logits/rejected': -1.00732421875, 'epoch': 0.43}
 43%|████████████████████████████████████████▎                                                    | 886/2044 [4:25:17<5:52:40, 18.27s/it] 43%|████████████████████████████████████████▎                                                    | 887/2044 [4:25:33<5:39:13, 17.59s/it]                                                                                                                                         {'loss': 0.2365, 'grad_norm': 31.448923072035488, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6719970703125, 'rewards/rejected': -2.466796875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.138671875, 'logps/chosen': -254.65625, 'logps/rejected': -118.28125, 'logits/chosen': -0.817138671875, 'logits/rejected': -0.9326171875, 'epoch': 0.43}
 43%|████████████████████████████████████████▎                                                    | 887/2044 [4:25:33<5:39:13, 17.59s/it] 43%|████████████████████████████████████████▍                                                    | 888/2044 [4:25:49<5:31:21, 17.20s/it]                                                                                                                                         {'loss': 0.2154, 'grad_norm': 25.58600876946423, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7035369873046875, 'rewards/rejected': -2.369140625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.0703125, 'logps/chosen': -254.25, 'logps/rejected': -113.375, 'logits/chosen': -0.955078125, 'logits/rejected': -0.8662109375, 'epoch': 0.43}
 43%|████████████████████████████████████████▍                                                    | 888/2044 [4:25:49<5:31:21, 17.20s/it] 43%|████████████████████████████████████████▍                                                    | 889/2044 [4:26:08<5:42:31, 17.79s/it]                                                                                                                                         {'loss': 0.1854, 'grad_norm': 32.270033115078036, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.626953125, 'rewards/rejected': -2.3857421875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.015625, 'logps/chosen': -308.25, 'logps/rejected': -174.0625, 'logits/chosen': -0.82568359375, 'logits/rejected': -0.89111328125, 'epoch': 0.43}
 43%|████████████████████████████████████████▍                                                    | 889/2044 [4:26:08<5:42:31, 17.79s/it] 44%|████████████████████████████████████████▍                                                    | 890/2044 [4:26:27<5:46:58, 18.04s/it]                                                                                                                                         {'loss': 0.2184, 'grad_norm': 30.022900530806005, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9365234375, 'rewards/rejected': -2.181640625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.1162109375, 'logps/chosen': -282.125, 'logps/rejected': -138.5, 'logits/chosen': -0.885498046875, 'logits/rejected': -0.930908203125, 'epoch': 0.44}
 44%|████████████████████████████████████████▍                                                    | 890/2044 [4:26:27<5:46:58, 18.04s/it] 44%|████████████████████████████████████████▌                                                    | 891/2044 [4:26:44<5:41:18, 17.76s/it]                                                                                                                                         {'loss': 0.27, 'grad_norm': 35.58972567674461, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.634490966796875, 'rewards/rejected': -2.06494140625, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.697265625, 'logps/chosen': -277.875, 'logps/rejected': -127.25, 'logits/chosen': -1.03759765625, 'logits/rejected': -0.9375, 'epoch': 0.44}
 44%|████████████████████████████████████████▌                                                    | 891/2044 [4:26:44<5:41:18, 17.76s/it] 44%|████████████████████████████████████████▌                                                    | 892/2044 [4:27:01<5:39:24, 17.68s/it]                                                                                                                                         {'loss': 0.1755, 'grad_norm': 29.923254208631224, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8369140625, 'rewards/rejected': -2.5205078125, 'rewards/accuracies': 0.953125, 'rewards/margins': 3.357421875, 'logps/chosen': -277.875, 'logps/rejected': -111.25, 'logits/chosen': -0.934326171875, 'logits/rejected': -0.899658203125, 'epoch': 0.44}
 44%|████████████████████████████████████████▌                                                    | 892/2044 [4:27:01<5:39:24, 17.68s/it] 44%|████████████████████████████████████████▋                                                    | 893/2044 [4:27:21<5:47:53, 18.13s/it]                                                                                                                                         {'loss': 0.2451, 'grad_norm': 32.49229448499426, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6591796875, 'rewards/rejected': -2.177734375, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.8359375, 'logps/chosen': -257.25, 'logps/rejected': -142.6875, 'logits/chosen': -0.92529296875, 'logits/rejected': -0.90478515625, 'epoch': 0.44}
 44%|████████████████████████████████████████▋                                                    | 893/2044 [4:27:21<5:47:53, 18.13s/it] 44%|████████████████████████████████████████▋                                                    | 894/2044 [4:27:37<5:35:03, 17.48s/it]                                                                                                                                         {'loss': 0.1239, 'grad_norm': 12.239792388915584, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.92626953125, 'rewards/rejected': -2.9794921875, 'rewards/accuracies': 0.96875, 'rewards/margins': 3.908203125, 'logps/chosen': -282.0, 'logps/rejected': -93.65625, 'logits/chosen': -0.876953125, 'logits/rejected': -0.73260498046875, 'epoch': 0.44}
 44%|████████████████████████████████████████▋                                                    | 894/2044 [4:27:37<5:35:03, 17.48s/it] 44%|████████████████████████████████████████▋                                                    | 895/2044 [4:27:56<5:47:46, 18.16s/it]                                                                                                                                         {'loss': 0.2473, 'grad_norm': 29.140069094965337, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.89013671875, 'rewards/rejected': -2.1044921875, 'rewards/accuracies': 0.875, 'rewards/margins': 2.9951171875, 'logps/chosen': -301.875, 'logps/rejected': -165.125, 'logits/chosen': -0.92822265625, 'logits/rejected': -0.90185546875, 'epoch': 0.44}
 44%|████████████████████████████████████████▋                                                    | 895/2044 [4:27:56<5:47:46, 18.16s/it] 44%|████████████████████████████████████████▊                                                    | 896/2044 [4:28:15<5:49:49, 18.28s/it]                                                                                                                                         {'loss': 0.2592, 'grad_norm': 35.011895987486696, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.795654296875, 'rewards/rejected': -2.1142578125, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.9052734375, 'logps/chosen': -282.125, 'logps/rejected': -129.0625, 'logits/chosen': -0.949462890625, 'logits/rejected': -0.76611328125, 'epoch': 0.44}
 44%|████████████████████████████████████████▊                                                    | 896/2044 [4:28:15<5:49:49, 18.28s/it] 44%|████████████████████████████████████████▊                                                    | 897/2044 [4:28:31<5:35:43, 17.56s/it]                                                                                                                                         {'loss': 0.1744, 'grad_norm': 20.802350604150714, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.73291015625, 'rewards/rejected': -2.5751953125, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.306640625, 'logps/chosen': -279.5, 'logps/rejected': -102.96875, 'logits/chosen': -0.95361328125, 'logits/rejected': -0.724609375, 'epoch': 0.44}
 44%|████████████████████████████████████████▊                                                    | 897/2044 [4:28:31<5:35:43, 17.56s/it] 44%|████████████████████████████████████████▊                                                    | 898/2044 [4:28:49<5:37:00, 17.64s/it]                                                                                                                                         {'loss': 0.2245, 'grad_norm': 47.720768444818866, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.851806640625, 'rewards/rejected': -2.5126953125, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.36328125, 'logps/chosen': -350.375, 'logps/rejected': -129.25, 'logits/chosen': -0.969970703125, 'logits/rejected': -0.96728515625, 'epoch': 0.44}
 44%|████████████████████████████████████████▊                                                    | 898/2044 [4:28:49<5:37:00, 17.64s/it] 44%|████████████████████████████████████████▉                                                    | 899/2044 [4:29:07<5:38:32, 17.74s/it]                                                                                                                                         {'loss': 0.1764, 'grad_norm': 23.24321008441406, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9814453125, 'rewards/rejected': -2.419921875, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.404296875, 'logps/chosen': -296.125, 'logps/rejected': -118.1875, 'logits/chosen': -0.898681640625, 'logits/rejected': -0.865234375, 'epoch': 0.44}
 44%|████████████████████████████████████████▉                                                    | 899/2044 [4:29:07<5:38:32, 17.74s/it] 44%|████████████████████████████████████████▉                                                    | 900/2044 [4:29:26<5:46:07, 18.15s/it]                                                                                                                                         {'loss': 0.2388, 'grad_norm': 31.63051860035151, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6845703125, 'rewards/rejected': -2.2734375, 'rewards/accuracies': 0.875, 'rewards/margins': 2.9609375, 'logps/chosen': -268.75, 'logps/rejected': -147.0625, 'logits/chosen': -0.96240234375, 'logits/rejected': -0.7978515625, 'epoch': 0.44}
 44%|████████████████████████████████████████▉                                                    | 900/2044 [4:29:26<5:46:07, 18.15s/it] 44%|████████████████████████████████████████▉                                                    | 901/2044 [4:29:44<5:48:41, 18.30s/it]                                                                                                                                         {'loss': 0.2067, 'grad_norm': 26.224904520864875, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6436767578125, 'rewards/rejected': -2.2978515625, 'rewards/accuracies': 0.921875, 'rewards/margins': 2.9375, 'logps/chosen': -272.5, 'logps/rejected': -110.75, 'logits/chosen': -0.86767578125, 'logits/rejected': -0.8994140625, 'epoch': 0.44}
 44%|████████████████████████████████████████▉                                                    | 901/2044 [4:29:44<5:48:41, 18.30s/it] 44%|█████████████████████████████████████████                                                    | 902/2044 [4:30:04<5:53:55, 18.60s/it]                                                                                                                                         {'loss': 0.2943, 'grad_norm': 37.596014074490554, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.65948486328125, 'rewards/rejected': -1.81787109375, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.478515625, 'logps/chosen': -291.625, 'logps/rejected': -147.3125, 'logits/chosen': -0.9140625, 'logits/rejected': -0.97265625, 'epoch': 0.44}
 44%|█████████████████████████████████████████                                                    | 902/2044 [4:30:04<5:53:55, 18.60s/it] 44%|█████████████████████████████████████████                                                    | 903/2044 [4:30:22<5:55:13, 18.68s/it]                                                                                                                                         {'loss': 0.2576, 'grad_norm': 38.90398270574174, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.885986328125, 'rewards/rejected': -2.3046875, 'rewards/accuracies': 0.875, 'rewards/margins': 3.1923828125, 'logps/chosen': -308.25, 'logps/rejected': -173.125, 'logits/chosen': -0.884765625, 'logits/rejected': -0.87890625, 'epoch': 0.44}
 44%|█████████████████████████████████████████                                                    | 903/2044 [4:30:22<5:55:13, 18.68s/it] 44%|█████████████████████████████████████████▏                                                   | 904/2044 [4:30:41<5:56:24, 18.76s/it]                                                                                                                                         {'loss': 0.2457, 'grad_norm': 35.915679086746586, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.85888671875, 'rewards/rejected': -2.3056640625, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.162109375, 'logps/chosen': -290.5, 'logps/rejected': -134.8125, 'logits/chosen': -1.08056640625, 'logits/rejected': -0.98974609375, 'epoch': 0.44}
 44%|█████████████████████████████████████████▏                                                   | 904/2044 [4:30:41<5:56:24, 18.76s/it] 44%|█████████████████████████████████████████▏                                                   | 905/2044 [4:31:01<5:59:12, 18.92s/it]                                                                                                                                         {'loss': 0.2225, 'grad_norm': 27.263398340412696, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.764556884765625, 'rewards/rejected': -2.1396484375, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.90234375, 'logps/chosen': -292.5625, 'logps/rejected': -112.40625, 'logits/chosen': -0.9853515625, 'logits/rejected': -0.929931640625, 'epoch': 0.44}
 44%|█████████████████████████████████████████▏                                                   | 905/2044 [4:31:01<5:59:12, 18.92s/it] 44%|█████████████████████████████████████████▏                                                   | 906/2044 [4:31:19<5:56:42, 18.81s/it]                                                                                                                                         {'loss': 0.2694, 'grad_norm': 35.32588781363229, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9482421875, 'rewards/rejected': -2.1298828125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.08203125, 'logps/chosen': -314.125, 'logps/rejected': -140.8125, 'logits/chosen': -0.873291015625, 'logits/rejected': -0.888671875, 'epoch': 0.44}
 44%|█████████████████████████████████████████▏                                                   | 906/2044 [4:31:19<5:56:42, 18.81s/it] 44%|█████████████████████████████████████████▎                                                   | 907/2044 [4:31:38<5:56:51, 18.83s/it]                                                                                                                                         {'loss': 0.2538, 'grad_norm': 33.46485941427137, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8995361328125, 'rewards/rejected': -2.1015625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.0, 'logps/chosen': -351.5, 'logps/rejected': -122.125, 'logits/chosen': -0.9814453125, 'logits/rejected': -0.7998046875, 'epoch': 0.44}
 44%|█████████████████████████████████████████▎                                                   | 907/2044 [4:31:38<5:56:51, 18.83s/it] 44%|█████████████████████████████████████████▎                                                   | 908/2044 [4:31:57<5:55:14, 18.76s/it]                                                                                                                                         {'loss': 0.2691, 'grad_norm': 29.75348048824114, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.908447265625, 'rewards/rejected': -2.0986328125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.0029296875, 'logps/chosen': -269.625, 'logps/rejected': -130.25, 'logits/chosen': -0.96728515625, 'logits/rejected': -0.896484375, 'epoch': 0.44}
 44%|█████████████████████████████████████████▎                                                   | 908/2044 [4:31:57<5:55:14, 18.76s/it] 44%|█████████████████████████████████████████▎                                                   | 909/2044 [4:32:15<5:53:47, 18.70s/it]                                                                                                                                         {'loss': 0.2218, 'grad_norm': 26.793748647305716, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9271240234375, 'rewards/rejected': -2.333251953125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.2607421875, 'logps/chosen': -259.5, 'logps/rejected': -129.1875, 'logits/chosen': -0.8955078125, 'logits/rejected': -0.9267578125, 'epoch': 0.44}
 44%|█████████████████████████████████████████▎                                                   | 909/2044 [4:32:15<5:53:47, 18.70s/it] 45%|█████████████████████████████████████████▍                                                   | 910/2044 [4:32:34<5:53:17, 18.69s/it]                                                                                                                                         {'loss': 0.3298, 'grad_norm': 39.971050200800796, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.67822265625, 'rewards/rejected': -1.966796875, 'rewards/accuracies': 0.8125, 'rewards/margins': 2.64453125, 'logps/chosen': -330.625, 'logps/rejected': -175.9375, 'logits/chosen': -0.8984375, 'logits/rejected': -0.858642578125, 'epoch': 0.45}
 45%|█████████████████████████████████████████▍                                                   | 910/2044 [4:32:34<5:53:17, 18.69s/it] 45%|█████████████████████████████████████████▍                                                   | 911/2044 [4:32:53<5:53:22, 18.71s/it]                                                                                                                                         {'loss': 0.2405, 'grad_norm': 552.7161703313247, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.84228515625, 'rewards/rejected': -2.3818359375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.2265625, 'logps/chosen': -346.625, 'logps/rejected': -170.0, 'logits/chosen': -0.9765625, 'logits/rejected': -0.78662109375, 'epoch': 0.45}
 45%|█████████████████████████████████████████▍                                                   | 911/2044 [4:32:53<5:53:22, 18.71s/it] 45%|█████████████████████████████████████████▍                                                   | 912/2044 [4:33:11<5:47:54, 18.44s/it]                                                                                                                                         {'loss': 0.2658, 'grad_norm': 29.734542740650642, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5264892578125, 'rewards/rejected': -2.388671875, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.9169921875, 'logps/chosen': -254.5, 'logps/rejected': -130.4375, 'logits/chosen': -0.90283203125, 'logits/rejected': -0.935791015625, 'epoch': 0.45}
 45%|█████████████████████████████████████████▍                                                   | 912/2044 [4:33:11<5:47:54, 18.44s/it] 45%|█████████████████████████████████████████▌                                                   | 913/2044 [4:33:29<5:45:42, 18.34s/it]                                                                                                                                         {'loss': 0.1808, 'grad_norm': 26.533981502082845, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.94677734375, 'rewards/rejected': -2.5263671875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.474609375, 'logps/chosen': -281.25, 'logps/rejected': -118.96875, 'logits/chosen': -0.87109375, 'logits/rejected': -0.794921875, 'epoch': 0.45}
 45%|█████████████████████████████████████████▌                                                   | 913/2044 [4:33:29<5:45:42, 18.34s/it] 45%|█████████████████████████████████████████▌                                                   | 914/2044 [4:33:46<5:39:27, 18.02s/it]                                                                                                                                         {'loss': 0.1608, 'grad_norm': 30.199735550501213, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.724365234375, 'rewards/rejected': -2.8740234375, 'rewards/accuracies': 0.953125, 'rewards/margins': 3.59765625, 'logps/chosen': -317.875, 'logps/rejected': -139.375, 'logits/chosen': -0.889404296875, 'logits/rejected': -0.80419921875, 'epoch': 0.45}
 45%|█████████████████████████████████████████▌                                                   | 914/2044 [4:33:46<5:39:27, 18.02s/it] 45%|█████████████████████████████████████████▋                                                   | 915/2044 [4:34:05<5:44:47, 18.32s/it]                                                                                                                                         {'loss': 0.2714, 'grad_norm': 38.73590896320902, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.821075439453125, 'rewards/rejected': -1.884765625, 'rewards/accuracies': 0.875, 'rewards/margins': 2.7041015625, 'logps/chosen': -361.5, 'logps/rejected': -146.4375, 'logits/chosen': -1.00732421875, 'logits/rejected': -0.90673828125, 'epoch': 0.45}
 45%|█████████████████████████████████████████▋                                                   | 915/2044 [4:34:05<5:44:47, 18.32s/it] 45%|█████████████████████████████████████████▋                                                   | 916/2044 [4:34:23<5:45:19, 18.37s/it]                                                                                                                                         {'loss': 0.2443, 'grad_norm': 26.356536518195508, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.803466796875, 'rewards/rejected': -2.2333984375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.037109375, 'logps/chosen': -299.875, 'logps/rejected': -114.1875, 'logits/chosen': -1.027587890625, 'logits/rejected': -0.82666015625, 'epoch': 0.45}
 45%|█████████████████████████████████████████▋                                                   | 916/2044 [4:34:23<5:45:19, 18.37s/it] 45%|█████████████████████████████████████████▋                                                   | 917/2044 [4:34:42<5:45:04, 18.37s/it]                                                                                                                                         {'loss': 0.1826, 'grad_norm': 36.24940270908592, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8681640625, 'rewards/rejected': -2.623046875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.4931640625, 'logps/chosen': -364.625, 'logps/rejected': -187.1875, 'logits/chosen': -0.97314453125, 'logits/rejected': -0.84033203125, 'epoch': 0.45}
 45%|█████████████████████████████████████████▋                                                   | 917/2044 [4:34:42<5:45:04, 18.37s/it] 45%|█████████████████████████████████████████▊                                                   | 918/2044 [4:35:00<5:41:54, 18.22s/it]                                                                                                                                         {'loss': 0.1655, 'grad_norm': 26.769002118425533, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.017578125, 'rewards/rejected': -2.5947265625, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.6142578125, 'logps/chosen': -339.0, 'logps/rejected': -136.5, 'logits/chosen': -0.9697265625, 'logits/rejected': -0.8974609375, 'epoch': 0.45}
 45%|█████████████████████████████████████████▊                                                   | 918/2044 [4:35:00<5:41:54, 18.22s/it] 45%|█████████████████████████████████████████▊                                                   | 919/2044 [4:35:17<5:37:40, 18.01s/it]                                                                                                                                         {'loss': 0.2396, 'grad_norm': 38.679049476706226, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.64697265625, 'rewards/rejected': -2.490234375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.134765625, 'logps/chosen': -273.3125, 'logps/rejected': -129.4375, 'logits/chosen': -0.8107490539550781, 'logits/rejected': -0.957763671875, 'epoch': 0.45}
 45%|█████████████████████████████████████████▊                                                   | 919/2044 [4:35:17<5:37:40, 18.01s/it] 45%|█████████████████████████████████████████▊                                                   | 920/2044 [4:35:36<5:40:26, 18.17s/it]                                                                                                                                         {'loss': 0.1594, 'grad_norm': 22.09622481505811, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.97705078125, 'rewards/rejected': -2.71875, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.693359375, 'logps/chosen': -283.375, 'logps/rejected': -137.9375, 'logits/chosen': -0.93017578125, 'logits/rejected': -0.90576171875, 'epoch': 0.45}
 45%|█████████████████████████████████████████▊                                                   | 920/2044 [4:35:36<5:40:26, 18.17s/it] 45%|█████████████████████████████████████████▉                                                   | 921/2044 [4:35:53<5:34:55, 17.89s/it]                                                                                                                                         {'loss': 0.2451, 'grad_norm': 34.56553270996256, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.969390869140625, 'rewards/rejected': -2.4267578125, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.392578125, 'logps/chosen': -322.9375, 'logps/rejected': -120.65625, 'logits/chosen': -0.921875, 'logits/rejected': -0.7466907501220703, 'epoch': 0.45}
 45%|█████████████████████████████████████████▉                                                   | 921/2044 [4:35:53<5:34:55, 17.89s/it] 45%|█████████████████████████████████████████▉                                                   | 922/2044 [4:36:12<5:39:26, 18.15s/it]                                                                                                                                         {'loss': 0.2728, 'grad_norm': 52.97165112260583, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.73626708984375, 'rewards/rejected': -2.130859375, 'rewards/accuracies': 0.8125, 'rewards/margins': 2.8642578125, 'logps/chosen': -316.125, 'logps/rejected': -146.15625, 'logits/chosen': -0.87548828125, 'logits/rejected': -0.844482421875, 'epoch': 0.45}
 45%|█████████████████████████████████████████▉                                                   | 922/2044 [4:36:12<5:39:26, 18.15s/it] 45%|█████████████████████████████████████████▉                                                   | 923/2044 [4:36:30<5:39:55, 18.19s/it]                                                                                                                                         {'loss': 0.25, 'grad_norm': 33.07949221116891, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.797760009765625, 'rewards/rejected': -2.56103515625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.359375, 'logps/chosen': -313.0, 'logps/rejected': -120.34375, 'logits/chosen': -0.8935546875, 'logits/rejected': -0.74365234375, 'epoch': 0.45}
 45%|█████████████████████████████████████████▉                                                   | 923/2044 [4:36:30<5:39:55, 18.19s/it] 45%|██████████████████████████████████████████                                                   | 924/2044 [4:36:48<5:38:28, 18.13s/it]                                                                                                                                         {'loss': 0.2168, 'grad_norm': 30.695867695673854, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.742919921875, 'rewards/rejected': -2.70703125, 'rewards/accuracies': 0.875, 'rewards/margins': 3.4501953125, 'logps/chosen': -305.5, 'logps/rejected': -128.03125, 'logits/chosen': -0.97607421875, 'logits/rejected': -0.77490234375, 'epoch': 0.45}
 45%|██████████████████████████████████████████                                                   | 924/2044 [4:36:48<5:38:28, 18.13s/it] 45%|██████████████████████████████████████████                                                   | 925/2044 [4:37:06<5:37:13, 18.08s/it]                                                                                                                                         {'loss': 0.2144, 'grad_norm': 33.71655094037164, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.962158203125, 'rewards/rejected': -2.3388671875, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.298828125, 'logps/chosen': -354.4375, 'logps/rejected': -173.3125, 'logits/chosen': -0.810302734375, 'logits/rejected': -0.726806640625, 'epoch': 0.45}
 45%|██████████████████████████████████████████                                                   | 925/2044 [4:37:06<5:37:13, 18.08s/it] 45%|██████████████████████████████████████████▏                                                  | 926/2044 [4:37:24<5:38:38, 18.17s/it]                                                                                                                                         {'loss': 0.2594, 'grad_norm': 36.49780803946139, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4486083984375, 'rewards/rejected': -2.1787109375, 'rewards/accuracies': 0.875, 'rewards/margins': 2.62890625, 'logps/chosen': -250.9375, 'logps/rejected': -130.625, 'logits/chosen': -0.9443359375, 'logits/rejected': -0.88037109375, 'epoch': 0.45}
 45%|██████████████████████████████████████████▏                                                  | 926/2044 [4:37:24<5:38:38, 18.17s/it] 45%|██████████████████████████████████████████▏                                                  | 927/2044 [4:37:44<5:47:45, 18.68s/it]                                                                                                                                         {'loss': 0.1797, 'grad_norm': 29.628473633557434, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9296875, 'rewards/rejected': -2.6767578125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.607421875, 'logps/chosen': -354.25, 'logps/rejected': -131.1875, 'logits/chosen': -1.01806640625, 'logits/rejected': -0.80126953125, 'epoch': 0.45}
 45%|██████████████████████████████████████████▏                                                  | 927/2044 [4:37:44<5:47:45, 18.68s/it] 45%|██████████████████████████████████████████▏                                                  | 928/2044 [4:38:01<5:38:18, 18.19s/it]                                                                                                                                         {'loss': 0.1893, 'grad_norm': 24.65293017593388, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8673095703125, 'rewards/rejected': -2.5234375, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.388671875, 'logps/chosen': -292.0, 'logps/rejected': -111.1875, 'logits/chosen': -0.9970703125, 'logits/rejected': -0.87939453125, 'epoch': 0.45}
 45%|██████████████████████████████████████████▏                                                  | 928/2044 [4:38:01<5:38:18, 18.19s/it] 45%|██████████████████████████████████████████▎                                                  | 929/2044 [4:38:19<5:34:13, 17.99s/it]                                                                                                                                         {'loss': 0.1544, 'grad_norm': 20.242193370981703, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.823974609375, 'rewards/rejected': -2.7490234375, 'rewards/accuracies': 0.953125, 'rewards/margins': 3.572265625, 'logps/chosen': -236.0, 'logps/rejected': -118.375, 'logits/chosen': -0.8134765625, 'logits/rejected': -0.7998046875, 'epoch': 0.45}
 45%|██████████████████████████████████████████▎                                                  | 929/2044 [4:38:19<5:34:13, 17.99s/it] 45%|██████████████████████████████████████████▎                                                  | 930/2044 [4:38:38<5:41:03, 18.37s/it]                                                                                                                                         {'loss': 0.2418, 'grad_norm': 30.447130633003272, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7769775390625, 'rewards/rejected': -2.23779296875, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.01171875, 'logps/chosen': -281.75, 'logps/rejected': -123.75, 'logits/chosen': -0.8701171875, 'logits/rejected': -0.90087890625, 'epoch': 0.46}
 45%|██████████████████████████████████████████▎                                                  | 930/2044 [4:38:38<5:41:03, 18.37s/it] 46%|██████████████████████████████████████████▎                                                  | 931/2044 [4:38:56<5:38:55, 18.27s/it]                                                                                                                                         {'loss': 0.1776, 'grad_norm': 41.66493034118385, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.045166015625, 'rewards/rejected': -2.77734375, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.814453125, 'logps/chosen': -421.5, 'logps/rejected': -95.5, 'logits/chosen': -0.86181640625, 'logits/rejected': -1.05712890625, 'epoch': 0.46}
 46%|██████████████████████████████████████████▎                                                  | 931/2044 [4:38:56<5:38:55, 18.27s/it] 46%|██████████████████████████████████████████▍                                                  | 932/2044 [4:39:15<5:42:55, 18.50s/it]                                                                                                                                         {'loss': 0.3071, 'grad_norm': 45.551021986365875, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.73681640625, 'rewards/rejected': -2.1298828125, 'rewards/accuracies': 0.796875, 'rewards/margins': 2.8671875, 'logps/chosen': -295.125, 'logps/rejected': -117.0, 'logits/chosen': -0.70245361328125, 'logits/rejected': -0.66259765625, 'epoch': 0.46}
 46%|██████████████████████████████████████████▍                                                  | 932/2044 [4:39:15<5:42:55, 18.50s/it] 46%|██████████████████████████████████████████▍                                                  | 933/2044 [4:39:35<5:47:28, 18.77s/it]                                                                                                                                         {'loss': 0.1896, 'grad_norm': 28.916280943235847, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7767333984375, 'rewards/rejected': -2.412109375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.189453125, 'logps/chosen': -304.375, 'logps/rejected': -149.1875, 'logits/chosen': -0.93701171875, 'logits/rejected': -1.03662109375, 'epoch': 0.46}
 46%|██████████████████████████████████████████▍                                                  | 933/2044 [4:39:35<5:47:28, 18.77s/it] 46%|██████████████████████████████████████████▍                                                  | 934/2044 [4:39:53<5:43:50, 18.59s/it]                                                                                                                                         {'loss': 0.1855, 'grad_norm': 24.163868855593893, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.65594482421875, 'rewards/rejected': -2.5078125, 'rewards/accuracies': 0.953125, 'rewards/margins': 3.1640625, 'logps/chosen': -213.4375, 'logps/rejected': -138.875, 'logits/chosen': -0.685302734375, 'logits/rejected': -0.935546875, 'epoch': 0.46}
 46%|██████████████████████████████████████████▍                                                  | 934/2044 [4:39:53<5:43:50, 18.59s/it] 46%|██████████████████████████████████████████▌                                                  | 935/2044 [4:40:11<5:43:39, 18.59s/it]                                                                                                                                         {'loss': 0.2044, 'grad_norm': 36.47027900411128, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.806640625, 'rewards/rejected': -2.3583984375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.16796875, 'logps/chosen': -302.5, 'logps/rejected': -131.9375, 'logits/chosen': -0.98291015625, 'logits/rejected': -0.91943359375, 'epoch': 0.46}
 46%|██████████████████████████████████████████▌                                                  | 935/2044 [4:40:11<5:43:39, 18.59s/it] 46%|██████████████████████████████████████████▌                                                  | 936/2044 [4:40:30<5:43:03, 18.58s/it]                                                                                                                                         {'loss': 0.1834, 'grad_norm': 32.04202327316589, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.02392578125, 'rewards/rejected': -2.4052734375, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.427734375, 'logps/chosen': -339.0, 'logps/rejected': -159.5625, 'logits/chosen': -0.92578125, 'logits/rejected': -0.681640625, 'epoch': 0.46}
 46%|██████████████████████████████████████████▌                                                  | 936/2044 [4:40:30<5:43:03, 18.58s/it] 46%|██████████████████████████████████████████▋                                                  | 937/2044 [4:40:49<5:46:29, 18.78s/it]                                                                                                                                         {'loss': 0.1858, 'grad_norm': 27.23596987589124, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.002197265625, 'rewards/rejected': -2.4345703125, 'rewards/accuracies': 0.875, 'rewards/margins': 3.443359375, 'logps/chosen': -365.875, 'logps/rejected': -116.875, 'logits/chosen': -0.829345703125, 'logits/rejected': -0.7822265625, 'epoch': 0.46}
 46%|██████████████████████████████████████████▋                                                  | 937/2044 [4:40:49<5:46:29, 18.78s/it] 46%|██████████████████████████████████████████▋                                                  | 938/2044 [4:41:08<5:47:04, 18.83s/it]                                                                                                                                         {'loss': 0.1981, 'grad_norm': 38.90627735205163, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.03271484375, 'rewards/rejected': -2.6474609375, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.67578125, 'logps/chosen': -357.5, 'logps/rejected': -137.3125, 'logits/chosen': -0.896484375, 'logits/rejected': -0.96728515625, 'epoch': 0.46}
 46%|██████████████████████████████████████████▋                                                  | 938/2044 [4:41:08<5:47:04, 18.83s/it] 46%|██████████████████████████████████████████▋                                                  | 939/2044 [4:41:26<5:43:55, 18.67s/it]                                                                                                                                         {'loss': 0.2286, 'grad_norm': 30.811537148106908, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8499755859375, 'rewards/rejected': -2.3193359375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.169921875, 'logps/chosen': -269.5625, 'logps/rejected': -129.34375, 'logits/chosen': -0.821044921875, 'logits/rejected': -0.7998046875, 'epoch': 0.46}
 46%|██████████████████████████████████████████▋                                                  | 939/2044 [4:41:26<5:43:55, 18.67s/it] 46%|██████████████████████████████████████████▊                                                  | 940/2044 [4:41:44<5:38:02, 18.37s/it]                                                                                                                                         {'loss': 0.1999, 'grad_norm': 30.27331370237719, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.818115234375, 'rewards/rejected': -2.822265625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.640625, 'logps/chosen': -362.25, 'logps/rejected': -188.0625, 'logits/chosen': -0.97021484375, 'logits/rejected': -0.9346923828125, 'epoch': 0.46}
 46%|██████████████████████████████████████████▊                                                  | 940/2044 [4:41:44<5:38:02, 18.37s/it] 46%|██████████████████████████████████████████▊                                                  | 941/2044 [4:42:01<5:29:22, 17.92s/it]                                                                                                                                         {'loss': 0.1843, 'grad_norm': 26.22746449282092, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.59710693359375, 'rewards/rejected': -2.74072265625, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.3359375, 'logps/chosen': -260.0, 'logps/rejected': -110.6875, 'logits/chosen': -1.06201171875, 'logits/rejected': -0.9423828125, 'epoch': 0.46}
 46%|██████████████████████████████████████████▊                                                  | 941/2044 [4:42:01<5:29:22, 17.92s/it] 46%|██████████████████████████████████████████▊                                                  | 942/2044 [4:42:19<5:32:02, 18.08s/it]                                                                                                                                         {'loss': 0.171, 'grad_norm': 29.75284711283331, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.95751953125, 'rewards/rejected': -2.794921875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.751953125, 'logps/chosen': -291.5, 'logps/rejected': -133.3125, 'logits/chosen': -0.87939453125, 'logits/rejected': -0.8505859375, 'epoch': 0.46}
 46%|██████████████████████████████████████████▊                                                  | 942/2044 [4:42:19<5:32:02, 18.08s/it] 46%|██████████████████████████████████████████▉                                                  | 943/2044 [4:42:37<5:30:25, 18.01s/it]                                                                                                                                         {'loss': 0.2243, 'grad_norm': 25.128878252394728, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.721923828125, 'rewards/rejected': -2.240234375, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.9609375, 'logps/chosen': -241.0, 'logps/rejected': -131.8125, 'logits/chosen': -0.88525390625, 'logits/rejected': -0.814697265625, 'epoch': 0.46}
 46%|██████████████████████████████████████████▉                                                  | 943/2044 [4:42:37<5:30:25, 18.01s/it] 46%|██████████████████████████████████████████▉                                                  | 944/2044 [4:42:56<5:32:53, 18.16s/it]                                                                                                                                         {'loss': 0.1999, 'grad_norm': 32.464765674722386, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7900390625, 'rewards/rejected': -2.552734375, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.3427734375, 'logps/chosen': -283.5, 'logps/rejected': -145.6875, 'logits/chosen': -0.922607421875, 'logits/rejected': -0.91455078125, 'epoch': 0.46}
 46%|██████████████████████████████████████████▉                                                  | 944/2044 [4:42:56<5:32:53, 18.16s/it] 46%|██████████████████████████████████████████▉                                                  | 945/2044 [4:43:14<5:31:37, 18.11s/it]                                                                                                                                         {'loss': 0.2322, 'grad_norm': 29.32536202866537, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.82318115234375, 'rewards/rejected': -2.3701171875, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.197265625, 'logps/chosen': -270.75, 'logps/rejected': -136.625, 'logits/chosen': -0.84912109375, 'logits/rejected': -0.892578125, 'epoch': 0.46}
 46%|██████████████████████████████████████████▉                                                  | 945/2044 [4:43:14<5:31:37, 18.11s/it] 46%|███████████████████████████████████████████                                                  | 946/2044 [4:43:32<5:34:38, 18.29s/it]                                                                                                                                         {'loss': 0.2937, 'grad_norm': 34.49229070550778, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.583648681640625, 'rewards/rejected': -2.2314453125, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.8173828125, 'logps/chosen': -208.9375, 'logps/rejected': -137.75, 'logits/chosen': -0.91259765625, 'logits/rejected': -0.88037109375, 'epoch': 0.46}
 46%|███████████████████████████████████████████                                                  | 946/2044 [4:43:32<5:34:38, 18.29s/it] 46%|███████████████████████████████████████████                                                  | 947/2044 [4:43:49<5:26:44, 17.87s/it]                                                                                                                                         {'loss': 0.2155, 'grad_norm': 25.491991333402705, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.52294921875, 'rewards/rejected': -2.548828125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.0771484375, 'logps/chosen': -308.46875, 'logps/rejected': -162.34375, 'logits/chosen': -0.98779296875, 'logits/rejected': -0.8291015625, 'epoch': 0.46}
 46%|███████████████████████████████████████████                                                  | 947/2044 [4:43:49<5:26:44, 17.87s/it] 46%|███████████████████████████████████████████▏                                                 | 948/2044 [4:44:06<5:21:12, 17.58s/it]                                                                                                                                         {'loss': 0.2612, 'grad_norm': 31.235061026092197, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.640380859375, 'rewards/rejected': -2.5615234375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.203125, 'logps/chosen': -270.0625, 'logps/rejected': -121.4375, 'logits/chosen': -0.912109375, 'logits/rejected': -0.95849609375, 'epoch': 0.46}
 46%|███████████████████████████████████████████▏                                                 | 948/2044 [4:44:06<5:21:12, 17.58s/it] 46%|███████████████████████████████████████████▏                                                 | 949/2044 [4:44:25<5:28:10, 17.98s/it]                                                                                                                                         {'loss': 0.2289, 'grad_norm': 32.19896766307727, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.61962890625, 'rewards/rejected': -2.15869140625, 'rewards/accuracies': 0.90625, 'rewards/margins': 2.7822265625, 'logps/chosen': -260.625, 'logps/rejected': -183.5, 'logits/chosen': -0.9658203125, 'logits/rejected': -0.824462890625, 'epoch': 0.46}
 46%|███████████████████████████████████████████▏                                                 | 949/2044 [4:44:25<5:28:10, 17.98s/it] 46%|███████████████████████████████████████████▏                                                 | 950/2044 [4:44:44<5:33:12, 18.27s/it]                                                                                                                                         {'loss': 0.2415, 'grad_norm': 34.5844397788042, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.741455078125, 'rewards/rejected': -2.404296875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.146484375, 'logps/chosen': -262.0, 'logps/rejected': -139.9375, 'logits/chosen': -1.01806640625, 'logits/rejected': -0.81005859375, 'epoch': 0.46}
 46%|███████████████████████████████████████████▏                                                 | 950/2044 [4:44:44<5:33:12, 18.27s/it] 47%|███████████████████████████████████████████▎                                                 | 951/2044 [4:45:03<5:34:00, 18.34s/it]                                                                                                                                         {'loss': 0.2423, 'grad_norm': 33.22281484320936, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9846420288085938, 'rewards/rejected': -2.24267578125, 'rewards/accuracies': 0.875, 'rewards/margins': 3.2265625, 'logps/chosen': -318.5, 'logps/rejected': -146.1875, 'logits/chosen': -0.904296875, 'logits/rejected': -0.935546875, 'epoch': 0.47}
 47%|███████████████████████████████████████████▎                                                 | 951/2044 [4:45:03<5:34:00, 18.34s/it] 47%|███████████████████████████████████████████▎                                                 | 952/2044 [4:45:22<5:38:57, 18.62s/it]                                                                                                                                         {'loss': 0.2309, 'grad_norm': 33.761746328577686, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.834228515625, 'rewards/rejected': -2.4951171875, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.333984375, 'logps/chosen': -399.375, 'logps/rejected': -204.375, 'logits/chosen': -0.904296875, 'logits/rejected': -1.02734375, 'epoch': 0.47}
 47%|███████████████████████████████████████████▎                                                 | 952/2044 [4:45:22<5:38:57, 18.62s/it] 47%|███████████████████████████████████████████▎                                                 | 953/2044 [4:45:41<5:43:21, 18.88s/it]                                                                                                                                         {'loss': 0.222, 'grad_norm': 29.53216083140478, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7723388671875, 'rewards/rejected': -2.3623046875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.13671875, 'logps/chosen': -316.375, 'logps/rejected': -123.625, 'logits/chosen': -0.794921875, 'logits/rejected': -0.962890625, 'epoch': 0.47}
 47%|███████████████████████████████████████████▎                                                 | 953/2044 [4:45:41<5:43:21, 18.88s/it] 47%|███████████████████████████████████████████▍                                                 | 954/2044 [4:45:59<5:36:40, 18.53s/it]                                                                                                                                         {'loss': 0.2505, 'grad_norm': 39.31800750050913, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5604248046875, 'rewards/rejected': -2.748046875, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.3115234375, 'logps/chosen': -267.25, 'logps/rejected': -137.8125, 'logits/chosen': -0.98583984375, 'logits/rejected': -0.945068359375, 'epoch': 0.47}
 47%|███████████████████████████████████████████▍                                                 | 954/2044 [4:45:59<5:36:40, 18.53s/it] 47%|███████████████████████████████████████████▍                                                 | 955/2044 [4:46:18<5:41:22, 18.81s/it]                                                                                                                                         {'loss': 0.2088, 'grad_norm': 31.551732489155064, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7919921875, 'rewards/rejected': -2.232421875, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.0205078125, 'logps/chosen': -262.875, 'logps/rejected': -143.9375, 'logits/chosen': -0.759033203125, 'logits/rejected': -0.9638671875, 'epoch': 0.47}
 47%|███████████████████████████████████████████▍                                                 | 955/2044 [4:46:18<5:41:22, 18.81s/it] 47%|███████████████████████████████████████████▍                                                 | 956/2044 [4:46:36<5:34:11, 18.43s/it]                                                                                                                                         {'loss': 0.1956, 'grad_norm': 34.557656814329185, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.702880859375, 'rewards/rejected': -2.599609375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.2998046875, 'logps/chosen': -254.0, 'logps/rejected': -140.5, 'logits/chosen': -0.96875, 'logits/rejected': -0.892578125, 'epoch': 0.47}
 47%|███████████████████████████████████████████▍                                                 | 956/2044 [4:46:36<5:34:11, 18.43s/it] 47%|███████████████████████████████████████████▌                                                 | 957/2044 [4:46:56<5:40:10, 18.78s/it]                                                                                                                                         {'loss': 0.2791, 'grad_norm': 29.25843962769604, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.85723876953125, 'rewards/rejected': -2.11376953125, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.9697265625, 'logps/chosen': -338.125, 'logps/rejected': -144.875, 'logits/chosen': -0.8798828125, 'logits/rejected': -0.9150390625, 'epoch': 0.47}
 47%|███████████████████████████████████████████▌                                                 | 957/2044 [4:46:56<5:40:10, 18.78s/it] 47%|███████████████████████████████████████████▌                                                 | 958/2044 [4:47:15<5:41:01, 18.84s/it]                                                                                                                                         {'loss': 0.247, 'grad_norm': 27.0053661058223, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.771728515625, 'rewards/rejected': -2.306640625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.0791015625, 'logps/chosen': -331.625, 'logps/rejected': -136.6875, 'logits/chosen': -0.91162109375, 'logits/rejected': -0.9287109375, 'epoch': 0.47}
 47%|███████████████████████████████████████████▌                                                 | 958/2044 [4:47:15<5:41:01, 18.84s/it] 47%|███████████████████████████████████████████▋                                                 | 959/2044 [4:47:32<5:31:46, 18.35s/it]                                                                                                                                         {'loss': 0.1768, 'grad_norm': 23.716755140373355, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8017578125, 'rewards/rejected': -2.564453125, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.3662109375, 'logps/chosen': -290.875, 'logps/rejected': -114.0625, 'logits/chosen': -0.995849609375, 'logits/rejected': -0.893798828125, 'epoch': 0.47}
 47%|███████████████████████████████████████████▋                                                 | 959/2044 [4:47:32<5:31:46, 18.35s/it] 47%|███████████████████████████████████████████▋                                                 | 960/2044 [4:47:49<5:25:03, 17.99s/it]                                                                                                                                         {'loss': 0.2317, 'grad_norm': 30.92487328415194, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.875, 'rewards/rejected': -2.376953125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.255859375, 'logps/chosen': -331.5, 'logps/rejected': -162.1875, 'logits/chosen': -1.06005859375, 'logits/rejected': -0.907958984375, 'epoch': 0.47}
 47%|███████████████████████████████████████████▋                                                 | 960/2044 [4:47:49<5:25:03, 17.99s/it] 47%|███████████████████████████████████████████▋                                                 | 961/2044 [4:48:08<5:30:50, 18.33s/it]                                                                                                                                         {'loss': 0.2037, 'grad_norm': 30.76059805459345, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.06494140625, 'rewards/rejected': -2.5478515625, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.611328125, 'logps/chosen': -400.0, 'logps/rejected': -130.125, 'logits/chosen': -0.97607421875, 'logits/rejected': -0.9892578125, 'epoch': 0.47}
 47%|███████████████████████████████████████████▋                                                 | 961/2044 [4:48:08<5:30:50, 18.33s/it] 47%|███████████████████████████████████████████▊                                                 | 962/2044 [4:48:27<5:34:49, 18.57s/it]                                                                                                                                         {'loss': 0.2136, 'grad_norm': 31.057425455754487, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.789794921875, 'rewards/rejected': -2.4755859375, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.267578125, 'logps/chosen': -329.8125, 'logps/rejected': -151.4375, 'logits/chosen': -0.904998779296875, 'logits/rejected': -0.86767578125, 'epoch': 0.47}
 47%|███████████████████████████████████████████▊                                                 | 962/2044 [4:48:27<5:34:49, 18.57s/it] 47%|███████████████████████████████████████████▊                                                 | 963/2044 [4:48:44<5:25:18, 18.06s/it]                                                                                                                                         {'loss': 0.1412, 'grad_norm': 18.799975925459147, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.946533203125, 'rewards/rejected': -2.9208984375, 'rewards/accuracies': 0.953125, 'rewards/margins': 3.861328125, 'logps/chosen': -258.375, 'logps/rejected': -95.96875, 'logits/chosen': -0.9033203125, 'logits/rejected': -0.7750244140625, 'epoch': 0.47}
 47%|███████████████████████████████████████████▊                                                 | 963/2044 [4:48:44<5:25:18, 18.06s/it] 47%|███████████████████████████████████████████▊                                                 | 964/2044 [4:49:03<5:28:22, 18.24s/it]                                                                                                                                         {'loss': 0.1805, 'grad_norm': 26.49845856316164, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.26824951171875, 'rewards/rejected': -2.798828125, 'rewards/accuracies': 0.875, 'rewards/margins': 4.06640625, 'logps/chosen': -390.125, 'logps/rejected': -123.4375, 'logits/chosen': -0.9580078125, 'logits/rejected': -0.814697265625, 'epoch': 0.47}
 47%|███████████████████████████████████████████▊                                                 | 964/2044 [4:49:03<5:28:22, 18.24s/it] 47%|███████████████████████████████████████████▉                                                 | 965/2044 [4:49:20<5:20:11, 17.80s/it]                                                                                                                                         {'loss': 0.2397, 'grad_norm': 30.172451917248665, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.744842529296875, 'rewards/rejected': -2.349609375, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.09765625, 'logps/chosen': -311.125, 'logps/rejected': -138.53125, 'logits/chosen': -1.05126953125, 'logits/rejected': -0.876220703125, 'epoch': 0.47}
 47%|███████████████████████████████████████████▉                                                 | 965/2044 [4:49:20<5:20:11, 17.80s/it] 47%|███████████████████████████████████████████▉                                                 | 966/2044 [4:49:38<5:21:19, 17.88s/it]                                                                                                                                         {'loss': 0.1231, 'grad_norm': 16.959027355660186, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.706298828125, 'rewards/rejected': -2.98828125, 'rewards/accuracies': 0.953125, 'rewards/margins': 3.697265625, 'logps/chosen': -339.5, 'logps/rejected': -106.625, 'logits/chosen': -0.970703125, 'logits/rejected': -0.729736328125, 'epoch': 0.47}
 47%|███████████████████████████████████████████▉                                                 | 966/2044 [4:49:38<5:21:19, 17.88s/it] 47%|███████████████████████████████████████████▉                                                 | 967/2044 [4:49:56<5:22:17, 17.96s/it]                                                                                                                                         {'loss': 0.2508, 'grad_norm': 29.212301203798873, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7344970703125, 'rewards/rejected': -2.4013671875, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.138671875, 'logps/chosen': -269.5, 'logps/rejected': -142.6875, 'logits/chosen': -0.95361328125, 'logits/rejected': -0.94384765625, 'epoch': 0.47}
 47%|███████████████████████████████████████████▉                                                 | 967/2044 [4:49:56<5:22:17, 17.96s/it] 47%|████████████████████████████████████████████                                                 | 968/2044 [4:50:14<5:23:01, 18.01s/it]                                                                                                                                         {'loss': 0.2845, 'grad_norm': 44.39277888912465, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.775634765625, 'rewards/rejected': -2.09765625, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.8720703125, 'logps/chosen': -268.125, 'logps/rejected': -161.90625, 'logits/chosen': -0.93896484375, 'logits/rejected': -0.73406982421875, 'epoch': 0.47}
 47%|████████████████████████████████████████████                                                 | 968/2044 [4:50:14<5:23:01, 18.01s/it] 47%|████████████████████████████████████████████                                                 | 969/2044 [4:50:32<5:26:03, 18.20s/it]                                                                                                                                         {'loss': 0.228, 'grad_norm': 39.74193278320072, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.76239013671875, 'rewards/rejected': -2.46875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.232421875, 'logps/chosen': -309.375, 'logps/rejected': -155.3125, 'logits/chosen': -1.02734375, 'logits/rejected': -0.951171875, 'epoch': 0.47}
 47%|████████████████████████████████████████████                                                 | 969/2044 [4:50:32<5:26:03, 18.20s/it] 47%|████████████████████████████████████████████▏                                                | 970/2044 [4:50:48<5:11:27, 17.40s/it]                                                                                                                                         {'loss': 0.1748, 'grad_norm': 21.29855952330786, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7710952758789062, 'rewards/rejected': -3.07421875, 'rewards/accuracies': 0.875, 'rewards/margins': 3.84375, 'logps/chosen': -288.75, 'logps/rejected': -95.09375, 'logits/chosen': -0.8935546875, 'logits/rejected': -0.6882476806640625, 'epoch': 0.47}
 47%|████████████████████████████████████████████▏                                                | 970/2044 [4:50:48<5:11:27, 17.40s/it] 48%|████████████████████████████████████████████▏                                                | 971/2044 [4:51:07<5:18:10, 17.79s/it]                                                                                                                                         {'loss': 0.2684, 'grad_norm': 34.29178928493899, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.81597900390625, 'rewards/rejected': -2.1416015625, 'rewards/accuracies': 0.875, 'rewards/margins': 2.9580078125, 'logps/chosen': -319.125, 'logps/rejected': -154.0, 'logits/chosen': -0.943359375, 'logits/rejected': -0.7718505859375, 'epoch': 0.48}
 48%|████████████████████████████████████████████▏                                                | 971/2044 [4:51:07<5:18:10, 17.79s/it] 48%|████████████████████████████████████████████▏                                                | 972/2044 [4:51:24<5:12:26, 17.49s/it]                                                                                                                                         {'loss': 0.21, 'grad_norm': 31.80490979168543, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.90576171875, 'rewards/rejected': -2.599609375, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.505859375, 'logps/chosen': -337.125, 'logps/rejected': -133.5, 'logits/chosen': -0.916015625, 'logits/rejected': -0.9515380859375, 'epoch': 0.48}
 48%|████████████████████████████████████████████▏                                                | 972/2044 [4:51:24<5:12:26, 17.49s/it] 48%|████████████████████████████████████████████▎                                                | 973/2044 [4:51:41<5:12:01, 17.48s/it]                                                                                                                                         {'loss': 0.1783, 'grad_norm': 32.13313453620277, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.682861328125, 'rewards/rejected': -2.939453125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.623046875, 'logps/chosen': -272.0, 'logps/rejected': -123.5625, 'logits/chosen': -1.02734375, 'logits/rejected': -0.84326171875, 'epoch': 0.48}
 48%|████████████████████████████████████████████▎                                                | 973/2044 [4:51:41<5:12:01, 17.48s/it] 48%|████████████████████████████████████████████▎                                                | 974/2044 [4:51:59<5:16:38, 17.76s/it]                                                                                                                                         {'loss': 0.1783, 'grad_norm': 35.76177378157191, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.994140625, 'rewards/rejected': -2.626953125, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.625, 'logps/chosen': -308.25, 'logps/rejected': -134.5, 'logits/chosen': -0.751220703125, 'logits/rejected': -0.8955078125, 'epoch': 0.48}
 48%|████████████████████████████████████████████▎                                                | 974/2044 [4:51:59<5:16:38, 17.76s/it] 48%|████████████████████████████████████████████▎                                                | 975/2044 [4:52:18<5:21:04, 18.02s/it]                                                                                                                                         {'loss': 0.2246, 'grad_norm': 29.598905730703514, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.947998046875, 'rewards/rejected': -2.56591796875, 'rewards/accuracies': 0.875, 'rewards/margins': 3.513671875, 'logps/chosen': -287.875, 'logps/rejected': -136.125, 'logits/chosen': -0.8074951171875, 'logits/rejected': -0.81689453125, 'epoch': 0.48}
 48%|████████████████████████████████████████████▎                                                | 975/2044 [4:52:18<5:21:04, 18.02s/it] 48%|████████████████████████████████████████████▍                                                | 976/2044 [4:52:36<5:23:05, 18.15s/it]                                                                                                                                         {'loss': 0.2755, 'grad_norm': 41.33361390839415, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.65087890625, 'rewards/rejected': -2.1375732421875, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.78662109375, 'logps/chosen': -270.375, 'logps/rejected': -148.3125, 'logits/chosen': -0.848388671875, 'logits/rejected': -0.7847900390625, 'epoch': 0.48}
 48%|████████████████████████████████████████████▍                                                | 976/2044 [4:52:36<5:23:05, 18.15s/it] 48%|████████████████████████████████████████████▍                                                | 977/2044 [4:52:56<5:30:31, 18.59s/it]                                                                                                                                         {'loss': 0.3296, 'grad_norm': 43.36074375988995, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6103515625, 'rewards/rejected': -2.1240234375, 'rewards/accuracies': 0.78125, 'rewards/margins': 2.7314453125, 'logps/chosen': -313.5, 'logps/rejected': -234.625, 'logits/chosen': -1.04931640625, 'logits/rejected': -1.1884765625, 'epoch': 0.48}
 48%|████████████████████████████████████████████▍                                                | 977/2044 [4:52:56<5:30:31, 18.59s/it] 48%|████████████████████████████████████████████▍                                                | 978/2044 [4:53:15<5:31:56, 18.68s/it]                                                                                                                                         {'loss': 0.1976, 'grad_norm': 31.65075908842491, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.761962890625, 'rewards/rejected': -2.6875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.4482421875, 'logps/chosen': -302.375, 'logps/rejected': -139.1875, 'logits/chosen': -0.86822509765625, 'logits/rejected': -0.900390625, 'epoch': 0.48}
 48%|████████████████████████████████████████████▍                                                | 978/2044 [4:53:15<5:31:56, 18.68s/it] 48%|████████████████████████████████████████████▌                                                | 979/2044 [4:53:35<5:36:22, 18.95s/it]                                                                                                                                         {'loss': 0.2377, 'grad_norm': 40.87866452235714, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.88330078125, 'rewards/rejected': -2.7880859375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.673828125, 'logps/chosen': -356.125, 'logps/rejected': -147.3125, 'logits/chosen': -0.88623046875, 'logits/rejected': -0.91064453125, 'epoch': 0.48}
 48%|████████████████████████████████████████████▌                                                | 979/2044 [4:53:35<5:36:22, 18.95s/it] 48%|████████████████████████████████████████████▌                                                | 980/2044 [4:53:51<5:23:24, 18.24s/it]                                                                                                                                         {'loss': 0.2462, 'grad_norm': 33.50768763047816, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.61163330078125, 'rewards/rejected': -2.8251953125, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.431640625, 'logps/chosen': -264.75, 'logps/rejected': -101.3125, 'logits/chosen': -1.1845703125, 'logits/rejected': -1.01416015625, 'epoch': 0.48}
 48%|████████████████████████████████████████████▌                                                | 980/2044 [4:53:51<5:23:24, 18.24s/it] 48%|████████████████████████████████████████████▋                                                | 981/2044 [4:54:09<5:22:43, 18.22s/it]                                                                                                                                         {'loss': 0.2977, 'grad_norm': 34.23090323101635, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.884033203125, 'rewards/rejected': -1.8935546875, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.7802734375, 'logps/chosen': -319.625, 'logps/rejected': -157.25, 'logits/chosen': -0.95361328125, 'logits/rejected': -0.77392578125, 'epoch': 0.48}
 48%|████████████████████████████████████████████▋                                                | 981/2044 [4:54:09<5:22:43, 18.22s/it] 48%|████████████████████████████████████████████▋                                                | 982/2044 [4:54:28<5:27:23, 18.50s/it]                                                                                                                                         {'loss': 0.1929, 'grad_norm': 24.332341060556335, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.535675048828125, 'rewards/rejected': -2.8740234375, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.412109375, 'logps/chosen': -225.25, 'logps/rejected': -132.1875, 'logits/chosen': -0.904052734375, 'logits/rejected': -0.9248046875, 'epoch': 0.48}
 48%|████████████████████████████████████████████▋                                                | 982/2044 [4:54:28<5:27:23, 18.50s/it] 48%|████████████████████████████████████████████▋                                                | 983/2044 [4:54:47<5:25:19, 18.40s/it]                                                                                                                                         {'loss': 0.1795, 'grad_norm': 31.226411842983044, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.887451171875, 'rewards/rejected': -2.916015625, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.796875, 'logps/chosen': -305.375, 'logps/rejected': -156.125, 'logits/chosen': -0.880126953125, 'logits/rejected': -0.88232421875, 'epoch': 0.48}
 48%|████████████████████████████████████████████▋                                                | 983/2044 [4:54:47<5:25:19, 18.40s/it] 48%|████████████████████████████████████████████▊                                                | 984/2044 [4:55:05<5:24:36, 18.37s/it]                                                                                                                                         {'loss': 0.2347, 'grad_norm': 35.13827694464935, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.844482421875, 'rewards/rejected': -2.33642578125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.18017578125, 'logps/chosen': -349.625, 'logps/rejected': -179.25, 'logits/chosen': -0.97265625, 'logits/rejected': -0.8248291015625, 'epoch': 0.48}
 48%|████████████████████████████████████████████▊                                                | 984/2044 [4:55:05<5:24:36, 18.37s/it] 48%|████████████████████████████████████████████▊                                                | 985/2044 [4:55:22<5:20:02, 18.13s/it]                                                                                                                                         {'loss': 0.1456, 'grad_norm': 22.97349662924569, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.731689453125, 'rewards/rejected': -2.6748046875, 'rewards/accuracies': 0.984375, 'rewards/margins': 3.412109375, 'logps/chosen': -271.625, 'logps/rejected': -134.375, 'logits/chosen': -0.98095703125, 'logits/rejected': -0.78369140625, 'epoch': 0.48}
 48%|████████████████████████████████████████████▊                                                | 985/2044 [4:55:22<5:20:02, 18.13s/it] 48%|████████████████████████████████████████████▊                                                | 986/2044 [4:55:41<5:19:13, 18.10s/it]                                                                                                                                         {'loss': 0.1855, 'grad_norm': 25.111338459417297, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9373779296875, 'rewards/rejected': -2.568359375, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.5068359375, 'logps/chosen': -336.875, 'logps/rejected': -111.25, 'logits/chosen': -0.99658203125, 'logits/rejected': -0.77294921875, 'epoch': 0.48}
 48%|████████████████████████████████████████████▊                                                | 986/2044 [4:55:41<5:19:13, 18.10s/it] 48%|████████████████████████████████████████████▉                                                | 987/2044 [4:55:59<5:20:55, 18.22s/it]                                                                                                                                         {'loss': 0.1994, 'grad_norm': 27.391701627434905, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.92919921875, 'rewards/rejected': -2.296875, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.228515625, 'logps/chosen': -295.5, 'logps/rejected': -135.25, 'logits/chosen': -0.9091796875, 'logits/rejected': -0.9013671875, 'epoch': 0.48}
 48%|████████████████████████████████████████████▉                                                | 987/2044 [4:55:59<5:20:55, 18.22s/it] 48%|████████████████████████████████████████████▉                                                | 988/2044 [4:56:18<5:22:10, 18.31s/it]                                                                                                                                         {'loss': 0.2609, 'grad_norm': 31.801687397478478, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.602783203125, 'rewards/rejected': -2.2919921875, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.892578125, 'logps/chosen': -269.375, 'logps/rejected': -136.1875, 'logits/chosen': -1.029296875, 'logits/rejected': -0.79443359375, 'epoch': 0.48}
 48%|████████████████████████████████████████████▉                                                | 988/2044 [4:56:18<5:22:10, 18.31s/it] 48%|████████████████████████████████████████████▉                                                | 989/2044 [4:56:37<5:28:41, 18.69s/it]                                                                                                                                         {'loss': 0.2997, 'grad_norm': 34.320573278246925, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6888427734375, 'rewards/rejected': -2.31689453125, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.0048828125, 'logps/chosen': -287.375, 'logps/rejected': -131.9375, 'logits/chosen': -0.94580078125, 'logits/rejected': -0.90673828125, 'epoch': 0.48}
 48%|████████████████████████████████████████████▉                                                | 989/2044 [4:56:37<5:28:41, 18.69s/it] 48%|█████████████████████████████████████████████                                                | 990/2044 [4:56:56<5:26:55, 18.61s/it]                                                                                                                                         {'loss': 0.2089, 'grad_norm': 34.852785641984156, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.71142578125, 'rewards/rejected': -2.5888671875, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.30078125, 'logps/chosen': -340.0, 'logps/rejected': -114.9375, 'logits/chosen': -0.99365234375, 'logits/rejected': -0.783935546875, 'epoch': 0.48}
 48%|█████████████████████████████████████████████                                                | 990/2044 [4:56:56<5:26:55, 18.61s/it] 48%|█████████████████████████████████████████████                                                | 991/2044 [4:57:13<5:21:54, 18.34s/it]                                                                                                                                         {'loss': 0.2252, 'grad_norm': 28.677008253907385, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.90283203125, 'rewards/rejected': -2.6376953125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.541015625, 'logps/chosen': -272.75, 'logps/rejected': -128.25, 'logits/chosen': -0.84490966796875, 'logits/rejected': -0.86962890625, 'epoch': 0.48}
 48%|█████████████████████████████████████████████                                                | 991/2044 [4:57:13<5:21:54, 18.34s/it] 49%|█████████████████████████████████████████████▏                                               | 992/2044 [4:57:33<5:27:20, 18.67s/it]                                                                                                                                         {'loss': 0.2237, 'grad_norm': 32.30523773711324, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.853515625, 'rewards/rejected': -2.4345703125, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.291015625, 'logps/chosen': -279.1875, 'logps/rejected': -168.9375, 'logits/chosen': -0.740478515625, 'logits/rejected': -0.8310546875, 'epoch': 0.49}
 49%|█████████████████████████████████████████████▏                                               | 992/2044 [4:57:33<5:27:20, 18.67s/it] 49%|█████████████████████████████████████████████▏                                               | 993/2044 [4:57:52<5:27:48, 18.71s/it]                                                                                                                                         {'loss': 0.2343, 'grad_norm': 33.26877833299485, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.82177734375, 'rewards/rejected': -2.1435546875, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.966796875, 'logps/chosen': -315.1875, 'logps/rejected': -135.84375, 'logits/chosen': -0.945556640625, 'logits/rejected': -0.662109375, 'epoch': 0.49}
 49%|█████████████████████████████████████████████▏                                               | 993/2044 [4:57:52<5:27:48, 18.71s/it] 49%|█████████████████████████████████████████████▏                                               | 994/2044 [4:58:11<5:31:11, 18.93s/it]                                                                                                                                         {'loss': 0.2455, 'grad_norm': 38.60488793451369, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.141845703125, 'rewards/rejected': -2.5693359375, 'rewards/accuracies': 0.8125, 'rewards/margins': 3.708984375, 'logps/chosen': -375.875, 'logps/rejected': -153.3125, 'logits/chosen': -0.74658203125, 'logits/rejected': -0.863037109375, 'epoch': 0.49}
 49%|█████████████████████████████████████████████▏                                               | 994/2044 [4:58:11<5:31:11, 18.93s/it] 49%|█████████████████████████████████████████████▎                                               | 995/2044 [4:58:30<5:29:38, 18.85s/it]                                                                                                                                         {'loss': 0.2072, 'grad_norm': 22.555311063133757, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7850341796875, 'rewards/rejected': -2.466796875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.25390625, 'logps/chosen': -308.25, 'logps/rejected': -106.0, 'logits/chosen': -0.811279296875, 'logits/rejected': -0.781005859375, 'epoch': 0.49}
 49%|█████████████████████████████████████████████▎                                               | 995/2044 [4:58:30<5:29:38, 18.85s/it] 49%|█████████████████████████████████████████████▎                                               | 996/2044 [4:58:49<5:30:06, 18.90s/it]                                                                                                                                         {'loss': 0.2299, 'grad_norm': 33.9332248637253, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8883056640625, 'rewards/rejected': -2.6572265625, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.54296875, 'logps/chosen': -371.375, 'logps/rejected': -122.0625, 'logits/chosen': -0.98681640625, 'logits/rejected': -0.90283203125, 'epoch': 0.49}
 49%|█████████████████████████████████████████████▎                                               | 996/2044 [4:58:49<5:30:06, 18.90s/it] 49%|█████████████████████████████████████████████▎                                               | 997/2044 [4:59:07<5:25:47, 18.67s/it]                                                                                                                                         {'loss': 0.2292, 'grad_norm': 31.05846693308721, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.657470703125, 'rewards/rejected': -2.5615234375, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.2177734375, 'logps/chosen': -293.0, 'logps/rejected': -142.75, 'logits/chosen': -0.871337890625, 'logits/rejected': -0.77520751953125, 'epoch': 0.49}
 49%|█████████████████████████████████████████████▎                                               | 997/2044 [4:59:07<5:25:47, 18.67s/it] 49%|█████████████████████████████████████████████▍                                               | 998/2044 [4:59:26<5:29:48, 18.92s/it]                                                                                                                                         {'loss': 0.3053, 'grad_norm': 38.08969038752354, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.724365234375, 'rewards/rejected': -2.095458984375, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.822265625, 'logps/chosen': -271.375, 'logps/rejected': -163.6875, 'logits/chosen': -0.901611328125, 'logits/rejected': -0.91064453125, 'epoch': 0.49}
 49%|█████████████████████████████████████████████▍                                               | 998/2044 [4:59:26<5:29:48, 18.92s/it] 49%|█████████████████████████████████████████████▍                                               | 999/2044 [4:59:45<5:30:40, 18.99s/it]                                                                                                                                         {'loss': 0.2393, 'grad_norm': 32.41955810233709, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.92724609375, 'rewards/rejected': -2.3232421875, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.251953125, 'logps/chosen': -333.625, 'logps/rejected': -147.75, 'logits/chosen': -0.9775390625, 'logits/rejected': -0.90673828125, 'epoch': 0.49}
 49%|█████████████████████████████████████████████▍                                               | 999/2044 [4:59:45<5:30:40, 18.99s/it] 49%|█████████████████████████████████████████████                                               | 1000/2044 [5:00:05<5:31:16, 19.04s/it]                                                                                                                                         {'loss': 0.2413, 'grad_norm': 33.350648680636134, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.780517578125, 'rewards/rejected': -2.5068359375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.291015625, 'logps/chosen': -330.375, 'logps/rejected': -165.6875, 'logits/chosen': -0.845703125, 'logits/rejected': -0.97119140625, 'epoch': 0.49}
 49%|█████████████████████████████████████████████                                               | 1000/2044 [5:00:05<5:31:16, 19.04s/it] 49%|█████████████████████████████████████████████                                               | 1001/2044 [5:00:24<5:32:49, 19.15s/it]                                                                                                                                         {'loss': 0.2285, 'grad_norm': 37.5787780478172, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.07421875, 'rewards/rejected': -2.4482421875, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.515625, 'logps/chosen': -376.75, 'logps/rejected': -156.25, 'logits/chosen': -0.949462890625, 'logits/rejected': -0.97216796875, 'epoch': 0.49}
 49%|█████████████████████████████████████████████                                               | 1001/2044 [5:00:24<5:32:49, 19.15s/it] 49%|█████████████████████████████████████████████                                               | 1002/2044 [5:00:42<5:27:18, 18.85s/it]                                                                                                                                         {'loss': 0.2444, 'grad_norm': 44.72428677682584, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.892578125, 'rewards/rejected': -2.45703125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.349609375, 'logps/chosen': -350.5, 'logps/rejected': -145.6875, 'logits/chosen': -0.9521484375, 'logits/rejected': -0.820556640625, 'epoch': 0.49}
 49%|█████████████████████████████████████████████                                               | 1002/2044 [5:00:42<5:27:18, 18.85s/it] 49%|█████████████████████████████████████████████▏                                              | 1003/2044 [5:01:01<5:25:14, 18.75s/it]                                                                                                                                         {'loss': 0.2959, 'grad_norm': 32.2615200797588, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4957275390625, 'rewards/rejected': -2.1689453125, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.666015625, 'logps/chosen': -228.8125, 'logps/rejected': -152.25, 'logits/chosen': -1.03173828125, 'logits/rejected': -0.83251953125, 'epoch': 0.49}
 49%|█████████████████████████████████████████████▏                                              | 1003/2044 [5:01:01<5:25:14, 18.75s/it] 49%|█████████████████████████████████████████████▏                                              | 1004/2044 [5:01:20<5:27:15, 18.88s/it]                                                                                                                                         {'loss': 0.2881, 'grad_norm': 277.734442562064, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.868408203125, 'rewards/rejected': -2.2080078125, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.0732421875, 'logps/chosen': -328.0, 'logps/rejected': -496.75, 'logits/chosen': -0.857421875, 'logits/rejected': -0.909423828125, 'epoch': 0.49}
 49%|█████████████████████████████████████████████▏                                              | 1004/2044 [5:01:20<5:27:15, 18.88s/it] 49%|█████████████████████████████████████████████▏                                              | 1005/2044 [5:01:39<5:28:32, 18.97s/it]                                                                                                                                         {'loss': 0.1691, 'grad_norm': 23.87129527564029, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5780029296875, 'rewards/rejected': -2.8271484375, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.40625, 'logps/chosen': -237.9375, 'logps/rejected': -120.1875, 'logits/chosen': -0.86181640625, 'logits/rejected': -0.88916015625, 'epoch': 0.49}
 49%|█████████████████████████████████████████████▏                                              | 1005/2044 [5:01:39<5:28:32, 18.97s/it] 49%|█████████████████████████████████████████████▎                                              | 1006/2044 [5:01:58<5:27:55, 18.96s/it]                                                                                                                                         {'loss': 0.1672, 'grad_norm': 24.25624776812533, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.747314453125, 'rewards/rejected': -2.611328125, 'rewards/accuracies': 0.953125, 'rewards/margins': 3.365234375, 'logps/chosen': -280.875, 'logps/rejected': -139.3125, 'logits/chosen': -0.8916015625, 'logits/rejected': -0.818603515625, 'epoch': 0.49}
 49%|█████████████████████████████████████████████▎                                              | 1006/2044 [5:01:58<5:27:55, 18.96s/it] 49%|█████████████████████████████████████████████▎                                              | 1007/2044 [5:02:16<5:25:42, 18.84s/it]                                                                                                                                         {'loss': 0.2621, 'grad_norm': 33.573329514695416, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.68157958984375, 'rewards/rejected': -2.486572265625, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.166748046875, 'logps/chosen': -305.625, 'logps/rejected': -137.9375, 'logits/chosen': -1.12255859375, 'logits/rejected': -0.802978515625, 'epoch': 0.49}
 49%|█████████████████████████████████████████████▎                                              | 1007/2044 [5:02:16<5:25:42, 18.84s/it] 49%|█████████████████████████████████████████████▎                                              | 1008/2044 [5:02:36<5:27:05, 18.94s/it]                                                                                                                                         {'loss': 0.2246, 'grad_norm': 33.49031237173712, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.30712890625, 'rewards/rejected': -2.4130859375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.72265625, 'logps/chosen': -390.25, 'logps/rejected': -138.875, 'logits/chosen': -0.91748046875, 'logits/rejected': -0.75146484375, 'epoch': 0.49}
 49%|█████████████████████████████████████████████▎                                              | 1008/2044 [5:02:36<5:27:05, 18.94s/it] 49%|█████████████████████████████████████████████▍                                              | 1009/2044 [5:02:55<5:27:07, 18.96s/it]                                                                                                                                         {'loss': 0.2716, 'grad_norm': 32.8531228689718, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8778076171875, 'rewards/rejected': -2.5576171875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.435546875, 'logps/chosen': -333.125, 'logps/rejected': -134.25, 'logits/chosen': -1.052734375, 'logits/rejected': -0.96923828125, 'epoch': 0.49}
 49%|█████████████████████████████████████████████▍                                              | 1009/2044 [5:02:55<5:27:07, 18.96s/it] 49%|█████████████████████████████████████████████▍                                              | 1010/2044 [5:03:11<5:15:21, 18.30s/it]                                                                                                                                         {'loss': 0.1619, 'grad_norm': 23.199928344414758, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8326416015625, 'rewards/rejected': -2.8818359375, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.716796875, 'logps/chosen': -274.5, 'logps/rejected': -103.625, 'logits/chosen': -0.87841796875, 'logits/rejected': -0.9443359375, 'epoch': 0.49}
 49%|█████████████████████████████████████████████▍                                              | 1010/2044 [5:03:11<5:15:21, 18.30s/it] 49%|█████████████████████████████████████████████▌                                              | 1011/2044 [5:03:30<5:16:08, 18.36s/it]                                                                                                                                         {'loss': 0.2633, 'grad_norm': 32.49917148984136, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.611083984375, 'rewards/rejected': -2.4345703125, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.0439453125, 'logps/chosen': -297.625, 'logps/rejected': -223.875, 'logits/chosen': -0.96728515625, 'logits/rejected': -1.021484375, 'epoch': 0.49}
 49%|█████████████████████████████████████████████▌                                              | 1011/2044 [5:03:30<5:16:08, 18.36s/it] 50%|█████████████████████████████████████████████▌                                              | 1012/2044 [5:03:49<5:19:04, 18.55s/it]                                                                                                                                         {'loss': 0.2178, 'grad_norm': 30.07226532052254, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.75933837890625, 'rewards/rejected': -2.2880859375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.044921875, 'logps/chosen': -281.25, 'logps/rejected': -135.3125, 'logits/chosen': -0.87744140625, 'logits/rejected': -0.82177734375, 'epoch': 0.5}
 50%|█████████████████████████████████████████████▌                                              | 1012/2044 [5:03:49<5:19:04, 18.55s/it] 50%|█████████████████████████████████████████████▌                                              | 1013/2044 [5:04:07<5:18:43, 18.55s/it]                                                                                                                                         {'loss': 0.2557, 'grad_norm': 30.027272722590343, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.87744140625, 'rewards/rejected': -2.4140625, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.296875, 'logps/chosen': -280.375, 'logps/rejected': -131.125, 'logits/chosen': -0.83740234375, 'logits/rejected': -0.76123046875, 'epoch': 0.5}
 50%|█████████████████████████████████████████████▌                                              | 1013/2044 [5:04:07<5:18:43, 18.55s/it] 50%|█████████████████████████████████████████████▋                                              | 1014/2044 [5:04:25<5:13:43, 18.27s/it]                                                                                                                                         {'loss': 0.1649, 'grad_norm': 21.83760017973676, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.993408203125, 'rewards/rejected': -2.875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.87109375, 'logps/chosen': -272.25, 'logps/rejected': -98.78125, 'logits/chosen': -0.840087890625, 'logits/rejected': -0.782958984375, 'epoch': 0.5}
 50%|█████████████████████████████████████████████▋                                              | 1014/2044 [5:04:25<5:13:43, 18.27s/it] 50%|█████████████████████████████████████████████▋                                              | 1015/2044 [5:04:41<5:02:34, 17.64s/it]                                                                                                                                         {'loss': 0.2365, 'grad_norm': 28.941145210794847, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.391845703125, 'rewards/rejected': -2.767578125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.154296875, 'logps/chosen': -204.1875, 'logps/rejected': -119.125, 'logits/chosen': -0.95654296875, 'logits/rejected': -0.763427734375, 'epoch': 0.5}
 50%|█████████████████████████████████████████████▋                                              | 1015/2044 [5:04:41<5:02:34, 17.64s/it] 50%|█████████████████████████████████████████████▋                                              | 1016/2044 [5:05:01<5:12:17, 18.23s/it]                                                                                                                                         {'loss': 0.3449, 'grad_norm': 50.536955169791916, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.880859375, 'rewards/rejected': -2.1455078125, 'rewards/accuracies': 0.78125, 'rewards/margins': 3.029296875, 'logps/chosen': -343.5625, 'logps/rejected': -169.375, 'logits/chosen': -0.9453125, 'logits/rejected': -0.99755859375, 'epoch': 0.5}
 50%|█████████████████████████████████████████████▋                                              | 1016/2044 [5:05:01<5:12:17, 18.23s/it] 50%|█████████████████████████████████████████████▊                                              | 1017/2044 [5:05:19<5:13:27, 18.31s/it]                                                                                                                                         {'loss': 0.2643, 'grad_norm': 35.993171164392145, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.97265625, 'rewards/rejected': -2.1767578125, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.146484375, 'logps/chosen': -338.875, 'logps/rejected': -174.875, 'logits/chosen': -0.826171875, 'logits/rejected': -0.830322265625, 'epoch': 0.5}
 50%|█████████████████████████████████████████████▊                                              | 1017/2044 [5:05:19<5:13:27, 18.31s/it] 50%|█████████████████████████████████████████████▊                                              | 1018/2044 [5:05:37<5:07:13, 17.97s/it]                                                                                                                                         {'loss': 0.2455, 'grad_norm': 36.34814556483713, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8316650390625, 'rewards/rejected': -2.8720703125, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.703125, 'logps/chosen': -287.5, 'logps/rejected': -140.5625, 'logits/chosen': -1.03271484375, 'logits/rejected': -0.8837890625, 'epoch': 0.5}
 50%|█████████████████████████████████████████████▊                                              | 1018/2044 [5:05:37<5:07:13, 17.97s/it] 50%|█████████████████████████████████████████████▊                                              | 1019/2044 [5:05:56<5:13:14, 18.34s/it]                                                                                                                                         {'loss': 0.254, 'grad_norm': 30.556373140118808, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6307373046875, 'rewards/rejected': -2.7138671875, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.3515625, 'logps/chosen': -278.75, 'logps/rejected': -134.8125, 'logits/chosen': -0.953125, 'logits/rejected': -0.89501953125, 'epoch': 0.5}
 50%|█████████████████████████████████████████████▊                                              | 1019/2044 [5:05:56<5:13:14, 18.34s/it] 50%|█████████████████████████████████████████████▉                                              | 1020/2044 [5:06:14<5:13:29, 18.37s/it]                                                                                                                                         {'loss': 0.3031, 'grad_norm': 72.59411879245833, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5042877197265625, 'rewards/rejected': -2.71875, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.216796875, 'logps/chosen': -292.75, 'logps/rejected': -236.8125, 'logits/chosen': -0.797088623046875, 'logits/rejected': -0.96142578125, 'epoch': 0.5}
 50%|█████████████████████████████████████████████▉                                              | 1020/2044 [5:06:14<5:13:29, 18.37s/it] 50%|█████████████████████████████████████████████▉                                              | 1021/2044 [5:06:32<5:08:33, 18.10s/it]                                                                                                                                         {'loss': 0.273, 'grad_norm': 32.98342347918686, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.880615234375, 'rewards/rejected': -2.43310546875, 'rewards/accuracies': 0.8125, 'rewards/margins': 3.31689453125, 'logps/chosen': -320.875, 'logps/rejected': -130.8125, 'logits/chosen': -0.83642578125, 'logits/rejected': -0.96142578125, 'epoch': 0.5}
 50%|█████████████████████████████████████████████▉                                              | 1021/2044 [5:06:32<5:08:33, 18.10s/it] 50%|██████████████████████████████████████████████                                              | 1022/2044 [5:06:50<5:08:17, 18.10s/it]                                                                                                                                         {'loss': 0.1667, 'grad_norm': 24.211597776507748, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.802001953125, 'rewards/rejected': -2.9326171875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.732421875, 'logps/chosen': -291.5, 'logps/rejected': -111.0, 'logits/chosen': -0.837158203125, 'logits/rejected': -0.811767578125, 'epoch': 0.5}
 50%|██████████████████████████████████████████████                                              | 1022/2044 [5:06:50<5:08:17, 18.10s/it] 50%|██████████████████████████████████████████████                                              | 1023/2044 [5:07:09<5:13:02, 18.40s/it]                                                                                                                                         {'loss': 0.2016, 'grad_norm': 26.774072469515595, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.948974609375, 'rewards/rejected': -2.46875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.419921875, 'logps/chosen': -302.875, 'logps/rejected': -151.0625, 'logits/chosen': -0.93212890625, 'logits/rejected': -0.8564453125, 'epoch': 0.5}
 50%|██████████████████████████████████████████████                                              | 1023/2044 [5:07:09<5:13:02, 18.40s/it] 50%|██████████████████████████████████████████████                                              | 1024/2044 [5:07:28<5:18:05, 18.71s/it]                                                                                                                                         {'loss': 0.3611, 'grad_norm': 47.682136856798174, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.70703125, 'rewards/rejected': -2.03076171875, 'rewards/accuracies': 0.796875, 'rewards/margins': 2.736328125, 'logps/chosen': -323.875, 'logps/rejected': -193.1875, 'logits/chosen': -0.8857421875, 'logits/rejected': -0.81982421875, 'epoch': 0.5}
 50%|██████████████████████████████████████████████                                              | 1024/2044 [5:07:28<5:18:05, 18.71s/it] 50%|██████████████████████████████████████████████▏                                             | 1025/2044 [5:07:47<5:15:47, 18.59s/it]                                                                                                                                         {'loss': 0.1729, 'grad_norm': 21.839410481847548, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9019775390625, 'rewards/rejected': -2.681640625, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.5859375, 'logps/chosen': -331.875, 'logps/rejected': -140.125, 'logits/chosen': -0.9287109375, 'logits/rejected': -0.85546875, 'epoch': 0.5}
 50%|██████████████████████████████████████████████▏                                             | 1025/2044 [5:07:47<5:15:47, 18.59s/it] 50%|██████████████████████████████████████████████▏                                             | 1026/2044 [5:08:04<5:11:40, 18.37s/it]                                                                                                                                         {'loss': 0.2389, 'grad_norm': 33.03767398899629, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6807861328125, 'rewards/rejected': -2.5927734375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.275390625, 'logps/chosen': -283.625, 'logps/rejected': -122.34375, 'logits/chosen': -0.93359375, 'logits/rejected': -0.76904296875, 'epoch': 0.5}
 50%|██████████████████████████████████████████████▏                                             | 1026/2044 [5:08:04<5:11:40, 18.37s/it] 50%|██████████████████████████████████████████████▏                                             | 1027/2044 [5:08:23<5:13:40, 18.51s/it]                                                                                                                                         {'loss': 0.2623, 'grad_norm': 39.64857239551294, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.82684326171875, 'rewards/rejected': -2.470703125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.296875, 'logps/chosen': -356.0, 'logps/rejected': -139.0625, 'logits/chosen': -1.06396484375, 'logits/rejected': -0.9052734375, 'epoch': 0.5}
 50%|██████████████████████████████████████████████▏                                             | 1027/2044 [5:08:23<5:13:40, 18.51s/it] 50%|██████████████████████████████████████████████▎                                             | 1028/2044 [5:08:41<5:07:47, 18.18s/it]                                                                                                                                         {'loss': 0.1713, 'grad_norm': 20.801471016014332, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.753387451171875, 'rewards/rejected': -2.6337890625, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.38671875, 'logps/chosen': -255.75, 'logps/rejected': -101.0625, 'logits/chosen': -1.02685546875, 'logits/rejected': -0.778564453125, 'epoch': 0.5}
 50%|██████████████████████████████████████████████▎                                             | 1028/2044 [5:08:41<5:07:47, 18.18s/it] 50%|██████████████████████████████████████████████▎                                             | 1029/2044 [5:09:00<5:14:18, 18.58s/it]                                                                                                                                         {'loss': 0.25, 'grad_norm': 29.468983686503623, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6905517578125, 'rewards/rejected': -2.3466796875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.0390625, 'logps/chosen': -310.5625, 'logps/rejected': -156.875, 'logits/chosen': -0.89111328125, 'logits/rejected': -0.8828125, 'epoch': 0.5}
 50%|██████████████████████████████████████████████▎                                             | 1029/2044 [5:09:00<5:14:18, 18.58s/it] 50%|██████████████████████████████████████████████▎                                             | 1030/2044 [5:09:18<5:09:16, 18.30s/it]                                                                                                                                         {'loss': 0.1725, 'grad_norm': 22.701175236404193, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.953857421875, 'rewards/rejected': -2.6396484375, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.59375, 'logps/chosen': -280.4375, 'logps/rejected': -104.3125, 'logits/chosen': -0.90771484375, 'logits/rejected': -0.771484375, 'epoch': 0.5}
 50%|██████████████████████████████████████████████▎                                             | 1030/2044 [5:09:18<5:09:16, 18.30s/it] 50%|██████████████████████████████████████████████▍                                             | 1031/2044 [5:09:36<5:10:05, 18.37s/it]                                                                                                                                         {'loss': 0.1974, 'grad_norm': 31.263973672667383, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.513824462890625, 'rewards/rejected': -2.70703125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.224609375, 'logps/chosen': -232.5, 'logps/rejected': -131.71875, 'logits/chosen': -0.9541015625, 'logits/rejected': -0.93896484375, 'epoch': 0.5}
 50%|██████████████████████████████████████████████▍                                             | 1031/2044 [5:09:36<5:10:05, 18.37s/it] 50%|██████████████████████████████████████████████▍                                             | 1032/2044 [5:09:55<5:08:48, 18.31s/it]                                                                                                                                         {'loss': 0.1898, 'grad_norm': 28.18113382509418, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.789794921875, 'rewards/rejected': -2.919921875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.7109375, 'logps/chosen': -300.25, 'logps/rejected': -117.3125, 'logits/chosen': -0.82568359375, 'logits/rejected': -0.7763671875, 'epoch': 0.5}
 50%|██████████████████████████████████████████████▍                                             | 1032/2044 [5:09:55<5:08:48, 18.31s/it] 51%|██████████████████████████████████████████████▍                                             | 1033/2044 [5:10:13<5:07:30, 18.25s/it]                                                                                                                                         {'loss': 0.1999, 'grad_norm': 27.107281399170358, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.731201171875, 'rewards/rejected': -2.7607421875, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.490234375, 'logps/chosen': -297.875, 'logps/rejected': -125.1875, 'logits/chosen': -0.86669921875, 'logits/rejected': -0.86376953125, 'epoch': 0.51}
 51%|██████████████████████████████████████████████▍                                             | 1033/2044 [5:10:13<5:07:30, 18.25s/it] 51%|██████████████████████████████████████████████▌                                             | 1034/2044 [5:10:31<5:05:51, 18.17s/it]                                                                                                                                         {'loss': 0.2477, 'grad_norm': 36.88764533766624, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6195068359375, 'rewards/rejected': -2.498046875, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.1171875, 'logps/chosen': -286.375, 'logps/rejected': -161.0625, 'logits/chosen': -1.05126953125, 'logits/rejected': -0.85302734375, 'epoch': 0.51}
 51%|██████████████████████████████████████████████▌                                             | 1034/2044 [5:10:31<5:05:51, 18.17s/it] 51%|██████████████████████████████████████████████▌                                             | 1035/2044 [5:10:46<4:53:53, 17.48s/it]                                                                                                                                         {'loss': 0.1863, 'grad_norm': 24.28309583848643, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.363525390625, 'rewards/rejected': -3.108642578125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.4677734375, 'logps/chosen': -259.125, 'logps/rejected': -103.625, 'logits/chosen': -1.01806640625, 'logits/rejected': -0.89453125, 'epoch': 0.51}
 51%|██████████████████████████████████████████████▌                                             | 1035/2044 [5:10:47<4:53:53, 17.48s/it] 51%|██████████████████████████████████████████████▋                                             | 1036/2044 [5:11:04<4:54:49, 17.55s/it]                                                                                                                                         {'loss': 0.1946, 'grad_norm': 24.607018187881394, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7491455078125, 'rewards/rejected': -2.8017578125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.546875, 'logps/chosen': -281.25, 'logps/rejected': -146.875, 'logits/chosen': -0.76171875, 'logits/rejected': -0.704132080078125, 'epoch': 0.51}
 51%|██████████████████████████████████████████████▋                                             | 1036/2044 [5:11:04<4:54:49, 17.55s/it] 51%|██████████████████████████████████████████████▋                                             | 1037/2044 [5:11:23<4:58:26, 17.78s/it]                                                                                                                                         {'loss': 0.2189, 'grad_norm': 25.716138291921638, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9521484375, 'rewards/rejected': -2.81640625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.76953125, 'logps/chosen': -281.25, 'logps/rejected': -123.625, 'logits/chosen': -0.880126953125, 'logits/rejected': -0.788330078125, 'epoch': 0.51}
 51%|██████████████████████████████████████████████▋                                             | 1037/2044 [5:11:23<4:58:26, 17.78s/it] 51%|██████████████████████████████████████████████▋                                             | 1038/2044 [5:11:42<5:05:06, 18.20s/it]                                                                                                                                         {'loss': 0.2892, 'grad_norm': 37.74550093647967, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8026123046875, 'rewards/rejected': -2.287109375, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.086669921875, 'logps/chosen': -273.75, 'logps/rejected': -153.4375, 'logits/chosen': -1.02685546875, 'logits/rejected': -0.85302734375, 'epoch': 0.51}
 51%|██████████████████████████████████████████████▋                                             | 1038/2044 [5:11:42<5:05:06, 18.20s/it] 51%|██████████████████████████████████████████████▊                                             | 1039/2044 [5:12:01<5:08:07, 18.40s/it]                                                                                                                                         {'loss': 0.2812, 'grad_norm': 35.32063063357394, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.71728515625, 'rewards/rejected': -2.5029296875, 'rewards/accuracies': 0.875, 'rewards/margins': 3.2216796875, 'logps/chosen': -288.875, 'logps/rejected': -145.9375, 'logits/chosen': -0.9658203125, 'logits/rejected': -0.78515625, 'epoch': 0.51}
 51%|██████████████████████████████████████████████▊                                             | 1039/2044 [5:12:01<5:08:07, 18.40s/it] 51%|██████████████████████████████████████████████▊                                             | 1040/2044 [5:12:17<5:00:26, 17.95s/it]                                                                                                                                         {'loss': 0.1877, 'grad_norm': 26.249074723631363, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7862548828125, 'rewards/rejected': -2.828125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.61328125, 'logps/chosen': -266.125, 'logps/rejected': -115.5, 'logits/chosen': -0.8917236328125, 'logits/rejected': -0.75830078125, 'epoch': 0.51}
 51%|██████████████████████████████████████████████▊                                             | 1040/2044 [5:12:17<5:00:26, 17.95s/it] 51%|██████████████████████████████████████████████▊                                             | 1041/2044 [5:12:35<4:56:37, 17.74s/it]                                                                                                                                         {'loss': 0.2528, 'grad_norm': 26.16527565166658, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.570556640625, 'rewards/rejected': -2.6552734375, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.2236328125, 'logps/chosen': -257.0, 'logps/rejected': -141.0, 'logits/chosen': -1.01123046875, 'logits/rejected': -0.91650390625, 'epoch': 0.51}
 51%|██████████████████████████████████████████████▊                                             | 1041/2044 [5:12:35<4:56:37, 17.74s/it] 51%|██████████████████████████████████████████████▉                                             | 1042/2044 [5:12:54<5:03:08, 18.15s/it]                                                                                                                                         {'loss': 0.2419, 'grad_norm': 31.00834298530251, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.785888671875, 'rewards/rejected': -2.30712890625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.0927734375, 'logps/chosen': -276.9375, 'logps/rejected': -146.5625, 'logits/chosen': -0.888427734375, 'logits/rejected': -0.85693359375, 'epoch': 0.51}
 51%|██████████████████████████████████████████████▉                                             | 1042/2044 [5:12:54<5:03:08, 18.15s/it] 51%|██████████████████████████████████████████████▉                                             | 1043/2044 [5:13:13<5:08:23, 18.49s/it]                                                                                                                                         {'loss': 0.2059, 'grad_norm': 29.364344579501612, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.85418701171875, 'rewards/rejected': -2.6494140625, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.50390625, 'logps/chosen': -301.625, 'logps/rejected': -115.6875, 'logits/chosen': -1.005859375, 'logits/rejected': -0.7613525390625, 'epoch': 0.51}
 51%|██████████████████████████████████████████████▉                                             | 1043/2044 [5:13:13<5:08:23, 18.49s/it] 51%|██████████████████████████████████████████████▉                                             | 1044/2044 [5:13:32<5:09:20, 18.56s/it]                                                                                                                                         {'loss': 0.1739, 'grad_norm': 27.041538945932235, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8916015625, 'rewards/rejected': -2.68359375, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.576171875, 'logps/chosen': -340.875, 'logps/rejected': -157.8125, 'logits/chosen': -0.833984375, 'logits/rejected': -0.80517578125, 'epoch': 0.51}
 51%|██████████████████████████████████████████████▉                                             | 1044/2044 [5:13:32<5:09:20, 18.56s/it] 51%|███████████████████████████████████████████████                                             | 1045/2044 [5:13:50<5:08:07, 18.51s/it]                                                                                                                                         {'loss': 0.2025, 'grad_norm': 26.61351603562042, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.683837890625, 'rewards/rejected': -2.81640625, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.5, 'logps/chosen': -273.375, 'logps/rejected': -104.5, 'logits/chosen': -0.8310546875, 'logits/rejected': -0.90966796875, 'epoch': 0.51}
 51%|███████████████████████████████████████████████                                             | 1045/2044 [5:13:50<5:08:07, 18.51s/it] 51%|███████████████████████████████████████████████                                             | 1046/2044 [5:14:07<4:59:09, 17.99s/it]                                                                                                                                         {'loss': 0.1302, 'grad_norm': 25.74521731054304, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7904052734375, 'rewards/rejected': -3.349609375, 'rewards/accuracies': 0.953125, 'rewards/margins': 4.138671875, 'logps/chosen': -360.25, 'logps/rejected': -121.6875, 'logits/chosen': -0.947265625, 'logits/rejected': -0.6600341796875, 'epoch': 0.51}
 51%|███████████████████████████████████████████████                                             | 1046/2044 [5:14:07<4:59:09, 17.99s/it] 51%|███████████████████████████████████████████████▏                                            | 1047/2044 [5:14:24<4:55:48, 17.80s/it]                                                                                                                                         {'loss': 0.2669, 'grad_norm': 28.40362327260563, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.608154296875, 'rewards/rejected': -2.73828125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.3515625, 'logps/chosen': -290.875, 'logps/rejected': -140.0625, 'logits/chosen': -0.92431640625, 'logits/rejected': -0.79296875, 'epoch': 0.51}
 51%|███████████████████████████████████████████████▏                                            | 1047/2044 [5:14:24<4:55:48, 17.80s/it] 51%|███████████████████████████████████████████████▏                                            | 1048/2044 [5:14:42<4:55:32, 17.80s/it]                                                                                                                                         {'loss': 0.1669, 'grad_norm': 20.638291033818003, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8985595703125, 'rewards/rejected': -2.7255859375, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.626953125, 'logps/chosen': -238.25, 'logps/rejected': -99.875, 'logits/chosen': -0.70556640625, 'logits/rejected': -0.585968017578125, 'epoch': 0.51}
 51%|███████████████████████████████████████████████▏                                            | 1048/2044 [5:14:42<4:55:32, 17.80s/it] 51%|███████████████████████████████████████████████▏                                            | 1049/2044 [5:15:01<4:58:52, 18.02s/it]                                                                                                                                         {'loss': 0.2052, 'grad_norm': 34.65625902145385, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9111328125, 'rewards/rejected': -2.701171875, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.611328125, 'logps/chosen': -343.0, 'logps/rejected': -131.9375, 'logits/chosen': -0.8046875, 'logits/rejected': -0.868408203125, 'epoch': 0.51}
 51%|███████████████████████████████████████████████▏                                            | 1049/2044 [5:15:01<4:58:52, 18.02s/it] 51%|███████████████████████████████████████████████▎                                            | 1050/2044 [5:15:19<4:58:04, 17.99s/it]                                                                                                                                         {'loss': 0.1647, 'grad_norm': 21.369734528982924, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.92236328125, 'rewards/rejected': -2.849609375, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.771484375, 'logps/chosen': -266.75, 'logps/rejected': -106.375, 'logits/chosen': -0.912109375, 'logits/rejected': -0.92578125, 'epoch': 0.51}
 51%|███████████████████████████████████████████████▎                                            | 1050/2044 [5:15:19<4:58:04, 17.99s/it] 51%|███████████████████████████████████████████████▎                                            | 1051/2044 [5:15:37<4:59:25, 18.09s/it]                                                                                                                                         {'loss': 0.1626, 'grad_norm': 26.18178040917471, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.809326171875, 'rewards/rejected': -2.748046875, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.560546875, 'logps/chosen': -280.875, 'logps/rejected': -111.0625, 'logits/chosen': -0.827880859375, 'logits/rejected': -0.9736328125, 'epoch': 0.51}
 51%|███████████████████████████████████████████████▎                                            | 1051/2044 [5:15:37<4:59:25, 18.09s/it] 51%|███████████████████████████████████████████████▎                                            | 1052/2044 [5:15:56<5:03:52, 18.38s/it]                                                                                                                                         {'loss': 0.2366, 'grad_norm': 26.680871233763547, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.89794921875, 'rewards/rejected': -2.458984375, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.357421875, 'logps/chosen': -309.625, 'logps/rejected': -112.875, 'logits/chosen': -1.0439453125, 'logits/rejected': -0.78369140625, 'epoch': 0.51}
 51%|███████████████████████████████████████████████▎                                            | 1052/2044 [5:15:56<5:03:52, 18.38s/it] 52%|███████████████████████████████████████████████▍                                            | 1053/2044 [5:16:16<5:09:50, 18.76s/it]                                                                                                                                         {'loss': 0.2952, 'grad_norm': 32.81271620484895, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.841064453125, 'rewards/rejected': -2.0833740234375, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.92236328125, 'logps/chosen': -256.5, 'logps/rejected': -150.375, 'logits/chosen': -0.886474609375, 'logits/rejected': -0.97119140625, 'epoch': 0.52}
 52%|███████████████████████████████████████████████▍                                            | 1053/2044 [5:16:16<5:09:50, 18.76s/it] 52%|███████████████████████████████████████████████▍                                            | 1054/2044 [5:16:34<5:07:21, 18.63s/it]                                                                                                                                         {'loss': 0.1964, 'grad_norm': 25.737583672909423, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.98876953125, 'rewards/rejected': -2.65625, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.642578125, 'logps/chosen': -343.25, 'logps/rejected': -113.65625, 'logits/chosen': -0.93212890625, 'logits/rejected': -0.850830078125, 'epoch': 0.52}
 52%|███████████████████████████████████████████████▍                                            | 1054/2044 [5:16:34<5:07:21, 18.63s/it] 52%|███████████████████████████████████████████████▍                                            | 1055/2044 [5:16:54<5:11:31, 18.90s/it]                                                                                                                                         {'loss': 0.2344, 'grad_norm': 35.63012710117272, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.875732421875, 'rewards/rejected': -2.775390625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.65234375, 'logps/chosen': -312.875, 'logps/rejected': -145.9375, 'logits/chosen': -0.9853515625, 'logits/rejected': -0.93017578125, 'epoch': 0.52}
 52%|███████████████████████████████████████████████▍                                            | 1055/2044 [5:16:54<5:11:31, 18.90s/it] 52%|███████████████████████████████████████████████▌                                            | 1056/2044 [5:17:12<5:11:14, 18.90s/it]                                                                                                                                         {'loss': 0.2584, 'grad_norm': 45.07592410112513, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.543060302734375, 'rewards/rejected': -2.42578125, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.96484375, 'logps/chosen': -281.75, 'logps/rejected': -160.0, 'logits/chosen': -0.8631591796875, 'logits/rejected': -0.94189453125, 'epoch': 0.52}
 52%|███████████████████████████████████████████████▌                                            | 1056/2044 [5:17:12<5:11:14, 18.90s/it] 52%|███████████████████████████████████████████████▌                                            | 1057/2044 [5:17:32<5:14:11, 19.10s/it]                                                                                                                                         {'loss': 0.3503, 'grad_norm': 34.3214336721487, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4377593994140625, 'rewards/rejected': -2.0712890625, 'rewards/accuracies': 0.796875, 'rewards/margins': 2.5087890625, 'logps/chosen': -233.625, 'logps/rejected': -135.0, 'logits/chosen': -0.88916015625, 'logits/rejected': -0.82861328125, 'epoch': 0.52}
 52%|███████████████████████████████████████████████▌                                            | 1057/2044 [5:17:32<5:14:11, 19.10s/it] 52%|███████████████████████████████████████████████▌                                            | 1058/2044 [5:17:52<5:16:28, 19.26s/it]                                                                                                                                         {'loss': 0.2773, 'grad_norm': 39.11516355809456, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.699951171875, 'rewards/rejected': -2.3115234375, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.0126953125, 'logps/chosen': -352.75, 'logps/rejected': -138.75, 'logits/chosen': -1.0830078125, 'logits/rejected': -0.888916015625, 'epoch': 0.52}
 52%|███████████████████████████████████████████████▌                                            | 1058/2044 [5:17:52<5:16:28, 19.26s/it] 52%|███████████████████████████████████████████████▋                                            | 1059/2044 [5:18:10<5:10:34, 18.92s/it]                                                                                                                                         {'loss': 0.2214, 'grad_norm': 27.086988066399616, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.827880859375, 'rewards/rejected': -2.6083984375, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.435546875, 'logps/chosen': -339.375, 'logps/rejected': -186.125, 'logits/chosen': -0.98779296875, 'logits/rejected': -0.921875, 'epoch': 0.52}
 52%|███████████████████████████████████████████████▋                                            | 1059/2044 [5:18:10<5:10:34, 18.92s/it] 52%|███████████████████████████████████████████████▋                                            | 1060/2044 [5:18:28<5:08:39, 18.82s/it]                                                                                                                                         {'loss': 0.2446, 'grad_norm': 30.623478543149616, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5587158203125, 'rewards/rejected': -2.7119140625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.26953125, 'logps/chosen': -313.25, 'logps/rejected': -129.6875, 'logits/chosen': -0.9677734375, 'logits/rejected': -0.942138671875, 'epoch': 0.52}
 52%|███████████████████████████████████████████████▋                                            | 1060/2044 [5:18:28<5:08:39, 18.82s/it] 52%|███████████████████████████████████████████████▊                                            | 1061/2044 [5:18:47<5:08:05, 18.81s/it]                                                                                                                                         {'loss': 0.1652, 'grad_norm': 32.79447086254639, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.93505859375, 'rewards/rejected': -2.8828125, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.818359375, 'logps/chosen': -329.5, 'logps/rejected': -136.875, 'logits/chosen': -0.998046875, 'logits/rejected': -0.8896484375, 'epoch': 0.52}
 52%|███████████████████████████████████████████████▊                                            | 1061/2044 [5:18:47<5:08:05, 18.81s/it] 52%|███████████████████████████████████████████████▊                                            | 1062/2044 [5:19:04<4:56:16, 18.10s/it]                                                                                                                                         {'loss': 0.1702, 'grad_norm': 25.399539167954014, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7596435546875, 'rewards/rejected': -2.9921875, 'rewards/accuracies': 0.953125, 'rewards/margins': 3.75390625, 'logps/chosen': -255.8125, 'logps/rejected': -107.8125, 'logits/chosen': -0.84130859375, 'logits/rejected': -0.84228515625, 'epoch': 0.52}
 52%|███████████████████████████████████████████████▊                                            | 1062/2044 [5:19:04<4:56:16, 18.10s/it] 52%|███████████████████████████████████████████████▊                                            | 1063/2044 [5:19:22<4:56:31, 18.14s/it]                                                                                                                                         {'loss': 0.1735, 'grad_norm': 21.48072630697532, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8167724609375, 'rewards/rejected': -2.658203125, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.4765625, 'logps/chosen': -255.9375, 'logps/rejected': -111.9375, 'logits/chosen': -1.05224609375, 'logits/rejected': -0.78515625, 'epoch': 0.52}
 52%|███████████████████████████████████████████████▊                                            | 1063/2044 [5:19:22<4:56:31, 18.14s/it] 52%|███████████████████████████████████████████████▉                                            | 1064/2044 [5:19:40<4:57:20, 18.20s/it]                                                                                                                                         {'loss': 0.339, 'grad_norm': 31.120578018350834, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.38623046875, 'rewards/rejected': -2.16259765625, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.5478515625, 'logps/chosen': -187.75, 'logps/rejected': -124.71875, 'logits/chosen': -0.9384765625, 'logits/rejected': -0.841796875, 'epoch': 0.52}
 52%|███████████████████████████████████████████████▉                                            | 1064/2044 [5:19:40<4:57:20, 18.20s/it] 52%|███████████████████████████████████████████████▉                                            | 1065/2044 [5:19:59<5:01:41, 18.49s/it]                                                                                                                                         {'loss': 0.1435, 'grad_norm': 23.072961249694472, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.92236328125, 'rewards/rejected': -3.193359375, 'rewards/accuracies': 0.953125, 'rewards/margins': 4.109375, 'logps/chosen': -371.0, 'logps/rejected': -119.0625, 'logits/chosen': -1.0048828125, 'logits/rejected': -0.94482421875, 'epoch': 0.52}
 52%|███████████████████████████████████████████████▉                                            | 1065/2044 [5:19:59<5:01:41, 18.49s/it] 52%|███████████████████████████████████████████████▉                                            | 1066/2044 [5:20:18<5:02:00, 18.53s/it]                                                                                                                                         {'loss': 0.1993, 'grad_norm': 25.470918402247154, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8173828125, 'rewards/rejected': -2.6044921875, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.419921875, 'logps/chosen': -301.0, 'logps/rejected': -129.5625, 'logits/chosen': -0.81591796875, 'logits/rejected': -0.82275390625, 'epoch': 0.52}
 52%|███████████████████████████████████████████████▉                                            | 1066/2044 [5:20:18<5:02:00, 18.53s/it] 52%|████████████████████████████████████████████████                                            | 1067/2044 [5:20:36<4:59:26, 18.39s/it]                                                                                                                                         {'loss': 0.1923, 'grad_norm': 27.46952236831562, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7939453125, 'rewards/rejected': -2.9716796875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.765625, 'logps/chosen': -281.375, 'logps/rejected': -141.25, 'logits/chosen': -0.820068359375, 'logits/rejected': -0.84716796875, 'epoch': 0.52}
 52%|████████████████████████████████████████████████                                            | 1067/2044 [5:20:36<4:59:26, 18.39s/it] 52%|████████████████████████████████████████████████                                            | 1068/2044 [5:20:54<4:58:23, 18.34s/it]                                                                                                                                         {'loss': 0.2184, 'grad_norm': 32.83940987592508, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.839599609375, 'rewards/rejected': -2.67626953125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.5146484375, 'logps/chosen': -292.125, 'logps/rejected': -142.5625, 'logits/chosen': -0.93359375, 'logits/rejected': -0.7109375, 'epoch': 0.52}
 52%|████████████████████████████████████████████████                                            | 1068/2044 [5:20:54<4:58:23, 18.34s/it] 52%|████████████████████████████████████████████████                                            | 1069/2044 [5:21:14<5:04:16, 18.72s/it]                                                                                                                                         {'loss': 0.2297, 'grad_norm': 36.73121911189057, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.99658203125, 'rewards/rejected': -2.623046875, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.62109375, 'logps/chosen': -358.25, 'logps/rejected': -149.9375, 'logits/chosen': -0.9462890625, 'logits/rejected': -0.92626953125, 'epoch': 0.52}
 52%|████████████████████████████████████████████████                                            | 1069/2044 [5:21:14<5:04:16, 18.72s/it] 52%|████████████████████████████████████████████████▏                                           | 1070/2044 [5:21:32<5:00:46, 18.53s/it]                                                                                                                                         {'loss': 0.176, 'grad_norm': 21.627559157726104, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6439208984375, 'rewards/rejected': -2.826171875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.46875, 'logps/chosen': -278.25, 'logps/rejected': -119.75, 'logits/chosen': -0.8466796875, 'logits/rejected': -0.80517578125, 'epoch': 0.52}
 52%|████████████████████████████████████████████████▏                                           | 1070/2044 [5:21:32<5:00:46, 18.53s/it] 52%|████████████████████████████████████████████████▏                                           | 1071/2044 [5:21:49<4:52:59, 18.07s/it]                                                                                                                                         {'loss': 0.1831, 'grad_norm': 22.94873329515025, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4476318359375, 'rewards/rejected': -2.974609375, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.4296875, 'logps/chosen': -275.625, 'logps/rejected': -128.03125, 'logits/chosen': -0.856201171875, 'logits/rejected': -0.80126953125, 'epoch': 0.52}
 52%|████████████████████████████████████████████████▏                                           | 1071/2044 [5:21:49<4:52:59, 18.07s/it] 52%|████████████████████████████████████████████████▎                                           | 1072/2044 [5:22:08<4:57:06, 18.34s/it]                                                                                                                                         {'loss': 0.2202, 'grad_norm': 33.25626105086751, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.48529052734375, 'rewards/rejected': -2.5751953125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.0595703125, 'logps/chosen': -265.0, 'logps/rejected': -135.875, 'logits/chosen': -0.666259765625, 'logits/rejected': -0.809326171875, 'epoch': 0.52}
 52%|████████████████████████████████████████████████▎                                           | 1072/2044 [5:22:08<4:57:06, 18.34s/it] 52%|████████████████████████████████████████████████▎                                           | 1073/2044 [5:22:26<4:54:54, 18.22s/it]                                                                                                                                         {'loss': 0.1794, 'grad_norm': 22.314757396584437, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.060546875, 'rewards/rejected': -2.813232421875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.87451171875, 'logps/chosen': -348.0, 'logps/rejected': -110.625, 'logits/chosen': -0.9990234375, 'logits/rejected': -0.7441291809082031, 'epoch': 0.52}
 52%|████████████████████████████████████████████████▎                                           | 1073/2044 [5:22:26<4:54:54, 18.22s/it] 53%|████████████████████████████████████████████████▎                                           | 1074/2044 [5:22:45<5:01:00, 18.62s/it]                                                                                                                                         {'loss': 0.2252, 'grad_norm': 28.845731816681397, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9273681640625, 'rewards/rejected': -2.63671875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.5654296875, 'logps/chosen': -342.375, 'logps/rejected': -145.625, 'logits/chosen': -0.8865966796875, 'logits/rejected': -0.6926822662353516, 'epoch': 0.53}
 53%|████████████████████████████████████████████████▎                                           | 1074/2044 [5:22:45<5:01:00, 18.62s/it] 53%|████████████████████████████████████████████████▍                                           | 1075/2044 [5:23:03<4:56:15, 18.34s/it]                                                                                                                                         {'loss': 0.1997, 'grad_norm': 36.97404270451423, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4906005859375, 'rewards/rejected': -3.12109375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.6171875, 'logps/chosen': -245.0, 'logps/rejected': -149.0, 'logits/chosen': -0.9541015625, 'logits/rejected': -0.7840576171875, 'epoch': 0.53}
 53%|████████████████████████████████████████████████▍                                           | 1075/2044 [5:23:03<4:56:15, 18.34s/it] 53%|████████████████████████████████████████████████▍                                           | 1076/2044 [5:23:21<4:56:04, 18.35s/it]                                                                                                                                         {'loss': 0.3557, 'grad_norm': 41.214219161920234, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6422119140625, 'rewards/rejected': -2.412109375, 'rewards/accuracies': 0.8125, 'rewards/margins': 3.0537109375, 'logps/chosen': -257.5, 'logps/rejected': -136.875, 'logits/chosen': -0.95458984375, 'logits/rejected': -0.90087890625, 'epoch': 0.53}
 53%|████████████████████████████████████████████████▍                                           | 1076/2044 [5:23:21<4:56:04, 18.35s/it] 53%|████████████████████████████████████████████████▍                                           | 1077/2044 [5:23:40<4:57:20, 18.45s/it]                                                                                                                                         {'loss': 0.1701, 'grad_norm': 23.282463421960244, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.010498046875, 'rewards/rejected': -2.705078125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.716796875, 'logps/chosen': -386.125, 'logps/rejected': -188.5, 'logits/chosen': -0.8779296875, 'logits/rejected': -0.826416015625, 'epoch': 0.53}
 53%|████████████████████████████████████████████████▍                                           | 1077/2044 [5:23:40<4:57:20, 18.45s/it] 53%|████████████████████████████████████████████████▌                                           | 1078/2044 [5:23:59<4:58:53, 18.57s/it]                                                                                                                                         {'loss': 0.2737, 'grad_norm': 39.54391339058185, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.849365234375, 'rewards/rejected': -2.583984375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.431640625, 'logps/chosen': -312.0, 'logps/rejected': -162.25, 'logits/chosen': -0.730224609375, 'logits/rejected': -0.8876953125, 'epoch': 0.53}
 53%|████████████████████████████████████████████████▌                                           | 1078/2044 [5:23:59<4:58:53, 18.57s/it] 53%|████████████████████████████████████████████████▌                                           | 1079/2044 [5:24:17<4:56:09, 18.41s/it]                                                                                                                                         {'loss': 0.1682, 'grad_norm': 24.56587138358873, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.652587890625, 'rewards/rejected': -2.7353515625, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.38671875, 'logps/chosen': -226.75, 'logps/rejected': -144.625, 'logits/chosen': -0.7939453125, 'logits/rejected': -0.8916015625, 'epoch': 0.53}
 53%|████████████████████████████████████████████████▌                                           | 1079/2044 [5:24:17<4:56:09, 18.41s/it] 53%|████████████████████████████████████████████████▌                                           | 1080/2044 [5:24:36<4:58:44, 18.59s/it]                                                                                                                                         {'loss': 0.2695, 'grad_norm': 46.92072586083042, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.698486328125, 'rewards/rejected': -2.5283203125, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.2265625, 'logps/chosen': -289.375, 'logps/rejected': -203.0, 'logits/chosen': -1.03955078125, 'logits/rejected': -1.02587890625, 'epoch': 0.53}
 53%|████████████████████████████████████████████████▌                                           | 1080/2044 [5:24:36<4:58:44, 18.59s/it] 53%|████████████████████████████████████████████████▋                                           | 1081/2044 [5:24:56<5:04:31, 18.97s/it]                                                                                                                                         {'loss': 0.3, 'grad_norm': 44.287167054052894, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.88134765625, 'rewards/rejected': -2.1494140625, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.0283203125, 'logps/chosen': -342.5, 'logps/rejected': -179.5625, 'logits/chosen': -0.93994140625, 'logits/rejected': -0.9267578125, 'epoch': 0.53}
 53%|████████████████████████████████████████████████▋                                           | 1081/2044 [5:24:56<5:04:31, 18.97s/it] 53%|████████████████████████████████████████████████▋                                           | 1082/2044 [5:25:15<5:04:25, 18.99s/it]                                                                                                                                         {'loss': 0.1695, 'grad_norm': 25.91712098454075, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.654541015625, 'rewards/rejected': -2.982421875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.63671875, 'logps/chosen': -286.15625, 'logps/rejected': -125.625, 'logits/chosen': -0.963623046875, 'logits/rejected': -0.802734375, 'epoch': 0.53}
 53%|████████████████████████████████████████████████▋                                           | 1082/2044 [5:25:15<5:04:25, 18.99s/it] 53%|████████████████████████████████████████████████▋                                           | 1083/2044 [5:25:35<5:07:15, 19.18s/it]                                                                                                                                         {'loss': 0.2487, 'grad_norm': 33.315720133430396, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.81622314453125, 'rewards/rejected': -2.4150390625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.232421875, 'logps/chosen': -263.625, 'logps/rejected': -143.59375, 'logits/chosen': -0.8074951171875, 'logits/rejected': -0.80419921875, 'epoch': 0.53}
 53%|████████████████████████████████████████████████▋                                           | 1083/2044 [5:25:35<5:07:15, 19.18s/it] 53%|████████████████████████████████████████████████▊                                           | 1084/2044 [5:25:52<4:57:40, 18.61s/it]                                                                                                                                         {'loss': 0.212, 'grad_norm': 25.19582751876406, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.49267578125, 'rewards/rejected': -2.8671875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.3623046875, 'logps/chosen': -244.9375, 'logps/rejected': -114.71875, 'logits/chosen': -0.9765625, 'logits/rejected': -0.77398681640625, 'epoch': 0.53}
 53%|████████████████████████████████████████████████▊                                           | 1084/2044 [5:25:52<4:57:40, 18.61s/it] 53%|████████████████████████████████████████████████▊                                           | 1085/2044 [5:26:11<5:01:50, 18.88s/it]                                                                                                                                         {'loss': 0.2924, 'grad_norm': 31.73963723521057, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.74774169921875, 'rewards/rejected': -2.482421875, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.2265625, 'logps/chosen': -344.5, 'logps/rejected': -134.6875, 'logits/chosen': -1.01123046875, 'logits/rejected': -0.9189453125, 'epoch': 0.53}
 53%|████████████████████████████████████████████████▊                                           | 1085/2044 [5:26:11<5:01:50, 18.88s/it] 53%|████████████████████████████████████████████████▉                                           | 1086/2044 [5:26:29<4:56:06, 18.55s/it]                                                                                                                                         {'loss': 0.2137, 'grad_norm': 31.241844723795563, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7926025390625, 'rewards/rejected': -2.591796875, 'rewards/accuracies': 0.875, 'rewards/margins': 3.390625, 'logps/chosen': -284.875, 'logps/rejected': -132.1875, 'logits/chosen': -0.96142578125, 'logits/rejected': -0.8642578125, 'epoch': 0.53}
 53%|████████████████████████████████████████████████▉                                           | 1086/2044 [5:26:29<4:56:06, 18.55s/it] 53%|████████████████████████████████████████████████▉                                           | 1087/2044 [5:26:48<4:59:43, 18.79s/it]                                                                                                                                         {'loss': 0.2805, 'grad_norm': 43.94273253697035, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.921875, 'rewards/rejected': -2.3486328125, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.2734375, 'logps/chosen': -327.9375, 'logps/rejected': -173.1875, 'logits/chosen': -0.87451171875, 'logits/rejected': -0.83349609375, 'epoch': 0.53}
 53%|████████████████████████████████████████████████▉                                           | 1087/2044 [5:26:48<4:59:43, 18.79s/it] 53%|████████████████████████████████████████████████▉                                           | 1088/2044 [5:27:07<4:59:03, 18.77s/it]                                                                                                                                         {'loss': 0.2102, 'grad_norm': 33.11059465640957, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7261962890625, 'rewards/rejected': -2.884765625, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.607421875, 'logps/chosen': -267.75, 'logps/rejected': -123.1875, 'logits/chosen': -0.96826171875, 'logits/rejected': -0.88525390625, 'epoch': 0.53}
 53%|████████████████████████████████████████████████▉                                           | 1088/2044 [5:27:07<4:59:03, 18.77s/it] 53%|█████████████████████████████████████████████████                                           | 1089/2044 [5:27:27<5:03:30, 19.07s/it]                                                                                                                                         {'loss': 0.2643, 'grad_norm': 40.57226245520591, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5811767578125, 'rewards/rejected': -2.3544921875, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.935546875, 'logps/chosen': -292.0, 'logps/rejected': -155.75, 'logits/chosen': -0.8837890625, 'logits/rejected': -1.015625, 'epoch': 0.53}
 53%|█████████████████████████████████████████████████                                           | 1089/2044 [5:27:27<5:03:30, 19.07s/it] 53%|█████████████████████████████████████████████████                                           | 1090/2044 [5:27:45<4:58:28, 18.77s/it]                                                                                                                                         {'loss': 0.2243, 'grad_norm': 33.82037991316863, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.69293212890625, 'rewards/rejected': -2.7421875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.43359375, 'logps/chosen': -328.9375, 'logps/rejected': -119.1875, 'logits/chosen': -0.9111328125, 'logits/rejected': -0.83203125, 'epoch': 0.53}
 53%|█████████████████████████████████████████████████                                           | 1090/2044 [5:27:45<4:58:28, 18.77s/it] 53%|█████████████████████████████████████████████████                                           | 1091/2044 [5:28:05<5:02:10, 19.02s/it]                                                                                                                                         {'loss': 0.2819, 'grad_norm': 33.505266240521145, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.52911376953125, 'rewards/rejected': -2.53466796875, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.06640625, 'logps/chosen': -292.75, 'logps/rejected': -145.5625, 'logits/chosen': -0.9130859375, 'logits/rejected': -0.90625, 'epoch': 0.53}
 53%|█████████████████████████████████████████████████                                           | 1091/2044 [5:28:05<5:02:10, 19.02s/it] 53%|█████████████████████████████████████████████████▏                                          | 1092/2044 [5:28:25<5:06:14, 19.30s/it]                                                                                                                                         {'loss': 0.2941, 'grad_norm': 40.309845870933145, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7401123046875, 'rewards/rejected': -2.333984375, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.076171875, 'logps/chosen': -358.625, 'logps/rejected': -156.125, 'logits/chosen': -0.89501953125, 'logits/rejected': -0.855224609375, 'epoch': 0.53}
 53%|█████████████████████████████████████████████████▏                                          | 1092/2044 [5:28:25<5:06:14, 19.30s/it] 53%|█████████████████████████████████████████████████▏                                          | 1093/2044 [5:28:43<4:59:58, 18.93s/it]                                                                                                                                         {'loss': 0.2044, 'grad_norm': 29.362535333568694, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9501953125, 'rewards/rejected': -2.90234375, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.859375, 'logps/chosen': -259.75, 'logps/rejected': -142.4375, 'logits/chosen': -0.954345703125, 'logits/rejected': -0.8994140625, 'epoch': 0.53}
 53%|█████████████████████████████████████████████████▏                                          | 1093/2044 [5:28:43<4:59:58, 18.93s/it] 54%|█████████████████████████████████████████████████▏                                          | 1094/2044 [5:29:03<5:05:32, 19.30s/it]                                                                                                                                         {'loss': 0.2961, 'grad_norm': 41.298135281531074, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7335205078125, 'rewards/rejected': -2.0126953125, 'rewards/accuracies': 0.875, 'rewards/margins': 2.7490234375, 'logps/chosen': -325.75, 'logps/rejected': -169.75, 'logits/chosen': -1.02294921875, 'logits/rejected': -0.85009765625, 'epoch': 0.54}
 54%|█████████████████████████████████████████████████▏                                          | 1094/2044 [5:29:03<5:05:32, 19.30s/it] 54%|█████████████████████████████████████████████████▎                                          | 1095/2044 [5:29:21<4:58:40, 18.88s/it]                                                                                                                                         {'loss': 0.2152, 'grad_norm': 36.31309121309342, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.95599365234375, 'rewards/rejected': -2.8232421875, 'rewards/accuracies': 0.875, 'rewards/margins': 3.7744140625, 'logps/chosen': -355.625, 'logps/rejected': -144.0, 'logits/chosen': -0.97412109375, 'logits/rejected': -0.833984375, 'epoch': 0.54}
 54%|█████████████████████████████████████████████████▎                                          | 1095/2044 [5:29:21<4:58:40, 18.88s/it] 54%|█████████████████████████████████████████████████▎                                          | 1096/2044 [5:29:40<5:00:17, 19.01s/it]                                                                                                                                         {'loss': 0.2446, 'grad_norm': 35.19683925507969, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.680908203125, 'rewards/rejected': -2.3984375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.07421875, 'logps/chosen': -279.5, 'logps/rejected': -176.5, 'logits/chosen': -0.93701171875, 'logits/rejected': -1.03759765625, 'epoch': 0.54}
 54%|█████████████████████████████████████████████████▎                                          | 1096/2044 [5:29:40<5:00:17, 19.01s/it] 54%|█████████████████████████████████████████████████▍                                          | 1097/2044 [5:29:59<5:01:56, 19.13s/it]                                                                                                                                         {'loss': 0.21, 'grad_norm': 28.755292325827693, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.82421875, 'rewards/rejected': -2.70751953125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.52734375, 'logps/chosen': -300.875, 'logps/rejected': -153.6875, 'logits/chosen': -0.91943359375, 'logits/rejected': -0.80517578125, 'epoch': 0.54}
 54%|█████████████████████████████████████████████████▍                                          | 1097/2044 [5:29:59<5:01:56, 19.13s/it] 54%|█████████████████████████████████████████████████▍                                          | 1098/2044 [5:30:18<4:58:28, 18.93s/it]                                                                                                                                         {'loss': 0.1828, 'grad_norm': 24.18208532858057, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.68511962890625, 'rewards/rejected': -2.75439453125, 'rewards/accuracies': 0.875, 'rewards/margins': 3.44140625, 'logps/chosen': -287.5, 'logps/rejected': -142.8125, 'logits/chosen': -0.9072265625, 'logits/rejected': -0.92822265625, 'epoch': 0.54}
 54%|█████████████████████████████████████████████████▍                                          | 1098/2044 [5:30:18<4:58:28, 18.93s/it] 54%|█████████████████████████████████████████████████▍                                          | 1099/2044 [5:30:35<4:48:03, 18.29s/it]                                                                                                                                         {'loss': 0.1646, 'grad_norm': 20.98063722705216, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8819580078125, 'rewards/rejected': -3.001953125, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.87890625, 'logps/chosen': -297.9375, 'logps/rejected': -108.625, 'logits/chosen': -0.923583984375, 'logits/rejected': -0.8544921875, 'epoch': 0.54}
 54%|█████████████████████████████████████████████████▍                                          | 1099/2044 [5:30:35<4:48:03, 18.29s/it] 54%|█████████████████████████████████████████████████▌                                          | 1100/2044 [5:30:53<4:48:56, 18.37s/it]                                                                                                                                         {'loss': 0.1979, 'grad_norm': 27.50906210369711, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6922607421875, 'rewards/rejected': -2.900390625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.591796875, 'logps/chosen': -321.75, 'logps/rejected': -103.875, 'logits/chosen': -0.8212890625, 'logits/rejected': -0.9140625, 'epoch': 0.54}
 54%|█████████████████████████████████████████████████▌                                          | 1100/2044 [5:30:53<4:48:56, 18.37s/it] 54%|█████████████████████████████████████████████████▌                                          | 1101/2044 [5:31:12<4:51:48, 18.57s/it]                                                                                                                                         {'loss': 0.2686, 'grad_norm': 40.27689080950876, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.716796875, 'rewards/rejected': -2.20654296875, 'rewards/accuracies': 0.875, 'rewards/margins': 2.9189453125, 'logps/chosen': -298.75, 'logps/rejected': -165.5625, 'logits/chosen': -0.80126953125, 'logits/rejected': -0.8935546875, 'epoch': 0.54}
 54%|█████████████████████████████████████████████████▌                                          | 1101/2044 [5:31:12<4:51:48, 18.57s/it] 54%|█████████████████████████████████████████████████▌                                          | 1102/2044 [5:31:32<4:55:46, 18.84s/it]                                                                                                                                         {'loss': 0.1975, 'grad_norm': 30.35573277187903, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6929931640625, 'rewards/rejected': -2.8662109375, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.5615234375, 'logps/chosen': -249.625, 'logps/rejected': -151.75, 'logits/chosen': -1.08740234375, 'logits/rejected': -0.829345703125, 'epoch': 0.54}
 54%|█████████████████████████████████████████████████▌                                          | 1102/2044 [5:31:32<4:55:46, 18.84s/it] 54%|█████████████████████████████████████████████████▋                                          | 1103/2044 [5:31:50<4:53:58, 18.74s/it]                                                                                                                                         {'loss': 0.2317, 'grad_norm': 30.08604148942703, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.739990234375, 'rewards/rejected': -2.396484375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.138671875, 'logps/chosen': -299.0, 'logps/rejected': -156.625, 'logits/chosen': -0.8955078125, 'logits/rejected': -0.8427734375, 'epoch': 0.54}
 54%|█████████████████████████████████████████████████▋                                          | 1103/2044 [5:31:50<4:53:58, 18.74s/it] 54%|█████████████████████████████████████████████████▋                                          | 1104/2044 [5:32:09<4:52:46, 18.69s/it]                                                                                                                                         {'loss': 0.2926, 'grad_norm': 32.30377490989593, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.51513671875, 'rewards/rejected': -2.544921875, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.0625, 'logps/chosen': -261.875, 'logps/rejected': -176.75, 'logits/chosen': -0.883544921875, 'logits/rejected': -0.9853515625, 'epoch': 0.54}
 54%|█████████████████████████████████████████████████▋                                          | 1104/2044 [5:32:09<4:52:46, 18.69s/it] 54%|█████████████████████████████████████████████████▋                                          | 1105/2044 [5:32:28<4:53:15, 18.74s/it]                                                                                                                                         {'loss': 0.3094, 'grad_norm': 36.793992589248354, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.79083251953125, 'rewards/rejected': -2.4921875, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.2890625, 'logps/chosen': -299.5, 'logps/rejected': -139.0, 'logits/chosen': -1.00244140625, 'logits/rejected': -0.89990234375, 'epoch': 0.54}
 54%|█████████████████████████████████████████████████▋                                          | 1105/2044 [5:32:28<4:53:15, 18.74s/it] 54%|█████████████████████████████████████████████████▊                                          | 1106/2044 [5:32:46<4:48:49, 18.47s/it]                                                                                                                                         {'loss': 0.2301, 'grad_norm': 31.272511958615087, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.36602783203125, 'rewards/rejected': -2.84765625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.220703125, 'logps/chosen': -280.0625, 'logps/rejected': -131.3125, 'logits/chosen': -0.89697265625, 'logits/rejected': -0.81591796875, 'epoch': 0.54}
 54%|█████████████████████████████████████████████████▊                                          | 1106/2044 [5:32:46<4:48:49, 18.47s/it] 54%|█████████████████████████████████████████████████▊                                          | 1107/2044 [5:33:05<4:51:07, 18.64s/it]                                                                                                                                         {'loss': 0.2033, 'grad_norm': 26.73463964336112, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.67529296875, 'rewards/rejected': -2.783203125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.462890625, 'logps/chosen': -360.875, 'logps/rejected': -208.875, 'logits/chosen': -1.13720703125, 'logits/rejected': -1.01171875, 'epoch': 0.54}
 54%|█████████████████████████████████████████████████▊                                          | 1107/2044 [5:33:05<4:51:07, 18.64s/it] 54%|█████████████████████████████████████████████████▊                                          | 1108/2044 [5:33:24<4:53:13, 18.80s/it]                                                                                                                                         {'loss': 0.3113, 'grad_norm': 67.4800760569087, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6640625, 'rewards/rejected': -2.525390625, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.1875, 'logps/chosen': -354.0, 'logps/rejected': -147.0625, 'logits/chosen': -0.87646484375, 'logits/rejected': -0.904296875, 'epoch': 0.54}
 54%|█████████████████████████████████████████████████▊                                          | 1108/2044 [5:33:24<4:53:13, 18.80s/it] 54%|█████████████████████████████████████████████████▉                                          | 1109/2044 [5:33:42<4:50:41, 18.65s/it]                                                                                                                                         {'loss': 0.1727, 'grad_norm': 30.488818002820487, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.071533203125, 'rewards/rejected': -2.767578125, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.83984375, 'logps/chosen': -333.0, 'logps/rejected': -118.5, 'logits/chosen': -0.93994140625, 'logits/rejected': -0.83740234375, 'epoch': 0.54}
 54%|█████████████████████████████████████████████████▉                                          | 1109/2044 [5:33:42<4:50:41, 18.65s/it] 54%|█████████████████████████████████████████████████▉                                          | 1110/2044 [5:34:01<4:52:05, 18.76s/it]                                                                                                                                         {'loss': 0.1996, 'grad_norm': 23.26789290129238, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.760009765625, 'rewards/rejected': -2.7705078125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.52734375, 'logps/chosen': -309.25, 'logps/rejected': -112.25, 'logits/chosen': -0.774993896484375, 'logits/rejected': -0.904296875, 'epoch': 0.54}
 54%|█████████████████████████████████████████████████▉                                          | 1110/2044 [5:34:01<4:52:05, 18.76s/it] 54%|██████████████████████████████████████████████████                                          | 1111/2044 [5:34:21<4:55:21, 18.99s/it]                                                                                                                                         {'loss': 0.1962, 'grad_norm': 33.86290088877473, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.68927001953125, 'rewards/rejected': -2.4423828125, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.130859375, 'logps/chosen': -296.0, 'logps/rejected': -175.8125, 'logits/chosen': -0.893310546875, 'logits/rejected': -0.8079833984375, 'epoch': 0.54}
 54%|██████████████████████████████████████████████████                                          | 1111/2044 [5:34:21<4:55:21, 18.99s/it] 54%|██████████████████████████████████████████████████                                          | 1112/2044 [5:34:39<4:52:58, 18.86s/it]                                                                                                                                         {'loss': 0.2606, 'grad_norm': 38.57748727574118, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.837890625, 'rewards/rejected': -2.1171875, 'rewards/accuracies': 0.875, 'rewards/margins': 2.9560546875, 'logps/chosen': -262.875, 'logps/rejected': -169.9375, 'logits/chosen': -1.06689453125, 'logits/rejected': -0.828125, 'epoch': 0.54}
 54%|██████████████████████████████████████████████████                                          | 1112/2044 [5:34:39<4:52:58, 18.86s/it] 54%|██████████████████████████████████████████████████                                          | 1113/2044 [5:34:56<4:42:57, 18.24s/it]                                                                                                                                         {'loss': 0.1878, 'grad_norm': 24.900393989831038, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5452880859375, 'rewards/rejected': -3.1513671875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.701171875, 'logps/chosen': -202.375, 'logps/rejected': -100.5625, 'logits/chosen': -0.98876953125, 'logits/rejected': -0.70947265625, 'epoch': 0.54}
 54%|██████████████████████████████████████████████████                                          | 1113/2044 [5:34:56<4:42:57, 18.24s/it] 55%|██████████████████████████████████████████████████▏                                         | 1114/2044 [5:35:14<4:40:17, 18.08s/it]                                                                                                                                         {'loss': 0.1668, 'grad_norm': 27.67857946694008, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.875244140625, 'rewards/rejected': -3.099609375, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.974609375, 'logps/chosen': -351.25, 'logps/rejected': -125.9375, 'logits/chosen': -0.843994140625, 'logits/rejected': -0.8203125, 'epoch': 0.55}
 55%|██████████████████████████████████████████████████▏                                         | 1114/2044 [5:35:14<4:40:17, 18.08s/it] 55%|██████████████████████████████████████████████████▏                                         | 1115/2044 [5:35:34<4:48:20, 18.62s/it]                                                                                                                                         {'loss': 0.2617, 'grad_norm': 36.05084908196159, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7333984375, 'rewards/rejected': -2.2626953125, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.99609375, 'logps/chosen': -329.375, 'logps/rejected': -153.0625, 'logits/chosen': -0.924072265625, 'logits/rejected': -0.7296142578125, 'epoch': 0.55}
 55%|██████████████████████████████████████████████████▏                                         | 1115/2044 [5:35:34<4:48:20, 18.62s/it] 55%|██████████████████████████████████████████████████▏                                         | 1116/2044 [5:35:52<4:49:01, 18.69s/it]                                                                                                                                         {'loss': 0.2066, 'grad_norm': 31.066600491738672, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6962890625, 'rewards/rejected': -2.6923828125, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.3955078125, 'logps/chosen': -314.125, 'logps/rejected': -132.75, 'logits/chosen': -0.9462890625, 'logits/rejected': -0.73681640625, 'epoch': 0.55}
 55%|██████████████████████████████████████████████████▏                                         | 1116/2044 [5:35:52<4:49:01, 18.69s/it] 55%|██████████████████████████████████████████████████▎                                         | 1117/2044 [5:36:11<4:48:27, 18.67s/it]                                                                                                                                         {'loss': 0.1198, 'grad_norm': 23.874631647012844, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.82403564453125, 'rewards/rejected': -3.291015625, 'rewards/accuracies': 0.96875, 'rewards/margins': 4.111328125, 'logps/chosen': -297.125, 'logps/rejected': -131.6875, 'logits/chosen': -0.9638671875, 'logits/rejected': -0.863037109375, 'epoch': 0.55}
 55%|██████████████████████████████████████████████████▎                                         | 1117/2044 [5:36:11<4:48:27, 18.67s/it] 55%|██████████████████████████████████████████████████▎                                         | 1118/2044 [5:36:30<4:50:34, 18.83s/it]                                                                                                                                         {'loss': 0.2814, 'grad_norm': 37.93684993460331, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6304931640625, 'rewards/rejected': -2.4385986328125, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.07177734375, 'logps/chosen': -304.125, 'logps/rejected': -148.5625, 'logits/chosen': -0.927978515625, 'logits/rejected': -0.77490234375, 'epoch': 0.55}
 55%|██████████████████████████████████████████████████▎                                         | 1118/2044 [5:36:30<4:50:34, 18.83s/it] 55%|██████████████████████████████████████████████████▎                                         | 1119/2044 [5:36:48<4:45:32, 18.52s/it]                                                                                                                                         {'loss': 0.1987, 'grad_norm': 24.911328911608525, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7225341796875, 'rewards/rejected': -2.6416015625, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.369140625, 'logps/chosen': -353.625, 'logps/rejected': -196.21875, 'logits/chosen': -1.05322265625, 'logits/rejected': -0.8233184814453125, 'epoch': 0.55}
 55%|██████████████████████████████████████████████████▎                                         | 1119/2044 [5:36:48<4:45:32, 18.52s/it] 55%|██████████████████████████████████████████████████▍                                         | 1120/2044 [5:37:08<4:50:41, 18.88s/it]                                                                                                                                         {'loss': 0.1917, 'grad_norm': 30.494410171385912, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.661590576171875, 'rewards/rejected': -2.7099609375, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.373046875, 'logps/chosen': -256.0, 'logps/rejected': -170.9375, 'logits/chosen': -0.759765625, 'logits/rejected': -0.86328125, 'epoch': 0.55}
 55%|██████████████████████████████████████████████████▍                                         | 1120/2044 [5:37:08<4:50:41, 18.88s/it] 55%|██████████████████████████████████████████████████▍                                         | 1121/2044 [5:37:27<4:50:17, 18.87s/it]                                                                                                                                         {'loss': 0.2895, 'grad_norm': 41.31821196431741, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6064453125, 'rewards/rejected': -2.4501953125, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.0546875, 'logps/chosen': -318.0, 'logps/rejected': -159.3125, 'logits/chosen': -1.121337890625, 'logits/rejected': -0.978515625, 'epoch': 0.55}
 55%|██████████████████████████████████████████████████▍                                         | 1121/2044 [5:37:27<4:50:17, 18.87s/it] 55%|██████████████████████████████████████████████████▌                                         | 1122/2044 [5:37:46<4:51:49, 18.99s/it]                                                                                                                                         {'loss': 0.2871, 'grad_norm': 39.98973859866305, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.822998046875, 'rewards/rejected': -2.3486328125, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.166015625, 'logps/chosen': -360.625, 'logps/rejected': -162.4375, 'logits/chosen': -0.9306640625, 'logits/rejected': -0.87939453125, 'epoch': 0.55}
 55%|██████████████████████████████████████████████████▌                                         | 1122/2044 [5:37:46<4:51:49, 18.99s/it] 55%|██████████████████████████████████████████████████▌                                         | 1123/2044 [5:38:05<4:53:31, 19.12s/it]                                                                                                                                         {'loss': 0.3275, 'grad_norm': 37.85592886127391, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.45233154296875, 'rewards/rejected': -2.3251953125, 'rewards/accuracies': 0.890625, 'rewards/margins': 2.783203125, 'logps/chosen': -258.875, 'logps/rejected': -129.9375, 'logits/chosen': -0.96630859375, 'logits/rejected': -0.900390625, 'epoch': 0.55}
 55%|██████████████████████████████████████████████████▌                                         | 1123/2044 [5:38:05<4:53:31, 19.12s/it] 55%|██████████████████████████████████████████████████▌                                         | 1124/2044 [5:38:24<4:51:01, 18.98s/it]                                                                                                                                         {'loss': 0.1838, 'grad_norm': 26.363612065633745, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.58734130859375, 'rewards/rejected': -2.9296875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.513671875, 'logps/chosen': -271.4375, 'logps/rejected': -106.875, 'logits/chosen': -0.9188232421875, 'logits/rejected': -0.7763671875, 'epoch': 0.55}
 55%|██████████████████████████████████████████████████▌                                         | 1124/2044 [5:38:24<4:51:01, 18.98s/it] 55%|██████████████████████████████████████████████████▋                                         | 1125/2044 [5:38:42<4:44:40, 18.59s/it]                                                                                                                                         {'loss': 0.1955, 'grad_norm': 31.267196276819256, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6978759765625, 'rewards/rejected': -2.7412109375, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.4375, 'logps/chosen': -250.0, 'logps/rejected': -142.0625, 'logits/chosen': -0.750732421875, 'logits/rejected': -0.83154296875, 'epoch': 0.55}
 55%|██████████████████████████████████████████████████▋                                         | 1125/2044 [5:38:42<4:44:40, 18.59s/it] 55%|██████████████████████████████████████████████████▋                                         | 1126/2044 [5:39:00<4:44:36, 18.60s/it]                                                                                                                                         {'loss': 0.2366, 'grad_norm': 32.00041639151359, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.517822265625, 'rewards/rejected': -3.1123046875, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.62890625, 'logps/chosen': -245.875, 'logps/rejected': -129.25, 'logits/chosen': -0.97998046875, 'logits/rejected': -0.835693359375, 'epoch': 0.55}
 55%|██████████████████████████████████████████████████▋                                         | 1126/2044 [5:39:00<4:44:36, 18.60s/it] 55%|██████████████████████████████████████████████████▋                                         | 1127/2044 [5:39:18<4:42:03, 18.46s/it]                                                                                                                                         {'loss': 0.1418, 'grad_norm': 25.138771120268537, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.81689453125, 'rewards/rejected': -2.990234375, 'rewards/accuracies': 0.953125, 'rewards/margins': 3.8125, 'logps/chosen': -270.75, 'logps/rejected': -138.6875, 'logits/chosen': -0.8231201171875, 'logits/rejected': -0.8671875, 'epoch': 0.55}
 55%|██████████████████████████████████████████████████▋                                         | 1127/2044 [5:39:18<4:42:03, 18.46s/it] 55%|██████████████████████████████████████████████████▊                                         | 1128/2044 [5:39:38<4:47:01, 18.80s/it]                                                                                                                                         {'loss': 0.3184, 'grad_norm': 43.29687211541767, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.71728515625, 'rewards/rejected': -2.4287109375, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.1455078125, 'logps/chosen': -295.4375, 'logps/rejected': -164.25, 'logits/chosen': -0.902587890625, 'logits/rejected': -0.84912109375, 'epoch': 0.55}
 55%|██████████████████████████████████████████████████▊                                         | 1128/2044 [5:39:38<4:47:01, 18.80s/it] 55%|██████████████████████████████████████████████████▊                                         | 1129/2044 [5:39:57<4:49:13, 18.97s/it]                                                                                                                                         {'loss': 0.2339, 'grad_norm': 37.42397034232048, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.73876953125, 'rewards/rejected': -2.365234375, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.1064453125, 'logps/chosen': -332.125, 'logps/rejected': -135.125, 'logits/chosen': -0.9287109375, 'logits/rejected': -0.85205078125, 'epoch': 0.55}
 55%|██████████████████████████████████████████████████▊                                         | 1129/2044 [5:39:57<4:49:13, 18.97s/it] 55%|██████████████████████████████████████████████████▊                                         | 1130/2044 [5:40:16<4:50:04, 19.04s/it]                                                                                                                                         {'loss': 0.2513, 'grad_norm': 34.194101049571515, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.840087890625, 'rewards/rejected': -2.587890625, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.427734375, 'logps/chosen': -370.0, 'logps/rejected': -156.875, 'logits/chosen': -1.18115234375, 'logits/rejected': -1.001953125, 'epoch': 0.55}
 55%|██████████████████████████████████████████████████▊                                         | 1130/2044 [5:40:17<4:50:04, 19.04s/it] 55%|██████████████████████████████████████████████████▉                                         | 1131/2044 [5:40:35<4:49:07, 19.00s/it]                                                                                                                                         {'loss': 0.1829, 'grad_norm': 21.3686152441012, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.863616943359375, 'rewards/rejected': -3.001953125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.8671875, 'logps/chosen': -335.75, 'logps/rejected': -109.5, 'logits/chosen': -0.88134765625, 'logits/rejected': -0.8564453125, 'epoch': 0.55}
 55%|██████████████████████████████████████████████████▉                                         | 1131/2044 [5:40:35<4:49:07, 19.00s/it] 55%|██████████████████████████████████████████████████▉                                         | 1132/2044 [5:40:53<4:40:50, 18.48s/it]                                                                                                                                         {'loss': 0.2154, 'grad_norm': 36.17792393206793, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.00750732421875, 'rewards/rejected': -2.9921875, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.0, 'logps/chosen': -303.25, 'logps/rejected': -119.90625, 'logits/chosen': -1.03076171875, 'logits/rejected': -0.8095703125, 'epoch': 0.55}
 55%|██████████████████████████████████████████████████▉                                         | 1132/2044 [5:40:53<4:40:50, 18.48s/it] 55%|██████████████████████████████████████████████████▉                                         | 1133/2044 [5:41:12<4:43:11, 18.65s/it]                                                                                                                                         {'loss': 0.2206, 'grad_norm': 31.34122634010985, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9152679443359375, 'rewards/rejected': -2.8662109375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.78125, 'logps/chosen': -313.875, 'logps/rejected': -123.875, 'logits/chosen': -0.926025390625, 'logits/rejected': -0.875, 'epoch': 0.55}
 55%|██████████████████████████████████████████████████▉                                         | 1133/2044 [5:41:12<4:43:11, 18.65s/it] 55%|███████████████████████████████████████████████████                                         | 1134/2044 [5:41:31<4:44:31, 18.76s/it]                                                                                                                                         {'loss': 0.2553, 'grad_norm': 36.92367251251535, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.780517578125, 'rewards/rejected': -2.3740234375, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.1552734375, 'logps/chosen': -295.625, 'logps/rejected': -164.3125, 'logits/chosen': -0.84619140625, 'logits/rejected': -0.864013671875, 'epoch': 0.55}
 55%|███████████████████████████████████████████████████                                         | 1134/2044 [5:41:31<4:44:31, 18.76s/it] 56%|███████████████████████████████████████████████████                                         | 1135/2044 [5:41:49<4:43:51, 18.74s/it]                                                                                                                                         {'loss': 0.209, 'grad_norm': 30.849104135051878, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.721923828125, 'rewards/rejected': -2.9638671875, 'rewards/accuracies': 0.875, 'rewards/margins': 3.689453125, 'logps/chosen': -290.75, 'logps/rejected': -137.9375, 'logits/chosen': -0.94775390625, 'logits/rejected': -0.9462890625, 'epoch': 0.56}
 56%|███████████████████████████████████████████████████                                         | 1135/2044 [5:41:49<4:43:51, 18.74s/it] 56%|███████████████████████████████████████████████████▏                                        | 1136/2044 [5:42:08<4:43:37, 18.74s/it]                                                                                                                                         {'loss': 0.2861, 'grad_norm': 38.9715397077806, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4935302734375, 'rewards/rejected': -2.5166015625, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.0107421875, 'logps/chosen': -313.75, 'logps/rejected': -164.0, 'logits/chosen': -0.91357421875, 'logits/rejected': -0.7998046875, 'epoch': 0.56}
 56%|███████████████████████████████████████████████████▏                                        | 1136/2044 [5:42:08<4:43:37, 18.74s/it] 56%|███████████████████████████████████████████████████▏                                        | 1137/2044 [5:42:28<4:46:10, 18.93s/it]                                                                                                                                         {'loss': 0.2275, 'grad_norm': 39.75392369040354, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8409423828125, 'rewards/rejected': -2.4990234375, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.341796875, 'logps/chosen': -278.125, 'logps/rejected': -159.6875, 'logits/chosen': -0.87353515625, 'logits/rejected': -0.891357421875, 'epoch': 0.56}
 56%|███████████████████████████████████████████████████▏                                        | 1137/2044 [5:42:28<4:46:10, 18.93s/it] 56%|███████████████████████████████████████████████████▏                                        | 1138/2044 [5:42:46<4:44:18, 18.83s/it]                                                                                                                                         {'loss': 0.2176, 'grad_norm': 35.60481015697997, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6434326171875, 'rewards/rejected': -2.884765625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.53125, 'logps/chosen': -282.75, 'logps/rejected': -134.5625, 'logits/chosen': -0.975341796875, 'logits/rejected': -0.8369140625, 'epoch': 0.56}
 56%|███████████████████████████████████████████████████▏                                        | 1138/2044 [5:42:46<4:44:18, 18.83s/it] 56%|███████████████████████████████████████████████████▎                                        | 1139/2044 [5:43:06<4:47:18, 19.05s/it]                                                                                                                                         {'loss': 0.3214, 'grad_norm': 47.70475735553706, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.84814453125, 'rewards/rejected': -2.4208984375, 'rewards/accuracies': 0.8125, 'rewards/margins': 3.2666015625, 'logps/chosen': -311.8125, 'logps/rejected': -142.8125, 'logits/chosen': -0.92724609375, 'logits/rejected': -0.8310546875, 'epoch': 0.56}
 56%|███████████████████████████████████████████████████▎                                        | 1139/2044 [5:43:06<4:47:18, 19.05s/it] 56%|███████████████████████████████████████████████████▎                                        | 1140/2044 [5:43:25<4:48:26, 19.14s/it]                                                                                                                                         {'loss': 0.2703, 'grad_norm': 35.05151098288968, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.080078125, 'rewards/rejected': -2.21484375, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.2919921875, 'logps/chosen': -376.25, 'logps/rejected': -176.8125, 'logits/chosen': -0.9862060546875, 'logits/rejected': -0.8330078125, 'epoch': 0.56}
 56%|███████████████████████████████████████████████████▎                                        | 1140/2044 [5:43:25<4:48:26, 19.14s/it] 56%|███████████████████████████████████████████████████▎                                        | 1141/2044 [5:43:44<4:48:25, 19.16s/it]                                                                                                                                         {'loss': 0.259, 'grad_norm': 32.6386037776497, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6676025390625, 'rewards/rejected': -2.556640625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.22265625, 'logps/chosen': -264.875, 'logps/rejected': -150.375, 'logits/chosen': -0.79443359375, 'logits/rejected': -0.91845703125, 'epoch': 0.56}
 56%|███████████████████████████████████████████████████▎                                        | 1141/2044 [5:43:44<4:48:25, 19.16s/it] 56%|███████████████████████████████████████████████████▍                                        | 1142/2044 [5:44:01<4:38:00, 18.49s/it]                                                                                                                                         {'loss': 0.2072, 'grad_norm': 32.47752326735689, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9527587890625, 'rewards/rejected': -2.833984375, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.78515625, 'logps/chosen': -343.625, 'logps/rejected': -127.8125, 'logits/chosen': -1.07177734375, 'logits/rejected': -0.710693359375, 'epoch': 0.56}
 56%|███████████████████████████████████████████████████▍                                        | 1142/2044 [5:44:01<4:38:00, 18.49s/it] 56%|███████████████████████████████████████████████████▍                                        | 1143/2044 [5:44:21<4:42:58, 18.84s/it]                                                                                                                                         {'loss': 0.2397, 'grad_norm': 32.93152411730837, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.793701171875, 'rewards/rejected': -2.3388671875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.1328125, 'logps/chosen': -268.125, 'logps/rejected': -149.0, 'logits/chosen': -0.88330078125, 'logits/rejected': -0.806640625, 'epoch': 0.56}
 56%|███████████████████████████████████████████████████▍                                        | 1143/2044 [5:44:21<4:42:58, 18.84s/it] 56%|███████████████████████████████████████████████████▍                                        | 1144/2044 [5:44:39<4:41:15, 18.75s/it]                                                                                                                                         {'loss': 0.3015, 'grad_norm': 41.541751326863555, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.872314453125, 'rewards/rejected': -2.51202392578125, 'rewards/accuracies': 0.78125, 'rewards/margins': 3.39013671875, 'logps/chosen': -279.875, 'logps/rejected': -160.5625, 'logits/chosen': -0.80596923828125, 'logits/rejected': -0.83984375, 'epoch': 0.56}
 56%|███████████████████████████████████████████████████▍                                        | 1144/2044 [5:44:39<4:41:15, 18.75s/it] 56%|███████████████████████████████████████████████████▌                                        | 1145/2044 [5:44:58<4:38:14, 18.57s/it]                                                                                                                                         {'loss': 0.2651, 'grad_norm': 31.087228889232218, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.51141357421875, 'rewards/rejected': -2.833984375, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.34375, 'logps/chosen': -220.3125, 'logps/rejected': -122.9375, 'logits/chosen': -0.88623046875, 'logits/rejected': -0.880859375, 'epoch': 0.56}
 56%|███████████████████████████████████████████████████▌                                        | 1145/2044 [5:44:58<4:38:14, 18.57s/it] 56%|███████████████████████████████████████████████████▌                                        | 1146/2044 [5:45:17<4:41:42, 18.82s/it]                                                                                                                                         {'loss': 0.3169, 'grad_norm': 45.322071766561194, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.769287109375, 'rewards/rejected': -2.2392578125, 'rewards/accuracies': 0.796875, 'rewards/margins': 3.0107421875, 'logps/chosen': -296.875, 'logps/rejected': -159.5625, 'logits/chosen': -1.0654296875, 'logits/rejected': -0.88671875, 'epoch': 0.56}
 56%|███████████████████████████████████████████████████▌                                        | 1146/2044 [5:45:17<4:41:42, 18.82s/it] 56%|███████████████████████████████████████████████████▋                                        | 1147/2044 [5:45:37<4:45:33, 19.10s/it]                                                                                                                                         {'loss': 0.2991, 'grad_norm': 37.828398780985076, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.74560546875, 'rewards/rejected': -2.498046875, 'rewards/accuracies': 0.78125, 'rewards/margins': 3.23828125, 'logps/chosen': -358.9375, 'logps/rejected': -196.0625, 'logits/chosen': -0.914306640625, 'logits/rejected': -0.97998046875, 'epoch': 0.56}
 56%|███████████████████████████████████████████████████▋                                        | 1147/2044 [5:45:37<4:45:33, 19.10s/it] 56%|███████████████████████████████████████████████████▋                                        | 1148/2044 [5:45:53<4:34:37, 18.39s/it]                                                                                                                                         {'loss': 0.1318, 'grad_norm': 24.316942809079773, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.784912109375, 'rewards/rejected': -3.40625, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.19140625, 'logps/chosen': -239.5, 'logps/rejected': -118.625, 'logits/chosen': -0.83837890625, 'logits/rejected': -0.631103515625, 'epoch': 0.56}
 56%|███████████████████████████████████████████████████▋                                        | 1148/2044 [5:45:53<4:34:37, 18.39s/it] 56%|███████████████████████████████████████████████████▋                                        | 1149/2044 [5:46:12<4:36:55, 18.56s/it]                                                                                                                                         {'loss': 0.2704, 'grad_norm': 31.280945442954845, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.663818359375, 'rewards/rejected': -2.10302734375, 'rewards/accuracies': 0.859375, 'rewards/margins': 2.7646484375, 'logps/chosen': -285.8125, 'logps/rejected': -161.0625, 'logits/chosen': -0.951171875, 'logits/rejected': -0.85205078125, 'epoch': 0.56}
 56%|███████████████████████████████████████████████████▋                                        | 1149/2044 [5:46:12<4:36:55, 18.56s/it] 56%|███████████████████████████████████████████████████▊                                        | 1150/2044 [5:46:32<4:39:23, 18.75s/it]                                                                                                                                         {'loss': 0.3538, 'grad_norm': 42.902901025797505, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.54132080078125, 'rewards/rejected': -2.39697265625, 'rewards/accuracies': 0.8125, 'rewards/margins': 2.9375, 'logps/chosen': -284.625, 'logps/rejected': -161.8125, 'logits/chosen': -0.92626953125, 'logits/rejected': -0.91943359375, 'epoch': 0.56}
 56%|███████████████████████████████████████████████████▊                                        | 1150/2044 [5:46:32<4:39:23, 18.75s/it] 56%|███████████████████████████████████████████████████▊                                        | 1151/2044 [5:46:52<4:44:23, 19.11s/it]                                                                                                                                         {'loss': 0.2299, 'grad_norm': 31.366871358625215, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.822265625, 'rewards/rejected': -2.4296875, 'rewards/accuracies': 0.875, 'rewards/margins': 3.255859375, 'logps/chosen': -316.75, 'logps/rejected': -154.5, 'logits/chosen': -0.94384765625, 'logits/rejected': -0.998046875, 'epoch': 0.56}
 56%|███████████████████████████████████████████████████▊                                        | 1151/2044 [5:46:52<4:44:23, 19.11s/it] 56%|███████████████████████████████████████████████████▊                                        | 1152/2044 [5:47:11<4:46:21, 19.26s/it]                                                                                                                                         {'loss': 0.2579, 'grad_norm': 36.624520857619665, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7457733154296875, 'rewards/rejected': -2.5771484375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.3203125, 'logps/chosen': -294.25, 'logps/rejected': -143.5625, 'logits/chosen': -0.9638671875, 'logits/rejected': -0.731689453125, 'epoch': 0.56}
 56%|███████████████████████████████████████████████████▊                                        | 1152/2044 [5:47:11<4:46:21, 19.26s/it] 56%|███████████████████████████████████████████████████▉                                        | 1153/2044 [5:47:30<4:43:27, 19.09s/it]                                                                                                                                         {'loss': 0.2154, 'grad_norm': 36.739038957169434, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7635498046875, 'rewards/rejected': -2.939453125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.703125, 'logps/chosen': -296.0, 'logps/rejected': -126.5625, 'logits/chosen': -0.98681640625, 'logits/rejected': -0.84375, 'epoch': 0.56}
 56%|███████████████████████████████████████████████████▉                                        | 1153/2044 [5:47:30<4:43:27, 19.09s/it] 56%|███████████████████████████████████████████████████▉                                        | 1154/2044 [5:47:50<4:46:22, 19.31s/it]                                                                                                                                         {'loss': 0.2524, 'grad_norm': 34.629393132447305, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.59619140625, 'rewards/rejected': -2.43408203125, 'rewards/accuracies': 0.875, 'rewards/margins': 3.025390625, 'logps/chosen': -272.75, 'logps/rejected': -150.25, 'logits/chosen': -0.99560546875, 'logits/rejected': -0.813720703125, 'epoch': 0.56}
 56%|███████████████████████████████████████████████████▉                                        | 1154/2044 [5:47:50<4:46:22, 19.31s/it] 57%|███████████████████████████████████████████████████▉                                        | 1155/2044 [5:48:08<4:41:42, 19.01s/it]                                                                                                                                         {'loss': 0.2366, 'grad_norm': 28.871717359471, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.60595703125, 'rewards/rejected': -2.615234375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.22265625, 'logps/chosen': -262.8125, 'logps/rejected': -123.8125, 'logits/chosen': -0.96533203125, 'logits/rejected': -0.839599609375, 'epoch': 0.57}
 57%|███████████████████████████████████████████████████▉                                        | 1155/2044 [5:48:08<4:41:42, 19.01s/it] 57%|████████████████████████████████████████████████████                                        | 1156/2044 [5:48:26<4:35:38, 18.62s/it]                                                                                                                                         {'loss': 0.1426, 'grad_norm': 24.649421133077528, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.1044921875, 'rewards/rejected': -3.22265625, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.32421875, 'logps/chosen': -334.375, 'logps/rejected': -129.9375, 'logits/chosen': -0.8642578125, 'logits/rejected': -0.76092529296875, 'epoch': 0.57}
 57%|████████████████████████████████████████████████████                                        | 1156/2044 [5:48:26<4:35:38, 18.62s/it] 57%|████████████████████████████████████████████████████                                        | 1157/2044 [5:48:44<4:35:05, 18.61s/it]                                                                                                                                         {'loss': 0.3139, 'grad_norm': 37.06906374635913, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.73291015625, 'rewards/rejected': -2.29296875, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.0302734375, 'logps/chosen': -277.25, 'logps/rejected': -147.75, 'logits/chosen': -0.96728515625, 'logits/rejected': -0.96240234375, 'epoch': 0.57}
 57%|████████████████████████████████████████████████████                                        | 1157/2044 [5:48:44<4:35:05, 18.61s/it] 57%|████████████████████████████████████████████████████                                        | 1158/2044 [5:49:01<4:25:35, 17.99s/it]                                                                                                                                         {'loss': 0.1953, 'grad_norm': 24.144120300367923, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.539794921875, 'rewards/rejected': -3.203125, 'rewards/accuracies': 0.953125, 'rewards/margins': 3.740234375, 'logps/chosen': -239.375, 'logps/rejected': -143.6875, 'logits/chosen': -0.8779296875, 'logits/rejected': -0.91259765625, 'epoch': 0.57}
 57%|████████████████████████████████████████████████████                                        | 1158/2044 [5:49:01<4:25:35, 17.99s/it] 57%|████████████████████████████████████████████████████▏                                       | 1159/2044 [5:49:21<4:33:24, 18.54s/it]                                                                                                                                         {'loss': 0.2015, 'grad_norm': 33.912126094557784, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.93798828125, 'rewards/rejected': -2.638671875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.576171875, 'logps/chosen': -352.125, 'logps/rejected': -119.125, 'logits/chosen': -0.93359375, 'logits/rejected': -0.8504638671875, 'epoch': 0.57}
 57%|████████████████████████████████████████████████████▏                                       | 1159/2044 [5:49:21<4:33:24, 18.54s/it] 57%|████████████████████████████████████████████████████▏                                       | 1160/2044 [5:49:40<4:37:41, 18.85s/it]                                                                                                                                         {'loss': 0.217, 'grad_norm': 29.910413654642397, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.815185546875, 'rewards/rejected': -2.5693359375, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.3857421875, 'logps/chosen': -352.125, 'logps/rejected': -174.0, 'logits/chosen': -0.9130859375, 'logits/rejected': -0.864990234375, 'epoch': 0.57}
 57%|████████████████████████████████████████████████████▏                                       | 1160/2044 [5:49:40<4:37:41, 18.85s/it] 57%|████████████████████████████████████████████████████▎                                       | 1161/2044 [5:49:58<4:32:22, 18.51s/it]                                                                                                                                         {'loss': 0.1383, 'grad_norm': 20.898659829462375, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.860260009765625, 'rewards/rejected': -3.41796875, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.27734375, 'logps/chosen': -348.25, 'logps/rejected': -122.625, 'logits/chosen': -0.838134765625, 'logits/rejected': -0.64471435546875, 'epoch': 0.57}
 57%|████████████████████████████████████████████████████▎                                       | 1161/2044 [5:49:58<4:32:22, 18.51s/it] 57%|████████████████████████████████████████████████████▎                                       | 1162/2044 [5:50:17<4:33:22, 18.60s/it]                                                                                                                                         {'loss': 0.2331, 'grad_norm': 29.158231080596266, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7371826171875, 'rewards/rejected': -2.685546875, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.423828125, 'logps/chosen': -375.875, 'logps/rejected': -215.25, 'logits/chosen': -0.9990234375, 'logits/rejected': -0.871826171875, 'epoch': 0.57}
 57%|████████████████████████████████████████████████████▎                                       | 1162/2044 [5:50:17<4:33:22, 18.60s/it] 57%|████████████████████████████████████████████████████▎                                       | 1163/2044 [5:50:36<4:35:24, 18.76s/it]                                                                                                                                         {'loss': 0.1838, 'grad_norm': 26.765520924478654, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6220703125, 'rewards/rejected': -2.423828125, 'rewards/accuracies': 0.953125, 'rewards/margins': 3.046875, 'logps/chosen': -241.75, 'logps/rejected': -136.125, 'logits/chosen': -1.03125, 'logits/rejected': -0.72802734375, 'epoch': 0.57}
 57%|████████████████████████████████████████████████████▎                                       | 1163/2044 [5:50:36<4:35:24, 18.76s/it] 57%|████████████████████████████████████████████████████▍                                       | 1164/2044 [5:50:55<4:35:43, 18.80s/it]                                                                                                                                         {'loss': 0.2015, 'grad_norm': 30.611699731048805, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.673828125, 'rewards/rejected': -2.962890625, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.63671875, 'logps/chosen': -296.75, 'logps/rejected': -158.0, 'logits/chosen': -0.87353515625, 'logits/rejected': -0.759033203125, 'epoch': 0.57}
 57%|████████████████████████████████████████████████████▍                                       | 1164/2044 [5:50:55<4:35:43, 18.80s/it] 57%|████████████████████████████████████████████████████▍                                       | 1165/2044 [5:51:12<4:30:40, 18.48s/it]                                                                                                                                         {'loss': 0.157, 'grad_norm': 26.53390109577768, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.61181640625, 'rewards/rejected': -3.126953125, 'rewards/accuracies': 0.953125, 'rewards/margins': 3.734375, 'logps/chosen': -289.125, 'logps/rejected': -179.25, 'logits/chosen': -0.87579345703125, 'logits/rejected': -0.9169921875, 'epoch': 0.57}
 57%|████████████████████████████████████████████████████▍                                       | 1165/2044 [5:51:12<4:30:40, 18.48s/it] 57%|████████████████████████████████████████████████████▍                                       | 1166/2044 [5:51:30<4:27:37, 18.29s/it]                                                                                                                                         {'loss': 0.1816, 'grad_norm': 30.008588912461544, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.89208984375, 'rewards/rejected': -2.7197265625, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.615234375, 'logps/chosen': -291.875, 'logps/rejected': -118.0, 'logits/chosen': -0.673583984375, 'logits/rejected': -0.69677734375, 'epoch': 0.57}
 57%|████████████████████████████████████████████████████▍                                       | 1166/2044 [5:51:30<4:27:37, 18.29s/it] 57%|████████████████████████████████████████████████████▌                                       | 1167/2044 [5:51:49<4:30:08, 18.48s/it]                                                                                                                                         {'loss': 0.2564, 'grad_norm': 32.73340403457239, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4912109375, 'rewards/rejected': -2.779296875, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.26953125, 'logps/chosen': -294.625, 'logps/rejected': -150.5625, 'logits/chosen': -0.91748046875, 'logits/rejected': -0.846923828125, 'epoch': 0.57}
 57%|████████████████████████████████████████████████████▌                                       | 1167/2044 [5:51:49<4:30:08, 18.48s/it] 57%|████████████████████████████████████████████████████▌                                       | 1168/2044 [5:52:07<4:28:41, 18.40s/it]                                                                                                                                         {'loss': 0.2336, 'grad_norm': 32.29532247850675, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.3330078125, 'rewards/rejected': -2.962890625, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.294921875, 'logps/chosen': -264.0, 'logps/rejected': -147.1875, 'logits/chosen': -0.9892578125, 'logits/rejected': -0.88134765625, 'epoch': 0.57}
 57%|████████████████████████████████████████████████████▌                                       | 1168/2044 [5:52:07<4:28:41, 18.40s/it] 57%|████████████████████████████████████████████████████▌                                       | 1169/2044 [5:52:27<4:33:32, 18.76s/it]                                                                                                                                         {'loss': 0.2292, 'grad_norm': 40.541258504640965, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.711669921875, 'rewards/rejected': -2.541015625, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.25, 'logps/chosen': -249.75, 'logps/rejected': -135.9375, 'logits/chosen': -0.95947265625, 'logits/rejected': -0.779541015625, 'epoch': 0.57}
 57%|████████████████████████████████████████████████████▌                                       | 1169/2044 [5:52:27<4:33:32, 18.76s/it] 57%|████████████████████████████████████████████████████▋                                       | 1170/2044 [5:52:45<4:30:31, 18.57s/it]                                                                                                                                         {'loss': 0.2222, 'grad_norm': 31.657250732681092, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.524658203125, 'rewards/rejected': -2.904296875, 'rewards/accuracies': 0.875, 'rewards/margins': 3.4287109375, 'logps/chosen': -266.875, 'logps/rejected': -122.25, 'logits/chosen': -0.7313232421875, 'logits/rejected': -0.88671875, 'epoch': 0.57}
 57%|████████████████████████████████████████████████████▋                                       | 1170/2044 [5:52:45<4:30:31, 18.57s/it] 57%|████████████████████████████████████████████████████▋                                       | 1171/2044 [5:53:04<4:29:13, 18.50s/it]                                                                                                                                         {'loss': 0.2787, 'grad_norm': 34.84210394817851, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6346435546875, 'rewards/rejected': -2.7587890625, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.396484375, 'logps/chosen': -305.875, 'logps/rejected': -141.375, 'logits/chosen': -0.82373046875, 'logits/rejected': -0.7247314453125, 'epoch': 0.57}
 57%|████████████████████████████████████████████████████▋                                       | 1171/2044 [5:53:04<4:29:13, 18.50s/it] 57%|████████████████████████████████████████████████████▊                                       | 1172/2044 [5:53:22<4:30:20, 18.60s/it]                                                                                                                                         {'loss': 0.2275, 'grad_norm': 36.815604860779096, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.867919921875, 'rewards/rejected': -2.69140625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.564453125, 'logps/chosen': -340.0, 'logps/rejected': -147.25, 'logits/chosen': -0.83544921875, 'logits/rejected': -0.74951171875, 'epoch': 0.57}
 57%|████████████████████████████████████████████████████▊                                       | 1172/2044 [5:53:22<4:30:20, 18.60s/it] 57%|████████████████████████████████████████████████████▊                                       | 1173/2044 [5:53:42<4:33:12, 18.82s/it]                                                                                                                                         {'loss': 0.1611, 'grad_norm': 26.038493407883113, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.879638671875, 'rewards/rejected': -2.7861328125, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.6640625, 'logps/chosen': -327.625, 'logps/rejected': -131.125, 'logits/chosen': -0.89501953125, 'logits/rejected': -0.819091796875, 'epoch': 0.57}
 57%|████████████████████████████████████████████████████▊                                       | 1173/2044 [5:53:42<4:33:12, 18.82s/it] 57%|████████████████████████████████████████████████████▊                                       | 1174/2044 [5:54:01<4:33:28, 18.86s/it]                                                                                                                                         {'loss': 0.1706, 'grad_norm': 25.15397263187907, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.896728515625, 'rewards/rejected': -3.318359375, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.216796875, 'logps/chosen': -374.5, 'logps/rejected': -115.4375, 'logits/chosen': -0.884765625, 'logits/rejected': -0.6741943359375, 'epoch': 0.57}
 57%|████████████████████████████████████████████████████▊                                       | 1174/2044 [5:54:01<4:33:28, 18.86s/it] 57%|████████████████████████████████████████████████████▉                                       | 1175/2044 [5:54:20<4:36:09, 19.07s/it]                                                                                                                                         {'loss': 0.1818, 'grad_norm': 27.933936239429237, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.562744140625, 'rewards/rejected': -2.8310546875, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.39453125, 'logps/chosen': -333.875, 'logps/rejected': -170.625, 'logits/chosen': -0.916015625, 'logits/rejected': -0.8154296875, 'epoch': 0.57}
 57%|████████████████████████████████████████████████████▉                                       | 1175/2044 [5:54:20<4:36:09, 19.07s/it] 58%|████████████████████████████████████████████████████▉                                       | 1176/2044 [5:54:40<4:38:39, 19.26s/it]                                                                                                                                         {'loss': 0.1685, 'grad_norm': 27.616515883083274, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.644866943359375, 'rewards/rejected': -2.8857421875, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.5283203125, 'logps/chosen': -342.375, 'logps/rejected': -143.6875, 'logits/chosen': -0.860107421875, 'logits/rejected': -0.697021484375, 'epoch': 0.58}
 58%|████████████████████████████████████████████████████▉                                       | 1176/2044 [5:54:40<4:38:39, 19.26s/it] 58%|████████████████████████████████████████████████████▉                                       | 1177/2044 [5:54:59<4:35:38, 19.08s/it]                                                                                                                                         {'loss': 0.2111, 'grad_norm': 28.819257339498108, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.69970703125, 'rewards/rejected': -2.95703125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.658203125, 'logps/chosen': -282.75, 'logps/rejected': -119.4375, 'logits/chosen': -0.9072265625, 'logits/rejected': -0.7587890625, 'epoch': 0.58}
 58%|████████████████████████████████████████████████████▉                                       | 1177/2044 [5:54:59<4:35:38, 19.08s/it] 58%|█████████████████████████████████████████████████████                                       | 1178/2044 [5:55:18<4:36:58, 19.19s/it]                                                                                                                                         {'loss': 0.2004, 'grad_norm': 23.91330757623951, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4754638671875, 'rewards/rejected': -2.861328125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.3359375, 'logps/chosen': -260.375, 'logps/rejected': -121.0625, 'logits/chosen': -0.8955078125, 'logits/rejected': -0.711669921875, 'epoch': 0.58}
 58%|█████████████████████████████████████████████████████                                       | 1178/2044 [5:55:18<4:36:58, 19.19s/it] 58%|█████████████████████████████████████████████████████                                       | 1179/2044 [5:55:36<4:30:30, 18.76s/it]                                                                                                                                         {'loss': 0.1843, 'grad_norm': 27.962116348461628, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.759033203125, 'rewards/rejected': -2.98046875, 'rewards/accuracies': 0.953125, 'rewards/margins': 3.7421875, 'logps/chosen': -292.375, 'logps/rejected': -126.875, 'logits/chosen': -0.964599609375, 'logits/rejected': -0.9169921875, 'epoch': 0.58}
 58%|█████████████████████████████████████████████████████                                       | 1179/2044 [5:55:36<4:30:30, 18.76s/it] 58%|█████████████████████████████████████████████████████                                       | 1180/2044 [5:55:56<4:35:52, 19.16s/it]                                                                                                                                         {'loss': 0.2255, 'grad_norm': 34.12616271561362, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.77227783203125, 'rewards/rejected': -2.76171875, 'rewards/accuracies': 0.875, 'rewards/margins': 3.5390625, 'logps/chosen': -326.0, 'logps/rejected': -145.625, 'logits/chosen': -0.86328125, 'logits/rejected': -0.8017578125, 'epoch': 0.58}
 58%|█████████████████████████████████████████████████████                                       | 1180/2044 [5:55:56<4:35:52, 19.16s/it] 58%|█████████████████████████████████████████████████████▏                                      | 1181/2044 [5:56:15<4:35:59, 19.19s/it]                                                                                                                                         {'loss': 0.2618, 'grad_norm': 30.521915893706996, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.536041259765625, 'rewards/rejected': -2.3876953125, 'rewards/accuracies': 0.875, 'rewards/margins': 2.919921875, 'logps/chosen': -306.875, 'logps/rejected': -127.625, 'logits/chosen': -0.9443359375, 'logits/rejected': -0.8173828125, 'epoch': 0.58}
 58%|█████████████████████████████████████████████████████▏                                      | 1181/2044 [5:56:15<4:35:59, 19.19s/it] 58%|█████████████████████████████████████████████████████▏                                      | 1182/2044 [5:56:34<4:35:21, 19.17s/it]                                                                                                                                         {'loss': 0.2042, 'grad_norm': 34.75799219597389, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.58477783203125, 'rewards/rejected': -2.8349609375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.4189453125, 'logps/chosen': -309.375, 'logps/rejected': -147.9375, 'logits/chosen': -0.87353515625, 'logits/rejected': -0.8720703125, 'epoch': 0.58}
 58%|█████████████████████████████████████████████████████▏                                      | 1182/2044 [5:56:34<4:35:21, 19.17s/it] 58%|█████████████████████████████████████████████████████▏                                      | 1183/2044 [5:56:54<4:36:11, 19.25s/it]                                                                                                                                         {'loss': 0.2066, 'grad_norm': 29.073136177653755, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8341064453125, 'rewards/rejected': -2.62890625, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.466796875, 'logps/chosen': -335.25, 'logps/rejected': -151.75, 'logits/chosen': -0.927734375, 'logits/rejected': -0.807373046875, 'epoch': 0.58}
 58%|█████████████████████████████████████████████████████▏                                      | 1183/2044 [5:56:54<4:36:11, 19.25s/it] 58%|█████████████████████████████████████████████████████▎                                      | 1184/2044 [5:57:12<4:30:14, 18.85s/it]                                                                                                                                         {'loss': 0.212, 'grad_norm': 27.769724734347545, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8543701171875, 'rewards/rejected': -2.92578125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.779296875, 'logps/chosen': -288.25, 'logps/rejected': -142.875, 'logits/chosen': -0.90087890625, 'logits/rejected': -0.823486328125, 'epoch': 0.58}
 58%|█████████████████████████████████████████████████████▎                                      | 1184/2044 [5:57:12<4:30:14, 18.85s/it] 58%|█████████████████████████████████████████████████████▎                                      | 1185/2044 [5:57:28<4:20:50, 18.22s/it]                                                                                                                                         {'loss': 0.1142, 'grad_norm': 21.778115676249158, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.474273681640625, 'rewards/rejected': -3.392578125, 'rewards/accuracies': 0.984375, 'rewards/margins': 3.869140625, 'logps/chosen': -294.5, 'logps/rejected': -116.0625, 'logits/chosen': -0.9501953125, 'logits/rejected': -0.839111328125, 'epoch': 0.58}
 58%|█████████████████████████████████████████████████████▎                                      | 1185/2044 [5:57:28<4:20:50, 18.22s/it] 58%|█████████████████████████████████████████████████████▍                                      | 1186/2044 [5:57:47<4:23:56, 18.46s/it]                                                                                                                                         {'loss': 0.2074, 'grad_norm': 27.639843861090917, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.85601806640625, 'rewards/rejected': -2.830078125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.685546875, 'logps/chosen': -365.375, 'logps/rejected': -120.25, 'logits/chosen': -0.88623046875, 'logits/rejected': -0.90625, 'epoch': 0.58}
 58%|█████████████████████████████████████████████████████▍                                      | 1186/2044 [5:57:47<4:23:56, 18.46s/it] 58%|█████████████████████████████████████████████████████▍                                      | 1187/2044 [5:58:08<4:31:33, 19.01s/it]                                                                                                                                         {'loss': 0.2543, 'grad_norm': 33.691907188755664, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.69921875, 'rewards/rejected': -2.4228515625, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.1220703125, 'logps/chosen': -293.25, 'logps/rejected': -150.8125, 'logits/chosen': -0.90380859375, 'logits/rejected': -0.8427734375, 'epoch': 0.58}
 58%|█████████████████████████████████████████████████████▍                                      | 1187/2044 [5:58:08<4:31:33, 19.01s/it] 58%|█████████████████████████████████████████████████████▍                                      | 1188/2044 [5:58:26<4:28:13, 18.80s/it]                                                                                                                                         {'loss': 0.2032, 'grad_norm': 29.44970963834437, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.57763671875, 'rewards/rejected': -2.794921875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.3681640625, 'logps/chosen': -236.625, 'logps/rejected': -131.4375, 'logits/chosen': -0.768798828125, 'logits/rejected': -0.6708984375, 'epoch': 0.58}
 58%|█████████████████████████████████████████████████████▍                                      | 1188/2044 [5:58:26<4:28:13, 18.80s/it] 58%|█████████████████████████████████████████████████████▌                                      | 1189/2044 [5:58:44<4:22:32, 18.42s/it]                                                                                                                                         {'loss': 0.1784, 'grad_norm': 24.651116270977443, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7777099609375, 'rewards/rejected': -3.083984375, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.861328125, 'logps/chosen': -309.75, 'logps/rejected': -121.5625, 'logits/chosen': -0.89990234375, 'logits/rejected': -0.65234375, 'epoch': 0.58}
 58%|█████████████████████████████████████████████████████▌                                      | 1189/2044 [5:58:44<4:22:32, 18.42s/it] 58%|█████████████████████████████████████████████████████▌                                      | 1190/2044 [5:59:03<4:26:49, 18.75s/it]                                                                                                                                         {'loss': 0.268, 'grad_norm': 35.19540810415966, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.76654052734375, 'rewards/rejected': -2.5986328125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.361328125, 'logps/chosen': -329.8125, 'logps/rejected': -170.0625, 'logits/chosen': -0.890380859375, 'logits/rejected': -0.90869140625, 'epoch': 0.58}
 58%|█████████████████████████████████████████████████████▌                                      | 1190/2044 [5:59:03<4:26:49, 18.75s/it] 58%|█████████████████████████████████████████████████████▌                                      | 1191/2044 [5:59:21<4:21:50, 18.42s/it]                                                                                                                                         {'loss': 0.2279, 'grad_norm': 29.860396369873754, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.37261962890625, 'rewards/rejected': -2.828125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.201171875, 'logps/chosen': -275.0, 'logps/rejected': -136.375, 'logits/chosen': -0.8487091064453125, 'logits/rejected': -0.715087890625, 'epoch': 0.58}
 58%|█████████████████████████████████████████████████████▌                                      | 1191/2044 [5:59:21<4:21:50, 18.42s/it] 58%|█████████████████████████████████████████████████████▋                                      | 1192/2044 [5:59:39<4:19:10, 18.25s/it]                                                                                                                                         {'loss': 0.2809, 'grad_norm': 33.90557655809148, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.42578125, 'rewards/rejected': -2.7626953125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.19140625, 'logps/chosen': -272.625, 'logps/rejected': -129.25, 'logits/chosen': -0.83544921875, 'logits/rejected': -0.72686767578125, 'epoch': 0.58}
 58%|█████████████████████████████████████████████████████▋                                      | 1192/2044 [5:59:39<4:19:10, 18.25s/it] 58%|█████████████████████████████████████████████████████▋                                      | 1193/2044 [5:59:56<4:16:52, 18.11s/it]                                                                                                                                         {'loss': 0.1792, 'grad_norm': 24.31719134949821, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.59197998046875, 'rewards/rejected': -3.0673828125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.65625, 'logps/chosen': -295.125, 'logps/rejected': -130.4375, 'logits/chosen': -1.1171875, 'logits/rejected': -0.88818359375, 'epoch': 0.58}
 58%|█████████████████████████████████████████████████████▋                                      | 1193/2044 [5:59:56<4:16:52, 18.11s/it] 58%|█████████████████████████████████████████████████████▋                                      | 1194/2044 [6:00:17<4:27:24, 18.88s/it]                                                                                                                                         {'loss': 0.3059, 'grad_norm': 35.150223694090194, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6788330078125, 'rewards/rejected': -2.138671875, 'rewards/accuracies': 0.796875, 'rewards/margins': 2.818359375, 'logps/chosen': -305.75, 'logps/rejected': -156.25, 'logits/chosen': -0.8489532470703125, 'logits/rejected': -0.702880859375, 'epoch': 0.58}
 58%|█████████████████████████████████████████████████████▋                                      | 1194/2044 [6:00:17<4:27:24, 18.88s/it] 58%|█████████████████████████████████████████████████████▊                                      | 1195/2044 [6:00:35<4:24:46, 18.71s/it]                                                                                                                                         {'loss': 0.2719, 'grad_norm': 37.712435565130235, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.681396484375, 'rewards/rejected': -2.5439453125, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.22265625, 'logps/chosen': -301.75, 'logps/rejected': -180.4375, 'logits/chosen': -0.91217041015625, 'logits/rejected': -0.84619140625, 'epoch': 0.58}
 58%|█████████████████████████████████████████████████████▊                                      | 1195/2044 [6:00:35<4:24:46, 18.71s/it] 59%|█████████████████████████████████████████████████████▊                                      | 1196/2044 [6:00:54<4:24:34, 18.72s/it]                                                                                                                                         {'loss': 0.2355, 'grad_norm': 30.218012343210287, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.953369140625, 'rewards/rejected': -2.953125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.90625, 'logps/chosen': -316.5, 'logps/rejected': -126.5625, 'logits/chosen': -1.01025390625, 'logits/rejected': -0.88720703125, 'epoch': 0.59}
 59%|█████████████████████████████████████████████████████▊                                      | 1196/2044 [6:00:54<4:24:34, 18.72s/it] 59%|█████████████████████████████████████████████████████▉                                      | 1197/2044 [6:01:14<4:27:35, 18.96s/it]                                                                                                                                         {'loss': 0.2388, 'grad_norm': 37.86311595860112, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6651153564453125, 'rewards/rejected': -2.69921875, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.365234375, 'logps/chosen': -269.875, 'logps/rejected': -190.5625, 'logits/chosen': -0.781005859375, 'logits/rejected': -1.03759765625, 'epoch': 0.59}
 59%|█████████████████████████████████████████████████████▉                                      | 1197/2044 [6:01:14<4:27:35, 18.96s/it] 59%|█████████████████████████████████████████████████████▉                                      | 1198/2044 [6:01:32<4:26:30, 18.90s/it]                                                                                                                                         {'loss': 0.2442, 'grad_norm': 35.29480268983176, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5107421875, 'rewards/rejected': -2.7587890625, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.2705078125, 'logps/chosen': -268.875, 'logps/rejected': -173.9375, 'logits/chosen': -0.94287109375, 'logits/rejected': -0.707275390625, 'epoch': 0.59}
 59%|█████████████████████████████████████████████████████▉                                      | 1198/2044 [6:01:32<4:26:30, 18.90s/it] 59%|█████████████████████████████████████████████████████▉                                      | 1199/2044 [6:01:51<4:23:10, 18.69s/it]                                                                                                                                         {'loss': 0.2586, 'grad_norm': 32.084388723064414, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.542694091796875, 'rewards/rejected': -2.517578125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.060546875, 'logps/chosen': -246.625, 'logps/rejected': -125.75, 'logits/chosen': -0.9013671875, 'logits/rejected': -0.6783599853515625, 'epoch': 0.59}
 59%|█████████████████████████████████████████████████████▉                                      | 1199/2044 [6:01:51<4:23:10, 18.69s/it] 59%|██████████████████████████████████████████████████████                                      | 1200/2044 [6:02:09<4:20:15, 18.50s/it]                                                                                                                                         {'loss': 0.1917, 'grad_norm': 24.353650156713638, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6224365234375, 'rewards/rejected': -3.0078125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.630859375, 'logps/chosen': -292.375, 'logps/rejected': -153.6875, 'logits/chosen': -0.7613525390625, 'logits/rejected': -0.73828125, 'epoch': 0.59}
 59%|██████████████████████████████████████████████████████                                      | 1200/2044 [6:02:09<4:20:15, 18.50s/it] 59%|██████████████████████████████████████████████████████                                      | 1201/2044 [6:02:28<4:23:54, 18.78s/it]                                                                                                                                         {'loss': 0.1422, 'grad_norm': 20.323866504579048, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.853515625, 'rewards/rejected': -3.3046875, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.162109375, 'logps/chosen': -295.875, 'logps/rejected': -127.75, 'logits/chosen': -0.80615234375, 'logits/rejected': -0.7783203125, 'epoch': 0.59}
 59%|██████████████████████████████████████████████████████                                      | 1201/2044 [6:02:28<4:23:54, 18.78s/it] 59%|██████████████████████████████████████████████████████                                      | 1202/2044 [6:02:47<4:25:37, 18.93s/it]                                                                                                                                         {'loss': 0.2288, 'grad_norm': 39.513900096655995, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.742431640625, 'rewards/rejected': -2.7607421875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.501953125, 'logps/chosen': -374.75, 'logps/rejected': -160.3125, 'logits/chosen': -0.947265625, 'logits/rejected': -0.84765625, 'epoch': 0.59}
 59%|██████████████████████████████████████████████████████                                      | 1202/2044 [6:02:47<4:25:37, 18.93s/it] 59%|██████████████████████████████████████████████████████▏                                     | 1203/2044 [6:03:06<4:24:33, 18.88s/it]                                                                                                                                         {'loss': 0.2466, 'grad_norm': 34.02713957190896, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.79693603515625, 'rewards/rejected': -2.7021484375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.4970703125, 'logps/chosen': -289.5, 'logps/rejected': -146.6875, 'logits/chosen': -0.804443359375, 'logits/rejected': -0.8310546875, 'epoch': 0.59}
 59%|██████████████████████████████████████████████████████▏                                     | 1203/2044 [6:03:06<4:24:33, 18.88s/it] 59%|██████████████████████████████████████████████████████▏                                     | 1204/2044 [6:03:25<4:26:17, 19.02s/it]                                                                                                                                         {'loss': 0.1804, 'grad_norm': 32.082100531651705, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.925537109375, 'rewards/rejected': -2.953125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.8828125, 'logps/chosen': -360.5, 'logps/rejected': -137.75, 'logits/chosen': -0.90966796875, 'logits/rejected': -0.873046875, 'epoch': 0.59}
 59%|██████████████████████████████████████████████████████▏                                     | 1204/2044 [6:03:25<4:26:17, 19.02s/it] 59%|██████████████████████████████████████████████████████▏                                     | 1205/2044 [6:03:44<4:25:33, 18.99s/it]                                                                                                                                         {'loss': 0.2577, 'grad_norm': 30.009202265249204, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.718505859375, 'rewards/rejected': -2.63916015625, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.357421875, 'logps/chosen': -309.125, 'logps/rejected': -120.375, 'logits/chosen': -0.96533203125, 'logits/rejected': -0.747314453125, 'epoch': 0.59}
 59%|██████████████████████████████████████████████████████▏                                     | 1205/2044 [6:03:44<4:25:33, 18.99s/it] 59%|██████████████████████████████████████████████████████▎                                     | 1206/2044 [6:04:02<4:20:29, 18.65s/it]                                                                                                                                         {'loss': 0.1939, 'grad_norm': 25.262642464812604, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5748291015625, 'rewards/rejected': -3.2373046875, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.810546875, 'logps/chosen': -268.625, 'logps/rejected': -105.75, 'logits/chosen': -1.0888671875, 'logits/rejected': -0.5904541015625, 'epoch': 0.59}
 59%|██████████████████████████████████████████████████████▎                                     | 1206/2044 [6:04:02<4:20:29, 18.65s/it] 59%|██████████████████████████████████████████████████████▎                                     | 1207/2044 [6:04:21<4:21:52, 18.77s/it]                                                                                                                                         {'loss': 0.2765, 'grad_norm': 34.06244107566518, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.2536468505859375, 'rewards/rejected': -2.921875, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.177734375, 'logps/chosen': -273.5, 'logps/rejected': -146.5, 'logits/chosen': -1.00146484375, 'logits/rejected': -0.87841796875, 'epoch': 0.59}
 59%|██████████████████████████████████████████████████████▎                                     | 1207/2044 [6:04:21<4:21:52, 18.77s/it] 59%|██████████████████████████████████████████████████████▎                                     | 1208/2044 [6:04:38<4:13:03, 18.16s/it]                                                                                                                                         {'loss': 0.1995, 'grad_norm': 25.200038700054662, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.56597900390625, 'rewards/rejected': -3.11328125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.6796875, 'logps/chosen': -279.3125, 'logps/rejected': -119.625, 'logits/chosen': -0.91845703125, 'logits/rejected': -0.82421875, 'epoch': 0.59}
 59%|██████████████████████████████████████████████████████▎                                     | 1208/2044 [6:04:38<4:13:03, 18.16s/it] 59%|██████████████████████████████████████████████████████▍                                     | 1209/2044 [6:04:57<4:16:29, 18.43s/it]                                                                                                                                         {'loss': 0.2529, 'grad_norm': 44.35453196333484, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.590576171875, 'rewards/rejected': -2.8857421875, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.4814453125, 'logps/chosen': -273.875, 'logps/rejected': -163.875, 'logits/chosen': -1.01416015625, 'logits/rejected': -0.79833984375, 'epoch': 0.59}
 59%|██████████████████████████████████████████████████████▍                                     | 1209/2044 [6:04:57<4:16:29, 18.43s/it] 59%|██████████████████████████████████████████████████████▍                                     | 1210/2044 [6:05:16<4:18:45, 18.62s/it]                                                                                                                                         {'loss': 0.2695, 'grad_norm': 32.55426478283829, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.74505615234375, 'rewards/rejected': -2.4970703125, 'rewards/accuracies': 0.8125, 'rewards/margins': 3.2412109375, 'logps/chosen': -267.75, 'logps/rejected': -141.5, 'logits/chosen': -0.92529296875, 'logits/rejected': -0.847412109375, 'epoch': 0.59}
 59%|██████████████████████████████████████████████████████▍                                     | 1210/2044 [6:05:16<4:18:45, 18.62s/it] 59%|██████████████████████████████████████████████████████▌                                     | 1211/2044 [6:05:34<4:15:12, 18.38s/it]                                                                                                                                         {'loss': 0.1458, 'grad_norm': 23.50895989084789, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.72802734375, 'rewards/rejected': -3.328125, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.052734375, 'logps/chosen': -333.625, 'logps/rejected': -145.4375, 'logits/chosen': -0.9599609375, 'logits/rejected': -0.84423828125, 'epoch': 0.59}
 59%|██████████████████████████████████████████████████████▌                                     | 1211/2044 [6:05:34<4:15:12, 18.38s/it] 59%|██████████████████████████████████████████████████████▌                                     | 1212/2044 [6:05:53<4:19:05, 18.69s/it]                                                                                                                                         {'loss': 0.2382, 'grad_norm': 38.90973949576056, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6768798828125, 'rewards/rejected': -2.7646484375, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.439453125, 'logps/chosen': -309.125, 'logps/rejected': -155.125, 'logits/chosen': -0.902587890625, 'logits/rejected': -0.9384765625, 'epoch': 0.59}
 59%|██████████████████████████████████████████████████████▌                                     | 1212/2044 [6:05:53<4:19:05, 18.69s/it] 59%|██████████████████████████████████████████████████████▌                                     | 1213/2044 [6:06:12<4:20:00, 18.77s/it]                                                                                                                                         {'loss': 0.2695, 'grad_norm': 36.766906531969525, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4969482421875, 'rewards/rejected': -2.6728515625, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.169921875, 'logps/chosen': -323.0, 'logps/rejected': -209.0, 'logits/chosen': -0.751220703125, 'logits/rejected': -0.88330078125, 'epoch': 0.59}
 59%|██████████████████████████████████████████████████████▌                                     | 1213/2044 [6:06:12<4:20:00, 18.77s/it] 59%|██████████████████████████████████████████████████████▋                                     | 1214/2044 [6:06:31<4:17:44, 18.63s/it]                                                                                                                                         {'loss': 0.1577, 'grad_norm': 24.95873317613602, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6846923828125, 'rewards/rejected': -3.44140625, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.125, 'logps/chosen': -283.125, 'logps/rejected': -100.5625, 'logits/chosen': -0.8564453125, 'logits/rejected': -0.886962890625, 'epoch': 0.59}
 59%|██████████████████████████████████████████████████████▋                                     | 1214/2044 [6:06:31<4:17:44, 18.63s/it] 59%|██████████████████████████████████████████████████████▋                                     | 1215/2044 [6:06:50<4:21:20, 18.92s/it]                                                                                                                                         {'loss': 0.1976, 'grad_norm': 27.465770457737243, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.92919921875, 'rewards/rejected': -2.80859375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.734375, 'logps/chosen': -303.75, 'logps/rejected': -132.0, 'logits/chosen': -0.9921875, 'logits/rejected': -0.823486328125, 'epoch': 0.59}
 59%|██████████████████████████████████████████████████████▋                                     | 1215/2044 [6:06:50<4:21:20, 18.92s/it] 59%|██████████████████████████████████████████████████████▋                                     | 1216/2044 [6:07:08<4:15:00, 18.48s/it]                                                                                                                                         {'loss': 0.2523, 'grad_norm': 34.67864738669549, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.39471435546875, 'rewards/rejected': -2.8076171875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.203125, 'logps/chosen': -209.0, 'logps/rejected': -119.875, 'logits/chosen': -0.89208984375, 'logits/rejected': -0.7525177001953125, 'epoch': 0.59}
 59%|██████████████████████████████████████████████████████▋                                     | 1216/2044 [6:07:08<4:15:00, 18.48s/it] 60%|██████████████████████████████████████████████████████▊                                     | 1217/2044 [6:07:26<4:14:16, 18.45s/it]                                                                                                                                         {'loss': 0.2484, 'grad_norm': 23.586531903928822, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4366455078125, 'rewards/rejected': -2.7548828125, 'rewards/accuracies': 0.875, 'rewards/margins': 3.19140625, 'logps/chosen': -328.3125, 'logps/rejected': -106.5625, 'logits/chosen': -0.9378662109375, 'logits/rejected': -0.7476806640625, 'epoch': 0.6}
 60%|██████████████████████████████████████████████████████▊                                     | 1217/2044 [6:07:26<4:14:16, 18.45s/it] 60%|██████████████████████████████████████████████████████▊                                     | 1218/2044 [6:07:45<4:16:24, 18.63s/it]                                                                                                                                         {'loss': 0.299, 'grad_norm': 34.49819321214812, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4857177734375, 'rewards/rejected': -2.6103515625, 'rewards/accuracies': 0.8125, 'rewards/margins': 3.09765625, 'logps/chosen': -291.25, 'logps/rejected': -136.9375, 'logits/chosen': -0.85009765625, 'logits/rejected': -0.8759765625, 'epoch': 0.6}
 60%|██████████████████████████████████████████████████████▊                                     | 1218/2044 [6:07:45<4:16:24, 18.63s/it] 60%|██████████████████████████████████████████████████████▊                                     | 1219/2044 [6:08:05<4:20:22, 18.94s/it]                                                                                                                                         {'loss': 0.2332, 'grad_norm': 31.413077070063455, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6910552978515625, 'rewards/rejected': -2.7734375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.46875, 'logps/chosen': -335.5, 'logps/rejected': -140.0625, 'logits/chosen': -0.95361328125, 'logits/rejected': -0.88525390625, 'epoch': 0.6}
 60%|██████████████████████████████████████████████████████▊                                     | 1219/2044 [6:08:05<4:20:22, 18.94s/it] 60%|██████████████████████████████████████████████████████▉                                     | 1220/2044 [6:08:24<4:22:50, 19.14s/it]                                                                                                                                         {'loss': 0.2523, 'grad_norm': 37.62489657508775, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.537017822265625, 'rewards/rejected': -2.4765625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.0107421875, 'logps/chosen': -298.25, 'logps/rejected': -138.6875, 'logits/chosen': -0.83026123046875, 'logits/rejected': -0.859375, 'epoch': 0.6}
 60%|██████████████████████████████████████████████████████▉                                     | 1220/2044 [6:08:24<4:22:50, 19.14s/it] 60%|██████████████████████████████████████████████████████▉                                     | 1221/2044 [6:08:44<4:23:13, 19.19s/it]                                                                                                                                         {'loss': 0.2697, 'grad_norm': 28.74291463645151, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.759521484375, 'rewards/rejected': -2.5185546875, 'rewards/accuracies': 0.8125, 'rewards/margins': 3.27734375, 'logps/chosen': -288.75, 'logps/rejected': -129.0625, 'logits/chosen': -0.869140625, 'logits/rejected': -0.875, 'epoch': 0.6}
 60%|██████████████████████████████████████████████████████▉                                     | 1221/2044 [6:08:44<4:23:13, 19.19s/it] 60%|███████████████████████████████████████████████████████                                     | 1222/2044 [6:09:03<4:23:54, 19.26s/it]                                                                                                                                         {'loss': 0.2818, 'grad_norm': 38.85733642981561, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.89251708984375, 'rewards/rejected': -2.5, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.39404296875, 'logps/chosen': -309.75, 'logps/rejected': -185.6875, 'logits/chosen': -0.89599609375, 'logits/rejected': -0.8046875, 'epoch': 0.6}
 60%|███████████████████████████████████████████████████████                                     | 1222/2044 [6:09:03<4:23:54, 19.26s/it] 60%|███████████████████████████████████████████████████████                                     | 1223/2044 [6:09:23<4:28:10, 19.60s/it]                                                                                                                                         {'loss': 0.2441, 'grad_norm': 41.82898491531608, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.958740234375, 'rewards/rejected': -2.486328125, 'rewards/accuracies': 0.875, 'rewards/margins': 3.4443359375, 'logps/chosen': -377.625, 'logps/rejected': -191.625, 'logits/chosen': -0.974609375, 'logits/rejected': -0.8583984375, 'epoch': 0.6}
 60%|███████████████████████████████████████████████████████                                     | 1223/2044 [6:09:23<4:28:10, 19.60s/it] 60%|███████████████████████████████████████████████████████                                     | 1224/2044 [6:09:43<4:28:51, 19.67s/it]                                                                                                                                         {'loss': 0.1597, 'grad_norm': 24.920462761629146, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.94580078125, 'rewards/rejected': -2.7861328125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.7265625, 'logps/chosen': -406.375, 'logps/rejected': -250.25, 'logits/chosen': -0.885498046875, 'logits/rejected': -0.92529296875, 'epoch': 0.6}
 60%|███████████████████████████████████████████████████████                                     | 1224/2044 [6:09:43<4:28:51, 19.67s/it] 60%|███████████████████████████████████████████████████████▏                                    | 1225/2044 [6:10:03<4:27:46, 19.62s/it]                                                                                                                                         {'loss': 0.2285, 'grad_norm': 31.657731700434987, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.88623046875, 'rewards/rejected': -2.525390625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.4140625, 'logps/chosen': -337.0, 'logps/rejected': -157.5625, 'logits/chosen': -0.952392578125, 'logits/rejected': -0.859375, 'epoch': 0.6}
 60%|███████████████████████████████████████████████████████▏                                    | 1225/2044 [6:10:03<4:27:46, 19.62s/it] 60%|███████████████████████████████████████████████████████▏                                    | 1226/2044 [6:10:22<4:26:07, 19.52s/it]                                                                                                                                         {'loss': 0.2137, 'grad_norm': 33.068432698934636, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.493499755859375, 'rewards/rejected': -3.2333984375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.7265625, 'logps/chosen': -245.625, 'logps/rejected': -132.8125, 'logits/chosen': -0.97802734375, 'logits/rejected': -0.90087890625, 'epoch': 0.6}
 60%|███████████████████████████████████████████████████████▏                                    | 1226/2044 [6:10:22<4:26:07, 19.52s/it] 60%|███████████████████████████████████████████████████████▏                                    | 1227/2044 [6:10:41<4:23:06, 19.32s/it]                                                                                                                                         {'loss': 0.2119, 'grad_norm': 34.37343715473854, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.99755859375, 'rewards/rejected': -2.9931640625, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.9921875, 'logps/chosen': -313.625, 'logps/rejected': -146.4375, 'logits/chosen': -0.85302734375, 'logits/rejected': -0.621337890625, 'epoch': 0.6}
 60%|███████████████████████████████████████████████████████▏                                    | 1227/2044 [6:10:41<4:23:06, 19.32s/it] 60%|███████████████████████████████████████████████████████▎                                    | 1228/2044 [6:11:01<4:24:56, 19.48s/it]                                                                                                                                         {'loss': 0.2508, 'grad_norm': 34.7935260102796, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.612548828125, 'rewards/rejected': -2.62890625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.240234375, 'logps/chosen': -311.875, 'logps/rejected': -136.75, 'logits/chosen': -0.82275390625, 'logits/rejected': -0.90673828125, 'epoch': 0.6}
 60%|███████████████████████████████████████████████████████▎                                    | 1228/2044 [6:11:01<4:24:56, 19.48s/it] 60%|███████████████████████████████████████████████████████▎                                    | 1229/2044 [6:11:17<4:13:02, 18.63s/it]                                                                                                                                         {'loss': 0.1439, 'grad_norm': 25.871397757165127, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.907470703125, 'rewards/rejected': -3.4111328125, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.31640625, 'logps/chosen': -357.25, 'logps/rejected': -115.5, 'logits/chosen': -0.9892578125, 'logits/rejected': -0.759033203125, 'epoch': 0.6}
 60%|███████████████████████████████████████████████████████▎                                    | 1229/2044 [6:11:17<4:13:02, 18.63s/it] 60%|███████████████████████████████████████████████████████▎                                    | 1230/2044 [6:11:38<4:19:13, 19.11s/it]                                                                                                                                         {'loss': 0.2658, 'grad_norm': 31.883521476261475, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.56854248046875, 'rewards/rejected': -2.36767578125, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.935546875, 'logps/chosen': -275.375, 'logps/rejected': -154.1875, 'logits/chosen': -0.92529296875, 'logits/rejected': -0.8212890625, 'epoch': 0.6}
 60%|███████████████████████████████████████████████████████▎                                    | 1230/2044 [6:11:38<4:19:13, 19.11s/it] 60%|███████████████████████████████████████████████████████▍                                    | 1231/2044 [6:11:57<4:19:10, 19.13s/it]                                                                                                                                         {'loss': 0.1998, 'grad_norm': 31.277399234330503, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.727294921875, 'rewards/rejected': -2.828125, 'rewards/accuracies': 0.875, 'rewards/margins': 3.552734375, 'logps/chosen': -383.125, 'logps/rejected': -232.5, 'logits/chosen': -1.00439453125, 'logits/rejected': -0.92333984375, 'epoch': 0.6}
 60%|███████████████████████████████████████████████████████▍                                    | 1231/2044 [6:11:57<4:19:10, 19.13s/it] 60%|███████████████████████████████████████████████████████▍                                    | 1232/2044 [6:12:16<4:17:49, 19.05s/it]                                                                                                                                         {'loss': 0.2222, 'grad_norm': 31.653370227329155, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.759521484375, 'rewards/rejected': -2.7880859375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.546875, 'logps/chosen': -332.625, 'logps/rejected': -147.6875, 'logits/chosen': -1.10205078125, 'logits/rejected': -0.8876953125, 'epoch': 0.6}
 60%|███████████████████████████████████████████████████████▍                                    | 1232/2044 [6:12:16<4:17:49, 19.05s/it] 60%|███████████████████████████████████████████████████████▍                                    | 1233/2044 [6:12:36<4:20:43, 19.29s/it]                                                                                                                                         {'loss': 0.2415, 'grad_norm': 31.440151926840787, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.66015625, 'rewards/rejected': -2.77099609375, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.431640625, 'logps/chosen': -290.0, 'logps/rejected': -163.875, 'logits/chosen': -0.8714599609375, 'logits/rejected': -0.787109375, 'epoch': 0.6}
 60%|███████████████████████████████████████████████████████▍                                    | 1233/2044 [6:12:36<4:20:43, 19.29s/it] 60%|███████████████████████████████████████████████████████▌                                    | 1234/2044 [6:12:55<4:20:31, 19.30s/it]                                                                                                                                         {'loss': 0.2645, 'grad_norm': 37.55060267524598, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.94287109375, 'rewards/rejected': -2.5546875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.4951171875, 'logps/chosen': -399.0, 'logps/rejected': -134.75, 'logits/chosen': -0.9560546875, 'logits/rejected': -0.84326171875, 'epoch': 0.6}
 60%|███████████████████████████████████████████████████████▌                                    | 1234/2044 [6:12:55<4:20:31, 19.30s/it] 60%|███████████████████████████████████████████████████████▌                                    | 1235/2044 [6:13:13<4:16:19, 19.01s/it]                                                                                                                                         {'loss': 0.1732, 'grad_norm': 23.104062683027763, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.66796875, 'rewards/rejected': -3.23046875, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.90234375, 'logps/chosen': -248.0, 'logps/rejected': -109.75, 'logits/chosen': -0.847900390625, 'logits/rejected': -0.783203125, 'epoch': 0.6}
 60%|███████████████████████████████████████████████████████▌                                    | 1235/2044 [6:13:13<4:16:19, 19.01s/it] 60%|███████████████████████████████████████████████████████▋                                    | 1236/2044 [6:13:30<4:05:20, 18.22s/it]                                                                                                                                         {'loss': 0.1729, 'grad_norm': 28.187128911199242, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.748046875, 'rewards/rejected': -3.27734375, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.025390625, 'logps/chosen': -265.21875, 'logps/rejected': -126.375, 'logits/chosen': -0.923828125, 'logits/rejected': -0.6353759765625, 'epoch': 0.6}
 60%|███████████████████████████████████████████████████████▋                                    | 1236/2044 [6:13:30<4:05:20, 18.22s/it] 61%|███████████████████████████████████████████████████████▋                                    | 1237/2044 [6:13:49<4:09:45, 18.57s/it]                                                                                                                                         {'loss': 0.2714, 'grad_norm': 35.7227870753354, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.39288330078125, 'rewards/rejected': -2.6708984375, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.060546875, 'logps/chosen': -280.625, 'logps/rejected': -162.4375, 'logits/chosen': -0.7877197265625, 'logits/rejected': -0.859375, 'epoch': 0.61}
 61%|███████████████████████████████████████████████████████▋                                    | 1237/2044 [6:13:49<4:09:45, 18.57s/it] 61%|███████████████████████████████████████████████████████▋                                    | 1238/2044 [6:14:07<4:07:17, 18.41s/it]                                                                                                                                         {'loss': 0.1943, 'grad_norm': 29.44009885299918, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7464599609375, 'rewards/rejected': -2.8095703125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.560546875, 'logps/chosen': -256.875, 'logps/rejected': -139.875, 'logits/chosen': -0.818359375, 'logits/rejected': -0.735107421875, 'epoch': 0.61}
 61%|███████████████████████████████████████████████████████▋                                    | 1238/2044 [6:14:07<4:07:17, 18.41s/it] 61%|███████████████████████████████████████████████████████▊                                    | 1239/2044 [6:14:25<4:07:17, 18.43s/it]                                                                                                                                         {'loss': 0.2008, 'grad_norm': 36.79096123558405, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7646484375, 'rewards/rejected': -3.21875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.982421875, 'logps/chosen': -319.5, 'logps/rejected': -134.625, 'logits/chosen': -1.04638671875, 'logits/rejected': -0.81201171875, 'epoch': 0.61}
 61%|███████████████████████████████████████████████████████▊                                    | 1239/2044 [6:14:25<4:07:17, 18.43s/it] 61%|███████████████████████████████████████████████████████▊                                    | 1240/2044 [6:14:45<4:12:45, 18.86s/it]                                                                                                                                         {'loss': 0.3055, 'grad_norm': 42.30423508595469, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.761474609375, 'rewards/rejected': -2.56640625, 'rewards/accuracies': 0.8125, 'rewards/margins': 3.326171875, 'logps/chosen': -326.875, 'logps/rejected': -165.5625, 'logits/chosen': -0.8154296875, 'logits/rejected': -0.990234375, 'epoch': 0.61}
 61%|███████████████████████████████████████████████████████▊                                    | 1240/2044 [6:14:45<4:12:45, 18.86s/it] 61%|███████████████████████████████████████████████████████▊                                    | 1241/2044 [6:15:05<4:16:23, 19.16s/it]                                                                                                                                         {'loss': 0.272, 'grad_norm': 40.016695338701204, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8358154296875, 'rewards/rejected': -2.41015625, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.248046875, 'logps/chosen': -340.4375, 'logps/rejected': -166.5625, 'logits/chosen': -0.786865234375, 'logits/rejected': -0.82666015625, 'epoch': 0.61}
 61%|███████████████████████████████████████████████████████▊                                    | 1241/2044 [6:15:05<4:16:23, 19.16s/it] 61%|███████████████████████████████████████████████████████▉                                    | 1242/2044 [6:15:23<4:09:08, 18.64s/it]                                                                                                                                         {'loss': 0.1998, 'grad_norm': 28.46568201971308, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6280517578125, 'rewards/rejected': -3.111328125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.740234375, 'logps/chosen': -270.25, 'logps/rejected': -143.3125, 'logits/chosen': -1.0419921875, 'logits/rejected': -0.9384765625, 'epoch': 0.61}
 61%|███████████████████████████████████████████████████████▉                                    | 1242/2044 [6:15:23<4:09:08, 18.64s/it] 61%|███████████████████████████████████████████████████████▉                                    | 1243/2044 [6:15:42<4:11:27, 18.84s/it]                                                                                                                                         {'loss': 0.274, 'grad_norm': 49.95557609550472, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.78131103515625, 'rewards/rejected': -2.6142578125, 'rewards/accuracies': 0.875, 'rewards/margins': 3.39453125, 'logps/chosen': -294.125, 'logps/rejected': -203.5625, 'logits/chosen': -1.005859375, 'logits/rejected': -0.877197265625, 'epoch': 0.61}
 61%|███████████████████████████████████████████████████████▉                                    | 1243/2044 [6:15:42<4:11:27, 18.84s/it] 61%|███████████████████████████████████████████████████████▉                                    | 1244/2044 [6:16:01<4:10:28, 18.79s/it]                                                                                                                                         {'loss': 0.2575, 'grad_norm': 38.55849101353293, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.12548828125, 'rewards/rejected': -2.73046875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.859375, 'logps/chosen': -384.1875, 'logps/rejected': -145.8125, 'logits/chosen': -1.07421875, 'logits/rejected': -0.82861328125, 'epoch': 0.61}
 61%|███████████████████████████████████████████████████████▉                                    | 1244/2044 [6:16:01<4:10:28, 18.79s/it] 61%|████████████████████████████████████████████████████████                                    | 1245/2044 [6:16:18<4:06:25, 18.50s/it]                                                                                                                                         {'loss': 0.2148, 'grad_norm': 36.801931108115035, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6953125, 'rewards/rejected': -3.2314453125, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.919921875, 'logps/chosen': -285.375, 'logps/rejected': -143.8125, 'logits/chosen': -0.9833984375, 'logits/rejected': -0.822265625, 'epoch': 0.61}
 61%|████████████████████████████████████████████████████████                                    | 1245/2044 [6:16:18<4:06:25, 18.50s/it] 61%|████████████████████████████████████████████████████████                                    | 1246/2044 [6:16:37<4:04:55, 18.42s/it]                                                                                                                                         {'loss': 0.19, 'grad_norm': 30.721640074267793, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.883209228515625, 'rewards/rejected': -2.7548828125, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.640625, 'logps/chosen': -311.125, 'logps/rejected': -137.25, 'logits/chosen': -0.982421875, 'logits/rejected': -0.769287109375, 'epoch': 0.61}
 61%|████████████████████████████████████████████████████████                                    | 1246/2044 [6:16:37<4:04:55, 18.42s/it] 61%|████████████████████████████████████████████████████████▏                                   | 1247/2044 [6:16:55<4:06:23, 18.55s/it]                                                                                                                                         {'loss': 0.2593, 'grad_norm': 29.6724516083511, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.476654052734375, 'rewards/rejected': -2.7841796875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.255859375, 'logps/chosen': -271.125, 'logps/rejected': -122.1875, 'logits/chosen': -1.017578125, 'logits/rejected': -0.81103515625, 'epoch': 0.61}
 61%|████████████████████████████████████████████████████████▏                                   | 1247/2044 [6:16:55<4:06:23, 18.55s/it] 61%|████████████████████████████████████████████████████████▏                                   | 1248/2044 [6:17:13<4:03:37, 18.36s/it]                                                                                                                                         {'loss': 0.2232, 'grad_norm': 20.729335078136, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.451629638671875, 'rewards/rejected': -2.7939453125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.2470703125, 'logps/chosen': -222.1875, 'logps/rejected': -117.25, 'logits/chosen': -0.736053466796875, 'logits/rejected': -0.7314453125, 'epoch': 0.61}
 61%|████████████████████████████████████████████████████████▏                                   | 1248/2044 [6:17:13<4:03:37, 18.36s/it] 61%|████████████████████████████████████████████████████████▏                                   | 1249/2044 [6:17:32<4:04:40, 18.47s/it]                                                                                                                                         {'loss': 0.2096, 'grad_norm': 23.854740113957966, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7445068359375, 'rewards/rejected': -2.8251953125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.5703125, 'logps/chosen': -276.625, 'logps/rejected': -114.5, 'logits/chosen': -0.8922119140625, 'logits/rejected': -0.7529296875, 'epoch': 0.61}
 61%|████████████████████████████████████████████████████████▏                                   | 1249/2044 [6:17:32<4:04:40, 18.47s/it] 61%|████████████████████████████████████████████████████████▎                                   | 1250/2044 [6:17:52<4:11:23, 19.00s/it]                                                                                                                                         {'loss': 0.2788, 'grad_norm': 31.51155399621047, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5373992919921875, 'rewards/rejected': -2.619140625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.16015625, 'logps/chosen': -310.125, 'logps/rejected': -194.5, 'logits/chosen': -0.7919921875, 'logits/rejected': -0.9140625, 'epoch': 0.61}
 61%|████████████████████████████████████████████████████████▎                                   | 1250/2044 [6:17:52<4:11:23, 19.00s/it] 61%|████████████████████████████████████████████████████████▎                                   | 1251/2044 [6:18:10<4:07:18, 18.71s/it]                                                                                                                                         {'loss': 0.1548, 'grad_norm': 24.64997451648047, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.676513671875, 'rewards/rejected': -2.96484375, 'rewards/accuracies': 0.953125, 'rewards/margins': 3.642578125, 'logps/chosen': -344.1875, 'logps/rejected': -137.125, 'logits/chosen': -0.9736328125, 'logits/rejected': -0.68408203125, 'epoch': 0.61}
 61%|████████████████████████████████████████████████████████▎                                   | 1251/2044 [6:18:10<4:07:18, 18.71s/it] 61%|████████████████████████████████████████████████████████▎                                   | 1252/2044 [6:18:30<4:11:45, 19.07s/it]                                                                                                                                         {'loss': 0.2003, 'grad_norm': 32.648807258750246, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.746826171875, 'rewards/rejected': -2.8095703125, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.556640625, 'logps/chosen': -330.625, 'logps/rejected': -158.4375, 'logits/chosen': -0.900390625, 'logits/rejected': -0.82861328125, 'epoch': 0.61}
 61%|████████████████████████████████████████████████████████▎                                   | 1252/2044 [6:18:30<4:11:45, 19.07s/it] 61%|████████████████████████████████████████████████████████▍                                   | 1253/2044 [6:18:49<4:11:15, 19.06s/it]                                                                                                                                         {'loss': 0.2848, 'grad_norm': 38.608060590512785, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.636962890625, 'rewards/rejected': -2.669921875, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.3056640625, 'logps/chosen': -239.0, 'logps/rejected': -188.125, 'logits/chosen': -0.893310546875, 'logits/rejected': -0.795654296875, 'epoch': 0.61}
 61%|████████████████████████████████████████████████████████▍                                   | 1253/2044 [6:18:49<4:11:15, 19.06s/it] 61%|████████████████████████████████████████████████████████▍                                   | 1254/2044 [6:19:08<4:09:36, 18.96s/it]                                                                                                                                         {'loss': 0.1445, 'grad_norm': 25.864117940688484, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7485809326171875, 'rewards/rejected': -3.271484375, 'rewards/accuracies': 0.96875, 'rewards/margins': 4.01953125, 'logps/chosen': -340.5, 'logps/rejected': -109.1875, 'logits/chosen': -1.029296875, 'logits/rejected': -0.8388671875, 'epoch': 0.61}
 61%|████████████████████████████████████████████████████████▍                                   | 1254/2044 [6:19:08<4:09:36, 18.96s/it] 61%|████████████████████████████████████████████████████████▍                                   | 1255/2044 [6:19:27<4:07:56, 18.86s/it]                                                                                                                                         {'loss': 0.2206, 'grad_norm': 32.07502557738519, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.507080078125, 'rewards/rejected': -2.8203125, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.326171875, 'logps/chosen': -250.6875, 'logps/rejected': -136.1875, 'logits/chosen': -0.95263671875, 'logits/rejected': -0.845703125, 'epoch': 0.61}
 61%|████████████████████████████████████████████████████████▍                                   | 1255/2044 [6:19:27<4:07:56, 18.86s/it] 61%|████████████████████████████████████████████████████████▌                                   | 1256/2044 [6:19:46<4:08:47, 18.94s/it]                                                                                                                                         {'loss': 0.2141, 'grad_norm': 32.789772955574655, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.759033203125, 'rewards/rejected': -2.8837890625, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.64453125, 'logps/chosen': -326.625, 'logps/rejected': -159.75, 'logits/chosen': -0.8330078125, 'logits/rejected': -0.876953125, 'epoch': 0.61}
 61%|████████████████████████████████████████████████████████▌                                   | 1256/2044 [6:19:46<4:08:47, 18.94s/it] 61%|████████████████████████████████████████████████████████▌                                   | 1257/2044 [6:20:04<4:04:37, 18.65s/it]                                                                                                                                         {'loss': 0.223, 'grad_norm': 32.6126840913722, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7652587890625, 'rewards/rejected': -2.95703125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.716796875, 'logps/chosen': -333.875, 'logps/rejected': -157.875, 'logits/chosen': -0.96728515625, 'logits/rejected': -0.9130859375, 'epoch': 0.62}
 61%|████████████████████████████████████████████████████████▌                                   | 1257/2044 [6:20:04<4:04:37, 18.65s/it] 62%|████████████████████████████████████████████████████████▌                                   | 1258/2044 [6:20:24<4:08:46, 18.99s/it]                                                                                                                                         {'loss': 0.231, 'grad_norm': 29.900606994383615, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5357666015625, 'rewards/rejected': -2.8056640625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.341796875, 'logps/chosen': -292.875, 'logps/rejected': -165.4375, 'logits/chosen': -0.857177734375, 'logits/rejected': -0.8359375, 'epoch': 0.62}
 62%|████████████████████████████████████████████████████████▌                                   | 1258/2044 [6:20:24<4:08:46, 18.99s/it] 62%|████████████████████████████████████████████████████████▋                                   | 1259/2044 [6:20:43<4:10:44, 19.17s/it]                                                                                                                                         {'loss': 0.245, 'grad_norm': 38.999947204779154, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7376708984375, 'rewards/rejected': -2.65234375, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.388671875, 'logps/chosen': -286.625, 'logps/rejected': -180.0, 'logits/chosen': -0.95361328125, 'logits/rejected': -0.9072265625, 'epoch': 0.62}
 62%|████████████████████████████████████████████████████████▋                                   | 1259/2044 [6:20:43<4:10:44, 19.17s/it] 62%|████████████████████████████████████████████████████████▋                                   | 1260/2044 [6:21:02<4:10:28, 19.17s/it]                                                                                                                                         {'loss': 0.1725, 'grad_norm': 25.272279968519733, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9462890625, 'rewards/rejected': -2.783203125, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.7265625, 'logps/chosen': -359.625, 'logps/rejected': -153.0, 'logits/chosen': -0.913818359375, 'logits/rejected': -0.86572265625, 'epoch': 0.62}
 62%|████████████████████████████████████████████████████████▋                                   | 1260/2044 [6:21:02<4:10:28, 19.17s/it] 62%|████████████████████████████████████████████████████████▊                                   | 1261/2044 [6:21:21<4:06:17, 18.87s/it]                                                                                                                                         {'loss': 0.2176, 'grad_norm': 38.82415225011535, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6065673828125, 'rewards/rejected': -3.119140625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.73046875, 'logps/chosen': -279.5, 'logps/rejected': -138.1875, 'logits/chosen': -0.9384765625, 'logits/rejected': -0.862548828125, 'epoch': 0.62}
 62%|████████████████████████████████████████████████████████▊                                   | 1261/2044 [6:21:21<4:06:17, 18.87s/it] 62%|████████████████████████████████████████████████████████▊                                   | 1262/2044 [6:21:39<4:04:05, 18.73s/it]                                                                                                                                         {'loss': 0.2239, 'grad_norm': 34.43463295682443, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.517822265625, 'rewards/rejected': -2.955078125, 'rewards/accuracies': 0.875, 'rewards/margins': 3.47265625, 'logps/chosen': -248.25, 'logps/rejected': -136.6875, 'logits/chosen': -0.89208984375, 'logits/rejected': -0.706787109375, 'epoch': 0.62}
 62%|████████████████████████████████████████████████████████▊                                   | 1262/2044 [6:21:39<4:04:05, 18.73s/it] 62%|████████████████████████████████████████████████████████▊                                   | 1263/2044 [6:21:59<4:08:12, 19.07s/it]                                                                                                                                         {'loss': 0.2864, 'grad_norm': 45.993580521897535, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5615234375, 'rewards/rejected': -2.67578125, 'rewards/accuracies': 0.796875, 'rewards/margins': 3.2421875, 'logps/chosen': -273.875, 'logps/rejected': -177.6875, 'logits/chosen': -0.958984375, 'logits/rejected': -1.05419921875, 'epoch': 0.62}
 62%|████████████████████████████████████████████████████████▊                                   | 1263/2044 [6:21:59<4:08:12, 19.07s/it] 62%|████████████████████████████████████████████████████████▉                                   | 1264/2044 [6:22:18<4:10:25, 19.26s/it]                                                                                                                                         {'loss': 0.254, 'grad_norm': 31.614907527287908, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.65234375, 'rewards/rejected': -2.662109375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.3125, 'logps/chosen': -260.125, 'logps/rejected': -146.1875, 'logits/chosen': -0.88818359375, 'logits/rejected': -0.7373046875, 'epoch': 0.62}
 62%|████████████████████████████████████████████████████████▉                                   | 1264/2044 [6:22:18<4:10:25, 19.26s/it] 62%|████████████████████████████████████████████████████████▉                                   | 1265/2044 [6:22:38<4:10:43, 19.31s/it]                                                                                                                                         {'loss': 0.1966, 'grad_norm': 23.96397155461596, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6390380859375, 'rewards/rejected': -2.9248046875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.560546875, 'logps/chosen': -311.5, 'logps/rejected': -136.1875, 'logits/chosen': -0.92431640625, 'logits/rejected': -0.7845458984375, 'epoch': 0.62}
 62%|████████████████████████████████████████████████████████▉                                   | 1265/2044 [6:22:38<4:10:43, 19.31s/it] 62%|████████████████████████████████████████████████████████▉                                   | 1266/2044 [6:22:58<4:11:52, 19.43s/it]                                                                                                                                         {'loss': 0.1727, 'grad_norm': 34.720224579048825, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.35107421875, 'rewards/rejected': -3.2138671875, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.564453125, 'logps/chosen': -276.0, 'logps/rejected': -148.625, 'logits/chosen': -0.75433349609375, 'logits/rejected': -0.823486328125, 'epoch': 0.62}
 62%|████████████████████████████████████████████████████████▉                                   | 1266/2044 [6:22:58<4:11:52, 19.43s/it] 62%|█████████████████████████████████████████████████████████                                   | 1267/2044 [6:23:16<4:05:48, 18.98s/it]                                                                                                                                         {'loss': 0.2431, 'grad_norm': 33.1708481996537, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.543365478515625, 'rewards/rejected': -2.888671875, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.431640625, 'logps/chosen': -296.25, 'logps/rejected': -130.625, 'logits/chosen': -0.899169921875, 'logits/rejected': -0.61248779296875, 'epoch': 0.62}
 62%|█████████████████████████████████████████████████████████                                   | 1267/2044 [6:23:16<4:05:48, 18.98s/it] 62%|█████████████████████████████████████████████████████████                                   | 1268/2044 [6:23:34<4:04:10, 18.88s/it]                                                                                                                                         {'loss': 0.2213, 'grad_norm': 28.759092369789467, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.73822021484375, 'rewards/rejected': -2.599609375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.34375, 'logps/chosen': -304.5, 'logps/rejected': -148.4375, 'logits/chosen': -0.9013671875, 'logits/rejected': -0.7020263671875, 'epoch': 0.62}
 62%|█████████████████████████████████████████████████████████                                   | 1268/2044 [6:23:34<4:04:10, 18.88s/it] 62%|█████████████████████████████████████████████████████████                                   | 1269/2044 [6:23:52<3:59:27, 18.54s/it]                                                                                                                                         {'loss': 0.1753, 'grad_norm': 28.233971281782292, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5496826171875, 'rewards/rejected': -3.244140625, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.791015625, 'logps/chosen': -312.6875, 'logps/rejected': -158.4375, 'logits/chosen': -0.880859375, 'logits/rejected': -0.8616943359375, 'epoch': 0.62}
 62%|█████████████████████████████████████████████████████████                                   | 1269/2044 [6:23:52<3:59:27, 18.54s/it] 62%|█████████████████████████████████████████████████████████▏                                  | 1270/2044 [6:24:11<4:00:18, 18.63s/it]                                                                                                                                         {'loss': 0.1968, 'grad_norm': 28.703530416568107, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.769287109375, 'rewards/rejected': -3.005859375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.78125, 'logps/chosen': -270.25, 'logps/rejected': -109.8125, 'logits/chosen': -0.794189453125, 'logits/rejected': -0.723388671875, 'epoch': 0.62}
 62%|█████████████████████████████████████████████████████████▏                                  | 1270/2044 [6:24:11<4:00:18, 18.63s/it] 62%|█████████████████████████████████████████████████████████▏                                  | 1271/2044 [6:24:31<4:05:02, 19.02s/it]                                                                                                                                         {'loss': 0.2727, 'grad_norm': 44.94768637097411, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.822906494140625, 'rewards/rejected': -2.603515625, 'rewards/accuracies': 0.8125, 'rewards/margins': 3.42578125, 'logps/chosen': -372.25, 'logps/rejected': -154.125, 'logits/chosen': -1.03759765625, 'logits/rejected': -0.876708984375, 'epoch': 0.62}
 62%|█████████████████████████████████████████████████████████▏                                  | 1271/2044 [6:24:31<4:05:02, 19.02s/it] 62%|█████████████████████████████████████████████████████████▎                                  | 1272/2044 [6:24:50<4:05:51, 19.11s/it]                                                                                                                                         {'loss': 0.2447, 'grad_norm': 30.40115920823668, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.502899169921875, 'rewards/rejected': -2.7666015625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.26953125, 'logps/chosen': -294.75, 'logps/rejected': -160.375, 'logits/chosen': -0.94091796875, 'logits/rejected': -0.89013671875, 'epoch': 0.62}
 62%|█████████████████████████████████████████████████████████▎                                  | 1272/2044 [6:24:50<4:05:51, 19.11s/it] 62%|█████████████████████████████████████████████████████████▎                                  | 1273/2044 [6:25:09<4:06:14, 19.16s/it]                                                                                                                                         {'loss': 0.2748, 'grad_norm': 37.652540591167686, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.64532470703125, 'rewards/rejected': -2.52734375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.1689453125, 'logps/chosen': -314.75, 'logps/rejected': -155.75, 'logits/chosen': -0.9423828125, 'logits/rejected': -0.8955078125, 'epoch': 0.62}
 62%|█████████████████████████████████████████████████████████▎                                  | 1273/2044 [6:25:09<4:06:14, 19.16s/it] 62%|█████████████████████████████████████████████████████████▎                                  | 1274/2044 [6:25:28<4:04:33, 19.06s/it]                                                                                                                                         {'loss': 0.2323, 'grad_norm': 35.68562349104849, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8433837890625, 'rewards/rejected': -2.658203125, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.5, 'logps/chosen': -345.875, 'logps/rejected': -152.6875, 'logits/chosen': -0.97509765625, 'logits/rejected': -0.79052734375, 'epoch': 0.62}
 62%|█████████████████████████████████████████████████████████▎                                  | 1274/2044 [6:25:28<4:04:33, 19.06s/it] 62%|█████████████████████████████████████████████████████████▍                                  | 1275/2044 [6:25:48<4:08:31, 19.39s/it]                                                                                                                                         {'loss': 0.2325, 'grad_norm': 31.68711824024263, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.71044921875, 'rewards/rejected': -2.5517578125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.259765625, 'logps/chosen': -409.125, 'logps/rejected': -211.9375, 'logits/chosen': -1.03662109375, 'logits/rejected': -0.8282470703125, 'epoch': 0.62}
 62%|█████████████████████████████████████████████████████████▍                                  | 1275/2044 [6:25:48<4:08:31, 19.39s/it] 62%|█████████████████████████████████████████████████████████▍                                  | 1276/2044 [6:26:06<4:03:16, 19.01s/it]                                                                                                                                         {'loss': 0.1736, 'grad_norm': 23.31546050839781, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.486083984375, 'rewards/rejected': -3.048828125, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.53125, 'logps/chosen': -216.0, 'logps/rejected': -143.4375, 'logits/chosen': -0.65380859375, 'logits/rejected': -0.75390625, 'epoch': 0.62}
 62%|█████████████████████████████████████████████████████████▍                                  | 1276/2044 [6:26:06<4:03:16, 19.01s/it] 62%|█████████████████████████████████████████████████████████▍                                  | 1277/2044 [6:26:26<4:03:41, 19.06s/it]                                                                                                                                         {'loss': 0.2121, 'grad_norm': 29.69444024527363, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.824951171875, 'rewards/rejected': -3.1220703125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.9453125, 'logps/chosen': -357.125, 'logps/rejected': -133.5625, 'logits/chosen': -0.9658203125, 'logits/rejected': -0.6328125, 'epoch': 0.62}
 62%|█████████████████████████████████████████████████████████▍                                  | 1277/2044 [6:26:26<4:03:41, 19.06s/it] 63%|█████████████████████████████████████████████████████████▌                                  | 1278/2044 [6:26:45<4:06:25, 19.30s/it]                                                                                                                                         {'loss': 0.3632, 'grad_norm': 47.576949329923885, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.81982421875, 'rewards/rejected': -1.9091796875, 'rewards/accuracies': 0.8125, 'rewards/margins': 2.7294921875, 'logps/chosen': -397.0, 'logps/rejected': -234.5, 'logits/chosen': -0.8310546875, 'logits/rejected': -0.947265625, 'epoch': 0.63}
 63%|█████████████████████████████████████████████████████████▌                                  | 1278/2044 [6:26:45<4:06:25, 19.30s/it] 63%|█████████████████████████████████████████████████████████▌                                  | 1279/2044 [6:27:05<4:05:11, 19.23s/it]                                                                                                                                         {'loss': 0.2106, 'grad_norm': 43.324170933897996, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7001953125, 'rewards/rejected': -2.7421875, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.4423828125, 'logps/chosen': -270.75, 'logps/rejected': -125.75, 'logits/chosen': -0.749267578125, 'logits/rejected': -0.7919921875, 'epoch': 0.63}
 63%|█████████████████████████████████████████████████████████▌                                  | 1279/2044 [6:27:05<4:05:11, 19.23s/it] 63%|█████████████████████████████████████████████████████████▌                                  | 1280/2044 [6:27:24<4:06:48, 19.38s/it]                                                                                                                                         {'loss': 0.2103, 'grad_norm': 28.12922578000595, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5728759765625, 'rewards/rejected': -2.91015625, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.484375, 'logps/chosen': -280.5, 'logps/rejected': -121.1875, 'logits/chosen': -0.9569091796875, 'logits/rejected': -0.74658203125, 'epoch': 0.63}
 63%|█████████████████████████████████████████████████████████▌                                  | 1280/2044 [6:27:24<4:06:48, 19.38s/it] 63%|█████████████████████████████████████████████████████████▋                                  | 1281/2044 [6:27:42<4:01:52, 19.02s/it]                                                                                                                                         {'loss': 0.2179, 'grad_norm': 29.513231878990858, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8701171875, 'rewards/rejected': -2.96484375, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.833984375, 'logps/chosen': -318.0, 'logps/rejected': -118.625, 'logits/chosen': -0.8642578125, 'logits/rejected': -0.79296875, 'epoch': 0.63}
 63%|█████████████████████████████████████████████████████████▋                                  | 1281/2044 [6:27:42<4:01:52, 19.02s/it] 63%|█████████████████████████████████████████████████████████▋                                  | 1282/2044 [6:28:02<4:02:32, 19.10s/it]                                                                                                                                         {'loss': 0.241, 'grad_norm': 38.24287474825533, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.306884765625, 'rewards/rejected': -3.029296875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.3359375, 'logps/chosen': -292.8125, 'logps/rejected': -137.25, 'logits/chosen': -0.8388671875, 'logits/rejected': -0.76806640625, 'epoch': 0.63}
 63%|█████████████████████████████████████████████████████████▋                                  | 1282/2044 [6:28:02<4:02:32, 19.10s/it] 63%|█████████████████████████████████████████████████████████▋                                  | 1283/2044 [6:28:20<4:00:55, 19.00s/it]                                                                                                                                         {'loss': 0.1441, 'grad_norm': 24.797572469872176, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.678955078125, 'rewards/rejected': -3.361328125, 'rewards/accuracies': 0.953125, 'rewards/margins': 4.044921875, 'logps/chosen': -271.125, 'logps/rejected': -149.6875, 'logits/chosen': -0.714111328125, 'logits/rejected': -0.7266845703125, 'epoch': 0.63}
 63%|█████████████████████████████████████████████████████████▋                                  | 1283/2044 [6:28:20<4:00:55, 19.00s/it] 63%|█████████████████████████████████████████████████████████▊                                  | 1284/2044 [6:28:38<3:55:43, 18.61s/it]                                                                                                                                         {'loss': 0.2207, 'grad_norm': 30.920751804919426, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.26361083984375, 'rewards/rejected': -2.7744140625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.037109375, 'logps/chosen': -232.875, 'logps/rejected': -142.4375, 'logits/chosen': -0.82958984375, 'logits/rejected': -0.810791015625, 'epoch': 0.63}
 63%|█████████████████████████████████████████████████████████▊                                  | 1284/2044 [6:28:38<3:55:43, 18.61s/it] 63%|█████████████████████████████████████████████████████████▊                                  | 1285/2044 [6:28:57<3:57:36, 18.78s/it]                                                                                                                                         {'loss': 0.2543, 'grad_norm': 33.609219694202636, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.69329833984375, 'rewards/rejected': -2.7021484375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.39453125, 'logps/chosen': -304.375, 'logps/rejected': -146.9375, 'logits/chosen': -1.01904296875, 'logits/rejected': -0.8359375, 'epoch': 0.63}
 63%|█████████████████████████████████████████████████████████▊                                  | 1285/2044 [6:28:57<3:57:36, 18.78s/it] 63%|█████████████████████████████████████████████████████████▉                                  | 1286/2044 [6:29:16<3:57:45, 18.82s/it]                                                                                                                                         {'loss': 0.1807, 'grad_norm': 31.428856580739538, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.09521484375, 'rewards/rejected': -3.171875, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.26953125, 'logps/chosen': -328.125, 'logps/rejected': -122.3125, 'logits/chosen': -0.912353515625, 'logits/rejected': -0.8125, 'epoch': 0.63}
 63%|█████████████████████████████████████████████████████████▉                                  | 1286/2044 [6:29:16<3:57:45, 18.82s/it] 63%|█████████████████████████████████████████████████████████▉                                  | 1287/2044 [6:29:35<3:57:09, 18.80s/it]                                                                                                                                         {'loss': 0.2964, 'grad_norm': 30.81370943794594, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.53973388671875, 'rewards/rejected': -2.4443359375, 'rewards/accuracies': 0.796875, 'rewards/margins': 2.9814453125, 'logps/chosen': -257.125, 'logps/rejected': -141.4375, 'logits/chosen': -0.805908203125, 'logits/rejected': -0.751953125, 'epoch': 0.63}
 63%|█████████████████████████████████████████████████████████▉                                  | 1287/2044 [6:29:35<3:57:09, 18.80s/it] 63%|█████████████████████████████████████████████████████████▉                                  | 1288/2044 [6:29:54<3:59:07, 18.98s/it]                                                                                                                                         {'loss': 0.3162, 'grad_norm': 41.44748717114754, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5438690185546875, 'rewards/rejected': -2.5380859375, 'rewards/accuracies': 0.75, 'rewards/margins': 3.076171875, 'logps/chosen': -302.5, 'logps/rejected': -184.75, 'logits/chosen': -0.94189453125, 'logits/rejected': -0.881591796875, 'epoch': 0.63}
 63%|█████████████████████████████████████████████████████████▉                                  | 1288/2044 [6:29:54<3:59:07, 18.98s/it] 63%|██████████████████████████████████████████████████████████                                  | 1289/2044 [6:30:13<3:59:10, 19.01s/it]                                                                                                                                         {'loss': 0.2176, 'grad_norm': 33.47105452121761, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.577880859375, 'rewards/rejected': -2.68359375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.263671875, 'logps/chosen': -311.125, 'logps/rejected': -165.6875, 'logits/chosen': -1.021484375, 'logits/rejected': -0.94189453125, 'epoch': 0.63}
 63%|██████████████████████████████████████████████████████████                                  | 1289/2044 [6:30:13<3:59:10, 19.01s/it] 63%|██████████████████████████████████████████████████████████                                  | 1290/2044 [6:30:31<3:52:24, 18.49s/it]                                                                                                                                         {'loss': 0.1447, 'grad_norm': 27.61225592096414, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5140380859375, 'rewards/rejected': -3.60546875, 'rewards/accuracies': 0.953125, 'rewards/margins': 4.126953125, 'logps/chosen': -232.625, 'logps/rejected': -146.0, 'logits/chosen': -0.99609375, 'logits/rejected': -0.798828125, 'epoch': 0.63}
 63%|██████████████████████████████████████████████████████████                                  | 1290/2044 [6:30:31<3:52:24, 18.49s/it] 63%|██████████████████████████████████████████████████████████                                  | 1291/2044 [6:30:50<3:54:37, 18.70s/it]                                                                                                                                         {'loss': 0.2737, 'grad_norm': 35.0427269405786, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.522216796875, 'rewards/rejected': -2.8896484375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.4091796875, 'logps/chosen': -300.5, 'logps/rejected': -123.4375, 'logits/chosen': -0.96630859375, 'logits/rejected': -0.814208984375, 'epoch': 0.63}
 63%|██████████████████████████████████████████████████████████                                  | 1291/2044 [6:30:50<3:54:37, 18.70s/it] 63%|██████████████████████████████████████████████████████████▏                                 | 1292/2044 [6:31:09<3:55:29, 18.79s/it]                                                                                                                                         {'loss': 0.2035, 'grad_norm': 30.646174119909226, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8106689453125, 'rewards/rejected': -2.54541015625, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.353515625, 'logps/chosen': -315.9375, 'logps/rejected': -137.375, 'logits/chosen': -0.896484375, 'logits/rejected': -0.8583984375, 'epoch': 0.63}
 63%|██████████████████████████████████████████████████████████▏                                 | 1292/2044 [6:31:09<3:55:29, 18.79s/it] 63%|██████████████████████████████████████████████████████████▏                                 | 1293/2044 [6:31:28<3:54:27, 18.73s/it]                                                                                                                                         {'loss': 0.187, 'grad_norm': 26.651330849418994, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.147705078125, 'rewards/rejected': -3.017578125, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.169921875, 'logps/chosen': -354.375, 'logps/rejected': -114.78125, 'logits/chosen': -0.855712890625, 'logits/rejected': -0.7568359375, 'epoch': 0.63}
 63%|██████████████████████████████████████████████████████████▏                                 | 1293/2044 [6:31:28<3:54:27, 18.73s/it] 63%|██████████████████████████████████████████████████████████▏                                 | 1294/2044 [6:31:47<3:56:59, 18.96s/it]                                                                                                                                         {'loss': 0.2546, 'grad_norm': 33.37943211967098, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7958984375, 'rewards/rejected': -2.572265625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.37109375, 'logps/chosen': -425.875, 'logps/rejected': -212.875, 'logits/chosen': -0.896240234375, 'logits/rejected': -0.9833984375, 'epoch': 0.63}
 63%|██████████████████████████████████████████████████████████▏                                 | 1294/2044 [6:31:47<3:56:59, 18.96s/it] 63%|██████████████████████████████████████████████████████████▎                                 | 1295/2044 [6:32:06<3:57:34, 19.03s/it]                                                                                                                                         {'loss': 0.2127, 'grad_norm': 29.668004054025932, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.560546875, 'rewards/rejected': -2.7734375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.333984375, 'logps/chosen': -275.1875, 'logps/rejected': -148.0625, 'logits/chosen': -0.85107421875, 'logits/rejected': -0.87548828125, 'epoch': 0.63}
 63%|██████████████████████████████████████████████████████████▎                                 | 1295/2044 [6:32:06<3:57:34, 19.03s/it] 63%|██████████████████████████████████████████████████████████▎                                 | 1296/2044 [6:32:25<3:57:48, 19.08s/it]                                                                                                                                         {'loss': 0.2162, 'grad_norm': 29.62224784740514, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.614990234375, 'rewards/rejected': -2.8271484375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.4423828125, 'logps/chosen': -270.0, 'logps/rejected': -127.9375, 'logits/chosen': -0.9658203125, 'logits/rejected': -0.8291015625, 'epoch': 0.63}
 63%|██████████████████████████████████████████████████████████▎                                 | 1296/2044 [6:32:25<3:57:48, 19.08s/it] 63%|██████████████████████████████████████████████████████████▍                                 | 1297/2044 [6:32:46<4:02:10, 19.45s/it]                                                                                                                                         {'loss': 0.3071, 'grad_norm': 36.41262905908687, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.53729248046875, 'rewards/rejected': -2.3330078125, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.8671875, 'logps/chosen': -294.8125, 'logps/rejected': -143.4375, 'logits/chosen': -1.00537109375, 'logits/rejected': -0.83447265625, 'epoch': 0.63}
 63%|██████████████████████████████████████████████████████████▍                                 | 1297/2044 [6:32:46<4:02:10, 19.45s/it] 64%|██████████████████████████████████████████████████████████▍                                 | 1298/2044 [6:33:06<4:04:05, 19.63s/it]                                                                                                                                         {'loss': 0.3086, 'grad_norm': 41.52446424907118, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.609405517578125, 'rewards/rejected': -2.494140625, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.1025390625, 'logps/chosen': -301.75, 'logps/rejected': -186.1875, 'logits/chosen': -1.009765625, 'logits/rejected': -0.87548828125, 'epoch': 0.64}
 64%|██████████████████████████████████████████████████████████▍                                 | 1298/2044 [6:33:06<4:04:05, 19.63s/it] 64%|██████████████████████████████████████████████████████████▍                                 | 1299/2044 [6:33:24<3:58:27, 19.20s/it]                                                                                                                                         {'loss': 0.1578, 'grad_norm': 23.440755380925918, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7637939453125, 'rewards/rejected': -3.263671875, 'rewards/accuracies': 0.953125, 'rewards/margins': 4.025390625, 'logps/chosen': -324.625, 'logps/rejected': -109.25, 'logits/chosen': -0.9716796875, 'logits/rejected': -0.86572265625, 'epoch': 0.64}
 64%|██████████████████████████████████████████████████████████▍                                 | 1299/2044 [6:33:24<3:58:27, 19.20s/it] 64%|██████████████████████████████████████████████████████████▌                                 | 1300/2044 [6:33:43<3:58:24, 19.23s/it]                                                                                                                                         {'loss': 0.2184, 'grad_norm': 31.576794810803136, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.89501953125, 'rewards/rejected': -2.83984375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.732421875, 'logps/chosen': -336.0, 'logps/rejected': -135.65625, 'logits/chosen': -0.984375, 'logits/rejected': -0.88330078125, 'epoch': 0.64}
 64%|██████████████████████████████████████████████████████████▌                                 | 1300/2044 [6:33:43<3:58:24, 19.23s/it] 64%|██████████████████████████████████████████████████████████▌                                 | 1301/2044 [6:34:02<3:57:59, 19.22s/it]                                                                                                                                         {'loss': 0.2631, 'grad_norm': 42.552805417299396, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.720458984375, 'rewards/rejected': -2.7646484375, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.4814453125, 'logps/chosen': -280.125, 'logps/rejected': -172.75, 'logits/chosen': -0.9755859375, 'logits/rejected': -0.837646484375, 'epoch': 0.64}
 64%|██████████████████████████████████████████████████████████▌                                 | 1301/2044 [6:34:02<3:57:59, 19.22s/it] 64%|██████████████████████████████████████████████████████████▌                                 | 1302/2044 [6:34:21<3:55:25, 19.04s/it]                                                                                                                                         {'loss': 0.2475, 'grad_norm': 40.08114850714421, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.67333984375, 'rewards/rejected': -3.03515625, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.7109375, 'logps/chosen': -288.25, 'logps/rejected': -152.75, 'logits/chosen': -0.890625, 'logits/rejected': -0.7783203125, 'epoch': 0.64}
 64%|██████████████████████████████████████████████████████████▌                                 | 1302/2044 [6:34:21<3:55:25, 19.04s/it] 64%|██████████████████████████████████████████████████████████▋                                 | 1303/2044 [6:34:40<3:53:24, 18.90s/it]                                                                                                                                         {'loss': 0.2004, 'grad_norm': 23.592469613032286, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.751708984375, 'rewards/rejected': -2.7041015625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.455078125, 'logps/chosen': -324.5, 'logps/rejected': -136.5625, 'logits/chosen': -0.90869140625, 'logits/rejected': -0.6043701171875, 'epoch': 0.64}
 64%|██████████████████████████████████████████████████████████▋                                 | 1303/2044 [6:34:40<3:53:24, 18.90s/it] 64%|██████████████████████████████████████████████████████████▋                                 | 1304/2044 [6:35:00<3:56:54, 19.21s/it]                                                                                                                                         {'loss': 0.3027, 'grad_norm': 43.90341378801454, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.805908203125, 'rewards/rejected': -2.5322265625, 'rewards/accuracies': 0.765625, 'rewards/margins': 3.33984375, 'logps/chosen': -327.0, 'logps/rejected': -185.3125, 'logits/chosen': -0.9482421875, 'logits/rejected': -0.8994140625, 'epoch': 0.64}
 64%|██████████████████████████████████████████████████████████▋                                 | 1304/2044 [6:35:00<3:56:54, 19.21s/it] 64%|██████████████████████████████████████████████████████████▋                                 | 1305/2044 [6:35:18<3:52:17, 18.86s/it]                                                                                                                                         {'loss': 0.2052, 'grad_norm': 25.81894845261241, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.56512451171875, 'rewards/rejected': -3.201171875, 'rewards/accuracies': 0.875, 'rewards/margins': 3.765625, 'logps/chosen': -310.25, 'logps/rejected': -118.3125, 'logits/chosen': -0.9521484375, 'logits/rejected': -0.84912109375, 'epoch': 0.64}
 64%|██████████████████████████████████████████████████████████▋                                 | 1305/2044 [6:35:18<3:52:17, 18.86s/it] 64%|██████████████████████████████████████████████████████████▊                                 | 1306/2044 [6:35:36<3:48:55, 18.61s/it]                                                                                                                                         {'loss': 0.1333, 'grad_norm': 19.979916377666488, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.72119140625, 'rewards/rejected': -3.24609375, 'rewards/accuracies': 0.96875, 'rewards/margins': 3.96484375, 'logps/chosen': -301.125, 'logps/rejected': -112.75, 'logits/chosen': -0.92529296875, 'logits/rejected': -0.718994140625, 'epoch': 0.64}
 64%|██████████████████████████████████████████████████████████▊                                 | 1306/2044 [6:35:36<3:48:55, 18.61s/it] 64%|██████████████████████████████████████████████████████████▊                                 | 1307/2044 [6:35:55<3:49:29, 18.68s/it]                                                                                                                                         {'loss': 0.2231, 'grad_norm': 30.28059599966685, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7032470703125, 'rewards/rejected': -2.5908203125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.296875, 'logps/chosen': -282.625, 'logps/rejected': -162.0625, 'logits/chosen': -0.858642578125, 'logits/rejected': -0.80126953125, 'epoch': 0.64}
 64%|██████████████████████████████████████████████████████████▊                                 | 1307/2044 [6:35:55<3:49:29, 18.68s/it] 64%|██████████████████████████████████████████████████████████▊                                 | 1308/2044 [6:36:13<3:49:20, 18.70s/it]                                                                                                                                         {'loss': 0.2042, 'grad_norm': 28.678773954921997, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.023681640625, 'rewards/rejected': -2.94921875, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.9755859375, 'logps/chosen': -366.5, 'logps/rejected': -136.6875, 'logits/chosen': -1.087890625, 'logits/rejected': -0.727783203125, 'epoch': 0.64}
 64%|██████████████████████████████████████████████████████████▊                                 | 1308/2044 [6:36:13<3:49:20, 18.70s/it] 64%|██████████████████████████████████████████████████████████▉                                 | 1309/2044 [6:36:33<3:53:45, 19.08s/it]                                                                                                                                         {'loss': 0.2678, 'grad_norm': 42.361961331404224, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.40643310546875, 'rewards/rejected': -2.9013671875, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.30078125, 'logps/chosen': -285.5, 'logps/rejected': -214.0625, 'logits/chosen': -0.9609375, 'logits/rejected': -0.9091796875, 'epoch': 0.64}
 64%|██████████████████████████████████████████████████████████▉                                 | 1309/2044 [6:36:33<3:53:45, 19.08s/it] 64%|██████████████████████████████████████████████████████████▉                                 | 1310/2044 [6:36:53<3:56:41, 19.35s/it]                                                                                                                                         {'loss': 0.3452, 'grad_norm': 42.743675667652, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6637420654296875, 'rewards/rejected': -2.3759765625, 'rewards/accuracies': 0.796875, 'rewards/margins': 3.0341796875, 'logps/chosen': -293.125, 'logps/rejected': -172.125, 'logits/chosen': -0.8670654296875, 'logits/rejected': -0.753662109375, 'epoch': 0.64}
 64%|██████████████████████████████████████████████████████████▉                                 | 1310/2044 [6:36:53<3:56:41, 19.35s/it] 64%|███████████████████████████████████████████████████████████                                 | 1311/2044 [6:37:13<3:57:10, 19.41s/it]                                                                                                                                         {'loss': 0.3423, 'grad_norm': 49.11654049806937, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.489990234375, 'rewards/rejected': -2.7333984375, 'rewards/accuracies': 0.8125, 'rewards/margins': 3.2255859375, 'logps/chosen': -352.75, 'logps/rejected': -154.3125, 'logits/chosen': -0.9599609375, 'logits/rejected': -0.9140625, 'epoch': 0.64}
 64%|███████████████████████████████████████████████████████████                                 | 1311/2044 [6:37:13<3:57:10, 19.41s/it] 64%|███████████████████████████████████████████████████████████                                 | 1312/2044 [6:37:31<3:52:41, 19.07s/it]                                                                                                                                         {'loss': 0.1524, 'grad_norm': 21.113534104570522, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.924560546875, 'rewards/rejected': -3.2734375, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.201171875, 'logps/chosen': -342.875, 'logps/rejected': -114.8125, 'logits/chosen': -0.96728515625, 'logits/rejected': -0.77685546875, 'epoch': 0.64}
 64%|███████████████████████████████████████████████████████████                                 | 1312/2044 [6:37:31<3:52:41, 19.07s/it] 64%|███████████████████████████████████████████████████████████                                 | 1313/2044 [6:37:50<3:53:41, 19.18s/it]                                                                                                                                         {'loss': 0.3003, 'grad_norm': 34.461427692209526, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4332275390625, 'rewards/rejected': -3.0625, 'rewards/accuracies': 0.8125, 'rewards/margins': 3.5, 'logps/chosen': -361.375, 'logps/rejected': -212.875, 'logits/chosen': -1.0810546875, 'logits/rejected': -1.0087890625, 'epoch': 0.64}
 64%|███████████████████████████████████████████████████████████                                 | 1313/2044 [6:37:51<3:53:41, 19.18s/it] 64%|███████████████████████████████████████████████████████████▏                                | 1314/2044 [6:38:11<3:57:17, 19.50s/it]                                                                                                                                         {'loss': 0.1985, 'grad_norm': 30.812445092706668, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6417236328125, 'rewards/rejected': -2.623046875, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.26171875, 'logps/chosen': -328.875, 'logps/rejected': -146.8125, 'logits/chosen': -0.884765625, 'logits/rejected': -0.801513671875, 'epoch': 0.64}
 64%|███████████████████████████████████████████████████████████▏                                | 1314/2044 [6:38:11<3:57:17, 19.50s/it] 64%|███████████████████████████████████████████████████████████▏                                | 1315/2044 [6:38:28<3:48:49, 18.83s/it]                                                                                                                                         {'loss': 0.1855, 'grad_norm': 27.417519385713323, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.48126220703125, 'rewards/rejected': -3.291015625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.767578125, 'logps/chosen': -247.125, 'logps/rejected': -132.0625, 'logits/chosen': -0.977783203125, 'logits/rejected': -0.74072265625, 'epoch': 0.64}
 64%|███████████████████████████████████████████████████████████▏                                | 1315/2044 [6:38:28<3:48:49, 18.83s/it] 64%|███████████████████████████████████████████████████████████▏                                | 1316/2044 [6:38:48<3:53:15, 19.22s/it]                                                                                                                                         {'loss': 0.2643, 'grad_norm': 39.48774501397259, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.384765625, 'rewards/rejected': -3.01171875, 'rewards/accuracies': 0.875, 'rewards/margins': 3.3935546875, 'logps/chosen': -281.625, 'logps/rejected': -181.6875, 'logits/chosen': -0.99609375, 'logits/rejected': -0.7978515625, 'epoch': 0.64}
 64%|███████████████████████████████████████████████████████████▏                                | 1316/2044 [6:38:48<3:53:15, 19.22s/it] 64%|███████████████████████████████████████████████████████████▎                                | 1317/2044 [6:39:08<3:54:55, 19.39s/it]                                                                                                                                         {'loss': 0.191, 'grad_norm': 25.123461787974744, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.828125, 'rewards/rejected': -3.1494140625, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.9814453125, 'logps/chosen': -339.875, 'logps/rejected': -139.0625, 'logits/chosen': -0.919921875, 'logits/rejected': -0.832275390625, 'epoch': 0.64}
 64%|███████████████████████████████████████████████████████████▎                                | 1317/2044 [6:39:08<3:54:55, 19.39s/it] 64%|███████████████████████████████████████████████████████████▎                                | 1318/2044 [6:39:26<3:51:25, 19.13s/it]                                                                                                                                         {'loss': 0.2385, 'grad_norm': 30.633329553298072, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.708251953125, 'rewards/rejected': -3.216796875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.92578125, 'logps/chosen': -275.25, 'logps/rejected': -128.4375, 'logits/chosen': -1.1025390625, 'logits/rejected': -0.8828125, 'epoch': 0.64}
 64%|███████████████████████████████████████████████████████████▎                                | 1318/2044 [6:39:26<3:51:25, 19.13s/it] 65%|███████████████████████████████████████████████████████████▎                                | 1319/2044 [6:39:44<3:46:37, 18.75s/it]                                                                                                                                         {'loss': 0.1201, 'grad_norm': 22.343958416370697, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.783935546875, 'rewards/rejected': -3.5458984375, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.326171875, 'logps/chosen': -284.375, 'logps/rejected': -129.1875, 'logits/chosen': -0.93798828125, 'logits/rejected': -0.958740234375, 'epoch': 0.65}
 65%|███████████████████████████████████████████████████████████▎                                | 1319/2044 [6:39:44<3:46:37, 18.75s/it] 65%|███████████████████████████████████████████████████████████▍                                | 1320/2044 [6:40:03<3:46:03, 18.73s/it]                                                                                                                                         {'loss': 0.153, 'grad_norm': 24.674021040658843, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.795166015625, 'rewards/rejected': -2.95703125, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.748046875, 'logps/chosen': -314.25, 'logps/rejected': -132.5625, 'logits/chosen': -1.0107421875, 'logits/rejected': -0.9150390625, 'epoch': 0.65}
 65%|███████████████████████████████████████████████████████████▍                                | 1320/2044 [6:40:03<3:46:03, 18.73s/it] 65%|███████████████████████████████████████████████████████████▍                                | 1321/2044 [6:40:22<3:45:47, 18.74s/it]                                                                                                                                         {'loss': 0.2458, 'grad_norm': 29.335693966561575, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.413665771484375, 'rewards/rejected': -3.056640625, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.47265625, 'logps/chosen': -287.375, 'logps/rejected': -126.125, 'logits/chosen': -1.01220703125, 'logits/rejected': -0.839111328125, 'epoch': 0.65}
 65%|███████████████████████████████████████████████████████████▍                                | 1321/2044 [6:40:22<3:45:47, 18.74s/it] 65%|███████████████████████████████████████████████████████████▌                                | 1322/2044 [6:40:41<3:48:28, 18.99s/it]                                                                                                                                         {'loss': 0.2105, 'grad_norm': 29.785795033015823, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5115966796875, 'rewards/rejected': -3.033203125, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.544921875, 'logps/chosen': -294.0, 'logps/rejected': -141.3125, 'logits/chosen': -0.83154296875, 'logits/rejected': -1.03857421875, 'epoch': 0.65}
 65%|███████████████████████████████████████████████████████████▌                                | 1322/2044 [6:40:41<3:48:28, 18.99s/it] 65%|███████████████████████████████████████████████████████████▌                                | 1323/2044 [6:41:00<3:48:11, 18.99s/it]                                                                                                                                         {'loss': 0.2644, 'grad_norm': 31.091556221369686, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5384521484375, 'rewards/rejected': -3.0380859375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.5751953125, 'logps/chosen': -300.8125, 'logps/rejected': -145.5, 'logits/chosen': -0.868408203125, 'logits/rejected': -0.88232421875, 'epoch': 0.65}
 65%|███████████████████████████████████████████████████████████▌                                | 1323/2044 [6:41:00<3:48:11, 18.99s/it] 65%|███████████████████████████████████████████████████████████▌                                | 1324/2044 [6:41:19<3:47:56, 19.00s/it]                                                                                                                                         {'loss': 0.2045, 'grad_norm': 32.522288599454214, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.522796630859375, 'rewards/rejected': -3.119140625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.6416015625, 'logps/chosen': -264.125, 'logps/rejected': -154.0625, 'logits/chosen': -0.86669921875, 'logits/rejected': -0.823974609375, 'epoch': 0.65}
 65%|███████████████████████████████████████████████████████████▌                                | 1324/2044 [6:41:19<3:47:56, 19.00s/it] 65%|███████████████████████████████████████████████████████████▋                                | 1325/2044 [6:41:39<3:48:19, 19.05s/it]                                                                                                                                         {'loss': 0.2498, 'grad_norm': 29.423876212101508, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6392822265625, 'rewards/rejected': -2.576171875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.21484375, 'logps/chosen': -277.0, 'logps/rejected': -141.5625, 'logits/chosen': -0.95263671875, 'logits/rejected': -0.8251953125, 'epoch': 0.65}
 65%|███████████████████████████████████████████████████████████▋                                | 1325/2044 [6:41:39<3:48:19, 19.05s/it] 65%|███████████████████████████████████████████████████████████▋                                | 1326/2044 [6:41:58<3:49:28, 19.18s/it]                                                                                                                                         {'loss': 0.1952, 'grad_norm': 27.56229086793556, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.90283203125, 'rewards/rejected': -2.935546875, 'rewards/accuracies': 0.875, 'rewards/margins': 3.83984375, 'logps/chosen': -308.8125, 'logps/rejected': -134.6875, 'logits/chosen': -1.03564453125, 'logits/rejected': -0.79901123046875, 'epoch': 0.65}
 65%|███████████████████████████████████████████████████████████▋                                | 1326/2044 [6:41:58<3:49:28, 19.18s/it] 65%|███████████████████████████████████████████████████████████▋                                | 1327/2044 [6:42:17<3:47:52, 19.07s/it]                                                                                                                                         {'loss': 0.1889, 'grad_norm': 27.690594507474017, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.64501953125, 'rewards/rejected': -3.224609375, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.87109375, 'logps/chosen': -319.875, 'logps/rejected': -129.5, 'logits/chosen': -0.9794921875, 'logits/rejected': -0.877685546875, 'epoch': 0.65}
 65%|███████████████████████████████████████████████████████████▋                                | 1327/2044 [6:42:17<3:47:52, 19.07s/it] 65%|███████████████████████████████████████████████████████████▊                                | 1328/2044 [6:42:34<3:41:00, 18.52s/it]                                                                                                                                         {'loss': 0.1541, 'grad_norm': 21.25491818407244, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6788330078125, 'rewards/rejected': -3.505859375, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.1904296875, 'logps/chosen': -302.5, 'logps/rejected': -119.25, 'logits/chosen': -0.9033203125, 'logits/rejected': -0.767822265625, 'epoch': 0.65}
 65%|███████████████████████████████████████████████████████████▊                                | 1328/2044 [6:42:34<3:41:00, 18.52s/it] 65%|███████████████████████████████████████████████████████████▊                                | 1329/2044 [6:42:53<3:43:41, 18.77s/it]                                                                                                                                         {'loss': 0.2722, 'grad_norm': 36.08319422218378, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.73974609375, 'rewards/rejected': -2.6923828125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.43359375, 'logps/chosen': -298.625, 'logps/rejected': -155.8125, 'logits/chosen': -1.04345703125, 'logits/rejected': -0.92529296875, 'epoch': 0.65}
 65%|███████████████████████████████████████████████████████████▊                                | 1329/2044 [6:42:53<3:43:41, 18.77s/it] 65%|███████████████████████████████████████████████████████████▊                                | 1330/2044 [6:43:13<3:47:33, 19.12s/it]                                                                                                                                         {'loss': 0.2841, 'grad_norm': 39.88409175678408, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.890869140625, 'rewards/rejected': -2.703369140625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.59814453125, 'logps/chosen': -360.25, 'logps/rejected': -146.6875, 'logits/chosen': -0.778564453125, 'logits/rejected': -0.85009765625, 'epoch': 0.65}
 65%|███████████████████████████████████████████████████████████▊                                | 1330/2044 [6:43:13<3:47:33, 19.12s/it] 65%|███████████████████████████████████████████████████████████▉                                | 1331/2044 [6:43:33<3:50:32, 19.40s/it]                                                                                                                                         {'loss': 0.2378, 'grad_norm': 38.215628724648795, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7474365234375, 'rewards/rejected': -2.55078125, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.29296875, 'logps/chosen': -296.5, 'logps/rejected': -157.0625, 'logits/chosen': -0.94580078125, 'logits/rejected': -0.88427734375, 'epoch': 0.65}
 65%|███████████████████████████████████████████████████████████▉                                | 1331/2044 [6:43:33<3:50:32, 19.40s/it] 65%|███████████████████████████████████████████████████████████▉                                | 1332/2044 [6:43:52<3:47:29, 19.17s/it]                                                                                                                                         {'loss': 0.2607, 'grad_norm': 33.26505137419771, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.59088134765625, 'rewards/rejected': -2.74609375, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.337890625, 'logps/chosen': -280.875, 'logps/rejected': -156.875, 'logits/chosen': -0.845947265625, 'logits/rejected': -0.7958984375, 'epoch': 0.65}
 65%|███████████████████████████████████████████████████████████▉                                | 1332/2044 [6:43:52<3:47:29, 19.17s/it] 65%|███████████████████████████████████████████████████████████▉                                | 1333/2044 [6:44:11<3:45:01, 18.99s/it]                                                                                                                                         {'loss': 0.2181, 'grad_norm': 27.371398099119986, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.70111083984375, 'rewards/rejected': -2.9296875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.6328125, 'logps/chosen': -312.625, 'logps/rejected': -136.0, 'logits/chosen': -0.97412109375, 'logits/rejected': -0.79638671875, 'epoch': 0.65}
 65%|███████████████████████████████████████████████████████████▉                                | 1333/2044 [6:44:11<3:45:01, 18.99s/it] 65%|████████████████████████████████████████████████████████████                                | 1334/2044 [6:44:30<3:45:04, 19.02s/it]                                                                                                                                         {'loss': 0.3025, 'grad_norm': 35.29653970641056, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.468994140625, 'rewards/rejected': -2.2705078125, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.7392578125, 'logps/chosen': -320.125, 'logps/rejected': -168.5625, 'logits/chosen': -0.803955078125, 'logits/rejected': -0.90234375, 'epoch': 0.65}
 65%|████████████████████████████████████████████████████████████                                | 1334/2044 [6:44:30<3:45:04, 19.02s/it] 65%|████████████████████████████████████████████████████████████                                | 1335/2044 [6:44:49<3:44:30, 19.00s/it]                                                                                                                                         {'loss': 0.2096, 'grad_norm': 32.56012786985489, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.86669921875, 'rewards/rejected': -2.9140625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.783203125, 'logps/chosen': -298.25, 'logps/rejected': -157.9375, 'logits/chosen': -0.92431640625, 'logits/rejected': -0.851806640625, 'epoch': 0.65}
 65%|████████████████████████████████████████████████████████████                                | 1335/2044 [6:44:49<3:44:30, 19.00s/it] 65%|████████████████████████████████████████████████████████████▏                               | 1336/2044 [6:45:08<3:46:51, 19.23s/it]                                                                                                                                         {'loss': 0.2229, 'grad_norm': 32.665570993293755, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6500244140625, 'rewards/rejected': -2.6005859375, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.24609375, 'logps/chosen': -252.625, 'logps/rejected': -162.4375, 'logits/chosen': -1.0, 'logits/rejected': -0.8426513671875, 'epoch': 0.65}
 65%|████████████████████████████████████████████████████████████▏                               | 1336/2044 [6:45:08<3:46:51, 19.23s/it] 65%|████████████████████████████████████████████████████████████▏                               | 1337/2044 [6:45:28<3:47:26, 19.30s/it]                                                                                                                                         {'loss': 0.3312, 'grad_norm': 40.83349792928342, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.625244140625, 'rewards/rejected': -2.197265625, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.822265625, 'logps/chosen': -321.25, 'logps/rejected': -188.75, 'logits/chosen': -1.06201171875, 'logits/rejected': -0.97900390625, 'epoch': 0.65}
 65%|████████████████████████████████████████████████████████████▏                               | 1337/2044 [6:45:28<3:47:26, 19.30s/it] 65%|████████████████████████████████████████████████████████████▏                               | 1338/2044 [6:45:47<3:47:08, 19.30s/it]                                                                                                                                         {'loss': 0.2242, 'grad_norm': 32.88042179705832, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9376220703125, 'rewards/rejected': -2.888671875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.826171875, 'logps/chosen': -361.875, 'logps/rejected': -159.0625, 'logits/chosen': -0.92578125, 'logits/rejected': -0.9345703125, 'epoch': 0.65}
 65%|████████████████████████████████████████████████████████████▏                               | 1338/2044 [6:45:47<3:47:08, 19.30s/it] 66%|████████████████████████████████████████████████████████████▎                               | 1339/2044 [6:46:05<3:42:53, 18.97s/it]                                                                                                                                         {'loss': 0.1471, 'grad_norm': 26.626434703757923, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.75830078125, 'rewards/rejected': -3.3935546875, 'rewards/accuracies': 0.96875, 'rewards/margins': 4.150390625, 'logps/chosen': -290.625, 'logps/rejected': -124.625, 'logits/chosen': -0.87744140625, 'logits/rejected': -0.776123046875, 'epoch': 0.66}
 66%|████████████████████████████████████████████████████████████▎                               | 1339/2044 [6:46:05<3:42:53, 18.97s/it] 66%|████████████████████████████████████████████████████████████▎                               | 1340/2044 [6:46:24<3:42:08, 18.93s/it]                                                                                                                                         {'loss': 0.1202, 'grad_norm': 26.752463357139266, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.802734375, 'rewards/rejected': -3.509765625, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.3125, 'logps/chosen': -288.875, 'logps/rejected': -126.375, 'logits/chosen': -0.853515625, 'logits/rejected': -0.9345703125, 'epoch': 0.66}
 66%|████████████████████████████████████████████████████████████▎                               | 1340/2044 [6:46:24<3:42:08, 18.93s/it] 66%|████████████████████████████████████████████████████████████▎                               | 1341/2044 [6:46:43<3:42:53, 19.02s/it]                                                                                                                                         {'loss': 0.2507, 'grad_norm': 38.79538073890635, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.768157958984375, 'rewards/rejected': -2.5048828125, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.26953125, 'logps/chosen': -323.0, 'logps/rejected': -157.0, 'logits/chosen': -0.9150390625, 'logits/rejected': -0.943359375, 'epoch': 0.66}
 66%|████████████████████████████████████████████████████████████▎                               | 1341/2044 [6:46:43<3:42:53, 19.02s/it] 66%|████████████████████████████████████████████████████████████▍                               | 1342/2044 [6:47:03<3:44:11, 19.16s/it]                                                                                                                                         {'loss': 0.2406, 'grad_norm': 34.89134371805433, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.180419921875, 'rewards/rejected': -2.41015625, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.58984375, 'logps/chosen': -397.625, 'logps/rejected': -170.625, 'logits/chosen': -0.89013671875, 'logits/rejected': -0.919921875, 'epoch': 0.66}
 66%|████████████████████████████████████████████████████████████▍                               | 1342/2044 [6:47:03<3:44:11, 19.16s/it] 66%|████████████████████████████████████████████████████████████▍                               | 1343/2044 [6:47:22<3:44:23, 19.21s/it]                                                                                                                                         {'loss': 0.3295, 'grad_norm': 65.59945771142581, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4500732421875, 'rewards/rejected': -2.4091796875, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.859375, 'logps/chosen': -309.875, 'logps/rejected': -134.5625, 'logits/chosen': -0.9443359375, 'logits/rejected': -0.8740234375, 'epoch': 0.66}
 66%|████████████████████████████████████████████████████████████▍                               | 1343/2044 [6:47:22<3:44:23, 19.21s/it] 66%|████████████████████████████████████████████████████████████▍                               | 1344/2044 [6:47:42<3:46:11, 19.39s/it]                                                                                                                                         {'loss': 0.1832, 'grad_norm': 31.485379609739013, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.675537109375, 'rewards/rejected': -3.0546875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.728515625, 'logps/chosen': -297.125, 'logps/rejected': -145.6875, 'logits/chosen': -0.964599609375, 'logits/rejected': -0.744873046875, 'epoch': 0.66}
 66%|████████████████████████████████████████████████████████████▍                               | 1344/2044 [6:47:42<3:46:11, 19.39s/it] 66%|████████████████████████████████████████████████████████████▌                               | 1345/2044 [6:48:01<3:44:17, 19.25s/it]                                                                                                                                         {'loss': 0.2137, 'grad_norm': 31.51988015541042, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.612548828125, 'rewards/rejected': -2.9814453125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.595703125, 'logps/chosen': -289.875, 'logps/rejected': -141.8125, 'logits/chosen': -0.90380859375, 'logits/rejected': -0.818359375, 'epoch': 0.66}
 66%|████████████████████████████████████████████████████████████▌                               | 1345/2044 [6:48:01<3:44:17, 19.25s/it] 66%|████████████████████████████████████████████████████████████▌                               | 1346/2044 [6:48:19<3:40:53, 18.99s/it]                                                                                                                                         {'loss': 0.2153, 'grad_norm': 28.847310941997673, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.71905517578125, 'rewards/rejected': -2.845703125, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.5625, 'logps/chosen': -310.75, 'logps/rejected': -142.75, 'logits/chosen': -0.8675537109375, 'logits/rejected': -0.66802978515625, 'epoch': 0.66}
 66%|████████████████████████████████████████████████████████████▌                               | 1346/2044 [6:48:19<3:40:53, 18.99s/it] 66%|████████████████████████████████████████████████████████████▋                               | 1347/2044 [6:48:39<3:43:43, 19.26s/it]                                                                                                                                         {'loss': 0.2128, 'grad_norm': 25.385771850364897, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.774169921875, 'rewards/rejected': -2.6474609375, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.421875, 'logps/chosen': -325.125, 'logps/rejected': -130.0, 'logits/chosen': -0.91162109375, 'logits/rejected': -0.80419921875, 'epoch': 0.66}
 66%|████████████████████████████████████████████████████████████▋                               | 1347/2044 [6:48:39<3:43:43, 19.26s/it] 66%|████████████████████████████████████████████████████████████▋                               | 1348/2044 [6:48:58<3:41:21, 19.08s/it]                                                                                                                                         {'loss': 0.272, 'grad_norm': 34.89379156129487, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.74365234375, 'rewards/rejected': -2.9091796875, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.650390625, 'logps/chosen': -335.125, 'logps/rejected': -146.25, 'logits/chosen': -0.9296875, 'logits/rejected': -0.810302734375, 'epoch': 0.66}
 66%|████████████████████████████████████████████████████████████▋                               | 1348/2044 [6:48:58<3:41:21, 19.08s/it] 66%|████████████████████████████████████████████████████████████▋                               | 1349/2044 [6:49:16<3:38:38, 18.88s/it]                                                                                                                                         {'loss': 0.2133, 'grad_norm': 32.27814440820565, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7251434326171875, 'rewards/rejected': -3.21875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.9453125, 'logps/chosen': -332.125, 'logps/rejected': -124.375, 'logits/chosen': -0.81640625, 'logits/rejected': -0.83984375, 'epoch': 0.66}
 66%|████████████████████████████████████████████████████████████▋                               | 1349/2044 [6:49:16<3:38:38, 18.88s/it] 66%|████████████████████████████████████████████████████████████▊                               | 1350/2044 [6:49:37<3:43:41, 19.34s/it]                                                                                                                                         {'loss': 0.2781, 'grad_norm': 51.91550508588915, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.788330078125, 'rewards/rejected': -2.572265625, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.357421875, 'logps/chosen': -297.875, 'logps/rejected': -198.125, 'logits/chosen': -0.841064453125, 'logits/rejected': -0.8720703125, 'epoch': 0.66}
 66%|████████████████████████████████████████████████████████████▊                               | 1350/2044 [6:49:37<3:43:41, 19.34s/it] 66%|████████████████████████████████████████████████████████████▊                               | 1351/2044 [6:49:56<3:42:33, 19.27s/it]                                                                                                                                         {'loss': 0.3424, 'grad_norm': 51.815467152558284, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.31317138671875, 'rewards/rejected': -2.46484375, 'rewards/accuracies': 0.796875, 'rewards/margins': 2.7783203125, 'logps/chosen': -208.875, 'logps/rejected': -169.625, 'logits/chosen': -0.763916015625, 'logits/rejected': -0.837890625, 'epoch': 0.66}
 66%|████████████████████████████████████████████████████████████▊                               | 1351/2044 [6:49:56<3:42:33, 19.27s/it] 66%|████████████████████████████████████████████████████████████▊                               | 1352/2044 [6:50:16<3:44:54, 19.50s/it]                                                                                                                                         {'loss': 0.2493, 'grad_norm': 32.24754933122182, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.717529296875, 'rewards/rejected': -2.353515625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.0703125, 'logps/chosen': -299.25, 'logps/rejected': -154.125, 'logits/chosen': -0.9794921875, 'logits/rejected': -0.794921875, 'epoch': 0.66}
 66%|████████████████████████████████████████████████████████████▊                               | 1352/2044 [6:50:16<3:44:54, 19.50s/it] 66%|████████████████████████████████████████████████████████████▉                               | 1353/2044 [6:50:36<3:47:02, 19.71s/it]                                                                                                                                         {'loss': 0.1981, 'grad_norm': 27.0581289555992, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.81451416015625, 'rewards/rejected': -3.1591796875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.974609375, 'logps/chosen': -403.875, 'logps/rejected': -196.0, 'logits/chosen': -0.849853515625, 'logits/rejected': -0.7637939453125, 'epoch': 0.66}
 66%|████████████████████████████████████████████████████████████▉                               | 1353/2044 [6:50:36<3:47:02, 19.71s/it] 66%|████████████████████████████████████████████████████████████▉                               | 1354/2044 [6:50:56<3:47:11, 19.76s/it]                                                                                                                                         {'loss': 0.2473, 'grad_norm': 29.861142559150863, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5822296142578125, 'rewards/rejected': -2.763671875, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.34765625, 'logps/chosen': -315.125, 'logps/rejected': -121.3125, 'logits/chosen': -0.9794921875, 'logits/rejected': -0.86279296875, 'epoch': 0.66}
 66%|████████████████████████████████████████████████████████████▉                               | 1354/2044 [6:50:56<3:47:11, 19.76s/it] 66%|████████████████████████████████████████████████████████████▉                               | 1355/2044 [6:51:15<3:44:09, 19.52s/it]                                                                                                                                         {'loss': 0.1965, 'grad_norm': 27.659629583083227, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.48193359375, 'rewards/rejected': -2.9482421875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.4306640625, 'logps/chosen': -265.0625, 'logps/rejected': -141.625, 'logits/chosen': -0.9111328125, 'logits/rejected': -0.75390625, 'epoch': 0.66}
 66%|████████████████████████████████████████████████████████████▉                               | 1355/2044 [6:51:15<3:44:09, 19.52s/it] 66%|█████████████████████████████████████████████████████████████                               | 1356/2044 [6:51:32<3:35:59, 18.84s/it]                                                                                                                                         {'loss': 0.1519, 'grad_norm': 21.867310472869992, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.78173828125, 'rewards/rejected': -3.177734375, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.95703125, 'logps/chosen': -288.125, 'logps/rejected': -124.75, 'logits/chosen': -0.930419921875, 'logits/rejected': -0.724609375, 'epoch': 0.66}
 66%|█████████████████████████████████████████████████████████████                               | 1356/2044 [6:51:32<3:35:59, 18.84s/it] 66%|█████████████████████████████████████████████████████████████                               | 1357/2044 [6:51:51<3:35:40, 18.84s/it]                                                                                                                                         {'loss': 0.2305, 'grad_norm': 38.24226659188662, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.93328857421875, 'rewards/rejected': -2.978515625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.904296875, 'logps/chosen': -401.875, 'logps/rejected': -153.5625, 'logits/chosen': -0.99755859375, 'logits/rejected': -0.78460693359375, 'epoch': 0.66}
 66%|█████████████████████████████████████████████████████████████                               | 1357/2044 [6:51:51<3:35:40, 18.84s/it] 66%|█████████████████████████████████████████████████████████████                               | 1358/2044 [6:52:09<3:32:10, 18.56s/it]                                                                                                                                         {'loss': 0.2144, 'grad_norm': 32.85795053028301, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.80029296875, 'rewards/rejected': -3.12109375, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.919921875, 'logps/chosen': -321.125, 'logps/rejected': -133.0, 'logits/chosen': -0.89599609375, 'logits/rejected': -0.64306640625, 'epoch': 0.66}
 66%|█████████████████████████████████████████████████████████████                               | 1358/2044 [6:52:09<3:32:10, 18.56s/it] 66%|█████████████████████████████████████████████████████████████▏                              | 1359/2044 [6:52:28<3:34:57, 18.83s/it]                                                                                                                                         {'loss': 0.2243, 'grad_norm': 27.933850535419715, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6885986328125, 'rewards/rejected': -2.67236328125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.3603515625, 'logps/chosen': -256.5, 'logps/rejected': -130.875, 'logits/chosen': -0.9267578125, 'logits/rejected': -0.69281005859375, 'epoch': 0.66}
 66%|█████████████████████████████████████████████████████████████▏                              | 1359/2044 [6:52:28<3:34:57, 18.83s/it] 67%|█████████████████████████████████████████████████████████████▏                              | 1360/2044 [6:52:46<3:31:20, 18.54s/it]                                                                                                                                         {'loss': 0.1457, 'grad_norm': 23.668358989128265, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6414794921875, 'rewards/rejected': -3.18359375, 'rewards/accuracies': 0.953125, 'rewards/margins': 3.828125, 'logps/chosen': -278.75, 'logps/rejected': -129.375, 'logits/chosen': -0.8125, 'logits/rejected': -0.8427734375, 'epoch': 0.67}
 67%|█████████████████████████████████████████████████████████████▏                              | 1360/2044 [6:52:46<3:31:20, 18.54s/it] 67%|█████████████████████████████████████████████████████████████▎                              | 1361/2044 [6:53:05<3:32:41, 18.68s/it]                                                                                                                                         {'loss': 0.2567, 'grad_norm': 42.04904932225562, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.72052001953125, 'rewards/rejected': -2.9228515625, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.642578125, 'logps/chosen': -362.25, 'logps/rejected': -145.0625, 'logits/chosen': -0.8603515625, 'logits/rejected': -0.8671875, 'epoch': 0.67}
 67%|█████████████████████████████████████████████████████████████▎                              | 1361/2044 [6:53:05<3:32:41, 18.68s/it] 67%|█████████████████████████████████████████████████████████████▎                              | 1362/2044 [6:53:25<3:34:55, 18.91s/it]                                                                                                                                         {'loss': 0.2966, 'grad_norm': 45.77200108624467, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7386474609375, 'rewards/rejected': -3.00390625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.73828125, 'logps/chosen': -315.625, 'logps/rejected': -188.25, 'logits/chosen': -0.84423828125, 'logits/rejected': -0.9267578125, 'epoch': 0.67}
 67%|█████████████████████████████████████████████████████████████▎                              | 1362/2044 [6:53:25<3:34:55, 18.91s/it] 67%|█████████████████████████████████████████████████████████████▎                              | 1363/2044 [6:53:44<3:35:51, 19.02s/it]                                                                                                                                         {'loss': 0.2355, 'grad_norm': 31.99306962558218, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7308273315429688, 'rewards/rejected': -2.951171875, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.677734375, 'logps/chosen': -309.875, 'logps/rejected': -128.21875, 'logits/chosen': -0.93505859375, 'logits/rejected': -0.7747802734375, 'epoch': 0.67}
 67%|█████████████████████████████████████████████████████████████▎                              | 1363/2044 [6:53:44<3:35:51, 19.02s/it] 67%|█████████████████████████████████████████████████████████████▍                              | 1364/2044 [6:54:02<3:31:12, 18.64s/it]                                                                                                                                         {'loss': 0.159, 'grad_norm': 23.4182397133057, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.66534423828125, 'rewards/rejected': -3.2138671875, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.884765625, 'logps/chosen': -310.25, 'logps/rejected': -136.375, 'logits/chosen': -1.1064453125, 'logits/rejected': -0.744140625, 'epoch': 0.67}
 67%|█████████████████████████████████████████████████████████████▍                              | 1364/2044 [6:54:02<3:31:12, 18.64s/it] 67%|█████████████████████████████████████████████████████████████▍                              | 1365/2044 [6:54:20<3:31:10, 18.66s/it]                                                                                                                                         {'loss': 0.1727, 'grad_norm': 27.146246802131127, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.66046142578125, 'rewards/rejected': -3.3046875, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.9677734375, 'logps/chosen': -324.75, 'logps/rejected': -136.9375, 'logits/chosen': -0.8232421875, 'logits/rejected': -0.685302734375, 'epoch': 0.67}
 67%|█████████████████████████████████████████████████████████████▍                              | 1365/2044 [6:54:20<3:31:10, 18.66s/it] 67%|█████████████████████████████████████████████████████████████▍                              | 1366/2044 [6:54:39<3:31:36, 18.73s/it]                                                                                                                                         {'loss': 0.2629, 'grad_norm': 39.78287671455714, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.759979248046875, 'rewards/rejected': -2.79296875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.556640625, 'logps/chosen': -293.125, 'logps/rejected': -171.6875, 'logits/chosen': -0.76123046875, 'logits/rejected': -0.822509765625, 'epoch': 0.67}
 67%|█████████████████████████████████████████████████████████████▍                              | 1366/2044 [6:54:39<3:31:36, 18.73s/it] 67%|█████████████████████████████████████████████████████████████▌                              | 1367/2044 [6:54:58<3:32:46, 18.86s/it]                                                                                                                                         {'loss': 0.2738, 'grad_norm': 39.60089409377221, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5955810546875, 'rewards/rejected': -2.646484375, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.24609375, 'logps/chosen': -287.5, 'logps/rejected': -146.875, 'logits/chosen': -0.921875, 'logits/rejected': -0.78369140625, 'epoch': 0.67}
 67%|█████████████████████████████████████████████████████████████▌                              | 1367/2044 [6:54:58<3:32:46, 18.86s/it] 67%|█████████████████████████████████████████████████████████████▌                              | 1368/2044 [6:55:18<3:33:27, 18.95s/it]                                                                                                                                         {'loss': 0.2449, 'grad_norm': 35.54479529066363, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.606781005859375, 'rewards/rejected': -2.71875, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.326171875, 'logps/chosen': -295.0, 'logps/rejected': -151.0625, 'logits/chosen': -0.96484375, 'logits/rejected': -0.7744140625, 'epoch': 0.67}
 67%|█████████████████████████████████████████████████████████████▌                              | 1368/2044 [6:55:18<3:33:27, 18.95s/it] 67%|█████████████████████████████████████████████████████████████▌                              | 1369/2044 [6:55:37<3:36:15, 19.22s/it]                                                                                                                                         {'loss': 0.333, 'grad_norm': 36.675511108681675, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5545654296875, 'rewards/rejected': -2.24609375, 'rewards/accuracies': 0.796875, 'rewards/margins': 2.806640625, 'logps/chosen': -285.875, 'logps/rejected': -178.875, 'logits/chosen': -0.98193359375, 'logits/rejected': -0.90185546875, 'epoch': 0.67}
 67%|█████████████████████████████████████████████████████████████▌                              | 1369/2044 [6:55:37<3:36:15, 19.22s/it] 67%|█████████████████████████████████████████████████████████████▋                              | 1370/2044 [6:55:57<3:38:24, 19.44s/it]                                                                                                                                         {'loss': 0.2432, 'grad_norm': 52.95799312591897, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.169921875, 'rewards/rejected': -2.5830078125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.751953125, 'logps/chosen': -416.5, 'logps/rejected': -167.125, 'logits/chosen': -1.07861328125, 'logits/rejected': -0.861328125, 'epoch': 0.67}
 67%|█████████████████████████████████████████████████████████████▋                              | 1370/2044 [6:55:57<3:38:24, 19.44s/it] 67%|█████████████████████████████████████████████████████████████▋                              | 1371/2044 [6:56:16<3:34:50, 19.15s/it]                                                                                                                                         {'loss': 0.1672, 'grad_norm': 28.05322500662555, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.14501953125, 'rewards/rejected': -3.06640625, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.212890625, 'logps/chosen': -336.375, 'logps/rejected': -139.4375, 'logits/chosen': -0.827392578125, 'logits/rejected': -0.68701171875, 'epoch': 0.67}
 67%|█████████████████████████████████████████████████████████████▋                              | 1371/2044 [6:56:16<3:34:50, 19.15s/it] 67%|█████████████████████████████████████████████████████████████▊                              | 1372/2044 [6:56:36<3:36:47, 19.36s/it]                                                                                                                                         {'loss': 0.1661, 'grad_norm': 26.043651955778753, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.076171875, 'rewards/rejected': -2.7685546875, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.84375, 'logps/chosen': -358.0, 'logps/rejected': -124.25, 'logits/chosen': -0.96337890625, 'logits/rejected': -0.79583740234375, 'epoch': 0.67}
 67%|█████████████████████████████████████████████████████████████▊                              | 1372/2044 [6:56:36<3:36:47, 19.36s/it] 67%|█████████████████████████████████████████████████████████████▊                              | 1373/2044 [6:56:54<3:33:56, 19.13s/it]                                                                                                                                         {'loss': 0.1744, 'grad_norm': 23.17360081076523, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6685791015625, 'rewards/rejected': -3.158203125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.82421875, 'logps/chosen': -255.75, 'logps/rejected': -131.6875, 'logits/chosen': -0.5477294921875, 'logits/rejected': -0.576904296875, 'epoch': 0.67}
 67%|█████████████████████████████████████████████████████████████▊                              | 1373/2044 [6:56:54<3:33:56, 19.13s/it] 67%|█████████████████████████████████████████████████████████████▊                              | 1374/2044 [6:57:12<3:29:32, 18.76s/it]                                                                                                                                         {'loss': 0.2602, 'grad_norm': 35.037266787999954, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.85595703125, 'rewards/rejected': -2.8408203125, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.693359375, 'logps/chosen': -325.125, 'logps/rejected': -135.8125, 'logits/chosen': -0.80810546875, 'logits/rejected': -0.7166748046875, 'epoch': 0.67}
 67%|█████████████████████████████████████████████████████████████▊                              | 1374/2044 [6:57:12<3:29:32, 18.76s/it] 67%|█████████████████████████████████████████████████████████████▉                              | 1375/2044 [6:57:32<3:31:49, 19.00s/it]                                                                                                                                         {'loss': 0.2654, 'grad_norm': 34.984421212760495, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.89404296875, 'rewards/rejected': -2.6630859375, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.5546875, 'logps/chosen': -293.1875, 'logps/rejected': -146.875, 'logits/chosen': -0.757568359375, 'logits/rejected': -0.91650390625, 'epoch': 0.67}
 67%|█████████████████████████████████████████████████████████████▉                              | 1375/2044 [6:57:32<3:31:49, 19.00s/it] 67%|█████████████████████████████████████████████████████████████▉                              | 1376/2044 [6:57:51<3:33:34, 19.18s/it]                                                                                                                                         {'loss': 0.2905, 'grad_norm': 47.42630124894741, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.826171875, 'rewards/rejected': -2.7275390625, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.552734375, 'logps/chosen': -364.25, 'logps/rejected': -156.3125, 'logits/chosen': -1.0634765625, 'logits/rejected': -0.89794921875, 'epoch': 0.67}
 67%|█████████████████████████████████████████████████████████████▉                              | 1376/2044 [6:57:51<3:33:34, 19.18s/it] 67%|█████████████████████████████████████████████████████████████▉                              | 1377/2044 [6:58:11<3:35:21, 19.37s/it]                                                                                                                                         {'loss': 0.2773, 'grad_norm': 43.06502969237519, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.049072265625, 'rewards/rejected': -2.5244140625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.57421875, 'logps/chosen': -343.375, 'logps/rejected': -167.125, 'logits/chosen': -0.89794921875, 'logits/rejected': -0.811767578125, 'epoch': 0.67}
 67%|█████████████████████████████████████████████████████████████▉                              | 1377/2044 [6:58:11<3:35:21, 19.37s/it] 67%|██████████████████████████████████████████████████████████████                              | 1378/2044 [6:58:30<3:33:36, 19.24s/it]                                                                                                                                         {'loss': 0.2228, 'grad_norm': 32.99468729035089, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.848388671875, 'rewards/rejected': -2.685546875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.537109375, 'logps/chosen': -304.375, 'logps/rejected': -157.9375, 'logits/chosen': -0.943359375, 'logits/rejected': -0.78173828125, 'epoch': 0.67}
 67%|██████████████████████████████████████████████████████████████                              | 1378/2044 [6:58:30<3:33:36, 19.24s/it] 67%|██████████████████████████████████████████████████████████████                              | 1379/2044 [6:58:50<3:35:40, 19.46s/it]                                                                                                                                         {'loss': 0.163, 'grad_norm': 27.712341789917225, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8634033203125, 'rewards/rejected': -3.25390625, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.119140625, 'logps/chosen': -313.25, 'logps/rejected': -134.4375, 'logits/chosen': -1.0068359375, 'logits/rejected': -0.72265625, 'epoch': 0.67}
 67%|██████████████████████████████████████████████████████████████                              | 1379/2044 [6:58:50<3:35:40, 19.46s/it] 68%|██████████████████████████████████████████████████████████████                              | 1380/2044 [6:59:08<3:29:23, 18.92s/it]                                                                                                                                         {'loss': 0.2275, 'grad_norm': 31.156165643179623, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.51934814453125, 'rewards/rejected': -2.8837890625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.40234375, 'logps/chosen': -316.25, 'logps/rejected': -132.875, 'logits/chosen': -0.97802734375, 'logits/rejected': -0.8701171875, 'epoch': 0.68}
 68%|██████████████████████████████████████████████████████████████                              | 1380/2044 [6:59:08<3:29:23, 18.92s/it] 68%|██████████████████████████████████████████████████████████████▏                             | 1381/2044 [6:59:27<3:30:45, 19.07s/it]                                                                                                                                         {'loss': 0.1663, 'grad_norm': 25.372622502396382, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.08984375, 'rewards/rejected': -3.0234375, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.11328125, 'logps/chosen': -320.375, 'logps/rejected': -133.3125, 'logits/chosen': -0.84912109375, 'logits/rejected': -0.81201171875, 'epoch': 0.68}
 68%|██████████████████████████████████████████████████████████████▏                             | 1381/2044 [6:59:27<3:30:45, 19.07s/it] 68%|██████████████████████████████████████████████████████████████▏                             | 1382/2044 [6:59:46<3:28:44, 18.92s/it]                                                                                                                                         {'loss': 0.2547, 'grad_norm': 34.21648022993404, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.589599609375, 'rewards/rejected': -2.82568359375, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.4130859375, 'logps/chosen': -316.375, 'logps/rejected': -164.0625, 'logits/chosen': -0.8759765625, 'logits/rejected': -0.913330078125, 'epoch': 0.68}
 68%|██████████████████████████████████████████████████████████████▏                             | 1382/2044 [6:59:46<3:28:44, 18.92s/it] 68%|██████████████████████████████████████████████████████████████▏                             | 1383/2044 [7:00:05<3:28:01, 18.88s/it]                                                                                                                                         {'loss': 0.2355, 'grad_norm': 31.632322186580286, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.595947265625, 'rewards/rejected': -3.07421875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.666015625, 'logps/chosen': -282.5, 'logps/rejected': -123.5, 'logits/chosen': -0.815185546875, 'logits/rejected': -0.842041015625, 'epoch': 0.68}
 68%|██████████████████████████████████████████████████████████████▏                             | 1383/2044 [7:00:05<3:28:01, 18.88s/it] 68%|██████████████████████████████████████████████████████████████▎                             | 1384/2044 [7:00:24<3:28:32, 18.96s/it]                                                                                                                                         {'loss': 0.1924, 'grad_norm': 29.53201262547641, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.97509765625, 'rewards/rejected': -2.9462890625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.91796875, 'logps/chosen': -311.25, 'logps/rejected': -167.625, 'logits/chosen': -0.820556640625, 'logits/rejected': -0.788330078125, 'epoch': 0.68}
 68%|██████████████████████████████████████████████████████████████▎                             | 1384/2044 [7:00:24<3:28:32, 18.96s/it] 68%|██████████████████████████████████████████████████████████████▎                             | 1385/2044 [7:00:43<3:28:42, 19.00s/it]                                                                                                                                         {'loss': 0.2216, 'grad_norm': 26.286801491105724, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.39208984375, 'rewards/rejected': -3.1396484375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.5400390625, 'logps/chosen': -234.0, 'logps/rejected': -130.75, 'logits/chosen': -1.021484375, 'logits/rejected': -0.8427734375, 'epoch': 0.68}
 68%|██████████████████████████████████████████████████████████████▎                             | 1385/2044 [7:00:43<3:28:42, 19.00s/it] 68%|██████████████████████████████████████████████████████████████▍                             | 1386/2044 [7:01:02<3:28:49, 19.04s/it]                                                                                                                                         {'loss': 0.2107, 'grad_norm': 35.20231668348851, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5718994140625, 'rewards/rejected': -3.451171875, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.0234375, 'logps/chosen': -233.0, 'logps/rejected': -149.625, 'logits/chosen': -0.79833984375, 'logits/rejected': -0.8193359375, 'epoch': 0.68}
 68%|██████████████████████████████████████████████████████████████▍                             | 1386/2044 [7:01:02<3:28:49, 19.04s/it] 68%|██████████████████████████████████████████████████████████████▍                             | 1387/2044 [7:01:21<3:28:24, 19.03s/it]                                                                                                                                         {'loss': 0.2381, 'grad_norm': 31.352485160283585, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8970947265625, 'rewards/rejected': -2.80078125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.701171875, 'logps/chosen': -349.125, 'logps/rejected': -143.8125, 'logits/chosen': -0.93505859375, 'logits/rejected': -0.811279296875, 'epoch': 0.68}
 68%|██████████████████████████████████████████████████████████████▍                             | 1387/2044 [7:01:21<3:28:24, 19.03s/it] 68%|██████████████████████████████████████████████████████████████▍                             | 1388/2044 [7:01:40<3:26:25, 18.88s/it]                                                                                                                                         {'loss': 0.245, 'grad_norm': 42.475760818308395, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.965087890625, 'rewards/rejected': -2.939453125, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.904296875, 'logps/chosen': -302.0625, 'logps/rejected': -162.1875, 'logits/chosen': -0.918212890625, 'logits/rejected': -0.85791015625, 'epoch': 0.68}
 68%|██████████████████████████████████████████████████████████████▍                             | 1388/2044 [7:01:40<3:26:25, 18.88s/it] 68%|██████████████████████████████████████████████████████████████▌                             | 1389/2044 [7:02:00<3:30:08, 19.25s/it]                                                                                                                                         {'loss': 0.3048, 'grad_norm': 34.34751681325141, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7950439453125, 'rewards/rejected': -2.5703125, 'rewards/accuracies': 0.8125, 'rewards/margins': 3.36328125, 'logps/chosen': -337.6875, 'logps/rejected': -128.875, 'logits/chosen': -0.955078125, 'logits/rejected': -0.83154296875, 'epoch': 0.68}
 68%|██████████████████████████████████████████████████████████████▌                             | 1389/2044 [7:02:00<3:30:08, 19.25s/it] 68%|██████████████████████████████████████████████████████████████▌                             | 1390/2044 [7:02:19<3:29:06, 19.18s/it]                                                                                                                                         {'loss': 0.1373, 'grad_norm': 23.94499978993784, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5076904296875, 'rewards/rejected': -3.783203125, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.291015625, 'logps/chosen': -271.0, 'logps/rejected': -124.1875, 'logits/chosen': -0.9320068359375, 'logits/rejected': -0.72119140625, 'epoch': 0.68}
 68%|██████████████████████████████████████████████████████████████▌                             | 1390/2044 [7:02:19<3:29:06, 19.18s/it] 68%|██████████████████████████████████████████████████████████████▌                             | 1391/2044 [7:02:37<3:26:42, 18.99s/it]                                                                                                                                         {'loss': 0.2175, 'grad_norm': 32.073229206830824, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.671539306640625, 'rewards/rejected': -2.396484375, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.0673828125, 'logps/chosen': -318.625, 'logps/rejected': -212.8125, 'logits/chosen': -0.935302734375, 'logits/rejected': -0.896728515625, 'epoch': 0.68}
 68%|██████████████████████████████████████████████████████████████▌                             | 1391/2044 [7:02:37<3:26:42, 18.99s/it] 68%|██████████████████████████████████████████████████████████████▋                             | 1392/2044 [7:02:57<3:28:11, 19.16s/it]                                                                                                                                         {'loss': 0.1934, 'grad_norm': 28.318449474292013, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8685302734375, 'rewards/rejected': -3.146484375, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.015625, 'logps/chosen': -304.625, 'logps/rejected': -113.5, 'logits/chosen': -0.91845703125, 'logits/rejected': -0.79833984375, 'epoch': 0.68}
 68%|██████████████████████████████████████████████████████████████▋                             | 1392/2044 [7:02:57<3:28:11, 19.16s/it] 68%|██████████████████████████████████████████████████████████████▋                             | 1393/2044 [7:03:17<3:30:37, 19.41s/it]                                                                                                                                         {'loss': 0.2404, 'grad_norm': 28.813765717072425, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.726318359375, 'rewards/rejected': -2.3525390625, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.076171875, 'logps/chosen': -328.0, 'logps/rejected': -161.8125, 'logits/chosen': -0.8525390625, 'logits/rejected': -0.790771484375, 'epoch': 0.68}
 68%|██████████████████████████████████████████████████████████████▋                             | 1393/2044 [7:03:17<3:30:37, 19.41s/it] 68%|██████████████████████████████████████████████████████████████▋                             | 1394/2044 [7:03:35<3:25:24, 18.96s/it]                                                                                                                                         {'loss': 0.0997, 'grad_norm': 16.822988612117072, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9560546875, 'rewards/rejected': -3.583984375, 'rewards/accuracies': 0.953125, 'rewards/margins': 4.533203125, 'logps/chosen': -286.125, 'logps/rejected': -102.25, 'logits/chosen': -0.9892578125, 'logits/rejected': -0.759765625, 'epoch': 0.68}
 68%|██████████████████████████████████████████████████████████████▋                             | 1394/2044 [7:03:35<3:25:24, 18.96s/it] 68%|██████████████████████████████████████████████████████████████▊                             | 1395/2044 [7:03:53<3:23:33, 18.82s/it]                                                                                                                                         {'loss': 0.1678, 'grad_norm': 26.033437119256888, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.75390625, 'rewards/rejected': -3.205078125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.9521484375, 'logps/chosen': -255.28125, 'logps/rejected': -133.25, 'logits/chosen': -0.8544921875, 'logits/rejected': -0.8106689453125, 'epoch': 0.68}
 68%|██████████████████████████████████████████████████████████████▊                             | 1395/2044 [7:03:53<3:23:33, 18.82s/it] 68%|██████████████████████████████████████████████████████████████▊                             | 1396/2044 [7:04:13<3:27:20, 19.20s/it]                                                                                                                                         {'loss': 0.2766, 'grad_norm': 41.18607995062701, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.805908203125, 'rewards/rejected': -2.765625, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.5703125, 'logps/chosen': -363.5, 'logps/rejected': -165.8125, 'logits/chosen': -0.74658203125, 'logits/rejected': -0.876708984375, 'epoch': 0.68}
 68%|██████████████████████████████████████████████████████████████▊                             | 1396/2044 [7:04:13<3:27:20, 19.20s/it] 68%|██████████████████████████████████████████████████████████████▉                             | 1397/2044 [7:04:30<3:18:16, 18.39s/it]                                                                                                                                         {'loss': 0.2104, 'grad_norm': 28.042019327350435, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.390869140625, 'rewards/rejected': -3.328125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.720703125, 'logps/chosen': -244.875, 'logps/rejected': -116.5, 'logits/chosen': -0.8046875, 'logits/rejected': -0.70654296875, 'epoch': 0.68}
 68%|██████████████████████████████████████████████████████████████▉                             | 1397/2044 [7:04:30<3:18:16, 18.39s/it] 68%|██████████████████████████████████████████████████████████████▉                             | 1398/2044 [7:04:50<3:22:43, 18.83s/it]                                                                                                                                         {'loss': 0.2198, 'grad_norm': 30.88822473912558, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.666015625, 'rewards/rejected': -2.6943359375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.36328125, 'logps/chosen': -347.0, 'logps/rejected': -218.125, 'logits/chosen': -0.88232421875, 'logits/rejected': -0.865234375, 'epoch': 0.68}
 68%|██████████████████████████████████████████████████████████████▉                             | 1398/2044 [7:04:50<3:22:43, 18.83s/it] 68%|██████████████████████████████████████████████████████████████▉                             | 1399/2044 [7:05:08<3:21:25, 18.74s/it]                                                                                                                                         {'loss': 0.1932, 'grad_norm': 26.809857405078663, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.599609375, 'rewards/rejected': -3.4296875, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.03515625, 'logps/chosen': -294.25, 'logps/rejected': -131.8125, 'logits/chosen': -0.93505859375, 'logits/rejected': -0.85693359375, 'epoch': 0.68}
 68%|██████████████████████████████████████████████████████████████▉                             | 1399/2044 [7:05:08<3:21:25, 18.74s/it] 68%|███████████████████████████████████████████████████████████████                             | 1400/2044 [7:05:27<3:20:04, 18.64s/it]                                                                                                                                         {'loss': 0.1124, 'grad_norm': 19.1678937841241, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0140380859375, 'rewards/rejected': -3.45703125, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.474609375, 'logps/chosen': -303.25, 'logps/rejected': -121.625, 'logits/chosen': -0.7574462890625, 'logits/rejected': -0.49169921875, 'epoch': 0.68}
 68%|███████████████████████████████████████████████████████████████                             | 1400/2044 [7:05:27<3:20:04, 18.64s/it] 69%|███████████████████████████████████████████████████████████████                             | 1401/2044 [7:05:44<3:16:32, 18.34s/it]                                                                                                                                         {'loss': 0.1311, 'grad_norm': 19.343865402021244, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.711944580078125, 'rewards/rejected': -3.59375, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.3046875, 'logps/chosen': -284.0, 'logps/rejected': -109.125, 'logits/chosen': -0.96630859375, 'logits/rejected': -0.645751953125, 'epoch': 0.69}
 69%|███████████████████████████████████████████████████████████████                             | 1401/2044 [7:05:44<3:16:32, 18.34s/it] 69%|███████████████████████████████████████████████████████████████                             | 1402/2044 [7:06:03<3:17:34, 18.47s/it]                                                                                                                                         {'loss': 0.2455, 'grad_norm': 33.109333656780215, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.822357177734375, 'rewards/rejected': -2.7548828125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.578125, 'logps/chosen': -326.25, 'logps/rejected': -172.25, 'logits/chosen': -0.96630859375, 'logits/rejected': -0.754638671875, 'epoch': 0.69}
 69%|███████████████████████████████████████████████████████████████                             | 1402/2044 [7:06:03<3:17:34, 18.47s/it] 69%|███████████████████████████████████████████████████████████████▏                            | 1403/2044 [7:06:22<3:20:25, 18.76s/it]                                                                                                                                         {'loss': 0.208, 'grad_norm': 37.866141518343326, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6122894287109375, 'rewards/rejected': -2.888671875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.50390625, 'logps/chosen': -286.125, 'logps/rejected': -149.25, 'logits/chosen': -0.80322265625, 'logits/rejected': -1.05810546875, 'epoch': 0.69}
 69%|███████████████████████████████████████████████████████████████▏                            | 1403/2044 [7:06:22<3:20:25, 18.76s/it] 69%|███████████████████████████████████████████████████████████████▏                            | 1404/2044 [7:06:42<3:22:03, 18.94s/it]                                                                                                                                         {'loss': 0.2157, 'grad_norm': 32.44869983062462, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4022216796875, 'rewards/rejected': -3.12109375, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.5166015625, 'logps/chosen': -249.0625, 'logps/rejected': -171.125, 'logits/chosen': -0.737060546875, 'logits/rejected': -0.82080078125, 'epoch': 0.69}
 69%|███████████████████████████████████████████████████████████████▏                            | 1404/2044 [7:06:42<3:22:03, 18.94s/it] 69%|███████████████████████████████████████████████████████████████▏                            | 1405/2044 [7:07:02<3:26:34, 19.40s/it]                                                                                                                                         {'loss': 0.2477, 'grad_norm': 29.44305853387171, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.985107421875, 'rewards/rejected': -2.407470703125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.39453125, 'logps/chosen': -342.25, 'logps/rejected': -142.625, 'logits/chosen': -0.820068359375, 'logits/rejected': -0.86865234375, 'epoch': 0.69}
 69%|███████████████████████████████████████████████████████████████▏                            | 1405/2044 [7:07:02<3:26:34, 19.40s/it] 69%|███████████████████████████████████████████████████████████████▎                            | 1406/2044 [7:07:22<3:27:44, 19.54s/it]                                                                                                                                         {'loss': 0.2865, 'grad_norm': 49.07547677571374, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6717376708984375, 'rewards/rejected': -2.7705078125, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.447265625, 'logps/chosen': -346.375, 'logps/rejected': -228.78125, 'logits/chosen': -0.888916015625, 'logits/rejected': -0.8525390625, 'epoch': 0.69}
 69%|███████████████████████████████████████████████████████████████▎                            | 1406/2044 [7:07:22<3:27:44, 19.54s/it] 69%|███████████████████████████████████████████████████████████████▎                            | 1407/2044 [7:07:42<3:27:18, 19.53s/it]                                                                                                                                         {'loss': 0.2416, 'grad_norm': 31.818172134568417, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.3424072265625, 'rewards/rejected': -2.791015625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.134765625, 'logps/chosen': -288.3125, 'logps/rejected': -152.5625, 'logits/chosen': -1.01904296875, 'logits/rejected': -0.8408203125, 'epoch': 0.69}
 69%|███████████████████████████████████████████████████████████████▎                            | 1407/2044 [7:07:42<3:27:18, 19.53s/it] 69%|███████████████████████████████████████████████████████████████▎                            | 1408/2044 [7:08:00<3:24:15, 19.27s/it]                                                                                                                                         {'loss': 0.2131, 'grad_norm': 32.38619515799611, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.709716796875, 'rewards/rejected': -2.841552734375, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.5498046875, 'logps/chosen': -291.875, 'logps/rejected': -148.5625, 'logits/chosen': -0.88720703125, 'logits/rejected': -0.939697265625, 'epoch': 0.69}
 69%|███████████████████████████████████████████████████████████████▎                            | 1408/2044 [7:08:00<3:24:15, 19.27s/it] 69%|███████████████████████████████████████████████████████████████▍                            | 1409/2044 [7:08:19<3:21:55, 19.08s/it]                                                                                                                                         {'loss': 0.2079, 'grad_norm': 33.23651425156517, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8173828125, 'rewards/rejected': -3.0537109375, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.873046875, 'logps/chosen': -321.875, 'logps/rejected': -149.0625, 'logits/chosen': -0.75341796875, 'logits/rejected': -0.840576171875, 'epoch': 0.69}
 69%|███████████████████████████████████████████████████████████████▍                            | 1409/2044 [7:08:19<3:21:55, 19.08s/it] 69%|███████████████████████████████████████████████████████████████▍                            | 1410/2044 [7:08:38<3:23:13, 19.23s/it]                                                                                                                                         {'loss': 0.2499, 'grad_norm': 30.512478984410496, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6285400390625, 'rewards/rejected': -2.8125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.44140625, 'logps/chosen': -284.875, 'logps/rejected': -139.75, 'logits/chosen': -0.765869140625, 'logits/rejected': -1.005859375, 'epoch': 0.69}
 69%|███████████████████████████████████████████████████████████████▍                            | 1410/2044 [7:08:38<3:23:13, 19.23s/it] 69%|███████████████████████████████████████████████████████████████▌                            | 1411/2044 [7:08:58<3:23:47, 19.32s/it]                                                                                                                                         {'loss': 0.2517, 'grad_norm': 40.337587110511855, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.682373046875, 'rewards/rejected': -2.81396484375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.4931640625, 'logps/chosen': -312.5, 'logps/rejected': -187.5625, 'logits/chosen': -0.97412109375, 'logits/rejected': -0.97900390625, 'epoch': 0.69}
 69%|███████████████████████████████████████████████████████████████▌                            | 1411/2044 [7:08:58<3:23:47, 19.32s/it] 69%|███████████████████████████████████████████████████████████████▌                            | 1412/2044 [7:09:16<3:18:54, 18.88s/it]                                                                                                                                         {'loss': 0.1907, 'grad_norm': 42.242849808913, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.63775634765625, 'rewards/rejected': -3.6630859375, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.30078125, 'logps/chosen': -346.75, 'logps/rejected': -112.5625, 'logits/chosen': -1.06298828125, 'logits/rejected': -0.626617431640625, 'epoch': 0.69}
 69%|███████████████████████████████████████████████████████████████▌                            | 1412/2044 [7:09:16<3:18:54, 18.88s/it] 69%|███████████████████████████████████████████████████████████████▌                            | 1413/2044 [7:09:35<3:18:38, 18.89s/it]                                                                                                                                         {'loss': 0.2109, 'grad_norm': 29.1324905207448, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.744140625, 'rewards/rejected': -3.1640625, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.91015625, 'logps/chosen': -318.125, 'logps/rejected': -124.9375, 'logits/chosen': -0.915771484375, 'logits/rejected': -0.825927734375, 'epoch': 0.69}
 69%|███████████████████████████████████████████████████████████████▌                            | 1413/2044 [7:09:35<3:18:38, 18.89s/it] 69%|███████████████████████████████████████████████████████████████▋                            | 1414/2044 [7:09:52<3:14:29, 18.52s/it]                                                                                                                                         {'loss': 0.1707, 'grad_norm': 27.58650295969709, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.53076171875, 'rewards/rejected': -3.439453125, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.966796875, 'logps/chosen': -304.1875, 'logps/rejected': -112.125, 'logits/chosen': -0.9609375, 'logits/rejected': -0.80908203125, 'epoch': 0.69}
 69%|███████████████████████████████████████████████████████████████▋                            | 1414/2044 [7:09:52<3:14:29, 18.52s/it] 69%|███████████████████████████████████████████████████████████████▋                            | 1415/2044 [7:10:12<3:17:21, 18.83s/it]                                                                                                                                         {'loss': 0.1804, 'grad_norm': 31.270934004394952, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4412841796875, 'rewards/rejected': -3.421875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.86328125, 'logps/chosen': -240.125, 'logps/rejected': -144.3125, 'logits/chosen': -0.8359375, 'logits/rejected': -0.86962890625, 'epoch': 0.69}
 69%|███████████████████████████████████████████████████████████████▋                            | 1415/2044 [7:10:12<3:17:21, 18.83s/it] 69%|███████████████████████████████████████████████████████████████▋                            | 1416/2044 [7:10:30<3:16:07, 18.74s/it]                                                                                                                                         {'loss': 0.1798, 'grad_norm': 28.990994737261314, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.039794921875, 'rewards/rejected': -3.361328125, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.404296875, 'logps/chosen': -346.875, 'logps/rejected': -128.375, 'logits/chosen': -0.7841796875, 'logits/rejected': -0.628662109375, 'epoch': 0.69}
 69%|███████████████████████████████████████████████████████████████▋                            | 1416/2044 [7:10:30<3:16:07, 18.74s/it] 69%|███████████████████████████████████████████████████████████████▊                            | 1417/2044 [7:10:51<3:20:47, 19.21s/it]                                                                                                                                         {'loss': 0.3447, 'grad_norm': 50.12029375192842, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.55841064453125, 'rewards/rejected': -2.630859375, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.18359375, 'logps/chosen': -266.875, 'logps/rejected': -204.1875, 'logits/chosen': -0.814453125, 'logits/rejected': -0.8955078125, 'epoch': 0.69}
 69%|███████████████████████████████████████████████████████████████▊                            | 1417/2044 [7:10:51<3:20:47, 19.21s/it] 69%|███████████████████████████████████████████████████████████████▊                            | 1418/2044 [7:11:08<3:14:05, 18.60s/it]                                                                                                                                         {'loss': 0.1752, 'grad_norm': 22.94841951875089, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6258544921875, 'rewards/rejected': -3.1650390625, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.79296875, 'logps/chosen': -272.75, 'logps/rejected': -140.4375, 'logits/chosen': -0.7822265625, 'logits/rejected': -0.833984375, 'epoch': 0.69}
 69%|███████████████████████████████████████████████████████████████▊                            | 1418/2044 [7:11:08<3:14:05, 18.60s/it] 69%|███████████████████████████████████████████████████████████████▊                            | 1419/2044 [7:11:27<3:16:40, 18.88s/it]                                                                                                                                         {'loss': 0.2268, 'grad_norm': 38.09726296583022, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.420928955078125, 'rewards/rejected': -3.09765625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.517578125, 'logps/chosen': -321.625, 'logps/rejected': -134.5, 'logits/chosen': -0.96923828125, 'logits/rejected': -0.904296875, 'epoch': 0.69}
 69%|███████████████████████████████████████████████████████████████▊                            | 1419/2044 [7:11:27<3:16:40, 18.88s/it] 69%|███████████████████████████████████████████████████████████████▉                            | 1420/2044 [7:11:45<3:12:02, 18.47s/it]                                                                                                                                         {'loss': 0.144, 'grad_norm': 28.010116996730986, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.442138671875, 'rewards/rejected': -3.8828125, 'rewards/accuracies': 0.953125, 'rewards/margins': 4.328125, 'logps/chosen': -272.5625, 'logps/rejected': -116.5625, 'logits/chosen': -0.9794921875, 'logits/rejected': -0.654815673828125, 'epoch': 0.69}
 69%|███████████████████████████████████████████████████████████████▉                            | 1420/2044 [7:11:45<3:12:02, 18.47s/it] 70%|███████████████████████████████████████████████████████████████▉                            | 1421/2044 [7:12:04<3:13:12, 18.61s/it]                                                                                                                                         {'loss': 0.1687, 'grad_norm': 24.803952790903537, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.83203125, 'rewards/rejected': -3.556640625, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.38671875, 'logps/chosen': -307.75, 'logps/rejected': -130.5625, 'logits/chosen': -1.0205078125, 'logits/rejected': -0.84765625, 'epoch': 0.7}
 70%|███████████████████████████████████████████████████████████████▉                            | 1421/2044 [7:12:04<3:13:12, 18.61s/it] 70%|████████████████████████████████████████████████████████████████                            | 1422/2044 [7:12:24<3:17:41, 19.07s/it]                                                                                                                                         {'loss': 0.2402, 'grad_norm': 36.12131965014222, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.45263671875, 'rewards/rejected': -2.96875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.4228515625, 'logps/chosen': -300.875, 'logps/rejected': -138.6875, 'logits/chosen': -1.07763671875, 'logits/rejected': -0.86181640625, 'epoch': 0.7}
 70%|████████████████████████████████████████████████████████████████                            | 1422/2044 [7:12:24<3:17:41, 19.07s/it] 70%|████████████████████████████████████████████████████████████████                            | 1423/2044 [7:12:42<3:13:16, 18.67s/it]                                                                                                                                         {'loss': 0.1628, 'grad_norm': 24.188016552770907, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6993408203125, 'rewards/rejected': -3.640625, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.337890625, 'logps/chosen': -258.5625, 'logps/rejected': -109.0, 'logits/chosen': -0.93896484375, 'logits/rejected': -0.84033203125, 'epoch': 0.7}
 70%|████████████████████████████████████████████████████████████████                            | 1423/2044 [7:12:42<3:13:16, 18.67s/it] 70%|████████████████████████████████████████████████████████████████                            | 1424/2044 [7:13:02<3:18:04, 19.17s/it]                                                                                                                                         {'loss': 0.2331, 'grad_norm': 32.53269689949977, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6859130859375, 'rewards/rejected': -2.876953125, 'rewards/accuracies': 0.875, 'rewards/margins': 3.5595703125, 'logps/chosen': -275.625, 'logps/rejected': -159.875, 'logits/chosen': -0.682373046875, 'logits/rejected': -0.826171875, 'epoch': 0.7}
 70%|████████████████████████████████████████████████████████████████                            | 1424/2044 [7:13:02<3:18:04, 19.17s/it] 70%|████████████████████████████████████████████████████████████████▏                           | 1425/2044 [7:13:22<3:18:19, 19.22s/it]                                                                                                                                         {'loss': 0.2471, 'grad_norm': 34.95327514407064, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.2855224609375, 'rewards/rejected': -2.8544921875, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.138671875, 'logps/chosen': -274.25, 'logps/rejected': -173.1875, 'logits/chosen': -0.876953125, 'logits/rejected': -0.9248046875, 'epoch': 0.7}
 70%|████████████████████████████████████████████████████████████████▏                           | 1425/2044 [7:13:22<3:18:19, 19.22s/it] 70%|████████████████████████████████████████████████████████████████▏                           | 1426/2044 [7:13:39<3:13:35, 18.80s/it]                                                                                                                                         {'loss': 0.1962, 'grad_norm': 25.452830770161665, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.50787353515625, 'rewards/rejected': -3.2734375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.779296875, 'logps/chosen': -272.0, 'logps/rejected': -117.25, 'logits/chosen': -1.017578125, 'logits/rejected': -0.77294921875, 'epoch': 0.7}
 70%|████████████████████████████████████████████████████████████████▏                           | 1426/2044 [7:13:39<3:13:35, 18.80s/it] 70%|████████████████████████████████████████████████████████████████▏                           | 1427/2044 [7:13:59<3:17:34, 19.21s/it]                                                                                                                                         {'loss': 0.2381, 'grad_norm': 41.15690443961325, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9130859375, 'rewards/rejected': -2.927734375, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.83984375, 'logps/chosen': -315.75, 'logps/rejected': -160.9375, 'logits/chosen': -0.89111328125, 'logits/rejected': -0.884765625, 'epoch': 0.7}
 70%|████████████████████████████████████████████████████████████████▏                           | 1427/2044 [7:13:59<3:17:34, 19.21s/it] 70%|████████████████████████████████████████████████████████████████▎                           | 1428/2044 [7:14:19<3:18:29, 19.33s/it]                                                                                                                                         {'loss': 0.2369, 'grad_norm': 32.43283656264823, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.3765869140625, 'rewards/rejected': -2.9722900390625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.345703125, 'logps/chosen': -238.3125, 'logps/rejected': -149.6875, 'logits/chosen': -0.78955078125, 'logits/rejected': -0.86083984375, 'epoch': 0.7}
 70%|████████████████████████████████████████████████████████████████▎                           | 1428/2044 [7:14:19<3:18:29, 19.33s/it] 70%|████████████████████████████████████████████████████████████████▎                           | 1429/2044 [7:14:38<3:15:54, 19.11s/it]                                                                                                                                         {'loss': 0.1649, 'grad_norm': 26.382652633035832, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.837158203125, 'rewards/rejected': -3.1181640625, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.955078125, 'logps/chosen': -318.75, 'logps/rejected': -131.8125, 'logits/chosen': -0.920166015625, 'logits/rejected': -0.89453125, 'epoch': 0.7}
 70%|████████████████████████████████████████████████████████████████▎                           | 1429/2044 [7:14:38<3:15:54, 19.11s/it] 70%|████████████████████████████████████████████████████████████████▎                           | 1430/2044 [7:14:57<3:17:38, 19.31s/it]                                                                                                                                         {'loss': 0.1804, 'grad_norm': 25.77810187479667, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.752685546875, 'rewards/rejected': -2.87109375, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.62109375, 'logps/chosen': -296.875, 'logps/rejected': -139.8125, 'logits/chosen': -0.736328125, 'logits/rejected': -0.7451171875, 'epoch': 0.7}
 70%|████████████████████████████████████████████████████████████████▎                           | 1430/2044 [7:14:57<3:17:38, 19.31s/it] 70%|████████████████████████████████████████████████████████████████▍                           | 1431/2044 [7:15:17<3:17:10, 19.30s/it]                                                                                                                                         {'loss': 0.1835, 'grad_norm': 23.242422013415894, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4163818359375, 'rewards/rejected': -3.177734375, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.5908203125, 'logps/chosen': -291.0, 'logps/rejected': -127.0625, 'logits/chosen': -0.8089599609375, 'logits/rejected': -0.88916015625, 'epoch': 0.7}
 70%|████████████████████████████████████████████████████████████████▍                           | 1431/2044 [7:15:17<3:17:10, 19.30s/it] 70%|████████████████████████████████████████████████████████████████▍                           | 1432/2044 [7:15:37<3:19:15, 19.53s/it]                                                                                                                                         {'loss': 0.2975, 'grad_norm': 35.88760174111868, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5052490234375, 'rewards/rejected': -2.658203125, 'rewards/accuracies': 0.8125, 'rewards/margins': 3.1650390625, 'logps/chosen': -235.875, 'logps/rejected': -148.125, 'logits/chosen': -1.013671875, 'logits/rejected': -0.83251953125, 'epoch': 0.7}
 70%|████████████████████████████████████████████████████████████████▍                           | 1432/2044 [7:15:37<3:19:15, 19.53s/it] 70%|████████████████████████████████████████████████████████████████▍                           | 1433/2044 [7:15:56<3:18:43, 19.51s/it]                                                                                                                                         {'loss': 0.2301, 'grad_norm': 35.487027638944944, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.881591796875, 'rewards/rejected': -3.0927734375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.96875, 'logps/chosen': -337.75, 'logps/rejected': -138.0625, 'logits/chosen': -1.0185546875, 'logits/rejected': -0.601654052734375, 'epoch': 0.7}
 70%|████████████████████████████████████████████████████████████████▍                           | 1433/2044 [7:15:56<3:18:43, 19.51s/it] 70%|████████████████████████████████████████████████████████████████▌                           | 1434/2044 [7:16:16<3:18:17, 19.50s/it]                                                                                                                                         {'loss': 0.2428, 'grad_norm': 37.416490914311595, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.572265625, 'rewards/rejected': -2.5810546875, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.150390625, 'logps/chosen': -317.125, 'logps/rejected': -181.0, 'logits/chosen': -0.955078125, 'logits/rejected': -0.95166015625, 'epoch': 0.7}
 70%|████████████████████████████████████████████████████████████████▌                           | 1434/2044 [7:16:16<3:18:17, 19.50s/it] 70%|████████████████████████████████████████████████████████████████▌                           | 1435/2044 [7:16:35<3:17:19, 19.44s/it]                                                                                                                                         {'loss': 0.1727, 'grad_norm': 31.966601501298907, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.63958740234375, 'rewards/rejected': -3.31640625, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.953125, 'logps/chosen': -331.875, 'logps/rejected': -151.3125, 'logits/chosen': -0.875, 'logits/rejected': -0.958984375, 'epoch': 0.7}
 70%|████████████████████████████████████████████████████████████████▌                           | 1435/2044 [7:16:35<3:17:19, 19.44s/it] 70%|████████████████████████████████████████████████████████████████▋                           | 1436/2044 [7:16:54<3:15:10, 19.26s/it]                                                                                                                                         {'loss': 0.2374, 'grad_norm': 34.1644655914901, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.70501708984375, 'rewards/rejected': -2.916015625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.6171875, 'logps/chosen': -344.625, 'logps/rejected': -173.5, 'logits/chosen': -1.02392578125, 'logits/rejected': -0.91162109375, 'epoch': 0.7}
 70%|████████████████████████████████████████████████████████████████▋                           | 1436/2044 [7:16:54<3:15:10, 19.26s/it] 70%|████████████████████████████████████████████████████████████████▋                           | 1437/2044 [7:17:15<3:19:26, 19.71s/it]                                                                                                                                         {'loss': 0.2736, 'grad_norm': 45.46639907886744, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.34716796875, 'rewards/rejected': -2.5439453125, 'rewards/accuracies': 0.828125, 'rewards/margins': 2.8916015625, 'logps/chosen': -227.75, 'logps/rejected': -234.875, 'logits/chosen': -0.99462890625, 'logits/rejected': -1.1015625, 'epoch': 0.7}
 70%|████████████████████████████████████████████████████████████████▋                           | 1437/2044 [7:17:15<3:19:26, 19.71s/it] 70%|████████████████████████████████████████████████████████████████▋                           | 1438/2044 [7:17:35<3:20:04, 19.81s/it]                                                                                                                                         {'loss': 0.2438, 'grad_norm': 36.78583050664318, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.68212890625, 'rewards/rejected': -2.869140625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.55078125, 'logps/chosen': -319.875, 'logps/rejected': -177.125, 'logits/chosen': -0.944091796875, 'logits/rejected': -0.80810546875, 'epoch': 0.7}
 70%|████████████████████████████████████████████████████████████████▋                           | 1438/2044 [7:17:35<3:20:04, 19.81s/it] 70%|████████████████████████████████████████████████████████████████▊                           | 1439/2044 [7:17:53<3:16:19, 19.47s/it]                                                                                                                                         {'loss': 0.2407, 'grad_norm': 31.07549349291194, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.623291015625, 'rewards/rejected': -2.87890625, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.5009765625, 'logps/chosen': -361.0, 'logps/rejected': -218.6875, 'logits/chosen': -1.044921875, 'logits/rejected': -0.953125, 'epoch': 0.7}
 70%|████████████████████████████████████████████████████████████████▊                           | 1439/2044 [7:17:53<3:16:19, 19.47s/it] 70%|████████████████████████████████████████████████████████████████▊                           | 1440/2044 [7:18:14<3:18:47, 19.75s/it]                                                                                                                                         {'loss': 0.3177, 'grad_norm': 43.35090900565608, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.678466796875, 'rewards/rejected': -2.58203125, 'rewards/accuracies': 0.75, 'rewards/margins': 3.26171875, 'logps/chosen': -349.75, 'logps/rejected': -159.3125, 'logits/chosen': -1.0654296875, 'logits/rejected': -0.9140625, 'epoch': 0.7}
 70%|████████████████████████████████████████████████████████████████▊                           | 1440/2044 [7:18:14<3:18:47, 19.75s/it] 70%|████████████████████████████████████████████████████████████████▊                           | 1441/2044 [7:18:33<3:16:49, 19.58s/it]                                                                                                                                         {'loss': 0.2695, 'grad_norm': 66.19184303216123, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.719970703125, 'rewards/rejected': -3.048828125, 'rewards/accuracies': 0.8125, 'rewards/margins': 3.771484375, 'logps/chosen': -340.75, 'logps/rejected': -123.875, 'logits/chosen': -0.8775634765625, 'logits/rejected': -0.7633056640625, 'epoch': 0.71}
 70%|████████████████████████████████████████████████████████████████▊                           | 1441/2044 [7:18:33<3:16:49, 19.58s/it] 71%|████████████████████████████████████████████████████████████████▉                           | 1442/2044 [7:18:52<3:13:55, 19.33s/it]                                                                                                                                         {'loss': 0.2222, 'grad_norm': 28.692289839689334, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.685302734375, 'rewards/rejected': -2.884765625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.572265625, 'logps/chosen': -309.625, 'logps/rejected': -145.6875, 'logits/chosen': -0.8740234375, 'logits/rejected': -0.76953125, 'epoch': 0.71}
 71%|████████████████████████████████████████████████████████████████▉                           | 1442/2044 [7:18:52<3:13:55, 19.33s/it] 71%|████████████████████████████████████████████████████████████████▉                           | 1443/2044 [7:19:11<3:14:24, 19.41s/it]                                                                                                                                         {'loss': 0.2023, 'grad_norm': 31.30182114785504, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7039794921875, 'rewards/rejected': -2.8388671875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.546875, 'logps/chosen': -310.0, 'logps/rejected': -124.25, 'logits/chosen': -0.9501953125, 'logits/rejected': -0.921875, 'epoch': 0.71}
 71%|████████████████████████████████████████████████████████████████▉                           | 1443/2044 [7:19:11<3:14:24, 19.41s/it] 71%|████████████████████████████████████████████████████████████████▉                           | 1444/2044 [7:19:31<3:14:49, 19.48s/it]                                                                                                                                         {'loss': 0.2733, 'grad_norm': 36.95192924667126, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.54364013671875, 'rewards/rejected': -2.9873046875, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.53125, 'logps/chosen': -277.375, 'logps/rejected': -142.0625, 'logits/chosen': -0.78662109375, 'logits/rejected': -0.833984375, 'epoch': 0.71}
 71%|████████████████████████████████████████████████████████████████▉                           | 1444/2044 [7:19:31<3:14:49, 19.48s/it] 71%|█████████████████████████████████████████████████████████████████                           | 1445/2044 [7:19:51<3:15:56, 19.63s/it]                                                                                                                                         {'loss': 0.2499, 'grad_norm': 43.0481836207752, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.64019775390625, 'rewards/rejected': -2.998046875, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.638671875, 'logps/chosen': -331.0625, 'logps/rejected': -197.8125, 'logits/chosen': -0.881591796875, 'logits/rejected': -0.83642578125, 'epoch': 0.71}
 71%|█████████████████████████████████████████████████████████████████                           | 1445/2044 [7:19:51<3:15:56, 19.63s/it] 71%|█████████████████████████████████████████████████████████████████                           | 1446/2044 [7:20:10<3:14:49, 19.55s/it]                                                                                                                                         {'loss': 0.2531, 'grad_norm': 42.138071000791996, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8138427734375, 'rewards/rejected': -3.044921875, 'rewards/accuracies': 0.875, 'rewards/margins': 3.86328125, 'logps/chosen': -285.75, 'logps/rejected': -152.21875, 'logits/chosen': -1.0029296875, 'logits/rejected': -0.912109375, 'epoch': 0.71}
 71%|█████████████████████████████████████████████████████████████████                           | 1446/2044 [7:20:10<3:14:49, 19.55s/it] 71%|█████████████████████████████████████████████████████████████████▏                          | 1447/2044 [7:20:29<3:12:39, 19.36s/it]                                                                                                                                         {'loss': 0.1955, 'grad_norm': 24.890069293229406, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.84228515625, 'rewards/rejected': -3.0234375, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.865234375, 'logps/chosen': -276.0, 'logps/rejected': -143.0, 'logits/chosen': -1.1064453125, 'logits/rejected': -0.95458984375, 'epoch': 0.71}
 71%|█████████████████████████████████████████████████████████████████▏                          | 1447/2044 [7:20:29<3:12:39, 19.36s/it] 71%|█████████████████████████████████████████████████████████████████▏                          | 1448/2044 [7:20:48<3:11:26, 19.27s/it]                                                                                                                                         {'loss': 0.2888, 'grad_norm': 42.78959489684523, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5447998046875, 'rewards/rejected': -2.634765625, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.17919921875, 'logps/chosen': -303.75, 'logps/rejected': -190.5, 'logits/chosen': -0.97607421875, 'logits/rejected': -0.7423095703125, 'epoch': 0.71}
 71%|█████████████████████████████████████████████████████████████████▏                          | 1448/2044 [7:20:48<3:11:26, 19.27s/it] 71%|█████████████████████████████████████████████████████████████████▏                          | 1449/2044 [7:21:07<3:08:41, 19.03s/it]                                                                                                                                         {'loss': 0.1942, 'grad_norm': 25.7170901711571, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5552978515625, 'rewards/rejected': -3.2421875, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.802734375, 'logps/chosen': -298.0, 'logps/rejected': -124.0, 'logits/chosen': -0.8070068359375, 'logits/rejected': -0.955078125, 'epoch': 0.71}
 71%|█████████████████████████████████████████████████████████████████▏                          | 1449/2044 [7:21:07<3:08:41, 19.03s/it] 71%|█████████████████████████████████████████████████████████████████▎                          | 1450/2044 [7:21:25<3:05:36, 18.75s/it]                                                                                                                                         {'loss': 0.2328, 'grad_norm': 26.15822827467607, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.56292724609375, 'rewards/rejected': -3.330078125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.892578125, 'logps/chosen': -273.0, 'logps/rejected': -126.0, 'logits/chosen': -1.04248046875, 'logits/rejected': -0.791748046875, 'epoch': 0.71}
 71%|█████████████████████████████████████████████████████████████████▎                          | 1450/2044 [7:21:25<3:05:36, 18.75s/it] 71%|█████████████████████████████████████████████████████████████████▎                          | 1451/2044 [7:21:44<3:05:34, 18.78s/it]                                                                                                                                         {'loss': 0.2756, 'grad_norm': 31.604604385294227, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.492431640625, 'rewards/rejected': -2.990234375, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.4794921875, 'logps/chosen': -272.0, 'logps/rejected': -168.375, 'logits/chosen': -0.7109375, 'logits/rejected': -0.753662109375, 'epoch': 0.71}
 71%|█████████████████████████████████████████████████████████████████▎                          | 1451/2044 [7:21:44<3:05:34, 18.78s/it] 71%|█████████████████████████████████████████████████████████████████▎                          | 1452/2044 [7:22:03<3:06:50, 18.94s/it]                                                                                                                                         {'loss': 0.2573, 'grad_norm': 34.316050339883994, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.544189453125, 'rewards/rejected': -2.876953125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.421875, 'logps/chosen': -306.75, 'logps/rejected': -146.0625, 'logits/chosen': -0.86474609375, 'logits/rejected': -0.9169921875, 'epoch': 0.71}
 71%|█████████████████████████████████████████████████████████████████▎                          | 1452/2044 [7:22:03<3:06:50, 18.94s/it] 71%|█████████████████████████████████████████████████████████████████▍                          | 1453/2044 [7:22:23<3:10:14, 19.31s/it]                                                                                                                                         {'loss': 0.2612, 'grad_norm': 38.931442599051934, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.567626953125, 'rewards/rejected': -2.736328125, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.3046875, 'logps/chosen': -297.125, 'logps/rejected': -159.25, 'logits/chosen': -0.8408203125, 'logits/rejected': -0.800048828125, 'epoch': 0.71}
 71%|█████████████████████████████████████████████████████████████████▍                          | 1453/2044 [7:22:23<3:10:14, 19.31s/it] 71%|█████████████████████████████████████████████████████████████████▍                          | 1454/2044 [7:22:42<3:09:09, 19.24s/it]                                                                                                                                         {'loss': 0.1507, 'grad_norm': 22.536864032124495, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.67724609375, 'rewards/rejected': -3.494140625, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.166015625, 'logps/chosen': -281.375, 'logps/rejected': -122.6875, 'logits/chosen': -0.90087890625, 'logits/rejected': -0.7142333984375, 'epoch': 0.71}
 71%|█████████████████████████████████████████████████████████████████▍                          | 1454/2044 [7:22:42<3:09:09, 19.24s/it] 71%|█████████████████████████████████████████████████████████████████▍                          | 1455/2044 [7:23:02<3:10:34, 19.41s/it]                                                                                                                                         {'loss': 0.2471, 'grad_norm': 37.71885541023742, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9736328125, 'rewards/rejected': -3.00390625, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.978515625, 'logps/chosen': -385.125, 'logps/rejected': -166.5625, 'logits/chosen': -0.8974609375, 'logits/rejected': -0.7568359375, 'epoch': 0.71}
 71%|█████████████████████████████████████████████████████████████████▍                          | 1455/2044 [7:23:02<3:10:34, 19.41s/it] 71%|█████████████████████████████████████████████████████████████████▌                          | 1456/2044 [7:23:21<3:08:01, 19.19s/it]                                                                                                                                         {'loss': 0.2689, 'grad_norm': 42.5112200129646, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.575927734375, 'rewards/rejected': -2.736328125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.314453125, 'logps/chosen': -245.0, 'logps/rejected': -175.8125, 'logits/chosen': -0.99072265625, 'logits/rejected': -0.800048828125, 'epoch': 0.71}
 71%|█████████████████████████████████████████████████████████████████▌                          | 1456/2044 [7:23:21<3:08:01, 19.19s/it] 71%|█████████████████████████████████████████████████████████████████▌                          | 1457/2044 [7:23:41<3:10:21, 19.46s/it]                                                                                                                                         {'loss': 0.2818, 'grad_norm': 37.78061853204659, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.613037109375, 'rewards/rejected': -2.7392578125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.349609375, 'logps/chosen': -359.75, 'logps/rejected': -149.125, 'logits/chosen': -0.761474609375, 'logits/rejected': -0.81689453125, 'epoch': 0.71}
 71%|█████████████████████████████████████████████████████████████████▌                          | 1457/2044 [7:23:41<3:10:21, 19.46s/it] 71%|█████████████████████████████████████████████████████████████████▌                          | 1458/2044 [7:24:00<3:08:27, 19.30s/it]                                                                                                                                         {'loss': 0.2398, 'grad_norm': 26.532851954245356, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.642578125, 'rewards/rejected': -3.3515625, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.994140625, 'logps/chosen': -328.625, 'logps/rejected': -179.625, 'logits/chosen': -1.068359375, 'logits/rejected': -0.982421875, 'epoch': 0.71}
 71%|█████████████████████████████████████████████████████████████████▌                          | 1458/2044 [7:24:00<3:08:27, 19.30s/it] 71%|█████████████████████████████████████████████████████████████████▋                          | 1459/2044 [7:24:19<3:06:47, 19.16s/it]                                                                                                                                         {'loss': 0.2184, 'grad_norm': 30.684787530420543, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.525787353515625, 'rewards/rejected': -3.1982421875, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.72265625, 'logps/chosen': -249.875, 'logps/rejected': -145.9375, 'logits/chosen': -0.9931640625, 'logits/rejected': -1.0234375, 'epoch': 0.71}
 71%|█████████████████████████████████████████████████████████████████▋                          | 1459/2044 [7:24:19<3:06:47, 19.16s/it] 71%|█████████████████████████████████████████████████████████████████▋                          | 1460/2044 [7:24:37<3:04:58, 19.00s/it]                                                                                                                                         {'loss': 0.2059, 'grad_norm': 28.85290240945254, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.46588134765625, 'rewards/rejected': -2.99609375, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.4609375, 'logps/chosen': -283.0, 'logps/rejected': -159.625, 'logits/chosen': -0.801513671875, 'logits/rejected': -0.80517578125, 'epoch': 0.71}
 71%|█████████████████████████████████████████████████████████████████▋                          | 1460/2044 [7:24:37<3:04:58, 19.00s/it] 71%|█████████████████████████████████████████████████████████████████▊                          | 1461/2044 [7:24:57<3:06:03, 19.15s/it]                                                                                                                                         {'loss': 0.2335, 'grad_norm': 32.97927036224411, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.886962890625, 'rewards/rejected': -3.1708984375, 'rewards/accuracies': 0.84375, 'rewards/margins': 4.0546875, 'logps/chosen': -313.125, 'logps/rejected': -170.8125, 'logits/chosen': -0.8544921875, 'logits/rejected': -0.826171875, 'epoch': 0.71}
 71%|█████████████████████████████████████████████████████████████████▊                          | 1461/2044 [7:24:57<3:06:03, 19.15s/it] 72%|█████████████████████████████████████████████████████████████████▊                          | 1462/2044 [7:25:16<3:06:03, 19.18s/it]                                                                                                                                         {'loss': 0.241, 'grad_norm': 36.547718968319884, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4231414794921875, 'rewards/rejected': -3.162109375, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.583984375, 'logps/chosen': -294.875, 'logps/rejected': -152.0, 'logits/chosen': -0.7481536865234375, 'logits/rejected': -0.8310546875, 'epoch': 0.72}
 72%|█████████████████████████████████████████████████████████████████▊                          | 1462/2044 [7:25:16<3:06:03, 19.18s/it] 72%|█████████████████████████████████████████████████████████████████▊                          | 1463/2044 [7:25:35<3:05:36, 19.17s/it]                                                                                                                                         {'loss': 0.2659, 'grad_norm': 32.5890212951112, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5709152221679688, 'rewards/rejected': -3.0419921875, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.6171875, 'logps/chosen': -292.875, 'logps/rejected': -130.3125, 'logits/chosen': -0.951171875, 'logits/rejected': -0.8916015625, 'epoch': 0.72}
 72%|█████████████████████████████████████████████████████████████████▊                          | 1463/2044 [7:25:35<3:05:36, 19.17s/it] 72%|█████████████████████████████████████████████████████████████████▉                          | 1464/2044 [7:25:54<3:04:21, 19.07s/it]                                                                                                                                         {'loss': 0.2657, 'grad_norm': 34.378183311904, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5169677734375, 'rewards/rejected': -2.7548828125, 'rewards/accuracies': 0.875, 'rewards/margins': 3.2763671875, 'logps/chosen': -292.25, 'logps/rejected': -130.1875, 'logits/chosen': -0.9345703125, 'logits/rejected': -0.734619140625, 'epoch': 0.72}
 72%|█████████████████████████████████████████████████████████████████▉                          | 1464/2044 [7:25:54<3:04:21, 19.07s/it] 72%|█████████████████████████████████████████████████████████████████▉                          | 1465/2044 [7:26:12<3:00:41, 18.72s/it]                                                                                                                                         {'loss': 0.2012, 'grad_norm': 34.91889850325505, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5318603515625, 'rewards/rejected': -3.447265625, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.978515625, 'logps/chosen': -310.25, 'logps/rejected': -176.125, 'logits/chosen': -0.8759765625, 'logits/rejected': -0.8583984375, 'epoch': 0.72}
 72%|█████████████████████████████████████████████████████████████████▉                          | 1465/2044 [7:26:12<3:00:41, 18.72s/it] 72%|█████████████████████████████████████████████████████████████████▉                          | 1466/2044 [7:26:31<3:00:46, 18.77s/it]                                                                                                                                         {'loss': 0.2368, 'grad_norm': 24.3772593448135, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.52728271484375, 'rewards/rejected': -2.974609375, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.5029296875, 'logps/chosen': -262.625, 'logps/rejected': -121.25, 'logits/chosen': -0.755859375, 'logits/rejected': -0.6083984375, 'epoch': 0.72}
 72%|█████████████████████████████████████████████████████████████████▉                          | 1466/2044 [7:26:31<3:00:46, 18.77s/it] 72%|██████████████████████████████████████████████████████████████████                          | 1467/2044 [7:26:50<3:01:27, 18.87s/it]                                                                                                                                         {'loss': 0.2188, 'grad_norm': 43.81321376238934, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.68914794921875, 'rewards/rejected': -3.2216796875, 'rewards/accuracies': 0.875, 'rewards/margins': 3.90625, 'logps/chosen': -323.0625, 'logps/rejected': -176.8125, 'logits/chosen': -0.8323974609375, 'logits/rejected': -0.888916015625, 'epoch': 0.72}
 72%|██████████████████████████████████████████████████████████████████                          | 1467/2044 [7:26:50<3:01:27, 18.87s/it] 72%|██████████████████████████████████████████████████████████████████                          | 1468/2044 [7:27:09<3:03:25, 19.11s/it]                                                                                                                                         {'loss': 0.2119, 'grad_norm': 34.93253479954027, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.55908203125, 'rewards/rejected': -2.998046875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.5625, 'logps/chosen': -281.375, 'logps/rejected': -149.1875, 'logits/chosen': -0.9609375, 'logits/rejected': -0.798583984375, 'epoch': 0.72}
 72%|██████████████████████████████████████████████████████████████████                          | 1468/2044 [7:27:10<3:03:25, 19.11s/it] 72%|██████████████████████████████████████████████████████████████████                          | 1469/2044 [7:27:29<3:03:38, 19.16s/it]                                                                                                                                         {'loss': 0.2088, 'grad_norm': 35.32044568299418, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.611083984375, 'rewards/rejected': -3.173828125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.78515625, 'logps/chosen': -319.25, 'logps/rejected': -155.5, 'logits/chosen': -0.955078125, 'logits/rejected': -0.72344970703125, 'epoch': 0.72}
 72%|██████████████████████████████████████████████████████████████████                          | 1469/2044 [7:27:29<3:03:38, 19.16s/it] 72%|██████████████████████████████████████████████████████████████████▏                         | 1470/2044 [7:27:48<3:04:11, 19.25s/it]                                                                                                                                         {'loss': 0.2734, 'grad_norm': 32.393738023272526, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5195159912109375, 'rewards/rejected': -2.8232421875, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.34375, 'logps/chosen': -283.5, 'logps/rejected': -140.3125, 'logits/chosen': -0.88818359375, 'logits/rejected': -0.8154296875, 'epoch': 0.72}
 72%|██████████████████████████████████████████████████████████████████▏                         | 1470/2044 [7:27:48<3:04:11, 19.25s/it] 72%|██████████████████████████████████████████████████████████████████▏                         | 1471/2044 [7:28:07<3:03:32, 19.22s/it]                                                                                                                                         {'loss': 0.223, 'grad_norm': 31.57522614307986, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.637939453125, 'rewards/rejected': -3.0888671875, 'rewards/accuracies': 0.875, 'rewards/margins': 3.724609375, 'logps/chosen': -281.0, 'logps/rejected': -156.4375, 'logits/chosen': -0.7266845703125, 'logits/rejected': -0.710205078125, 'epoch': 0.72}
 72%|██████████████████████████████████████████████████████████████████▏                         | 1471/2044 [7:28:07<3:03:32, 19.22s/it] 72%|██████████████████████████████████████████████████████████████████▎                         | 1472/2044 [7:28:27<3:04:52, 19.39s/it]                                                                                                                                         {'loss': 0.2411, 'grad_norm': 35.76464151010607, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.91552734375, 'rewards/rejected': -2.7607421875, 'rewards/accuracies': 0.875, 'rewards/margins': 3.6796875, 'logps/chosen': -311.75, 'logps/rejected': -159.125, 'logits/chosen': -0.8284912109375, 'logits/rejected': -0.8115234375, 'epoch': 0.72}
 72%|██████████████████████████████████████████████████████████████████▎                         | 1472/2044 [7:28:27<3:04:52, 19.39s/it] 72%|██████████████████████████████████████████████████████████████████▎                         | 1473/2044 [7:28:47<3:04:35, 19.40s/it]                                                                                                                                         {'loss': 0.201, 'grad_norm': 37.44767690083656, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.688934326171875, 'rewards/rejected': -3.091796875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.78125, 'logps/chosen': -308.125, 'logps/rejected': -126.75, 'logits/chosen': -0.8349609375, 'logits/rejected': -0.8037109375, 'epoch': 0.72}
 72%|██████████████████████████████████████████████████████████████████▎                         | 1473/2044 [7:28:47<3:04:35, 19.40s/it] 72%|██████████████████████████████████████████████████████████████████▎                         | 1474/2044 [7:29:05<3:01:55, 19.15s/it]                                                                                                                                         {'loss': 0.2318, 'grad_norm': 42.20286853885065, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.956298828125, 'rewards/rejected': -2.9609375, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.916015625, 'logps/chosen': -456.25, 'logps/rejected': -200.75, 'logits/chosen': -1.02392578125, 'logits/rejected': -0.921142578125, 'epoch': 0.72}
 72%|██████████████████████████████████████████████████████████████████▎                         | 1474/2044 [7:29:05<3:01:55, 19.15s/it] 72%|██████████████████████████████████████████████████████████████████▍                         | 1475/2044 [7:29:26<3:05:44, 19.59s/it]                                                                                                                                         {'loss': 0.2618, 'grad_norm': 40.15129743917425, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.67449951171875, 'rewards/rejected': -2.796875, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.4736328125, 'logps/chosen': -328.375, 'logps/rejected': -217.4375, 'logits/chosen': -0.977630615234375, 'logits/rejected': -0.871337890625, 'epoch': 0.72}
 72%|██████████████████████████████████████████████████████████████████▍                         | 1475/2044 [7:29:26<3:05:44, 19.59s/it] 72%|██████████████████████████████████████████████████████████████████▍                         | 1476/2044 [7:29:44<3:02:10, 19.24s/it]                                                                                                                                         {'loss': 0.2244, 'grad_norm': 32.88745849812114, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.2261962890625, 'rewards/rejected': -2.95703125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.189453125, 'logps/chosen': -286.5625, 'logps/rejected': -144.25, 'logits/chosen': -0.862060546875, 'logits/rejected': -0.8228759765625, 'epoch': 0.72}
 72%|██████████████████████████████████████████████████████████████████▍                         | 1476/2044 [7:29:44<3:02:10, 19.24s/it] 72%|██████████████████████████████████████████████████████████████████▍                         | 1477/2044 [7:30:02<2:57:29, 18.78s/it]                                                                                                                                         {'loss': 0.1804, 'grad_norm': 30.245554073906078, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.619140625, 'rewards/rejected': -3.466796875, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.08984375, 'logps/chosen': -247.0, 'logps/rejected': -125.375, 'logits/chosen': -0.942138671875, 'logits/rejected': -0.81494140625, 'epoch': 0.72}
 72%|██████████████████████████████████████████████████████████████████▍                         | 1477/2044 [7:30:02<2:57:29, 18.78s/it] 72%|██████████████████████████████████████████████████████████████████▌                         | 1478/2044 [7:30:21<2:57:31, 18.82s/it]                                                                                                                                         {'loss': 0.2411, 'grad_norm': 23.81688463842963, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.582763671875, 'rewards/rejected': -3.0478515625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.6318359375, 'logps/chosen': -317.0, 'logps/rejected': -121.625, 'logits/chosen': -0.88720703125, 'logits/rejected': -0.81298828125, 'epoch': 0.72}
 72%|██████████████████████████████████████████████████████████████████▌                         | 1478/2044 [7:30:21<2:57:31, 18.82s/it] 72%|██████████████████████████████████████████████████████████████████▌                         | 1479/2044 [7:30:40<2:58:07, 18.92s/it]                                                                                                                                         {'loss': 0.2543, 'grad_norm': 34.97350519011212, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6571044921875, 'rewards/rejected': -2.8642578125, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.51953125, 'logps/chosen': -304.5, 'logps/rejected': -143.1875, 'logits/chosen': -0.7723388671875, 'logits/rejected': -0.90869140625, 'epoch': 0.72}
 72%|██████████████████████████████████████████████████████████████████▌                         | 1479/2044 [7:30:40<2:58:07, 18.92s/it] 72%|██████████████████████████████████████████████████████████████████▌                         | 1480/2044 [7:30:59<2:57:12, 18.85s/it]                                                                                                                                         {'loss': 0.2149, 'grad_norm': 29.90497378345948, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.488525390625, 'rewards/rejected': -2.876953125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.3623046875, 'logps/chosen': -283.875, 'logps/rejected': -130.375, 'logits/chosen': -0.67034912109375, 'logits/rejected': -0.654541015625, 'epoch': 0.72}
 72%|██████████████████████████████████████████████████████████████████▌                         | 1480/2044 [7:30:59<2:57:12, 18.85s/it] 72%|██████████████████████████████████████████████████████████████████▋                         | 1481/2044 [7:31:17<2:56:22, 18.80s/it]                                                                                                                                         {'loss': 0.2167, 'grad_norm': 31.258883087660045, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5203857421875, 'rewards/rejected': -3.3447265625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.8583984375, 'logps/chosen': -292.625, 'logps/rejected': -127.3125, 'logits/chosen': -0.9501953125, 'logits/rejected': -0.63372802734375, 'epoch': 0.72}
 72%|██████████████████████████████████████████████████████████████████▋                         | 1481/2044 [7:31:17<2:56:22, 18.80s/it] 73%|██████████████████████████████████████████████████████████████████▋                         | 1482/2044 [7:31:36<2:55:57, 18.79s/it]                                                                                                                                         {'loss': 0.2435, 'grad_norm': 31.84203741054633, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.3048095703125, 'rewards/rejected': -2.982421875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.287109375, 'logps/chosen': -261.5, 'logps/rejected': -137.1875, 'logits/chosen': -0.90966796875, 'logits/rejected': -0.89306640625, 'epoch': 0.73}
 73%|██████████████████████████████████████████████████████████████████▋                         | 1482/2044 [7:31:36<2:55:57, 18.79s/it] 73%|██████████████████████████████████████████████████████████████████▋                         | 1483/2044 [7:31:54<2:52:17, 18.43s/it]                                                                                                                                         {'loss': 0.204, 'grad_norm': 22.64754486106763, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.504150390625, 'rewards/rejected': -3.341796875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.84765625, 'logps/chosen': -271.25, 'logps/rejected': -116.0, 'logits/chosen': -0.966796875, 'logits/rejected': -0.705078125, 'epoch': 0.73}
 73%|██████████████████████████████████████████████████████████████████▋                         | 1483/2044 [7:31:54<2:52:17, 18.43s/it] 73%|██████████████████████████████████████████████████████████████████▊                         | 1484/2044 [7:32:12<2:51:42, 18.40s/it]                                                                                                                                         {'loss': 0.1938, 'grad_norm': 27.440481036101456, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6185302734375, 'rewards/rejected': -3.423828125, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.041015625, 'logps/chosen': -223.125, 'logps/rejected': -127.3125, 'logits/chosen': -0.91748046875, 'logits/rejected': -0.80712890625, 'epoch': 0.73}
 73%|██████████████████████████████████████████████████████████████████▊                         | 1484/2044 [7:32:12<2:51:42, 18.40s/it] 73%|██████████████████████████████████████████████████████████████████▊                         | 1485/2044 [7:32:30<2:48:56, 18.13s/it]                                                                                                                                         {'loss': 0.1391, 'grad_norm': 23.595382480332, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4405517578125, 'rewards/rejected': -3.818359375, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.2578125, 'logps/chosen': -264.8125, 'logps/rejected': -126.875, 'logits/chosen': -0.95263671875, 'logits/rejected': -0.6524658203125, 'epoch': 0.73}
 73%|██████████████████████████████████████████████████████████████████▊                         | 1485/2044 [7:32:30<2:48:56, 18.13s/it] 73%|██████████████████████████████████████████████████████████████████▉                         | 1486/2044 [7:32:49<2:52:06, 18.51s/it]                                                                                                                                         {'loss': 0.231, 'grad_norm': 31.569455605235397, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.45263671875, 'rewards/rejected': -3.119140625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.572265625, 'logps/chosen': -284.5, 'logps/rejected': -137.25, 'logits/chosen': -1.08251953125, 'logits/rejected': -0.833251953125, 'epoch': 0.73}
 73%|██████████████████████████████████████████████████████████████████▉                         | 1486/2044 [7:32:49<2:52:06, 18.51s/it] 73%|██████████████████████████████████████████████████████████████████▉                         | 1487/2044 [7:33:09<2:57:25, 19.11s/it]                                                                                                                                         {'loss': 0.2158, 'grad_norm': 36.177369868476546, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5893936157226562, 'rewards/rejected': -3.1572265625, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.744140625, 'logps/chosen': -308.125, 'logps/rejected': -157.3125, 'logits/chosen': -0.813232421875, 'logits/rejected': -0.900390625, 'epoch': 0.73}
 73%|██████████████████████████████████████████████████████████████████▉                         | 1487/2044 [7:33:09<2:57:25, 19.11s/it] 73%|██████████████████████████████████████████████████████████████████▉                         | 1488/2044 [7:33:28<2:55:27, 18.93s/it]                                                                                                                                         {'loss': 0.1827, 'grad_norm': 25.63834656166318, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.555908203125, 'rewards/rejected': -3.19140625, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.744140625, 'logps/chosen': -272.5, 'logps/rejected': -112.8125, 'logits/chosen': -0.9638671875, 'logits/rejected': -0.77130126953125, 'epoch': 0.73}
 73%|██████████████████████████████████████████████████████████████████▉                         | 1488/2044 [7:33:28<2:55:27, 18.93s/it] 73%|███████████████████████████████████████████████████████████████████                         | 1489/2044 [7:33:48<2:57:03, 19.14s/it]                                                                                                                                         {'loss': 0.2279, 'grad_norm': 28.636500215243696, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.38861083984375, 'rewards/rejected': -2.9296875, 'rewards/accuracies': 0.953125, 'rewards/margins': 3.318359375, 'logps/chosen': -265.75, 'logps/rejected': -150.75, 'logits/chosen': -1.01611328125, 'logits/rejected': -0.736328125, 'epoch': 0.73}
 73%|███████████████████████████████████████████████████████████████████                         | 1489/2044 [7:33:48<2:57:03, 19.14s/it] 73%|███████████████████████████████████████████████████████████████████                         | 1490/2044 [7:34:06<2:54:14, 18.87s/it]                                                                                                                                         {'loss': 0.2035, 'grad_norm': 30.274578937652393, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.22412109375, 'rewards/rejected': -3.3046875, 'rewards/accuracies': 0.875, 'rewards/margins': 3.52734375, 'logps/chosen': -245.3125, 'logps/rejected': -137.375, 'logits/chosen': -0.93408203125, 'logits/rejected': -0.91259765625, 'epoch': 0.73}
 73%|███████████████████████████████████████████████████████████████████                         | 1490/2044 [7:34:06<2:54:14, 18.87s/it] 73%|███████████████████████████████████████████████████████████████████                         | 1491/2044 [7:34:25<2:54:48, 18.97s/it]                                                                                                                                         {'loss': 0.1625, 'grad_norm': 26.12176564943368, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6273193359375, 'rewards/rejected': -3.56640625, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.203125, 'logps/chosen': -333.875, 'logps/rejected': -120.5625, 'logits/chosen': -1.01025390625, 'logits/rejected': -0.826171875, 'epoch': 0.73}
 73%|███████████████████████████████████████████████████████████████████                         | 1491/2044 [7:34:25<2:54:48, 18.97s/it] 73%|███████████████████████████████████████████████████████████████████▏                        | 1492/2044 [7:34:45<2:58:07, 19.36s/it]                                                                                                                                         {'loss': 0.3097, 'grad_norm': 39.7528537319554, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.30426025390625, 'rewards/rejected': -2.6826171875, 'rewards/accuracies': 0.796875, 'rewards/margins': 2.98828125, 'logps/chosen': -243.0, 'logps/rejected': -178.0625, 'logits/chosen': -0.962890625, 'logits/rejected': -0.817138671875, 'epoch': 0.73}
 73%|███████████████████████████████████████████████████████████████████▏                        | 1492/2044 [7:34:45<2:58:07, 19.36s/it] 73%|███████████████████████████████████████████████████████████████████▏                        | 1493/2044 [7:35:05<2:58:01, 19.39s/it]                                                                                                                                         {'loss': 0.2399, 'grad_norm': 34.57506731130476, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.327392578125, 'rewards/rejected': -2.86328125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.19140625, 'logps/chosen': -261.1875, 'logps/rejected': -164.875, 'logits/chosen': -0.8955078125, 'logits/rejected': -0.871337890625, 'epoch': 0.73}
 73%|███████████████████████████████████████████████████████████████████▏                        | 1493/2044 [7:35:05<2:58:01, 19.39s/it] 73%|███████████████████████████████████████████████████████████████████▏                        | 1494/2044 [7:35:24<2:57:07, 19.32s/it]                                                                                                                                         {'loss': 0.2416, 'grad_norm': 29.362347630206017, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.447265625, 'rewards/rejected': -3.041015625, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.48828125, 'logps/chosen': -262.625, 'logps/rejected': -156.1875, 'logits/chosen': -0.90380859375, 'logits/rejected': -0.880859375, 'epoch': 0.73}
 73%|███████████████████████████████████████████████████████████████████▏                        | 1494/2044 [7:35:24<2:57:07, 19.32s/it] 73%|███████████████████████████████████████████████████████████████████▎                        | 1495/2044 [7:35:42<2:54:19, 19.05s/it]                                                                                                                                         {'loss': 0.1469, 'grad_norm': 22.02050255606403, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7607421875, 'rewards/rejected': -3.396484375, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.154296875, 'logps/chosen': -338.875, 'logps/rejected': -107.625, 'logits/chosen': -1.00244140625, 'logits/rejected': -0.682373046875, 'epoch': 0.73}
 73%|███████████████████████████████████████████████████████████████████▎                        | 1495/2044 [7:35:42<2:54:19, 19.05s/it] 73%|███████████████████████████████████████████████████████████████████▎                        | 1496/2044 [7:36:01<2:54:03, 19.06s/it]                                                                                                                                         {'loss': 0.2032, 'grad_norm': 43.11285447145775, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.921630859375, 'rewards/rejected': -3.01953125, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.943359375, 'logps/chosen': -340.25, 'logps/rejected': -169.75, 'logits/chosen': -0.794921875, 'logits/rejected': -0.826171875, 'epoch': 0.73}
 73%|███████████████████████████████████████████████████████████████████▎                        | 1496/2044 [7:36:01<2:54:03, 19.06s/it] 73%|███████████████████████████████████████████████████████████████████▍                        | 1497/2044 [7:36:21<2:54:54, 19.19s/it]                                                                                                                                         {'loss': 0.1956, 'grad_norm': 24.78970188587372, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8857421875, 'rewards/rejected': -3.27001953125, 'rewards/accuracies': 0.875, 'rewards/margins': 4.16015625, 'logps/chosen': -367.625, 'logps/rejected': -198.9375, 'logits/chosen': -0.67138671875, 'logits/rejected': -0.780029296875, 'epoch': 0.73}
 73%|███████████████████████████████████████████████████████████████████▍                        | 1497/2044 [7:36:21<2:54:54, 19.19s/it] 73%|███████████████████████████████████████████████████████████████████▍                        | 1498/2044 [7:36:40<2:55:24, 19.28s/it]                                                                                                                                         {'loss': 0.2535, 'grad_norm': 39.786914647705586, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7158203125, 'rewards/rejected': -2.9443359375, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.65625, 'logps/chosen': -306.5, 'logps/rejected': -155.25, 'logits/chosen': -1.01708984375, 'logits/rejected': -0.90673828125, 'epoch': 0.73}
 73%|███████████████████████████████████████████████████████████████████▍                        | 1498/2044 [7:36:40<2:55:24, 19.28s/it] 73%|███████████████████████████████████████████████████████████████████▍                        | 1499/2044 [7:37:01<2:57:25, 19.53s/it]                                                                                                                                         {'loss': 0.3095, 'grad_norm': 40.34668727811937, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.416168212890625, 'rewards/rejected': -2.70703125, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.1279296875, 'logps/chosen': -267.8125, 'logps/rejected': -162.875, 'logits/chosen': -0.82861328125, 'logits/rejected': -0.728515625, 'epoch': 0.73}
 73%|███████████████████████████████████████████████████████████████████▍                        | 1499/2044 [7:37:01<2:57:25, 19.53s/it] 73%|███████████████████████████████████████████████████████████████████▌                        | 1500/2044 [7:37:19<2:54:19, 19.23s/it]                                                                                                                                         {'loss': 0.2072, 'grad_norm': 26.568503298670652, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9271240234375, 'rewards/rejected': -3.2763671875, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.2080078125, 'logps/chosen': -351.75, 'logps/rejected': -118.0625, 'logits/chosen': -0.853515625, 'logits/rejected': -0.71868896484375, 'epoch': 0.73}
 73%|███████████████████████████████████████████████████████████████████▌                        | 1500/2044 [7:37:19<2:54:19, 19.23s/it] 73%|███████████████████████████████████████████████████████████████████▌                        | 1501/2044 [7:37:37<2:51:08, 18.91s/it]                                                                                                                                         {'loss': 0.2318, 'grad_norm': 32.39175084665074, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.380126953125, 'rewards/rejected': -3.0556640625, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.4296875, 'logps/chosen': -244.625, 'logps/rejected': -152.8125, 'logits/chosen': -1.0595703125, 'logits/rejected': -0.85107421875, 'epoch': 0.73}
 73%|███████████████████████████████████████████████████████████████████▌                        | 1501/2044 [7:37:37<2:51:08, 18.91s/it] 73%|███████████████████████████████████████████████████████████████████▌                        | 1502/2044 [7:37:57<2:54:28, 19.32s/it]                                                                                                                                         {'loss': 0.2323, 'grad_norm': 44.84586253143937, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8450927734375, 'rewards/rejected': -2.94921875, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.796875, 'logps/chosen': -387.625, 'logps/rejected': -178.25, 'logits/chosen': -0.99853515625, 'logits/rejected': -0.93994140625, 'epoch': 0.73}
 73%|███████████████████████████████████████████████████████████████████▌                        | 1502/2044 [7:37:57<2:54:28, 19.32s/it] 74%|███████████████████████████████████████████████████████████████████▋                        | 1503/2044 [7:38:17<2:55:48, 19.50s/it]                                                                                                                                         {'loss': 0.2855, 'grad_norm': 42.908267283631055, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.744140625, 'rewards/rejected': -2.7568359375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.501953125, 'logps/chosen': -369.25, 'logps/rejected': -168.375, 'logits/chosen': -0.786376953125, 'logits/rejected': -0.80126953125, 'epoch': 0.74}
 74%|███████████████████████████████████████████████████████████████████▋                        | 1503/2044 [7:38:17<2:55:48, 19.50s/it] 74%|███████████████████████████████████████████████████████████████████▋                        | 1504/2044 [7:38:36<2:54:05, 19.34s/it]                                                                                                                                         {'loss': 0.2363, 'grad_norm': 40.882264963455924, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.31982421875, 'rewards/rejected': -3.34765625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.66796875, 'logps/chosen': -321.5, 'logps/rejected': -194.0, 'logits/chosen': -1.06982421875, 'logits/rejected': -0.90771484375, 'epoch': 0.74}
 74%|███████████████████████████████████████████████████████████████████▋                        | 1504/2044 [7:38:36<2:54:05, 19.34s/it] 74%|███████████████████████████████████████████████████████████████████▋                        | 1505/2044 [7:38:56<2:53:35, 19.32s/it]                                                                                                                                         {'loss': 0.1951, 'grad_norm': 29.927795448338287, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8201904296875, 'rewards/rejected': -2.892578125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.7109375, 'logps/chosen': -330.375, 'logps/rejected': -166.25, 'logits/chosen': -0.808837890625, 'logits/rejected': -0.77197265625, 'epoch': 0.74}
 74%|███████████████████████████████████████████████████████████████████▋                        | 1505/2044 [7:38:56<2:53:35, 19.32s/it] 74%|███████████████████████████████████████████████████████████████████▊                        | 1506/2044 [7:39:14<2:50:08, 18.97s/it]                                                                                                                                         {'loss': 0.1089, 'grad_norm': 29.27744230683315, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5496826171875, 'rewards/rejected': -4.048828125, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.595703125, 'logps/chosen': -228.75, 'logps/rejected': -144.4375, 'logits/chosen': -0.6805419921875, 'logits/rejected': -0.744140625, 'epoch': 0.74}
 74%|███████████████████████████████████████████████████████████████████▊                        | 1506/2044 [7:39:14<2:50:08, 18.97s/it] 74%|███████████████████████████████████████████████████████████████████▊                        | 1507/2044 [7:39:32<2:47:18, 18.69s/it]                                                                                                                                         {'loss': 0.1451, 'grad_norm': 21.881477930846305, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.88653564453125, 'rewards/rejected': -3.4296875, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.310546875, 'logps/chosen': -293.125, 'logps/rejected': -122.0625, 'logits/chosen': -0.82763671875, 'logits/rejected': -0.758544921875, 'epoch': 0.74}
 74%|███████████████████████████████████████████████████████████████████▊                        | 1507/2044 [7:39:32<2:47:18, 18.69s/it] 74%|███████████████████████████████████████████████████████████████████▊                        | 1508/2044 [7:39:51<2:47:33, 18.76s/it]                                                                                                                                         {'loss': 0.2121, 'grad_norm': 31.965526680365933, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6802978515625, 'rewards/rejected': -3.22265625, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.904296875, 'logps/chosen': -308.0, 'logps/rejected': -152.75, 'logits/chosen': -0.9609375, 'logits/rejected': -0.659912109375, 'epoch': 0.74}
 74%|███████████████████████████████████████████████████████████████████▊                        | 1508/2044 [7:39:51<2:47:33, 18.76s/it] 74%|███████████████████████████████████████████████████████████████████▉                        | 1509/2044 [7:40:09<2:46:20, 18.66s/it]                                                                                                                                         {'loss': 0.2653, 'grad_norm': 34.2318624284322, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6279296875, 'rewards/rejected': -2.748046875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.376953125, 'logps/chosen': -272.5, 'logps/rejected': -138.0, 'logits/chosen': -1.0478515625, 'logits/rejected': -0.7470703125, 'epoch': 0.74}
 74%|███████████████████████████████████████████████████████████████████▉                        | 1509/2044 [7:40:09<2:46:20, 18.66s/it] 74%|███████████████████████████████████████████████████████████████████▉                        | 1510/2044 [7:40:29<2:50:21, 19.14s/it]                                                                                                                                         {'loss': 0.2716, 'grad_norm': 38.034926221757615, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.571685791015625, 'rewards/rejected': -2.900390625, 'rewards/accuracies': 0.796875, 'rewards/margins': 3.47265625, 'logps/chosen': -258.625, 'logps/rejected': -167.0, 'logits/chosen': -0.9423828125, 'logits/rejected': -0.94921875, 'epoch': 0.74}
 74%|███████████████████████████████████████████████████████████████████▉                        | 1510/2044 [7:40:29<2:50:21, 19.14s/it] 74%|████████████████████████████████████████████████████████████████████                        | 1511/2044 [7:40:49<2:51:00, 19.25s/it]                                                                                                                                         {'loss': 0.2576, 'grad_norm': 40.43114186295294, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6165771484375, 'rewards/rejected': -3.2763671875, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.89453125, 'logps/chosen': -275.5, 'logps/rejected': -176.875, 'logits/chosen': -0.9605712890625, 'logits/rejected': -0.83056640625, 'epoch': 0.74}
 74%|████████████████████████████████████████████████████████████████████                        | 1511/2044 [7:40:49<2:51:00, 19.25s/it] 74%|████████████████████████████████████████████████████████████████████                        | 1512/2044 [7:41:07<2:48:12, 18.97s/it]                                                                                                                                         {'loss': 0.161, 'grad_norm': 46.52219869511766, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5864105224609375, 'rewards/rejected': -3.263671875, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.84375, 'logps/chosen': -247.75, 'logps/rejected': -138.375, 'logits/chosen': -1.02392578125, 'logits/rejected': -0.81494140625, 'epoch': 0.74}
 74%|████████████████████████████████████████████████████████████████████                        | 1512/2044 [7:41:07<2:48:12, 18.97s/it] 74%|████████████████████████████████████████████████████████████████████                        | 1513/2044 [7:41:27<2:49:28, 19.15s/it]                                                                                                                                         {'loss': 0.1523, 'grad_norm': 24.368811016560375, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.69970703125, 'rewards/rejected': -3.447265625, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.15234375, 'logps/chosen': -306.5, 'logps/rejected': -131.0, 'logits/chosen': -1.0986328125, 'logits/rejected': -0.71875, 'epoch': 0.74}
 74%|████████████████████████████████████████████████████████████████████                        | 1513/2044 [7:41:27<2:49:28, 19.15s/it] 74%|████████████████████████████████████████████████████████████████████▏                       | 1514/2044 [7:41:47<2:50:56, 19.35s/it]                                                                                                                                         {'loss': 0.2075, 'grad_norm': 41.88480681598691, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.88690185546875, 'rewards/rejected': -3.0703125, 'rewards/accuracies': 0.875, 'rewards/margins': 3.955078125, 'logps/chosen': -298.5, 'logps/rejected': -167.625, 'logits/chosen': -0.99169921875, 'logits/rejected': -0.843505859375, 'epoch': 0.74}
 74%|████████████████████████████████████████████████████████████████████▏                       | 1514/2044 [7:41:47<2:50:56, 19.35s/it] 74%|████████████████████████████████████████████████████████████████████▏                       | 1515/2044 [7:42:06<2:51:34, 19.46s/it]                                                                                                                                         {'loss': 0.1937, 'grad_norm': 24.292086196595022, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.729248046875, 'rewards/rejected': -2.8076171875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.537109375, 'logps/chosen': -342.375, 'logps/rejected': -119.8125, 'logits/chosen': -1.0166015625, 'logits/rejected': -0.75634765625, 'epoch': 0.74}
 74%|████████████████████████████████████████████████████████████████████▏                       | 1515/2044 [7:42:06<2:51:34, 19.46s/it] 74%|████████████████████████████████████████████████████████████████████▏                       | 1516/2044 [7:42:26<2:51:21, 19.47s/it]                                                                                                                                         {'loss': 0.2653, 'grad_norm': 36.30518391953421, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.739013671875, 'rewards/rejected': -2.787109375, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.52734375, 'logps/chosen': -320.25, 'logps/rejected': -157.4375, 'logits/chosen': -0.9404296875, 'logits/rejected': -0.96533203125, 'epoch': 0.74}
 74%|████████████████████████████████████████████████████████████████████▏                       | 1516/2044 [7:42:26<2:51:21, 19.47s/it] 74%|████████████████████████████████████████████████████████████████████▎                       | 1517/2044 [7:42:45<2:51:03, 19.48s/it]                                                                                                                                         {'loss': 0.2269, 'grad_norm': 32.919540549445784, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.50634765625, 'rewards/rejected': -2.7607421875, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.26953125, 'logps/chosen': -252.9375, 'logps/rejected': -150.6875, 'logits/chosen': -1.00732421875, 'logits/rejected': -0.84619140625, 'epoch': 0.74}
 74%|████████████████████████████████████████████████████████████████████▎                       | 1517/2044 [7:42:45<2:51:03, 19.48s/it] 74%|████████████████████████████████████████████████████████████████████▎                       | 1518/2044 [7:43:05<2:50:15, 19.42s/it]                                                                                                                                         {'loss': 0.2309, 'grad_norm': 28.013063480902204, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.74676513671875, 'rewards/rejected': -3.1640625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.9140625, 'logps/chosen': -319.125, 'logps/rejected': -129.3125, 'logits/chosen': -0.80810546875, 'logits/rejected': -0.81005859375, 'epoch': 0.74}
 74%|████████████████████████████████████████████████████████████████████▎                       | 1518/2044 [7:43:05<2:50:15, 19.42s/it] 74%|████████████████████████████████████████████████████████████████████▎                       | 1519/2044 [7:43:24<2:48:35, 19.27s/it]                                                                                                                                         {'loss': 0.228, 'grad_norm': 30.794767265352018, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.380615234375, 'rewards/rejected': -3.115234375, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.494140625, 'logps/chosen': -267.75, 'logps/rejected': -140.1875, 'logits/chosen': -1.05419921875, 'logits/rejected': -0.939453125, 'epoch': 0.74}
 74%|████████████████████████████████████████████████████████████████████▎                       | 1519/2044 [7:43:24<2:48:35, 19.27s/it] 74%|████████████████████████████████████████████████████████████████████▍                       | 1520/2044 [7:43:42<2:46:25, 19.06s/it]                                                                                                                                         {'loss': 0.153, 'grad_norm': 31.296506966223195, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.784423828125, 'rewards/rejected': -3.265625, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.05078125, 'logps/chosen': -294.5, 'logps/rejected': -155.6875, 'logits/chosen': -0.741455078125, 'logits/rejected': -0.473388671875, 'epoch': 0.74}
 74%|████████████████████████████████████████████████████████████████████▍                       | 1520/2044 [7:43:42<2:46:25, 19.06s/it] 74%|████████████████████████████████████████████████████████████████████▍                       | 1521/2044 [7:44:02<2:47:38, 19.23s/it]                                                                                                                                         {'loss': 0.3299, 'grad_norm': 49.405258592142616, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.477783203125, 'rewards/rejected': -2.796875, 'rewards/accuracies': 0.8125, 'rewards/margins': 3.2783203125, 'logps/chosen': -331.25, 'logps/rejected': -197.375, 'logits/chosen': -0.95458984375, 'logits/rejected': -0.8974609375, 'epoch': 0.74}
 74%|████████████████████████████████████████████████████████████████████▍                       | 1521/2044 [7:44:02<2:47:38, 19.23s/it] 74%|████████████████████████████████████████████████████████████████████▌                       | 1522/2044 [7:44:21<2:46:23, 19.12s/it]                                                                                                                                         {'loss': 0.1678, 'grad_norm': 24.741594572581025, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.68701171875, 'rewards/rejected': -3.3203125, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.005859375, 'logps/chosen': -229.3125, 'logps/rejected': -133.875, 'logits/chosen': -1.1572265625, 'logits/rejected': -0.85205078125, 'epoch': 0.74}
 74%|████████████████████████████████████████████████████████████████████▌                       | 1522/2044 [7:44:21<2:46:23, 19.12s/it] 75%|████████████████████████████████████████████████████████████████████▌                       | 1523/2044 [7:44:39<2:44:22, 18.93s/it]                                                                                                                                         {'loss': 0.2327, 'grad_norm': 34.67240637844151, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.839599609375, 'rewards/rejected': -3.1943359375, 'rewards/accuracies': 0.84375, 'rewards/margins': 4.03125, 'logps/chosen': -381.0, 'logps/rejected': -144.0, 'logits/chosen': -1.05859375, 'logits/rejected': -0.785125732421875, 'epoch': 0.75}
 75%|████████████████████████████████████████████████████████████████████▌                       | 1523/2044 [7:44:39<2:44:22, 18.93s/it] 75%|████████████████████████████████████████████████████████████████████▌                       | 1524/2044 [7:44:59<2:46:43, 19.24s/it]                                                                                                                                         {'loss': 0.1511, 'grad_norm': 25.68655515329027, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.818115234375, 'rewards/rejected': -3.435546875, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.2578125, 'logps/chosen': -342.1875, 'logps/rejected': -125.3125, 'logits/chosen': -0.89453125, 'logits/rejected': -0.74853515625, 'epoch': 0.75}
 75%|████████████████████████████████████████████████████████████████████▌                       | 1524/2044 [7:44:59<2:46:43, 19.24s/it] 75%|████████████████████████████████████████████████████████████████████▋                       | 1525/2044 [7:45:18<2:46:29, 19.25s/it]                                                                                                                                         {'loss': 0.2193, 'grad_norm': 33.479070264280466, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.742218017578125, 'rewards/rejected': -2.7109375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.451171875, 'logps/chosen': -284.0, 'logps/rejected': -149.8125, 'logits/chosen': -0.884765625, 'logits/rejected': -0.847900390625, 'epoch': 0.75}
 75%|████████████████████████████████████████████████████████████████████▋                       | 1525/2044 [7:45:18<2:46:29, 19.25s/it] 75%|████████████████████████████████████████████████████████████████████▋                       | 1526/2044 [7:45:38<2:46:34, 19.29s/it]                                                                                                                                         {'loss': 0.2409, 'grad_norm': 35.3971939754124, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5460205078125, 'rewards/rejected': -2.9736328125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.51953125, 'logps/chosen': -327.375, 'logps/rejected': -175.125, 'logits/chosen': -0.9658203125, 'logits/rejected': -0.92919921875, 'epoch': 0.75}
 75%|████████████████████████████████████████████████████████████████████▋                       | 1526/2044 [7:45:38<2:46:34, 19.29s/it] 75%|████████████████████████████████████████████████████████████████████▋                       | 1527/2044 [7:45:57<2:46:30, 19.32s/it]                                                                                                                                         {'loss': 0.2028, 'grad_norm': 28.964454228879067, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.923828125, 'rewards/rejected': -3.087890625, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.017578125, 'logps/chosen': -349.125, 'logps/rejected': -127.0625, 'logits/chosen': -0.8798828125, 'logits/rejected': -0.7239990234375, 'epoch': 0.75}
 75%|████████████████████████████████████████████████████████████████████▋                       | 1527/2044 [7:45:57<2:46:30, 19.32s/it] 75%|████████████████████████████████████████████████████████████████████▊                       | 1528/2044 [7:46:16<2:45:45, 19.27s/it]                                                                                                                                         {'loss': 0.1575, 'grad_norm': 25.079072696544852, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5908203125, 'rewards/rejected': -3.275390625, 'rewards/accuracies': 0.953125, 'rewards/margins': 3.8642578125, 'logps/chosen': -301.5, 'logps/rejected': -178.9375, 'logits/chosen': -0.8014373779296875, 'logits/rejected': -0.88037109375, 'epoch': 0.75}
 75%|████████████████████████████████████████████████████████████████████▊                       | 1528/2044 [7:46:16<2:45:45, 19.27s/it] 75%|████████████████████████████████████████████████████████████████████▊                       | 1529/2044 [7:46:36<2:45:41, 19.30s/it]                                                                                                                                         {'loss': 0.1616, 'grad_norm': 25.113974027191635, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.63623046875, 'rewards/rejected': -3.5234375, 'rewards/accuracies': 0.953125, 'rewards/margins': 4.16015625, 'logps/chosen': -263.375, 'logps/rejected': -124.125, 'logits/chosen': -0.8642578125, 'logits/rejected': -0.736083984375, 'epoch': 0.75}
 75%|████████████████████████████████████████████████████████████████████▊                       | 1529/2044 [7:46:36<2:45:41, 19.30s/it] 75%|████████████████████████████████████████████████████████████████████▊                       | 1530/2044 [7:46:55<2:45:04, 19.27s/it]                                                                                                                                         {'loss': 0.2173, 'grad_norm': 29.49763954464189, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.461669921875, 'rewards/rejected': -3.376953125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.8359375, 'logps/chosen': -317.75, 'logps/rejected': -131.5625, 'logits/chosen': -0.953125, 'logits/rejected': -0.89990234375, 'epoch': 0.75}
 75%|████████████████████████████████████████████████████████████████████▊                       | 1530/2044 [7:46:55<2:45:04, 19.27s/it] 75%|████████████████████████████████████████████████████████████████████▉                       | 1531/2044 [7:47:15<2:46:38, 19.49s/it]                                                                                                                                         {'loss': 0.209, 'grad_norm': 27.269913862554525, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.417236328125, 'rewards/rejected': -3.080078125, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.498046875, 'logps/chosen': -275.625, 'logps/rejected': -162.5, 'logits/chosen': -0.92724609375, 'logits/rejected': -0.815673828125, 'epoch': 0.75}
 75%|████████████████████████████████████████████████████████████████████▉                       | 1531/2044 [7:47:15<2:46:38, 19.49s/it] 75%|████████████████████████████████████████████████████████████████████▉                       | 1532/2044 [7:47:34<2:44:43, 19.30s/it]                                                                                                                                         {'loss': 0.2176, 'grad_norm': 27.92864757808275, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4351806640625, 'rewards/rejected': -3.1376953125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.5712890625, 'logps/chosen': -267.25, 'logps/rejected': -130.5625, 'logits/chosen': -0.90625, 'logits/rejected': -0.78955078125, 'epoch': 0.75}
 75%|████████████████████████████████████████████████████████████████████▉                       | 1532/2044 [7:47:34<2:44:43, 19.30s/it] 75%|█████████████████████████████████████████████████████████████████████                       | 1533/2044 [7:47:54<2:47:22, 19.65s/it]                                                                                                                                         {'loss': 0.2475, 'grad_norm': 48.56478697515577, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.618896484375, 'rewards/rejected': -3.146484375, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.763671875, 'logps/chosen': -357.25, 'logps/rejected': -123.8125, 'logits/chosen': -0.9072265625, 'logits/rejected': -0.83642578125, 'epoch': 0.75}
 75%|█████████████████████████████████████████████████████████████████████                       | 1533/2044 [7:47:54<2:47:22, 19.65s/it] 75%|█████████████████████████████████████████████████████████████████████                       | 1534/2044 [7:48:14<2:47:07, 19.66s/it]                                                                                                                                         {'loss': 0.2463, 'grad_norm': 35.68477498337863, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.424285888671875, 'rewards/rejected': -3.32421875, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.748046875, 'logps/chosen': -284.25, 'logps/rejected': -170.125, 'logits/chosen': -0.7890625, 'logits/rejected': -0.74951171875, 'epoch': 0.75}
 75%|█████████████████████████████████████████████████████████████████████                       | 1534/2044 [7:48:14<2:47:07, 19.66s/it] 75%|█████████████████████████████████████████████████████████████████████                       | 1535/2044 [7:48:33<2:45:04, 19.46s/it]                                                                                                                                         {'loss': 0.2314, 'grad_norm': 30.01253761528725, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.57305908203125, 'rewards/rejected': -2.947265625, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.517578125, 'logps/chosen': -296.375, 'logps/rejected': -140.8125, 'logits/chosen': -0.864990234375, 'logits/rejected': -0.79638671875, 'epoch': 0.75}
 75%|█████████████████████████████████████████████████████████████████████                       | 1535/2044 [7:48:33<2:45:04, 19.46s/it] 75%|█████████████████████████████████████████████████████████████████████▏                      | 1536/2044 [7:48:51<2:41:36, 19.09s/it]                                                                                                                                         {'loss': 0.2648, 'grad_norm': 35.044370366477615, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.492095947265625, 'rewards/rejected': -3.0908203125, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.578125, 'logps/chosen': -315.25, 'logps/rejected': -116.0625, 'logits/chosen': -0.9072265625, 'logits/rejected': -0.504638671875, 'epoch': 0.75}
 75%|█████████████████████████████████████████████████████████████████████▏                      | 1536/2044 [7:48:51<2:41:36, 19.09s/it] 75%|█████████████████████████████████████████████████████████████████████▏                      | 1537/2044 [7:49:10<2:41:14, 19.08s/it]                                                                                                                                         {'loss': 0.3011, 'grad_norm': 40.74682430095572, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.566162109375, 'rewards/rejected': -2.8232421875, 'rewards/accuracies': 0.875, 'rewards/margins': 3.3876953125, 'logps/chosen': -300.125, 'logps/rejected': -147.0, 'logits/chosen': -0.942626953125, 'logits/rejected': -0.79913330078125, 'epoch': 0.75}
 75%|█████████████████████████████████████████████████████████████████████▏                      | 1537/2044 [7:49:10<2:41:14, 19.08s/it] 75%|█████████████████████████████████████████████████████████████████████▏                      | 1538/2044 [7:49:30<2:41:55, 19.20s/it]                                                                                                                                         {'loss': 0.2158, 'grad_norm': 31.996945540461656, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.734619140625, 'rewards/rejected': -2.861328125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.59765625, 'logps/chosen': -326.75, 'logps/rejected': -196.6875, 'logits/chosen': -0.866455078125, 'logits/rejected': -0.91943359375, 'epoch': 0.75}
 75%|█████████████████████████████████████████████████████████████████████▏                      | 1538/2044 [7:49:30<2:41:55, 19.20s/it] 75%|█████████████████████████████████████████████████████████████████████▎                      | 1539/2044 [7:49:49<2:42:19, 19.29s/it]                                                                                                                                         {'loss': 0.269, 'grad_norm': 37.00328717211662, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6627197265625, 'rewards/rejected': -2.92578125, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.587890625, 'logps/chosen': -262.25, 'logps/rejected': -155.4375, 'logits/chosen': -0.8973388671875, 'logits/rejected': -0.8046875, 'epoch': 0.75}
 75%|█████████████████████████████████████████████████████████████████████▎                      | 1539/2044 [7:49:49<2:42:19, 19.29s/it] 75%|█████████████████████████████████████████████████████████████████████▎                      | 1540/2044 [7:50:09<2:43:17, 19.44s/it]                                                                                                                                         {'loss': 0.1563, 'grad_norm': 27.39231791288768, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.741455078125, 'rewards/rejected': -3.44921875, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.189453125, 'logps/chosen': -315.4375, 'logps/rejected': -147.625, 'logits/chosen': -0.851318359375, 'logits/rejected': -0.88671875, 'epoch': 0.75}
 75%|█████████████████████████████████████████████████████████████████████▎                      | 1540/2044 [7:50:09<2:43:17, 19.44s/it] 75%|█████████████████████████████████████████████████████████████████████▎                      | 1541/2044 [7:50:27<2:39:58, 19.08s/it]                                                                                                                                         {'loss': 0.2263, 'grad_norm': 24.620190288103505, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.2451171875, 'rewards/rejected': -3.33984375, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.583984375, 'logps/chosen': -219.3125, 'logps/rejected': -128.375, 'logits/chosen': -0.85302734375, 'logits/rejected': -0.78955078125, 'epoch': 0.75}
 75%|█████████████████████████████████████████████████████████████████████▎                      | 1541/2044 [7:50:27<2:39:58, 19.08s/it] 75%|█████████████████████████████████████████████████████████████████████▍                      | 1542/2044 [7:50:47<2:42:30, 19.42s/it]                                                                                                                                         {'loss': 0.2393, 'grad_norm': 28.107387975934298, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.58349609375, 'rewards/rejected': -3.2197265625, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.8046875, 'logps/chosen': -286.1875, 'logps/rejected': -128.5, 'logits/chosen': -0.93896484375, 'logits/rejected': -0.94677734375, 'epoch': 0.75}
 75%|█████████████████████████████████████████████████████████████████████▍                      | 1542/2044 [7:50:47<2:42:30, 19.42s/it] 75%|█████████████████████████████████████████████████████████████████████▍                      | 1543/2044 [7:51:07<2:42:26, 19.45s/it]                                                                                                                                         {'loss': 0.2369, 'grad_norm': 33.86745466361021, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.78741455078125, 'rewards/rejected': -2.904296875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.689453125, 'logps/chosen': -278.125, 'logps/rejected': -163.6875, 'logits/chosen': -0.9208984375, 'logits/rejected': -0.782470703125, 'epoch': 0.75}
 75%|█████████████████████████████████████████████████████████████████████▍                      | 1543/2044 [7:51:07<2:42:26, 19.45s/it] 76%|█████████████████████████████████████████████████████████████████████▍                      | 1544/2044 [7:51:27<2:43:45, 19.65s/it]                                                                                                                                         {'loss': 0.2065, 'grad_norm': 29.340355163265954, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6132659912109375, 'rewards/rejected': -2.87890625, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.494140625, 'logps/chosen': -275.625, 'logps/rejected': -180.3125, 'logits/chosen': -0.876953125, 'logits/rejected': -0.820068359375, 'epoch': 0.76}
 76%|█████████████████████████████████████████████████████████████████████▍                      | 1544/2044 [7:51:27<2:43:45, 19.65s/it] 76%|█████████████████████████████████████████████████████████████████████▌                      | 1545/2044 [7:51:45<2:39:14, 19.15s/it]                                                                                                                                         {'loss': 0.2027, 'grad_norm': 29.06749669075312, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.20233154296875, 'rewards/rejected': -3.4326171875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.6376953125, 'logps/chosen': -219.4375, 'logps/rejected': -162.5, 'logits/chosen': -0.74951171875, 'logits/rejected': -0.7264404296875, 'epoch': 0.76}
 76%|█████████████████████████████████████████████████████████████████████▌                      | 1545/2044 [7:51:45<2:39:14, 19.15s/it] 76%|█████████████████████████████████████████████████████████████████████▌                      | 1546/2044 [7:52:03<2:36:40, 18.88s/it]                                                                                                                                         {'loss': 0.25, 'grad_norm': 28.149789755694147, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.659149169921875, 'rewards/rejected': -3.33984375, 'rewards/accuracies': 0.859375, 'rewards/margins': 4.001953125, 'logps/chosen': -288.75, 'logps/rejected': -113.625, 'logits/chosen': -0.94189453125, 'logits/rejected': -0.6259765625, 'epoch': 0.76}
 76%|█████████████████████████████████████████████████████████████████████▌                      | 1546/2044 [7:52:03<2:36:40, 18.88s/it] 76%|█████████████████████████████████████████████████████████████████████▋                      | 1547/2044 [7:52:24<2:40:28, 19.37s/it]                                                                                                                                         {'loss': 0.261, 'grad_norm': 41.209638796716526, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8104248046875, 'rewards/rejected': -2.87109375, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.681640625, 'logps/chosen': -304.75, 'logps/rejected': -181.4375, 'logits/chosen': -0.876708984375, 'logits/rejected': -0.802978515625, 'epoch': 0.76}
 76%|█████████████████████████████████████████████████████████████████████▋                      | 1547/2044 [7:52:24<2:40:28, 19.37s/it] 76%|█████████████████████████████████████████████████████████████████████▋                      | 1548/2044 [7:52:43<2:41:00, 19.48s/it]                                                                                                                                         {'loss': 0.1936, 'grad_norm': 27.606700993272355, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.547576904296875, 'rewards/rejected': -3.27734375, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.82421875, 'logps/chosen': -281.125, 'logps/rejected': -131.4375, 'logits/chosen': -0.90234375, 'logits/rejected': -0.84716796875, 'epoch': 0.76}
 76%|█████████████████████████████████████████████████████████████████████▋                      | 1548/2044 [7:52:43<2:41:00, 19.48s/it] 76%|█████████████████████████████████████████████████████████████████████▋                      | 1549/2044 [7:53:03<2:41:38, 19.59s/it]                                                                                                                                         {'loss': 0.2202, 'grad_norm': 31.810454851721193, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6881103515625, 'rewards/rejected': -3.0283203125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.7197265625, 'logps/chosen': -389.25, 'logps/rejected': -141.3125, 'logits/chosen': -1.13037109375, 'logits/rejected': -0.8028564453125, 'epoch': 0.76}
 76%|█████████████████████████████████████████████████████████████████████▋                      | 1549/2044 [7:53:03<2:41:38, 19.59s/it] 76%|█████████████████████████████████████████████████████████████████████▊                      | 1550/2044 [7:53:23<2:40:50, 19.54s/it]                                                                                                                                         {'loss': 0.139, 'grad_norm': 23.422724077281913, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7404041290283203, 'rewards/rejected': -3.55078125, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.291015625, 'logps/chosen': -325.25, 'logps/rejected': -129.25, 'logits/chosen': -0.80792236328125, 'logits/rejected': -0.70361328125, 'epoch': 0.76}
 76%|█████████████████████████████████████████████████████████████████████▊                      | 1550/2044 [7:53:23<2:40:50, 19.54s/it] 76%|█████████████████████████████████████████████████████████████████████▊                      | 1551/2044 [7:53:42<2:40:14, 19.50s/it]                                                                                                                                         {'loss': 0.2243, 'grad_norm': 31.34294178841118, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7178955078125, 'rewards/rejected': -2.947265625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.6640625, 'logps/chosen': -328.5, 'logps/rejected': -158.625, 'logits/chosen': -0.943359375, 'logits/rejected': -0.865478515625, 'epoch': 0.76}
 76%|█████████████████████████████████████████████████████████████████████▊                      | 1551/2044 [7:53:42<2:40:14, 19.50s/it] 76%|█████████████████████████████████████████████████████████████████████▊                      | 1552/2044 [7:54:03<2:42:37, 19.83s/it]                                                                                                                                         {'loss': 0.2575, 'grad_norm': 35.8446195543745, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.803955078125, 'rewards/rejected': -2.9189453125, 'rewards/accuracies': 0.875, 'rewards/margins': 3.7255859375, 'logps/chosen': -309.9375, 'logps/rejected': -166.0, 'logits/chosen': -0.98046875, 'logits/rejected': -0.842529296875, 'epoch': 0.76}
 76%|█████████████████████████████████████████████████████████████████████▊                      | 1552/2044 [7:54:03<2:42:37, 19.83s/it] 76%|█████████████████████████████████████████████████████████████████████▉                      | 1553/2044 [7:54:22<2:41:36, 19.75s/it]                                                                                                                                         {'loss': 0.1963, 'grad_norm': 30.562830033762662, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.779296875, 'rewards/rejected': -3.328125, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.1025390625, 'logps/chosen': -309.5, 'logps/rejected': -137.8125, 'logits/chosen': -0.879425048828125, 'logits/rejected': -0.7998046875, 'epoch': 0.76}
 76%|█████████████████████████████████████████████████████████████████████▉                      | 1553/2044 [7:54:22<2:41:36, 19.75s/it] 76%|█████████████████████████████████████████████████████████████████████▉                      | 1554/2044 [7:54:42<2:41:53, 19.82s/it]                                                                                                                                         {'loss': 0.216, 'grad_norm': 39.15399512068408, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.807861328125, 'rewards/rejected': -3.3759765625, 'rewards/accuracies': 0.84375, 'rewards/margins': 4.1806640625, 'logps/chosen': -317.375, 'logps/rejected': -154.25, 'logits/chosen': -0.93896484375, 'logits/rejected': -0.743408203125, 'epoch': 0.76}
 76%|█████████████████████████████████████████████████████████████████████▉                      | 1554/2044 [7:54:42<2:41:53, 19.82s/it] 76%|█████████████████████████████████████████████████████████████████████▉                      | 1555/2044 [7:55:01<2:39:39, 19.59s/it]                                                                                                                                         {'loss': 0.1761, 'grad_norm': 27.255762958863137, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8963623046875, 'rewards/rejected': -3.302734375, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.197265625, 'logps/chosen': -350.4375, 'logps/rejected': -121.875, 'logits/chosen': -0.82080078125, 'logits/rejected': -0.75927734375, 'epoch': 0.76}
 76%|█████████████████████████████████████████████████████████████████████▉                      | 1555/2044 [7:55:01<2:39:39, 19.59s/it] 76%|██████████████████████████████████████████████████████████████████████                      | 1556/2044 [7:55:21<2:39:40, 19.63s/it]                                                                                                                                         {'loss': 0.2502, 'grad_norm': 37.12265321978421, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5864486694335938, 'rewards/rejected': -3.0126953125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.599609375, 'logps/chosen': -285.9375, 'logps/rejected': -196.5, 'logits/chosen': -0.8505859375, 'logits/rejected': -0.87646484375, 'epoch': 0.76}
 76%|██████████████████████████████████████████████████████████████████████                      | 1556/2044 [7:55:21<2:39:40, 19.63s/it] 76%|██████████████████████████████████████████████████████████████████████                      | 1557/2044 [7:55:41<2:38:51, 19.57s/it]                                                                                                                                         {'loss': 0.1763, 'grad_norm': 28.316478319726375, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7807464599609375, 'rewards/rejected': -3.4443359375, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.22265625, 'logps/chosen': -331.3125, 'logps/rejected': -140.8125, 'logits/chosen': -0.9482421875, 'logits/rejected': -0.860595703125, 'epoch': 0.76}
 76%|██████████████████████████████████████████████████████████████████████                      | 1557/2044 [7:55:41<2:38:51, 19.57s/it] 76%|██████████████████████████████████████████████████████████████████████▏                     | 1558/2044 [7:56:00<2:38:55, 19.62s/it]                                                                                                                                         {'loss': 0.2393, 'grad_norm': 34.67099319798337, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4013519287109375, 'rewards/rejected': -3.0673828125, 'rewards/accuracies': 0.875, 'rewards/margins': 3.4677734375, 'logps/chosen': -292.875, 'logps/rejected': -164.875, 'logits/chosen': -0.98681640625, 'logits/rejected': -0.900390625, 'epoch': 0.76}
 76%|██████████████████████████████████████████████████████████████████████▏                     | 1558/2044 [7:56:00<2:38:55, 19.62s/it] 76%|██████████████████████████████████████████████████████████████████████▏                     | 1559/2044 [7:56:19<2:37:19, 19.46s/it]                                                                                                                                         {'loss': 0.2471, 'grad_norm': 40.61839877870215, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.602783203125, 'rewards/rejected': -2.9853515625, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.58984375, 'logps/chosen': -263.5, 'logps/rejected': -161.8125, 'logits/chosen': -0.89013671875, 'logits/rejected': -0.90380859375, 'epoch': 0.76}
 76%|██████████████████████████████████████████████████████████████████████▏                     | 1559/2044 [7:56:19<2:37:19, 19.46s/it] 76%|██████████████████████████████████████████████████████████████████████▏                     | 1560/2044 [7:56:39<2:37:15, 19.49s/it]                                                                                                                                         {'loss': 0.213, 'grad_norm': 36.15089251291679, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.2042236328125, 'rewards/rejected': -3.66796875, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.87109375, 'logps/chosen': -254.5, 'logps/rejected': -193.1875, 'logits/chosen': -0.904541015625, 'logits/rejected': -0.776123046875, 'epoch': 0.76}
 76%|██████████████████████████████████████████████████████████████████████▏                     | 1560/2044 [7:56:39<2:37:15, 19.49s/it] 76%|██████████████████████████████████████████████████████████████████████▎                     | 1561/2044 [7:56:58<2:35:53, 19.36s/it]                                                                                                                                         {'loss': 0.1876, 'grad_norm': 32.774776753344526, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.510650634765625, 'rewards/rejected': -3.333984375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.841796875, 'logps/chosen': -277.25, 'logps/rejected': -183.8125, 'logits/chosen': -0.87109375, 'logits/rejected': -0.91015625, 'epoch': 0.76}
 76%|██████████████████████████████████████████████████████████████████████▎                     | 1561/2044 [7:56:58<2:35:53, 19.36s/it] 76%|██████████████████████████████████████████████████████████████████████▎                     | 1562/2044 [7:57:17<2:35:17, 19.33s/it]                                                                                                                                         {'loss': 0.1951, 'grad_norm': 33.6083475430932, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.56121826171875, 'rewards/rejected': -3.22265625, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.783203125, 'logps/chosen': -298.625, 'logps/rejected': -170.25, 'logits/chosen': -1.060546875, 'logits/rejected': -0.9189453125, 'epoch': 0.76}
 76%|██████████████████████████████████████████████████████████████████████▎                     | 1562/2044 [7:57:17<2:35:17, 19.33s/it] 76%|██████████████████████████████████████████████████████████████████████▎                     | 1563/2044 [7:57:37<2:37:10, 19.61s/it]                                                                                                                                         {'loss': 0.2151, 'grad_norm': 34.779004555286214, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4470062255859375, 'rewards/rejected': -3.22265625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.6640625, 'logps/chosen': -296.625, 'logps/rejected': -180.375, 'logits/chosen': -0.85009765625, 'logits/rejected': -0.86279296875, 'epoch': 0.76}
 76%|██████████████████████████████████████████████████████████████████████▎                     | 1563/2044 [7:57:37<2:37:10, 19.61s/it] 77%|██████████████████████████████████████████████████████████████████████▍                     | 1564/2044 [7:57:56<2:33:20, 19.17s/it]                                                                                                                                         {'loss': 0.1776, 'grad_norm': 28.83329041290462, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.66754150390625, 'rewards/rejected': -3.15625, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.8212890625, 'logps/chosen': -299.75, 'logps/rejected': -172.25, 'logits/chosen': -0.91845703125, 'logits/rejected': -0.79296875, 'epoch': 0.77}
 77%|██████████████████████████████████████████████████████████████████████▍                     | 1564/2044 [7:57:56<2:33:20, 19.17s/it] 77%|██████████████████████████████████████████████████████████████████████▍                     | 1565/2044 [7:58:15<2:33:22, 19.21s/it]                                                                                                                                         {'loss': 0.2079, 'grad_norm': 37.74235868567965, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.732421875, 'rewards/rejected': -3.00390625, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.7421875, 'logps/chosen': -272.875, 'logps/rejected': -153.125, 'logits/chosen': -0.97314453125, 'logits/rejected': -0.77001953125, 'epoch': 0.77}
 77%|██████████████████████████████████████████████████████████████████████▍                     | 1565/2044 [7:58:15<2:33:22, 19.21s/it] 77%|██████████████████████████████████████████████████████████████████████▍                     | 1566/2044 [7:58:33<2:29:14, 18.73s/it]                                                                                                                                         {'loss': 0.2496, 'grad_norm': 26.891727208254107, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4638671875, 'rewards/rejected': -3.080078125, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.54296875, 'logps/chosen': -274.875, 'logps/rejected': -133.4375, 'logits/chosen': -0.72412109375, 'logits/rejected': -0.7004213333129883, 'epoch': 0.77}
 77%|██████████████████████████████████████████████████████████████████████▍                     | 1566/2044 [7:58:33<2:29:14, 18.73s/it] 77%|██████████████████████████████████████████████████████████████████████▌                     | 1567/2044 [7:58:53<2:31:48, 19.10s/it]                                                                                                                                         {'loss': 0.2745, 'grad_norm': 39.060229135479396, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4625244140625, 'rewards/rejected': -2.94140625, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.40234375, 'logps/chosen': -266.5, 'logps/rejected': -170.25, 'logits/chosen': -0.9482421875, 'logits/rejected': -0.865234375, 'epoch': 0.77}
 77%|██████████████████████████████████████████████████████████████████████▌                     | 1567/2044 [7:58:53<2:31:48, 19.10s/it] 77%|██████████████████████████████████████████████████████████████████████▌                     | 1568/2044 [7:59:11<2:29:22, 18.83s/it]                                                                                                                                         {'loss': 0.2021, 'grad_norm': 29.30277885078432, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.63671875, 'rewards/rejected': -3.265625, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.904296875, 'logps/chosen': -307.375, 'logps/rejected': -137.5625, 'logits/chosen': -1.0068359375, 'logits/rejected': -0.7646484375, 'epoch': 0.77}
 77%|██████████████████████████████████████████████████████████████████████▌                     | 1568/2044 [7:59:11<2:29:22, 18.83s/it] 77%|██████████████████████████████████████████████████████████████████████▌                     | 1569/2044 [7:59:30<2:29:38, 18.90s/it]                                                                                                                                         {'loss': 0.2139, 'grad_norm': 33.21227755287041, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.60205078125, 'rewards/rejected': -3.173828125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.77734375, 'logps/chosen': -281.25, 'logps/rejected': -136.125, 'logits/chosen': -0.98681640625, 'logits/rejected': -0.91455078125, 'epoch': 0.77}
 77%|██████████████████████████████████████████████████████████████████████▌                     | 1569/2044 [7:59:30<2:29:38, 18.90s/it] 77%|██████████████████████████████████████████████████████████████████████▋                     | 1570/2044 [7:59:48<2:27:53, 18.72s/it]                                                                                                                                         {'loss': 0.1645, 'grad_norm': 33.35719152512044, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7291259765625, 'rewards/rejected': -3.349609375, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.083984375, 'logps/chosen': -293.375, 'logps/rejected': -127.125, 'logits/chosen': -0.89697265625, 'logits/rejected': -0.82421875, 'epoch': 0.77}
 77%|██████████████████████████████████████████████████████████████████████▋                     | 1570/2044 [7:59:48<2:27:53, 18.72s/it] 77%|██████████████████████████████████████████████████████████████████████▋                     | 1571/2044 [8:00:07<2:27:02, 18.65s/it]                                                                                                                                         {'loss': 0.2337, 'grad_norm': 27.752741521397496, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.33367919921875, 'rewards/rejected': -3.03125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.3671875, 'logps/chosen': -220.125, 'logps/rejected': -149.6875, 'logits/chosen': -0.97998046875, 'logits/rejected': -0.837890625, 'epoch': 0.77}
 77%|██████████████████████████████████████████████████████████████████████▋                     | 1571/2044 [8:00:07<2:27:02, 18.65s/it] 77%|██████████████████████████████████████████████████████████████████████▊                     | 1572/2044 [8:00:27<2:30:52, 19.18s/it]                                                                                                                                         {'loss': 0.3361, 'grad_norm': 31.182442993221976, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.61181640625, 'rewards/rejected': -2.64453125, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.2578125, 'logps/chosen': -327.75, 'logps/rejected': -144.8125, 'logits/chosen': -0.709716796875, 'logits/rejected': -0.85205078125, 'epoch': 0.77}
 77%|██████████████████████████████████████████████████████████████████████▊                     | 1572/2044 [8:00:27<2:30:52, 19.18s/it] 77%|██████████████████████████████████████████████████████████████████████▊                     | 1573/2044 [8:00:46<2:30:43, 19.20s/it]                                                                                                                                         {'loss': 0.1587, 'grad_norm': 21.971835208907187, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.694580078125, 'rewards/rejected': -3.517578125, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.2109375, 'logps/chosen': -314.75, 'logps/rejected': -113.3125, 'logits/chosen': -0.8720703125, 'logits/rejected': -0.8818359375, 'epoch': 0.77}
 77%|██████████████████████████████████████████████████████████████████████▊                     | 1573/2044 [8:00:46<2:30:43, 19.20s/it] 77%|██████████████████████████████████████████████████████████████████████▊                     | 1574/2044 [8:01:06<2:31:53, 19.39s/it]                                                                                                                                         {'loss': 0.1918, 'grad_norm': 28.02645470473012, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.80419921875, 'rewards/rejected': -3.18359375, 'rewards/accuracies': 0.953125, 'rewards/margins': 3.982421875, 'logps/chosen': -368.25, 'logps/rejected': -129.3125, 'logits/chosen': -0.9677734375, 'logits/rejected': -0.822265625, 'epoch': 0.77}
 77%|██████████████████████████████████████████████████████████████████████▊                     | 1574/2044 [8:01:06<2:31:53, 19.39s/it] 77%|██████████████████████████████████████████████████████████████████████▉                     | 1575/2044 [8:01:25<2:31:27, 19.38s/it]                                                                                                                                         {'loss': 0.226, 'grad_norm': 29.64443167972034, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.716552734375, 'rewards/rejected': -3.1953125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.912109375, 'logps/chosen': -329.625, 'logps/rejected': -126.875, 'logits/chosen': -0.832763671875, 'logits/rejected': -0.7412109375, 'epoch': 0.77}
 77%|██████████████████████████████████████████████████████████████████████▉                     | 1575/2044 [8:01:25<2:31:27, 19.38s/it] 77%|██████████████████████████████████████████████████████████████████████▉                     | 1576/2044 [8:01:44<2:28:09, 19.00s/it]                                                                                                                                         {'loss': 0.1915, 'grad_norm': 39.09756081618584, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.3969879150390625, 'rewards/rejected': -3.392578125, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.7890625, 'logps/chosen': -320.875, 'logps/rejected': -148.8125, 'logits/chosen': -0.890625, 'logits/rejected': -0.7490234375, 'epoch': 0.77}
 77%|██████████████████████████████████████████████████████████████████████▉                     | 1576/2044 [8:01:44<2:28:09, 19.00s/it] 77%|██████████████████████████████████████████████████████████████████████▉                     | 1577/2044 [8:02:02<2:27:02, 18.89s/it]                                                                                                                                         {'loss': 0.1888, 'grad_norm': 32.41277350783404, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7119140625, 'rewards/rejected': -3.34375, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.0546875, 'logps/chosen': -302.125, 'logps/rejected': -139.375, 'logits/chosen': -0.96533203125, 'logits/rejected': -0.8411865234375, 'epoch': 0.77}
 77%|██████████████████████████████████████████████████████████████████████▉                     | 1577/2044 [8:02:02<2:27:02, 18.89s/it] 77%|███████████████████████████████████████████████████████████████████████                     | 1578/2044 [8:02:22<2:29:57, 19.31s/it]                                                                                                                                         {'loss': 0.1962, 'grad_norm': 29.95693335558511, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6949462890625, 'rewards/rejected': -3.0478515625, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.751953125, 'logps/chosen': -322.0, 'logps/rejected': -150.0625, 'logits/chosen': -0.87841796875, 'logits/rejected': -0.8701171875, 'epoch': 0.77}
 77%|███████████████████████████████████████████████████████████████████████                     | 1578/2044 [8:02:22<2:29:57, 19.31s/it] 77%|███████████████████████████████████████████████████████████████████████                     | 1579/2044 [8:02:41<2:27:04, 18.98s/it]                                                                                                                                         {'loss': 0.1742, 'grad_norm': 25.69365572915238, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4482421875, 'rewards/rejected': -3.486328125, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.93359375, 'logps/chosen': -238.625, 'logps/rejected': -141.75, 'logits/chosen': -0.8857421875, 'logits/rejected': -0.6689453125, 'epoch': 0.77}
 77%|███████████████████████████████████████████████████████████████████████                     | 1579/2044 [8:02:41<2:27:04, 18.98s/it] 77%|███████████████████████████████████████████████████████████████████████                     | 1580/2044 [8:03:00<2:27:11, 19.03s/it]                                                                                                                                         {'loss': 0.2198, 'grad_norm': 33.03136337843085, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.378692626953125, 'rewards/rejected': -3.046875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.421875, 'logps/chosen': -281.125, 'logps/rejected': -177.9375, 'logits/chosen': -0.91748046875, 'logits/rejected': -0.868896484375, 'epoch': 0.77}
 77%|███████████████████████████████████████████████████████████████████████                     | 1580/2044 [8:03:00<2:27:11, 19.03s/it] 77%|███████████████████████████████████████████████████████████████████████▏                    | 1581/2044 [8:03:19<2:27:18, 19.09s/it]                                                                                                                                         {'loss': 0.1975, 'grad_norm': 29.18509510920103, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.61151123046875, 'rewards/rejected': -3.1767578125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.791015625, 'logps/chosen': -301.0, 'logps/rejected': -152.375, 'logits/chosen': -1.0732421875, 'logits/rejected': -0.8818359375, 'epoch': 0.77}
 77%|███████████████████████████████████████████████████████████████████████▏                    | 1581/2044 [8:03:19<2:27:18, 19.09s/it] 77%|███████████████████████████████████████████████████████████████████████▏                    | 1582/2044 [8:03:38<2:25:57, 18.96s/it]                                                                                                                                         {'loss': 0.1738, 'grad_norm': 21.810367530070348, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6041259765625, 'rewards/rejected': -3.25390625, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.85546875, 'logps/chosen': -295.375, 'logps/rejected': -138.4375, 'logits/chosen': -0.8310546875, 'logits/rejected': -0.83349609375, 'epoch': 0.77}
 77%|███████████████████████████████████████████████████████████████████████▏                    | 1582/2044 [8:03:38<2:25:57, 18.96s/it] 77%|███████████████████████████████████████████████████████████████████████▎                    | 1583/2044 [8:03:57<2:25:28, 18.93s/it]                                                                                                                                         {'loss': 0.1096, 'grad_norm': 19.546379700313842, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.78924560546875, 'rewards/rejected': -3.8046875, 'rewards/accuracies': 0.96875, 'rewards/margins': 4.58984375, 'logps/chosen': -355.625, 'logps/rejected': -129.6875, 'logits/chosen': -0.998046875, 'logits/rejected': -0.841796875, 'epoch': 0.77}
 77%|███████████████████████████████████████████████████████████████████████▎                    | 1583/2044 [8:03:57<2:25:28, 18.93s/it] 77%|███████████████████████████████████████████████████████████████████████▎                    | 1584/2044 [8:04:16<2:26:10, 19.07s/it]                                                                                                                                         {'loss': 0.2361, 'grad_norm': 27.807257389906855, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.930908203125, 'rewards/rejected': -2.62890625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.55859375, 'logps/chosen': -348.5, 'logps/rejected': -167.6875, 'logits/chosen': -0.76220703125, 'logits/rejected': -0.82421875, 'epoch': 0.77}
 77%|███████████████████████████████████████████████████████████████████████▎                    | 1584/2044 [8:04:16<2:26:10, 19.07s/it] 78%|███████████████████████████████████████████████████████████████████████▎                    | 1585/2044 [8:04:35<2:26:14, 19.12s/it]                                                                                                                                         {'loss': 0.1634, 'grad_norm': 25.920214443726614, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.50103759765625, 'rewards/rejected': -3.6884765625, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.1875, 'logps/chosen': -309.4375, 'logps/rejected': -134.625, 'logits/chosen': -0.8515625, 'logits/rejected': -0.72412109375, 'epoch': 0.78}
 78%|███████████████████████████████████████████████████████████████████████▎                    | 1585/2044 [8:04:35<2:26:14, 19.12s/it] 78%|███████████████████████████████████████████████████████████████████████▍                    | 1586/2044 [8:04:54<2:24:21, 18.91s/it]                                                                                                                                         {'loss': 0.2119, 'grad_norm': 30.45016368886399, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.712890625, 'rewards/rejected': -3.109375, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.818359375, 'logps/chosen': -358.0, 'logps/rejected': -157.5, 'logits/chosen': -0.8818359375, 'logits/rejected': -0.7523193359375, 'epoch': 0.78}
 78%|███████████████████████████████████████████████████████████████████████▍                    | 1586/2044 [8:04:54<2:24:21, 18.91s/it] 78%|███████████████████████████████████████████████████████████████████████▍                    | 1587/2044 [8:05:13<2:24:57, 19.03s/it]                                                                                                                                         {'loss': 0.246, 'grad_norm': 49.14862088001791, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5361328125, 'rewards/rejected': -3.16796875, 'rewards/accuracies': 0.875, 'rewards/margins': 3.70703125, 'logps/chosen': -349.5, 'logps/rejected': -205.5625, 'logits/chosen': -0.98876953125, 'logits/rejected': -1.00830078125, 'epoch': 0.78}
 78%|███████████████████████████████████████████████████████████████████████▍                    | 1587/2044 [8:05:13<2:24:57, 19.03s/it] 78%|███████████████████████████████████████████████████████████████████████▍                    | 1588/2044 [8:05:32<2:23:58, 18.94s/it]                                                                                                                                         {'loss': 0.2105, 'grad_norm': 30.04501962154655, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.448272705078125, 'rewards/rejected': -3.595703125, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.046875, 'logps/chosen': -292.375, 'logps/rejected': -128.8125, 'logits/chosen': -0.9013671875, 'logits/rejected': -0.83349609375, 'epoch': 0.78}
 78%|███████████████████████████████████████████████████████████████████████▍                    | 1588/2044 [8:05:32<2:23:58, 18.94s/it] 78%|███████████████████████████████████████████████████████████████████████▌                    | 1589/2044 [8:05:51<2:25:32, 19.19s/it]                                                                                                                                         {'loss': 0.2346, 'grad_norm': 35.51588970880849, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4111328125, 'rewards/rejected': -3.1796875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.587890625, 'logps/chosen': -244.625, 'logps/rejected': -159.6875, 'logits/chosen': -1.00390625, 'logits/rejected': -0.88427734375, 'epoch': 0.78}
 78%|███████████████████████████████████████████████████████████████████████▌                    | 1589/2044 [8:05:51<2:25:32, 19.19s/it] 78%|███████████████████████████████████████████████████████████████████████▌                    | 1590/2044 [8:06:10<2:24:26, 19.09s/it]                                                                                                                                         {'loss': 0.2325, 'grad_norm': 36.97873062340188, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.58135986328125, 'rewards/rejected': -2.96484375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.544921875, 'logps/chosen': -241.625, 'logps/rejected': -176.9375, 'logits/chosen': -0.9189453125, 'logits/rejected': -0.7890625, 'epoch': 0.78}
 78%|███████████████████████████████████████████████████████████████████████▌                    | 1590/2044 [8:06:10<2:24:26, 19.09s/it] 78%|███████████████████████████████████████████████████████████████████████▌                    | 1591/2044 [8:06:30<2:25:08, 19.22s/it]                                                                                                                                         {'loss': 0.229, 'grad_norm': 32.37866514213033, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.65716552734375, 'rewards/rejected': -2.7353515625, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.388671875, 'logps/chosen': -327.375, 'logps/rejected': -144.75, 'logits/chosen': -0.854736328125, 'logits/rejected': -0.85595703125, 'epoch': 0.78}
 78%|███████████████████████████████████████████████████████████████████████▌                    | 1591/2044 [8:06:30<2:25:08, 19.22s/it] 78%|███████████████████████████████████████████████████████████████████████▋                    | 1592/2044 [8:06:49<2:24:12, 19.14s/it]                                                                                                                                         {'loss': 0.186, 'grad_norm': 30.84189685436971, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.57080078125, 'rewards/rejected': -3.21484375, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.78515625, 'logps/chosen': -278.25, 'logps/rejected': -144.4375, 'logits/chosen': -0.882568359375, 'logits/rejected': -0.849365234375, 'epoch': 0.78}
 78%|███████████████████████████████████████████████████████████████████████▋                    | 1592/2044 [8:06:49<2:24:12, 19.14s/it] 78%|███████████████████████████████████████████████████████████████████████▋                    | 1593/2044 [8:07:09<2:26:02, 19.43s/it]                                                                                                                                         {'loss': 0.2006, 'grad_norm': 28.679469236605094, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8109130859375, 'rewards/rejected': -3.1181640625, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.931640625, 'logps/chosen': -326.625, 'logps/rejected': -151.5625, 'logits/chosen': -0.89111328125, 'logits/rejected': -0.841064453125, 'epoch': 0.78}
 78%|███████████████████████████████████████████████████████████████████████▋                    | 1593/2044 [8:07:09<2:26:02, 19.43s/it] 78%|███████████████████████████████████████████████████████████████████████▋                    | 1594/2044 [8:07:28<2:26:04, 19.48s/it]                                                                                                                                         {'loss': 0.1645, 'grad_norm': 28.08394893625002, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.652099609375, 'rewards/rejected': -3.43359375, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.087890625, 'logps/chosen': -359.0, 'logps/rejected': -144.625, 'logits/chosen': -1.04296875, 'logits/rejected': -0.6781005859375, 'epoch': 0.78}
 78%|███████████████████████████████████████████████████████████████████████▋                    | 1594/2044 [8:07:28<2:26:04, 19.48s/it] 78%|███████████████████████████████████████████████████████████████████████▊                    | 1595/2044 [8:07:47<2:24:17, 19.28s/it]                                                                                                                                         {'loss': 0.1975, 'grad_norm': 30.002743959311232, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.827880859375, 'rewards/rejected': -3.22265625, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.048828125, 'logps/chosen': -259.625, 'logps/rejected': -143.75, 'logits/chosen': -0.94140625, 'logits/rejected': -0.697509765625, 'epoch': 0.78}
 78%|███████████████████████████████████████████████████████████████████████▊                    | 1595/2044 [8:07:47<2:24:17, 19.28s/it] 78%|███████████████████████████████████████████████████████████████████████▊                    | 1596/2044 [8:08:05<2:20:50, 18.86s/it]                                                                                                                                         {'loss': 0.1836, 'grad_norm': 26.13266164771787, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.51708984375, 'rewards/rejected': -3.857421875, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.375, 'logps/chosen': -294.0, 'logps/rejected': -126.875, 'logits/chosen': -0.8544921875, 'logits/rejected': -0.81494140625, 'epoch': 0.78}
 78%|███████████████████████████████████████████████████████████████████████▊                    | 1596/2044 [8:08:05<2:20:50, 18.86s/it] 78%|███████████████████████████████████████████████████████████████████████▉                    | 1597/2044 [8:08:24<2:21:21, 18.97s/it]                                                                                                                                         {'loss': 0.1837, 'grad_norm': 33.250667555858236, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.87255859375, 'rewards/rejected': -3.21484375, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.0859375, 'logps/chosen': -342.25, 'logps/rejected': -142.125, 'logits/chosen': -0.847900390625, 'logits/rejected': -0.798828125, 'epoch': 0.78}
 78%|███████████████████████████████████████████████████████████████████████▉                    | 1597/2044 [8:08:24<2:21:21, 18.97s/it] 78%|███████████████████████████████████████████████████████████████████████▉                    | 1598/2044 [8:08:43<2:19:53, 18.82s/it]                                                                                                                                         {'loss': 0.2405, 'grad_norm': 26.532322222585396, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.734619140625, 'rewards/rejected': -3.0703125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.8046875, 'logps/chosen': -330.625, 'logps/rejected': -128.9375, 'logits/chosen': -1.02783203125, 'logits/rejected': -0.9169921875, 'epoch': 0.78}
 78%|███████████████████████████████████████████████████████████████████████▉                    | 1598/2044 [8:08:43<2:19:53, 18.82s/it] 78%|███████████████████████████████████████████████████████████████████████▉                    | 1599/2044 [8:09:02<2:19:28, 18.81s/it]                                                                                                                                         {'loss': 0.2758, 'grad_norm': 33.95791148616963, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.3023681640625, 'rewards/rejected': -3.259765625, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.5625, 'logps/chosen': -235.0, 'logps/rejected': -128.6875, 'logits/chosen': -0.837890625, 'logits/rejected': -0.76171875, 'epoch': 0.78}
 78%|███████████████████████████████████████████████████████████████████████▉                    | 1599/2044 [8:09:02<2:19:28, 18.81s/it] 78%|████████████████████████████████████████████████████████████████████████                    | 1600/2044 [8:09:20<2:19:07, 18.80s/it]                                                                                                                                         {'loss': 0.213, 'grad_norm': 29.35806659886519, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.28125, 'rewards/rejected': -3.197265625, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.486328125, 'logps/chosen': -308.75, 'logps/rejected': -190.125, 'logits/chosen': -1.0009765625, 'logits/rejected': -0.72509765625, 'epoch': 0.78}
 78%|████████████████████████████████████████████████████████████████████████                    | 1600/2044 [8:09:20<2:19:07, 18.80s/it] 78%|████████████████████████████████████████████████████████████████████████                    | 1601/2044 [8:09:39<2:18:53, 18.81s/it]                                                                                                                                         {'loss': 0.2033, 'grad_norm': 33.38487429759961, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.738983154296875, 'rewards/rejected': -3.556640625, 'rewards/accuracies': 0.859375, 'rewards/margins': 4.296875, 'logps/chosen': -328.125, 'logps/rejected': -167.9375, 'logits/chosen': -0.951171875, 'logits/rejected': -0.79248046875, 'epoch': 0.78}
 78%|████████████████████████████████████████████████████████████████████████                    | 1601/2044 [8:09:39<2:18:53, 18.81s/it] 78%|████████████████████████████████████████████████████████████████████████                    | 1602/2044 [8:09:58<2:19:05, 18.88s/it]                                                                                                                                         {'loss': 0.1416, 'grad_norm': 22.988761290870386, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.501708984375, 'rewards/rejected': -3.6455078125, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.1484375, 'logps/chosen': -249.5, 'logps/rejected': -146.6875, 'logits/chosen': -0.98681640625, 'logits/rejected': -0.765869140625, 'epoch': 0.78}
 78%|████████████████████████████████████████████████████████████████████████                    | 1602/2044 [8:09:58<2:19:05, 18.88s/it] 78%|████████████████████████████████████████████████████████████████████████▏                   | 1603/2044 [8:10:19<2:21:43, 19.28s/it]                                                                                                                                         {'loss': 0.242, 'grad_norm': 40.87434153528919, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.44464111328125, 'rewards/rejected': -2.84033203125, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.2861328125, 'logps/chosen': -336.375, 'logps/rejected': -215.875, 'logits/chosen': -0.89404296875, 'logits/rejected': -0.89111328125, 'epoch': 0.78}
 78%|████████████████████████████████████████████████████████████████████████▏                   | 1603/2044 [8:10:19<2:21:43, 19.28s/it] 78%|████████████████████████████████████████████████████████████████████████▏                   | 1604/2044 [8:10:39<2:23:18, 19.54s/it]                                                                                                                                         {'loss': 0.2935, 'grad_norm': 39.71333259051838, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.78936767578125, 'rewards/rejected': -2.712890625, 'rewards/accuracies': 0.8125, 'rewards/margins': 3.50390625, 'logps/chosen': -322.625, 'logps/rejected': -177.3125, 'logits/chosen': -0.75732421875, 'logits/rejected': -0.9521484375, 'epoch': 0.78}
 78%|████████████████████████████████████████████████████████████████████████▏                   | 1604/2044 [8:10:39<2:23:18, 19.54s/it] 79%|████████████████████████████████████████████████████████████████████████▏                   | 1605/2044 [8:10:57<2:20:16, 19.17s/it]                                                                                                                                         {'loss': 0.2302, 'grad_norm': 29.902605140090767, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.35687255859375, 'rewards/rejected': -3.41796875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.7734375, 'logps/chosen': -315.875, 'logps/rejected': -155.0, 'logits/chosen': -0.99267578125, 'logits/rejected': -0.786376953125, 'epoch': 0.79}
 79%|████████████████████████████████████████████████████████████████████████▏                   | 1605/2044 [8:10:57<2:20:16, 19.17s/it] 79%|████████████████████████████████████████████████████████████████████████▎                   | 1606/2044 [8:11:16<2:20:23, 19.23s/it]                                                                                                                                         {'loss': 0.1504, 'grad_norm': 30.21089796475754, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.51806640625, 'rewards/rejected': -3.8984375, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.416015625, 'logps/chosen': -318.5, 'logps/rejected': -119.375, 'logits/chosen': -0.990234375, 'logits/rejected': -0.75115966796875, 'epoch': 0.79}
 79%|████████████████████████████████████████████████████████████████████████▎                   | 1606/2044 [8:11:16<2:20:23, 19.23s/it] 79%|████████████████████████████████████████████████████████████████████████▎                   | 1607/2044 [8:11:35<2:18:17, 18.99s/it]                                                                                                                                         {'loss': 0.2384, 'grad_norm': 27.504439877685183, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.69189453125, 'rewards/rejected': -3.375, 'rewards/accuracies': 0.859375, 'rewards/margins': 4.0703125, 'logps/chosen': -253.125, 'logps/rejected': -110.5625, 'logits/chosen': -0.89501953125, 'logits/rejected': -0.798095703125, 'epoch': 0.79}
 79%|████████████████████████████████████████████████████████████████████████▎                   | 1607/2044 [8:11:35<2:18:17, 18.99s/it] 79%|████████████████████████████████████████████████████████████████████████▍                   | 1608/2044 [8:11:54<2:17:32, 18.93s/it]                                                                                                                                         {'loss': 0.2467, 'grad_norm': 27.651568461023725, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.263916015625, 'rewards/rejected': -3.484375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.748046875, 'logps/chosen': -279.25, 'logps/rejected': -119.125, 'logits/chosen': -0.98486328125, 'logits/rejected': -0.815673828125, 'epoch': 0.79}
 79%|████████████████████████████████████████████████████████████████████████▍                   | 1608/2044 [8:11:54<2:17:32, 18.93s/it] 79%|████████████████████████████████████████████████████████████████████████▍                   | 1609/2044 [8:12:14<2:20:20, 19.36s/it]                                                                                                                                         {'loss': 0.2357, 'grad_norm': 35.277033905992774, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.733154296875, 'rewards/rejected': -2.755859375, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.4931640625, 'logps/chosen': -268.875, 'logps/rejected': -173.8125, 'logits/chosen': -0.9931640625, 'logits/rejected': -0.95751953125, 'epoch': 0.79}
 79%|████████████████████████████████████████████████████████████████████████▍                   | 1609/2044 [8:12:14<2:20:20, 19.36s/it] 79%|████████████████████████████████████████████████████████████████████████▍                   | 1610/2044 [8:12:34<2:20:48, 19.47s/it]                                                                                                                                         {'loss': 0.3113, 'grad_norm': 37.16438982591975, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.570526123046875, 'rewards/rejected': -3.08203125, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.6552734375, 'logps/chosen': -312.125, 'logps/rejected': -154.625, 'logits/chosen': -0.8134765625, 'logits/rejected': -0.785888671875, 'epoch': 0.79}
 79%|████████████████████████████████████████████████████████████████████████▍                   | 1610/2044 [8:12:34<2:20:48, 19.47s/it] 79%|████████████████████████████████████████████████████████████████████████▌                   | 1611/2044 [8:12:54<2:22:32, 19.75s/it]                                                                                                                                         {'loss': 0.2352, 'grad_norm': 34.33323290148601, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.587890625, 'rewards/rejected': -3.154296875, 'rewards/accuracies': 0.875, 'rewards/margins': 3.744140625, 'logps/chosen': -289.375, 'logps/rejected': -166.5, 'logits/chosen': -1.03759765625, 'logits/rejected': -0.72314453125, 'epoch': 0.79}
 79%|████████████████████████████████████████████████████████████████████████▌                   | 1611/2044 [8:12:54<2:22:32, 19.75s/it] 79%|████████████████████████████████████████████████████████████████████████▌                   | 1612/2044 [8:13:12<2:18:39, 19.26s/it]                                                                                                                                         {'loss': 0.2635, 'grad_norm': 29.884395854737864, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.219970703125, 'rewards/rejected': -3.0810546875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.306640625, 'logps/chosen': -224.125, 'logps/rejected': -130.8125, 'logits/chosen': -0.873291015625, 'logits/rejected': -0.70166015625, 'epoch': 0.79}
 79%|████████████████████████████████████████████████████████████████████████▌                   | 1612/2044 [8:13:12<2:18:39, 19.26s/it] 79%|████████████████████████████████████████████████████████████████████████▌                   | 1613/2044 [8:13:32<2:20:25, 19.55s/it]                                                                                                                                         {'loss': 0.1731, 'grad_norm': 23.591699873750876, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8037109375, 'rewards/rejected': -3.279296875, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.08203125, 'logps/chosen': -303.75, 'logps/rejected': -123.25, 'logits/chosen': -0.73828125, 'logits/rejected': -0.73095703125, 'epoch': 0.79}
 79%|████████████████████████████████████████████████████████████████████████▌                   | 1613/2044 [8:13:32<2:20:25, 19.55s/it] 79%|████████████████████████████████████████████████████████████████████████▋                   | 1614/2044 [8:13:51<2:18:42, 19.35s/it]                                                                                                                                         {'loss': 0.2503, 'grad_norm': 38.23251788624661, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5638427734375, 'rewards/rejected': -3.5546875, 'rewards/accuracies': 0.84375, 'rewards/margins': 4.12109375, 'logps/chosen': -313.0, 'logps/rejected': -140.9375, 'logits/chosen': -0.97900390625, 'logits/rejected': -0.83740234375, 'epoch': 0.79}
 79%|████████████████████████████████████████████████████████████████████████▋                   | 1614/2044 [8:13:51<2:18:42, 19.35s/it] 79%|████████████████████████████████████████████████████████████████████████▋                   | 1615/2044 [8:14:11<2:18:28, 19.37s/it]                                                                                                                                         {'loss': 0.2924, 'grad_norm': 38.580149061723866, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.614990234375, 'rewards/rejected': -2.859375, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.4736328125, 'logps/chosen': -302.125, 'logps/rejected': -179.875, 'logits/chosen': -0.79248046875, 'logits/rejected': -0.68310546875, 'epoch': 0.79}
 79%|████████████████████████████████████████████████████████████████████████▋                   | 1615/2044 [8:14:11<2:18:28, 19.37s/it] 79%|████████████████████████████████████████████████████████████████████████▋                   | 1616/2044 [8:14:31<2:19:24, 19.54s/it]                                                                                                                                         {'loss': 0.2031, 'grad_norm': 36.656483884219455, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.67718505859375, 'rewards/rejected': -3.40234375, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.08203125, 'logps/chosen': -336.125, 'logps/rejected': -137.5625, 'logits/chosen': -0.935546875, 'logits/rejected': -0.849609375, 'epoch': 0.79}
 79%|████████████████████████████████████████████████████████████████████████▋                   | 1616/2044 [8:14:31<2:19:24, 19.54s/it] 79%|████████████████████████████████████████████████████████████████████████▊                   | 1617/2044 [8:14:49<2:16:40, 19.21s/it]                                                                                                                                         {'loss': 0.2233, 'grad_norm': 28.41246642876529, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.58935546875, 'rewards/rejected': -3.34375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.93359375, 'logps/chosen': -332.5, 'logps/rejected': -154.9375, 'logits/chosen': -0.99072265625, 'logits/rejected': -0.90234375, 'epoch': 0.79}
 79%|████████████████████████████████████████████████████████████████████████▊                   | 1617/2044 [8:14:49<2:16:40, 19.21s/it] 79%|████████████████████████████████████████████████████████████████████████▊                   | 1618/2044 [8:15:08<2:16:50, 19.27s/it]                                                                                                                                         {'loss': 0.2506, 'grad_norm': 36.579013536119476, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5228271484375, 'rewards/rejected': -3.30078125, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.828125, 'logps/chosen': -277.625, 'logps/rejected': -178.3125, 'logits/chosen': -0.82666015625, 'logits/rejected': -0.861572265625, 'epoch': 0.79}
 79%|████████████████████████████████████████████████████████████████████████▊                   | 1618/2044 [8:15:08<2:16:50, 19.27s/it] 79%|████████████████████████████████████████████████████████████████████████▊                   | 1619/2044 [8:15:28<2:16:36, 19.29s/it]                                                                                                                                         {'loss': 0.1785, 'grad_norm': 35.427828362505764, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6204833984375, 'rewards/rejected': -3.54296875, 'rewards/accuracies': 0.875, 'rewards/margins': 4.16796875, 'logps/chosen': -307.25, 'logps/rejected': -144.375, 'logits/chosen': -0.7669677734375, 'logits/rejected': -0.831298828125, 'epoch': 0.79}
 79%|████████████████████████████████████████████████████████████████████████▊                   | 1619/2044 [8:15:28<2:16:36, 19.29s/it] 79%|████████████████████████████████████████████████████████████████████████▉                   | 1620/2044 [8:15:47<2:16:50, 19.36s/it]                                                                                                                                         {'loss': 0.1668, 'grad_norm': 23.46537367708359, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7252197265625, 'rewards/rejected': -3.453125, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.1796875, 'logps/chosen': -309.625, 'logps/rejected': -111.8125, 'logits/chosen': -0.99072265625, 'logits/rejected': -0.8720703125, 'epoch': 0.79}
 79%|████████████████████████████████████████████████████████████████████████▉                   | 1620/2044 [8:15:47<2:16:50, 19.36s/it] 79%|████████████████████████████████████████████████████████████████████████▉                   | 1621/2044 [8:16:07<2:16:32, 19.37s/it]                                                                                                                                         {'loss': 0.269, 'grad_norm': 40.1803871979959, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.2178955078125, 'rewards/rejected': -2.80029296875, 'rewards/accuracies': 0.875, 'rewards/margins': 3.01953125, 'logps/chosen': -288.125, 'logps/rejected': -175.1875, 'logits/chosen': -0.95556640625, 'logits/rejected': -0.73193359375, 'epoch': 0.79}
 79%|████████████████████████████████████████████████████████████████████████▉                   | 1621/2044 [8:16:07<2:16:32, 19.37s/it] 79%|█████████████████████████████████████████████████████████████████████████                   | 1622/2044 [8:16:26<2:16:55, 19.47s/it]                                                                                                                                         {'loss': 0.299, 'grad_norm': 38.65788052057342, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.666229248046875, 'rewards/rejected': -2.6953125, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.36376953125, 'logps/chosen': -378.0, 'logps/rejected': -155.0625, 'logits/chosen': -0.87255859375, 'logits/rejected': -0.87060546875, 'epoch': 0.79}
 79%|█████████████████████████████████████████████████████████████████████████                   | 1622/2044 [8:16:26<2:16:55, 19.47s/it] 79%|█████████████████████████████████████████████████████████████████████████                   | 1623/2044 [8:16:46<2:16:02, 19.39s/it]                                                                                                                                         {'loss': 0.1679, 'grad_norm': 27.296372501506465, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.427703857421875, 'rewards/rejected': -3.55078125, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.982421875, 'logps/chosen': -228.6875, 'logps/rejected': -144.9375, 'logits/chosen': -1.06494140625, 'logits/rejected': -0.855712890625, 'epoch': 0.79}
 79%|█████████████████████████████████████████████████████████████████████████                   | 1623/2044 [8:16:46<2:16:02, 19.39s/it] 79%|█████████████████████████████████████████████████████████████████████████                   | 1624/2044 [8:17:03<2:11:26, 18.78s/it]                                                                                                                                         {'loss': 0.2178, 'grad_norm': 30.084433259850105, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.325286865234375, 'rewards/rejected': -3.4482421875, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.779296875, 'logps/chosen': -211.40625, 'logps/rejected': -137.5625, 'logits/chosen': -0.994140625, 'logits/rejected': -0.75048828125, 'epoch': 0.79}
 79%|█████████████████████████████████████████████████████████████████████████                   | 1624/2044 [8:17:03<2:11:26, 18.78s/it] 80%|█████████████████████████████████████████████████████████████████████████▏                  | 1625/2044 [8:17:20<2:08:16, 18.37s/it]                                                                                                                                         {'loss': 0.1462, 'grad_norm': 20.20347013740942, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.22479248046875, 'rewards/rejected': -3.9140625, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.14453125, 'logps/chosen': -238.125, 'logps/rejected': -131.4375, 'logits/chosen': -0.909912109375, 'logits/rejected': -0.58740234375, 'epoch': 0.8}
 80%|█████████████████████████████████████████████████████████████████████████▏                  | 1625/2044 [8:17:20<2:08:16, 18.37s/it] 80%|█████████████████████████████████████████████████████████████████████████▏                  | 1626/2044 [8:17:39<2:08:14, 18.41s/it]                                                                                                                                         {'loss': 0.1894, 'grad_norm': 29.087057983231855, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.346923828125, 'rewards/rejected': -3.541015625, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.8828125, 'logps/chosen': -278.375, 'logps/rejected': -151.5, 'logits/chosen': -0.89404296875, 'logits/rejected': -0.77490234375, 'epoch': 0.8}
 80%|█████████████████████████████████████████████████████████████████████████▏                  | 1626/2044 [8:17:39<2:08:14, 18.41s/it] 80%|█████████████████████████████████████████████████████████████████████████▏                  | 1627/2044 [8:17:57<2:08:09, 18.44s/it]                                                                                                                                         {'loss': 0.2602, 'grad_norm': 38.59555411077358, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.622802734375, 'rewards/rejected': -2.7626953125, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.390625, 'logps/chosen': -309.5, 'logps/rejected': -152.875, 'logits/chosen': -0.98583984375, 'logits/rejected': -0.800537109375, 'epoch': 0.8}
 80%|█████████████████████████████████████████████████████████████████████████▏                  | 1627/2044 [8:17:57<2:08:09, 18.44s/it] 80%|█████████████████████████████████████████████████████████████████████████▎                  | 1628/2044 [8:18:15<2:06:34, 18.26s/it]                                                                                                                                         {'loss': 0.1941, 'grad_norm': 26.35160445421429, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.37133026123046875, 'rewards/rejected': -3.181640625, 'rewards/accuracies': 0.953125, 'rewards/margins': 3.5576171875, 'logps/chosen': -255.25, 'logps/rejected': -166.125, 'logits/chosen': -0.82666015625, 'logits/rejected': -0.803955078125, 'epoch': 0.8}
 80%|█████████████████████████████████████████████████████████████████████████▎                  | 1628/2044 [8:18:15<2:06:34, 18.26s/it] 80%|█████████████████████████████████████████████████████████████████████████▎                  | 1629/2044 [8:18:35<2:08:47, 18.62s/it]                                                                                                                                         {'loss': 0.1611, 'grad_norm': 29.624942900804236, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.665771484375, 'rewards/rejected': -3.435546875, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.103515625, 'logps/chosen': -302.125, 'logps/rejected': -119.4375, 'logits/chosen': -0.86962890625, 'logits/rejected': -0.755126953125, 'epoch': 0.8}
 80%|█████████████████████████████████████████████████████████████████████████▎                  | 1629/2044 [8:18:35<2:08:47, 18.62s/it] 80%|█████████████████████████████████████████████████████████████████████████▎                  | 1630/2044 [8:18:54<2:10:14, 18.88s/it]                                                                                                                                         {'loss': 0.147, 'grad_norm': 23.23654671843754, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.537353515625, 'rewards/rejected': -3.59765625, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.13671875, 'logps/chosen': -302.9375, 'logps/rejected': -113.375, 'logits/chosen': -0.96435546875, 'logits/rejected': -0.8260498046875, 'epoch': 0.8}
 80%|█████████████████████████████████████████████████████████████████████████▎                  | 1630/2044 [8:18:54<2:10:14, 18.88s/it] 80%|█████████████████████████████████████████████████████████████████████████▍                  | 1631/2044 [8:19:15<2:13:49, 19.44s/it]                                                                                                                                         {'loss': 0.2667, 'grad_norm': 39.12153168856686, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4617919921875, 'rewards/rejected': -3.125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.58984375, 'logps/chosen': -366.25, 'logps/rejected': -200.8125, 'logits/chosen': -0.995849609375, 'logits/rejected': -0.93994140625, 'epoch': 0.8}
 80%|█████████████████████████████████████████████████████████████████████████▍                  | 1631/2044 [8:19:15<2:13:49, 19.44s/it] 80%|█████████████████████████████████████████████████████████████████████████▍                  | 1632/2044 [8:19:32<2:08:27, 18.71s/it]                                                                                                                                         {'loss': 0.1827, 'grad_norm': 23.016578499922815, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.3074951171875, 'rewards/rejected': -3.79296875, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.1064453125, 'logps/chosen': -251.625, 'logps/rejected': -111.75, 'logits/chosen': -0.851318359375, 'logits/rejected': -0.6173095703125, 'epoch': 0.8}
 80%|█████████████████████████████████████████████████████████████████████████▍                  | 1632/2044 [8:19:32<2:08:27, 18.71s/it] 80%|█████████████████████████████████████████████████████████████████████████▌                  | 1633/2044 [8:19:51<2:09:08, 18.85s/it]                                                                                                                                         {'loss': 0.2396, 'grad_norm': 36.01131752644432, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.216552734375, 'rewards/rejected': -3.453125, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.673828125, 'logps/chosen': -310.3125, 'logps/rejected': -143.8125, 'logits/chosen': -0.96826171875, 'logits/rejected': -0.943359375, 'epoch': 0.8}
 80%|█████████████████████████████████████████████████████████████████████████▌                  | 1633/2044 [8:19:51<2:09:08, 18.85s/it] 80%|█████████████████████████████████████████████████████████████████████████▌                  | 1634/2044 [8:20:10<2:09:14, 18.91s/it]                                                                                                                                         {'loss': 0.1953, 'grad_norm': 28.568203183377843, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.85791015625, 'rewards/rejected': -3.1171875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.970703125, 'logps/chosen': -324.625, 'logps/rejected': -137.5625, 'logits/chosen': -0.93505859375, 'logits/rejected': -0.8310546875, 'epoch': 0.8}
 80%|█████████████████████████████████████████████████████████████████████████▌                  | 1634/2044 [8:20:10<2:09:14, 18.91s/it] 80%|█████████████████████████████████████████████████████████████████████████▌                  | 1635/2044 [8:20:30<2:11:26, 19.28s/it]                                                                                                                                         {'loss': 0.2774, 'grad_norm': 42.8156247680611, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.39306640625, 'rewards/rejected': -3.1044921875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.49609375, 'logps/chosen': -260.5, 'logps/rejected': -157.4375, 'logits/chosen': -1.044921875, 'logits/rejected': -0.96142578125, 'epoch': 0.8}
 80%|█████████████████████████████████████████████████████████████████████████▌                  | 1635/2044 [8:20:30<2:11:26, 19.28s/it] 80%|█████████████████████████████████████████████████████████████████████████▋                  | 1636/2044 [8:20:48<2:08:21, 18.88s/it]                                                                                                                                         {'loss': 0.1751, 'grad_norm': 26.25374326326495, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.513671875, 'rewards/rejected': -3.4189453125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.9296875, 'logps/chosen': -250.125, 'logps/rejected': -120.625, 'logits/chosen': -0.9287109375, 'logits/rejected': -0.81884765625, 'epoch': 0.8}
 80%|█████████████████████████████████████████████████████████████████████████▋                  | 1636/2044 [8:20:48<2:08:21, 18.88s/it] 80%|█████████████████████████████████████████████████████████████████████████▋                  | 1637/2044 [8:21:07<2:08:40, 18.97s/it]                                                                                                                                         {'loss': 0.3325, 'grad_norm': 35.19040363488414, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.602783203125, 'rewards/rejected': -2.630859375, 'rewards/accuracies': 0.78125, 'rewards/margins': 3.2314453125, 'logps/chosen': -312.0, 'logps/rejected': -145.625, 'logits/chosen': -0.982421875, 'logits/rejected': -0.75732421875, 'epoch': 0.8}
 80%|█████████████████████████████████████████████████████████████████████████▋                  | 1637/2044 [8:21:07<2:08:40, 18.97s/it] 80%|█████████████████████████████████████████████████████████████████████████▋                  | 1638/2044 [8:21:27<2:09:45, 19.18s/it]                                                                                                                                         {'loss': 0.2222, 'grad_norm': 39.60100786872929, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.533203125, 'rewards/rejected': -3.2705078125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.80078125, 'logps/chosen': -302.4375, 'logps/rejected': -168.5625, 'logits/chosen': -0.802490234375, 'logits/rejected': -0.7861328125, 'epoch': 0.8}
 80%|█████████████████████████████████████████████████████████████████████████▋                  | 1638/2044 [8:21:27<2:09:45, 19.18s/it] 80%|█████████████████████████████████████████████████████████████████████████▊                  | 1639/2044 [8:21:45<2:07:49, 18.94s/it]                                                                                                                                         {'loss': 0.2142, 'grad_norm': 31.950072613776364, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4609375, 'rewards/rejected': -3.423828125, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.888671875, 'logps/chosen': -271.5, 'logps/rejected': -149.4375, 'logits/chosen': -0.7783203125, 'logits/rejected': -0.69189453125, 'epoch': 0.8}
 80%|█████████████████████████████████████████████████████████████████████████▊                  | 1639/2044 [8:21:45<2:07:49, 18.94s/it] 80%|█████████████████████████████████████████████████████████████████████████▊                  | 1640/2044 [8:22:04<2:07:23, 18.92s/it]                                                                                                                                         {'loss': 0.2012, 'grad_norm': 27.79694047738768, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.733154296875, 'rewards/rejected': -3.3125, 'rewards/accuracies': 0.859375, 'rewards/margins': 4.046875, 'logps/chosen': -301.25, 'logps/rejected': -127.9375, 'logits/chosen': -0.9931640625, 'logits/rejected': -0.71435546875, 'epoch': 0.8}
 80%|█████████████████████████████████████████████████████████████████████████▊                  | 1640/2044 [8:22:04<2:07:23, 18.92s/it] 80%|█████████████████████████████████████████████████████████████████████████▊                  | 1641/2044 [8:22:25<2:10:00, 19.36s/it]                                                                                                                                         {'loss': 0.1762, 'grad_norm': 30.396783414126837, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.568115234375, 'rewards/rejected': -3.234375, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.80078125, 'logps/chosen': -334.625, 'logps/rejected': -143.6875, 'logits/chosen': -1.11669921875, 'logits/rejected': -0.91064453125, 'epoch': 0.8}
 80%|█████████████████████████████████████████████████████████████████████████▊                  | 1641/2044 [8:22:25<2:10:00, 19.36s/it] 80%|█████████████████████████████████████████████████████████████████████████▉                  | 1642/2044 [8:22:45<2:10:48, 19.52s/it]                                                                                                                                         {'loss': 0.2365, 'grad_norm': 35.980415354067645, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.343536376953125, 'rewards/rejected': -2.873291015625, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.220703125, 'logps/chosen': -268.375, 'logps/rejected': -181.3125, 'logits/chosen': -0.85693359375, 'logits/rejected': -0.6759033203125, 'epoch': 0.8}
 80%|█████████████████████████████████████████████████████████████████████████▉                  | 1642/2044 [8:22:45<2:10:48, 19.52s/it] 80%|█████████████████████████████████████████████████████████████████████████▉                  | 1643/2044 [8:23:04<2:09:30, 19.38s/it]                                                                                                                                         {'loss': 0.2589, 'grad_norm': 30.74720380450178, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.49395751953125, 'rewards/rejected': -3.09375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.5859375, 'logps/chosen': -302.1875, 'logps/rejected': -122.3125, 'logits/chosen': -0.86572265625, 'logits/rejected': -0.9375, 'epoch': 0.8}
 80%|█████████████████████████████████████████████████████████████████████████▉                  | 1643/2044 [8:23:04<2:09:30, 19.38s/it] 80%|█████████████████████████████████████████████████████████████████████████▉                  | 1644/2044 [8:23:24<2:11:26, 19.72s/it]                                                                                                                                         {'loss': 0.2078, 'grad_norm': 30.658868374576443, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4854736328125, 'rewards/rejected': -3.0703125, 'rewards/accuracies': 0.875, 'rewards/margins': 3.552734375, 'logps/chosen': -284.0, 'logps/rejected': -137.4375, 'logits/chosen': -0.8466796875, 'logits/rejected': -0.78466796875, 'epoch': 0.8}
 80%|█████████████████████████████████████████████████████████████████████████▉                  | 1644/2044 [8:23:24<2:11:26, 19.72s/it] 80%|██████████████████████████████████████████████████████████████████████████                  | 1645/2044 [8:23:44<2:11:13, 19.73s/it]                                                                                                                                         {'loss': 0.2255, 'grad_norm': 28.163643587056708, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5458984375, 'rewards/rejected': -2.927734375, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.478515625, 'logps/chosen': -273.625, 'logps/rejected': -142.0, 'logits/chosen': -0.939453125, 'logits/rejected': -0.87109375, 'epoch': 0.8}
 80%|██████████████████████████████████████████████████████████████████████████                  | 1645/2044 [8:23:44<2:11:13, 19.73s/it] 81%|██████████████████████████████████████████████████████████████████████████                  | 1646/2044 [8:24:03<2:08:48, 19.42s/it]                                                                                                                                         {'loss': 0.183, 'grad_norm': 30.560475724074045, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.406494140625, 'rewards/rejected': -3.5625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.970703125, 'logps/chosen': -297.125, 'logps/rejected': -127.4375, 'logits/chosen': -1.00390625, 'logits/rejected': -0.796142578125, 'epoch': 0.81}
 81%|██████████████████████████████████████████████████████████████████████████                  | 1646/2044 [8:24:03<2:08:48, 19.42s/it] 81%|██████████████████████████████████████████████████████████████████████████▏                 | 1647/2044 [8:24:22<2:08:35, 19.43s/it]                                                                                                                                         {'loss': 0.195, 'grad_norm': 32.93907355210194, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.011962890625, 'rewards/rejected': -3.091796875, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.10546875, 'logps/chosen': -375.75, 'logps/rejected': -156.8125, 'logits/chosen': -0.8642578125, 'logits/rejected': -0.88818359375, 'epoch': 0.81}
 81%|██████████████████████████████████████████████████████████████████████████▏                 | 1647/2044 [8:24:22<2:08:35, 19.43s/it] 81%|██████████████████████████████████████████████████████████████████████████▏                 | 1648/2044 [8:24:41<2:06:41, 19.19s/it]                                                                                                                                         {'loss': 0.1359, 'grad_norm': 23.041059093681213, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.935546875, 'rewards/rejected': -3.57421875, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.513671875, 'logps/chosen': -303.5, 'logps/rejected': -117.0, 'logits/chosen': -0.94384765625, 'logits/rejected': -0.65045166015625, 'epoch': 0.81}
 81%|██████████████████████████████████████████████████████████████████████████▏                 | 1648/2044 [8:24:41<2:06:41, 19.19s/it] 81%|██████████████████████████████████████████████████████████████████████████▏                 | 1649/2044 [8:24:59<2:05:27, 19.06s/it]                                                                                                                                         {'loss': 0.1978, 'grad_norm': 27.55407218040663, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.379150390625, 'rewards/rejected': -3.5478515625, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.927734375, 'logps/chosen': -255.125, 'logps/rejected': -143.125, 'logits/chosen': -0.98779296875, 'logits/rejected': -0.844482421875, 'epoch': 0.81}
 81%|██████████████████████████████████████████████████████████████████████████▏                 | 1649/2044 [8:24:59<2:05:27, 19.06s/it] 81%|██████████████████████████████████████████████████████████████████████████▎                 | 1650/2044 [8:25:19<2:06:07, 19.21s/it]                                                                                                                                         {'loss': 0.2287, 'grad_norm': 33.7266457161616, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.388671875, 'rewards/rejected': -3.3095703125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.69921875, 'logps/chosen': -252.375, 'logps/rejected': -143.0, 'logits/chosen': -0.962890625, 'logits/rejected': -0.680908203125, 'epoch': 0.81}
 81%|██████████████████████████████████████████████████████████████████████████▎                 | 1650/2044 [8:25:19<2:06:07, 19.21s/it] 81%|██████████████████████████████████████████████████████████████████████████▎                 | 1651/2044 [8:25:40<2:08:31, 19.62s/it]                                                                                                                                         {'loss': 0.3028, 'grad_norm': 34.168162736480355, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.757415771484375, 'rewards/rejected': -2.3056640625, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.060546875, 'logps/chosen': -376.625, 'logps/rejected': -152.625, 'logits/chosen': -1.0087890625, 'logits/rejected': -0.94189453125, 'epoch': 0.81}
 81%|██████████████████████████████████████████████████████████████████████████▎                 | 1651/2044 [8:25:40<2:08:31, 19.62s/it] 81%|██████████████████████████████████████████████████████████████████████████▎                 | 1652/2044 [8:26:00<2:09:31, 19.83s/it]                                                                                                                                         {'loss': 0.2057, 'grad_norm': 31.519403517372005, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.2783203125, 'rewards/rejected': -3.25, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.529296875, 'logps/chosen': -302.4375, 'logps/rejected': -137.75, 'logits/chosen': -0.96875, 'logits/rejected': -0.85302734375, 'epoch': 0.81}
 81%|██████████████████████████████████████████████████████████████████████████▎                 | 1652/2044 [8:26:00<2:09:31, 19.83s/it] 81%|██████████████████████████████████████████████████████████████████████████▍                 | 1653/2044 [8:26:18<2:06:15, 19.37s/it]                                                                                                                                         {'loss': 0.1258, 'grad_norm': 20.255779134558605, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.937255859375, 'rewards/rejected': -3.564453125, 'rewards/accuracies': 0.96875, 'rewards/margins': 4.50390625, 'logps/chosen': -338.5, 'logps/rejected': -115.9375, 'logits/chosen': -0.97607421875, 'logits/rejected': -0.6650390625, 'epoch': 0.81}
 81%|██████████████████████████████████████████████████████████████████████████▍                 | 1653/2044 [8:26:18<2:06:15, 19.37s/it] 81%|██████████████████████████████████████████████████████████████████████████▍                 | 1654/2044 [8:26:36<2:02:56, 18.91s/it]                                                                                                                                         {'loss': 0.1987, 'grad_norm': 33.53652203367267, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.80908203125, 'rewards/rejected': -3.51953125, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.333984375, 'logps/chosen': -269.75, 'logps/rejected': -145.75, 'logits/chosen': -0.861328125, 'logits/rejected': -0.8515625, 'epoch': 0.81}
 81%|██████████████████████████████████████████████████████████████████████████▍                 | 1654/2044 [8:26:36<2:02:56, 18.91s/it] 81%|██████████████████████████████████████████████████████████████████████████▍                 | 1655/2044 [8:26:54<2:01:31, 18.75s/it]                                                                                                                                         {'loss': 0.1931, 'grad_norm': 26.85723519170289, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.49462890625, 'rewards/rejected': -3.525390625, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.01171875, 'logps/chosen': -240.625, 'logps/rejected': -130.3125, 'logits/chosen': -0.9833984375, 'logits/rejected': -0.7430419921875, 'epoch': 0.81}
 81%|██████████████████████████████████████████████████████████████████████████▍                 | 1655/2044 [8:26:54<2:01:31, 18.75s/it] 81%|██████████████████████████████████████████████████████████████████████████▌                 | 1656/2044 [8:27:14<2:02:18, 18.91s/it]                                                                                                                                         {'loss': 0.1772, 'grad_norm': 28.19410000457323, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5509033203125, 'rewards/rejected': -3.7578125, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.306640625, 'logps/chosen': -305.625, 'logps/rejected': -140.9375, 'logits/chosen': -1.05078125, 'logits/rejected': -0.705322265625, 'epoch': 0.81}
 81%|██████████████████████████████████████████████████████████████████████████▌                 | 1656/2044 [8:27:14<2:02:18, 18.91s/it] 81%|██████████████████████████████████████████████████████████████████████████▌                 | 1657/2044 [8:27:34<2:03:43, 19.18s/it]                                                                                                                                         {'loss': 0.2535, 'grad_norm': 33.9681202115968, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.498046875, 'rewards/rejected': -3.25, 'rewards/accuracies': 0.875, 'rewards/margins': 3.74609375, 'logps/chosen': -315.25, 'logps/rejected': -195.9375, 'logits/chosen': -0.776123046875, 'logits/rejected': -0.7744140625, 'epoch': 0.81}
 81%|██████████████████████████████████████████████████████████████████████████▌                 | 1657/2044 [8:27:34<2:03:43, 19.18s/it] 81%|██████████████████████████████████████████████████████████████████████████▋                 | 1658/2044 [8:27:54<2:05:11, 19.46s/it]                                                                                                                                         {'loss': 0.2397, 'grad_norm': 33.716920851886314, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.884979248046875, 'rewards/rejected': -3.37890625, 'rewards/accuracies': 0.875, 'rewards/margins': 4.2578125, 'logps/chosen': -355.125, 'logps/rejected': -127.25, 'logits/chosen': -0.974365234375, 'logits/rejected': -0.88525390625, 'epoch': 0.81}
 81%|██████████████████████████████████████████████████████████████████████████▋                 | 1658/2044 [8:27:54<2:05:11, 19.46s/it] 81%|██████████████████████████████████████████████████████████████████████████▋                 | 1659/2044 [8:28:13<2:05:16, 19.52s/it]                                                                                                                                         {'loss': 0.201, 'grad_norm': 30.915982422158958, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5933837890625, 'rewards/rejected': -3.1572265625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.75390625, 'logps/chosen': -319.25, 'logps/rejected': -168.375, 'logits/chosen': -0.90771484375, 'logits/rejected': -0.6603851318359375, 'epoch': 0.81}
 81%|██████████████████████████████████████████████████████████████████████████▋                 | 1659/2044 [8:28:13<2:05:16, 19.52s/it] 81%|██████████████████████████████████████████████████████████████████████████▋                 | 1660/2044 [8:28:33<2:06:00, 19.69s/it]                                                                                                                                         {'loss': 0.2461, 'grad_norm': 35.59307635793659, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.655120849609375, 'rewards/rejected': -3.0166015625, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.669921875, 'logps/chosen': -288.0, 'logps/rejected': -157.6875, 'logits/chosen': -0.827880859375, 'logits/rejected': -0.80908203125, 'epoch': 0.81}
 81%|██████████████████████████████████████████████████████████████████████████▋                 | 1660/2044 [8:28:33<2:06:00, 19.69s/it] 81%|██████████████████████████████████████████████████████████████████████████▊                 | 1661/2044 [8:28:53<2:05:43, 19.70s/it]                                                                                                                                         {'loss': 0.1917, 'grad_norm': 31.009800468337314, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8714599609375, 'rewards/rejected': -3.267578125, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.140625, 'logps/chosen': -326.25, 'logps/rejected': -133.25, 'logits/chosen': -0.95556640625, 'logits/rejected': -0.92431640625, 'epoch': 0.81}
 81%|██████████████████████████████████████████████████████████████████████████▊                 | 1661/2044 [8:28:53<2:05:43, 19.70s/it] 81%|██████████████████████████████████████████████████████████████████████████▊                 | 1662/2044 [8:29:13<2:06:18, 19.84s/it]                                                                                                                                         {'loss': 0.2287, 'grad_norm': 28.57397998545919, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5426025390625, 'rewards/rejected': -2.884765625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.423828125, 'logps/chosen': -326.0, 'logps/rejected': -171.4375, 'logits/chosen': -0.862060546875, 'logits/rejected': -0.798095703125, 'epoch': 0.81}
 81%|██████████████████████████████████████████████████████████████████████████▊                 | 1662/2044 [8:29:13<2:06:18, 19.84s/it] 81%|██████████████████████████████████████████████████████████████████████████▊                 | 1663/2044 [8:29:33<2:05:13, 19.72s/it]                                                                                                                                         {'loss': 0.2109, 'grad_norm': 25.70951761262489, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.455810546875, 'rewards/rejected': -3.0, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.4541015625, 'logps/chosen': -338.375, 'logps/rejected': -133.25, 'logits/chosen': -0.93359375, 'logits/rejected': -0.70050048828125, 'epoch': 0.81}
 81%|██████████████████████████████████████████████████████████████████████████▊                 | 1663/2044 [8:29:33<2:05:13, 19.72s/it] 81%|██████████████████████████████████████████████████████████████████████████▉                 | 1664/2044 [8:29:53<2:05:03, 19.75s/it]                                                                                                                                         {'loss': 0.1828, 'grad_norm': 28.18432686879986, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7900390625, 'rewards/rejected': -3.3984375, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.189453125, 'logps/chosen': -312.125, 'logps/rejected': -150.0, 'logits/chosen': -0.86767578125, 'logits/rejected': -0.764404296875, 'epoch': 0.81}
 81%|██████████████████████████████████████████████████████████████████████████▉                 | 1664/2044 [8:29:53<2:05:03, 19.75s/it] 81%|██████████████████████████████████████████████████████████████████████████▉                 | 1665/2044 [8:30:13<2:06:15, 19.99s/it]                                                                                                                                         {'loss': 0.2756, 'grad_norm': 42.024761850382006, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.517822265625, 'rewards/rejected': -2.91796875, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.4248046875, 'logps/chosen': -376.75, 'logps/rejected': -272.8125, 'logits/chosen': -0.939697265625, 'logits/rejected': -0.8721923828125, 'epoch': 0.81}
 81%|██████████████████████████████████████████████████████████████████████████▉                 | 1665/2044 [8:30:13<2:06:15, 19.99s/it] 82%|██████████████████████████████████████████████████████████████████████████▉                 | 1666/2044 [8:30:32<2:04:25, 19.75s/it]                                                                                                                                         {'loss': 0.1351, 'grad_norm': 34.122418441587406, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.223388671875, 'rewards/rejected': -4.037109375, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.2578125, 'logps/chosen': -274.25, 'logps/rejected': -153.5625, 'logits/chosen': -0.93896484375, 'logits/rejected': -0.6805419921875, 'epoch': 0.82}
 82%|██████████████████████████████████████████████████████████████████████████▉                 | 1666/2044 [8:30:32<2:04:25, 19.75s/it] 82%|███████████████████████████████████████████████████████████████████████████                 | 1667/2044 [8:30:51<2:02:19, 19.47s/it]                                                                                                                                         {'loss': 0.2201, 'grad_norm': 29.216846214997773, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5390625, 'rewards/rejected': -3.26171875, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.7998046875, 'logps/chosen': -310.125, 'logps/rejected': -133.6875, 'logits/chosen': -1.0185546875, 'logits/rejected': -0.84814453125, 'epoch': 0.82}
 82%|███████████████████████████████████████████████████████████████████████████                 | 1667/2044 [8:30:51<2:02:19, 19.47s/it] 82%|███████████████████████████████████████████████████████████████████████████                 | 1668/2044 [8:31:10<2:00:27, 19.22s/it]                                                                                                                                         {'loss': 0.2416, 'grad_norm': 36.67707129820479, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7247314453125, 'rewards/rejected': -3.287109375, 'rewards/accuracies': 0.875, 'rewards/margins': 4.013671875, 'logps/chosen': -369.96875, 'logps/rejected': -158.75, 'logits/chosen': -0.858154296875, 'logits/rejected': -0.7939453125, 'epoch': 0.82}
 82%|███████████████████████████████████████████████████████████████████████████                 | 1668/2044 [8:31:10<2:00:27, 19.22s/it] 82%|███████████████████████████████████████████████████████████████████████████                 | 1669/2044 [8:31:30<2:01:15, 19.40s/it]                                                                                                                                         {'loss': 0.2416, 'grad_norm': 31.4346968943935, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.61474609375, 'rewards/rejected': -2.9345703125, 'rewards/accuracies': 0.875, 'rewards/margins': 3.552734375, 'logps/chosen': -290.625, 'logps/rejected': -144.0625, 'logits/chosen': -1.01953125, 'logits/rejected': -0.81396484375, 'epoch': 0.82}
 82%|███████████████████████████████████████████████████████████████████████████                 | 1669/2044 [8:31:30<2:01:15, 19.40s/it] 82%|███████████████████████████████████████████████████████████████████████████▏                | 1670/2044 [8:31:47<1:57:26, 18.84s/it]                                                                                                                                         {'loss': 0.1274, 'grad_norm': 23.306134570521586, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.607208251953125, 'rewards/rejected': -3.904296875, 'rewards/accuracies': 0.953125, 'rewards/margins': 4.515625, 'logps/chosen': -284.875, 'logps/rejected': -128.3125, 'logits/chosen': -0.89599609375, 'logits/rejected': -0.51922607421875, 'epoch': 0.82}
 82%|███████████████████████████████████████████████████████████████████████████▏                | 1670/2044 [8:31:47<1:57:26, 18.84s/it] 82%|███████████████████████████████████████████████████████████████████████████▏                | 1671/2044 [8:32:06<1:56:46, 18.78s/it]                                                                                                                                         {'loss': 0.1465, 'grad_norm': 25.015054029107883, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5418701171875, 'rewards/rejected': -3.4453125, 'rewards/accuracies': 0.953125, 'rewards/margins': 3.984375, 'logps/chosen': -270.5625, 'logps/rejected': -119.5, 'logits/chosen': -0.9140625, 'logits/rejected': -0.735107421875, 'epoch': 0.82}
 82%|███████████████████████████████████████████████████████████████████████████▏                | 1671/2044 [8:32:06<1:56:46, 18.78s/it] 82%|███████████████████████████████████████████████████████████████████████████▎                | 1672/2044 [8:32:26<1:59:53, 19.34s/it]                                                                                                                                         {'loss': 0.2379, 'grad_norm': 39.8547879950257, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.622589111328125, 'rewards/rejected': -3.193359375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.814453125, 'logps/chosen': -345.25, 'logps/rejected': -222.6875, 'logits/chosen': -0.818603515625, 'logits/rejected': -0.83251953125, 'epoch': 0.82}
 82%|███████████████████████████████████████████████████████████████████████████▎                | 1672/2044 [8:32:26<1:59:53, 19.34s/it] 82%|███████████████████████████████████████████████████████████████████████████▎                | 1673/2044 [8:32:45<1:58:25, 19.15s/it]                                                                                                                                         {'loss': 0.2252, 'grad_norm': 32.594677138408876, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.49517822265625, 'rewards/rejected': -3.6328125, 'rewards/accuracies': 0.859375, 'rewards/margins': 4.126953125, 'logps/chosen': -295.5, 'logps/rejected': -143.375, 'logits/chosen': -0.8472900390625, 'logits/rejected': -0.7529296875, 'epoch': 0.82}
 82%|███████████████████████████████████████████████████████████████████████████▎                | 1673/2044 [8:32:45<1:58:25, 19.15s/it] 82%|███████████████████████████████████████████████████████████████████████████▎                | 1674/2044 [8:33:05<1:59:31, 19.38s/it]                                                                                                                                         {'loss': 0.3052, 'grad_norm': 46.04832014536127, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6590576171875, 'rewards/rejected': -3.224609375, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.88671875, 'logps/chosen': -370.25, 'logps/rejected': -182.5625, 'logits/chosen': -0.84814453125, 'logits/rejected': -0.89404296875, 'epoch': 0.82}
 82%|███████████████████████████████████████████████████████████████████████████▎                | 1674/2044 [8:33:05<1:59:31, 19.38s/it] 82%|███████████████████████████████████████████████████████████████████████████▍                | 1675/2044 [8:33:25<1:59:20, 19.41s/it]                                                                                                                                         {'loss': 0.337, 'grad_norm': 44.211142880469374, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.50555419921875, 'rewards/rejected': -2.74072265625, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.25, 'logps/chosen': -300.0, 'logps/rejected': -173.5625, 'logits/chosen': -0.9169921875, 'logits/rejected': -0.91064453125, 'epoch': 0.82}
 82%|███████████████████████████████████████████████████████████████████████████▍                | 1675/2044 [8:33:25<1:59:20, 19.41s/it] 82%|███████████████████████████████████████████████████████████████████████████▍                | 1676/2044 [8:33:44<1:59:43, 19.52s/it]                                                                                                                                         {'loss': 0.1912, 'grad_norm': 27.552675645658677, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.0205078125, 'rewards/rejected': -3.16015625, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.181640625, 'logps/chosen': -329.625, 'logps/rejected': -130.6875, 'logits/chosen': -0.93115234375, 'logits/rejected': -0.90771484375, 'epoch': 0.82}
 82%|███████████████████████████████████████████████████████████████████████████▍                | 1676/2044 [8:33:44<1:59:43, 19.52s/it] 82%|███████████████████████████████████████████████████████████████████████████▍                | 1677/2044 [8:34:02<1:56:40, 19.08s/it]                                                                                                                                         {'loss': 0.1926, 'grad_norm': 28.167408360693372, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.31787109375, 'rewards/rejected': -3.8828125, 'rewards/accuracies': 0.875, 'rewards/margins': 4.203125, 'logps/chosen': -260.5, 'logps/rejected': -135.5625, 'logits/chosen': -0.78515625, 'logits/rejected': -0.6982421875, 'epoch': 0.82}
 82%|███████████████████████████████████████████████████████████████████████████▍                | 1677/2044 [8:34:02<1:56:40, 19.08s/it] 82%|███████████████████████████████████████████████████████████████████████████▌                | 1678/2044 [8:34:22<1:57:58, 19.34s/it]                                                                                                                                         {'loss': 0.1865, 'grad_norm': 25.038924138898125, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5151214599609375, 'rewards/rejected': -3.4921875, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.009765625, 'logps/chosen': -257.875, 'logps/rejected': -130.6875, 'logits/chosen': -0.98291015625, 'logits/rejected': -0.845947265625, 'epoch': 0.82}
 82%|███████████████████████████████████████████████████████████████████████████▌                | 1678/2044 [8:34:22<1:57:58, 19.34s/it] 82%|███████████████████████████████████████████████████████████████████████████▌                | 1679/2044 [8:34:41<1:57:15, 19.28s/it]                                                                                                                                         {'loss': 0.1473, 'grad_norm': 22.13618049300446, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.44458770751953125, 'rewards/rejected': -3.69140625, 'rewards/accuracies': 0.96875, 'rewards/margins': 4.14453125, 'logps/chosen': -321.375, 'logps/rejected': -143.5, 'logits/chosen': -0.987548828125, 'logits/rejected': -0.8046875, 'epoch': 0.82}
 82%|███████████████████████████████████████████████████████████████████████████▌                | 1679/2044 [8:34:41<1:57:15, 19.28s/it] 82%|███████████████████████████████████████████████████████████████████████████▌                | 1680/2044 [8:35:00<1:56:19, 19.18s/it]                                                                                                                                         {'loss': 0.1348, 'grad_norm': 21.634998059306856, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.37823486328125, 'rewards/rejected': -3.857421875, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.236328125, 'logps/chosen': -289.375, 'logps/rejected': -121.0, 'logits/chosen': -0.8460693359375, 'logits/rejected': -0.591064453125, 'epoch': 0.82}
 82%|███████████████████████████████████████████████████████████████████████████▌                | 1680/2044 [8:35:00<1:56:19, 19.18s/it] 82%|███████████████████████████████████████████████████████████████████████████▋                | 1681/2044 [8:35:21<1:58:22, 19.57s/it]                                                                                                                                         {'loss': 0.2239, 'grad_norm': 36.05111724291964, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.85906982421875, 'rewards/rejected': -2.833984375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.6953125, 'logps/chosen': -385.875, 'logps/rejected': -167.9375, 'logits/chosen': -0.923095703125, 'logits/rejected': -0.845458984375, 'epoch': 0.82}
 82%|███████████████████████████████████████████████████████████████████████████▋                | 1681/2044 [8:35:21<1:58:22, 19.57s/it] 82%|███████████████████████████████████████████████████████████████████████████▋                | 1682/2044 [8:35:39<1:56:13, 19.27s/it]                                                                                                                                         {'loss': 0.2079, 'grad_norm': 30.712448941602016, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.562255859375, 'rewards/rejected': -3.453125, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.009765625, 'logps/chosen': -320.5, 'logps/rejected': -155.9375, 'logits/chosen': -0.8638916015625, 'logits/rejected': -0.556884765625, 'epoch': 0.82}
 82%|███████████████████████████████████████████████████████████████████████████▋                | 1682/2044 [8:35:39<1:56:13, 19.27s/it] 82%|███████████████████████████████████████████████████████████████████████████▊                | 1683/2044 [8:35:58<1:55:27, 19.19s/it]                                                                                                                                         {'loss': 0.2898, 'grad_norm': 45.053890469556116, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5621337890625, 'rewards/rejected': -3.02734375, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.5849609375, 'logps/chosen': -337.75, 'logps/rejected': -175.0, 'logits/chosen': -0.95263671875, 'logits/rejected': -0.87255859375, 'epoch': 0.82}
 82%|███████████████████████████████████████████████████████████████████████████▊                | 1683/2044 [8:35:58<1:55:27, 19.19s/it] 82%|███████████████████████████████████████████████████████████████████████████▊                | 1684/2044 [8:36:19<1:57:02, 19.51s/it]                                                                                                                                         {'loss': 0.2863, 'grad_norm': 36.16395156776949, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.83544921875, 'rewards/rejected': -2.9462890625, 'rewards/accuracies': 0.796875, 'rewards/margins': 3.779296875, 'logps/chosen': -319.25, 'logps/rejected': -155.8125, 'logits/chosen': -1.00927734375, 'logits/rejected': -0.93310546875, 'epoch': 0.82}
 82%|███████████████████████████████████████████████████████████████████████████▊                | 1684/2044 [8:36:19<1:57:02, 19.51s/it] 82%|███████████████████████████████████████████████████████████████████████████▊                | 1685/2044 [8:36:39<1:57:23, 19.62s/it]                                                                                                                                         {'loss': 0.1893, 'grad_norm': 31.168222489928926, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5390968322753906, 'rewards/rejected': -3.2099609375, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.7509765625, 'logps/chosen': -320.5, 'logps/rejected': -174.4375, 'logits/chosen': -0.96142578125, 'logits/rejected': -0.9091796875, 'epoch': 0.82}
 82%|███████████████████████████████████████████████████████████████████████████▊                | 1685/2044 [8:36:39<1:57:23, 19.62s/it] 82%|███████████████████████████████████████████████████████████████████████████▉                | 1686/2044 [8:36:57<1:54:54, 19.26s/it]                                                                                                                                         {'loss': 0.1815, 'grad_norm': 27.3877343565352, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.584716796875, 'rewards/rejected': -3.501953125, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.08203125, 'logps/chosen': -283.75, 'logps/rejected': -142.375, 'logits/chosen': -0.854248046875, 'logits/rejected': -0.830078125, 'epoch': 0.82}
 82%|███████████████████████████████████████████████████████████████████████████▉                | 1686/2044 [8:36:57<1:54:54, 19.26s/it] 83%|███████████████████████████████████████████████████████████████████████████▉                | 1687/2044 [8:37:17<1:56:03, 19.51s/it]                                                                                                                                         {'loss': 0.1973, 'grad_norm': 32.06531676901027, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.533172607421875, 'rewards/rejected': -3.451171875, 'rewards/accuracies': 0.875, 'rewards/margins': 3.990234375, 'logps/chosen': -330.0, 'logps/rejected': -146.6875, 'logits/chosen': -0.823974609375, 'logits/rejected': -0.827880859375, 'epoch': 0.83}
 83%|███████████████████████████████████████████████████████████████████████████▉                | 1687/2044 [8:37:17<1:56:03, 19.51s/it] 83%|███████████████████████████████████████████████████████████████████████████▉                | 1688/2044 [8:37:37<1:55:51, 19.53s/it]                                                                                                                                         {'loss': 0.2026, 'grad_norm': 36.425359978163286, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.959228515625, 'rewards/rejected': -3.177734375, 'rewards/accuracies': 0.875, 'rewards/margins': 4.1328125, 'logps/chosen': -379.75, 'logps/rejected': -147.25, 'logits/chosen': -0.956298828125, 'logits/rejected': -0.935546875, 'epoch': 0.83}
 83%|███████████████████████████████████████████████████████████████████████████▉                | 1688/2044 [8:37:37<1:55:51, 19.53s/it] 83%|████████████████████████████████████████████████████████████████████████████                | 1689/2044 [8:37:57<1:57:51, 19.92s/it]                                                                                                                                         {'loss': 0.2977, 'grad_norm': 39.76606667019789, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.783447265625, 'rewards/rejected': -2.642578125, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.423828125, 'logps/chosen': -398.75, 'logps/rejected': -175.25, 'logits/chosen': -1.08203125, 'logits/rejected': -0.92578125, 'epoch': 0.83}
 83%|████████████████████████████████████████████████████████████████████████████                | 1689/2044 [8:37:57<1:57:51, 19.92s/it] 83%|████████████████████████████████████████████████████████████████████████████                | 1690/2044 [8:38:17<1:57:13, 19.87s/it]                                                                                                                                         {'loss': 0.2374, 'grad_norm': 39.35449738567599, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.37939453125, 'rewards/rejected': -3.27734375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.662109375, 'logps/chosen': -370.875, 'logps/rejected': -248.5625, 'logits/chosen': -0.94287109375, 'logits/rejected': -0.98095703125, 'epoch': 0.83}
 83%|████████████████████████████████████████████████████████████████████████████                | 1690/2044 [8:38:17<1:57:13, 19.87s/it] 83%|████████████████████████████████████████████████████████████████████████████                | 1691/2044 [8:38:37<1:57:04, 19.90s/it]                                                                                                                                         {'loss': 0.2354, 'grad_norm': 49.66448827641526, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.1715087890625, 'rewards/rejected': -3.37109375, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.54296875, 'logps/chosen': -274.75, 'logps/rejected': -142.0, 'logits/chosen': -0.8896484375, 'logits/rejected': -0.6407470703125, 'epoch': 0.83}
 83%|████████████████████████████████████████████████████████████████████████████                | 1691/2044 [8:38:37<1:57:04, 19.90s/it] 83%|████████████████████████████████████████████████████████████████████████████▏               | 1692/2044 [8:38:57<1:56:57, 19.94s/it]                                                                                                                                         {'loss': 0.1797, 'grad_norm': 29.416631166737325, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.669921875, 'rewards/rejected': -3.505859375, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.17578125, 'logps/chosen': -379.0, 'logps/rejected': -212.75, 'logits/chosen': -0.887451171875, 'logits/rejected': -0.89794921875, 'epoch': 0.83}
 83%|████████████████████████████████████████████████████████████████████████████▏               | 1692/2044 [8:38:57<1:56:57, 19.94s/it] 83%|████████████████████████████████████████████████████████████████████████████▏               | 1693/2044 [8:39:17<1:55:39, 19.77s/it]                                                                                                                                         {'loss': 0.2189, 'grad_norm': 42.85749210660561, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.354888916015625, 'rewards/rejected': -3.68359375, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.0390625, 'logps/chosen': -326.0, 'logps/rejected': -176.5625, 'logits/chosen': -0.8310546875, 'logits/rejected': -0.7021713256835938, 'epoch': 0.83}
 83%|████████████████████████████████████████████████████████████████████████████▏               | 1693/2044 [8:39:17<1:55:39, 19.77s/it] 83%|████████████████████████████████████████████████████████████████████████████▏               | 1694/2044 [8:39:36<1:55:19, 19.77s/it]                                                                                                                                         {'loss': 0.2999, 'grad_norm': 36.37149146153176, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.49615478515625, 'rewards/rejected': -2.939453125, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.43359375, 'logps/chosen': -261.5, 'logps/rejected': -140.5, 'logits/chosen': -0.7470703125, 'logits/rejected': -0.7890625, 'epoch': 0.83}
 83%|████████████████████████████████████████████████████████████████████████████▏               | 1694/2044 [8:39:36<1:55:19, 19.77s/it] 83%|████████████████████████████████████████████████████████████████████████████▎               | 1695/2044 [8:39:57<1:55:58, 19.94s/it]                                                                                                                                         {'loss': 0.2196, 'grad_norm': 28.71445831610318, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5262451171875, 'rewards/rejected': -3.376953125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.904296875, 'logps/chosen': -302.125, 'logps/rejected': -149.125, 'logits/chosen': -0.857421875, 'logits/rejected': -0.9150390625, 'epoch': 0.83}
 83%|████████████████████████████████████████████████████████████████████████████▎               | 1695/2044 [8:39:57<1:55:58, 19.94s/it] 83%|████████████████████████████████████████████████████████████████████████████▎               | 1696/2044 [8:40:16<1:55:03, 19.84s/it]                                                                                                                                         {'loss': 0.2223, 'grad_norm': 26.81968319937791, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7843017578125, 'rewards/rejected': -3.01953125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.802734375, 'logps/chosen': -318.875, 'logps/rejected': -125.4375, 'logits/chosen': -0.946533203125, 'logits/rejected': -0.7021484375, 'epoch': 0.83}
 83%|████████████████████████████████████████████████████████████████████████████▎               | 1696/2044 [8:40:16<1:55:03, 19.84s/it] 83%|████████████████████████████████████████████████████████████████████████████▍               | 1697/2044 [8:40:37<1:55:34, 19.98s/it]                                                                                                                                         {'loss': 0.2585, 'grad_norm': 32.482713570783815, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.18597412109375, 'rewards/rejected': -3.34375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.533203125, 'logps/chosen': -266.25, 'logps/rejected': -129.125, 'logits/chosen': -0.94140625, 'logits/rejected': -0.873046875, 'epoch': 0.83}
 83%|████████████████████████████████████████████████████████████████████████████▍               | 1697/2044 [8:40:37<1:55:34, 19.98s/it] 83%|████████████████████████████████████████████████████████████████████████████▍               | 1698/2044 [8:40:57<1:55:21, 20.00s/it]                                                                                                                                         {'loss': 0.2847, 'grad_norm': 47.49448269572368, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7092208862304688, 'rewards/rejected': -2.998046875, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.705078125, 'logps/chosen': -330.375, 'logps/rejected': -170.0, 'logits/chosen': -0.88818359375, 'logits/rejected': -0.90087890625, 'epoch': 0.83}
 83%|████████████████████████████████████████████████████████████████████████████▍               | 1698/2044 [8:40:57<1:55:21, 20.00s/it] 83%|████████████████████████████████████████████████████████████████████████████▍               | 1699/2044 [8:41:15<1:52:13, 19.52s/it]                                                                                                                                         {'loss': 0.1741, 'grad_norm': 27.842161393802165, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6561279296875, 'rewards/rejected': -3.583984375, 'rewards/accuracies': 0.875, 'rewards/margins': 4.2421875, 'logps/chosen': -354.375, 'logps/rejected': -134.375, 'logits/chosen': -0.80615234375, 'logits/rejected': -0.598876953125, 'epoch': 0.83}
 83%|████████████████████████████████████████████████████████████████████████████▍               | 1699/2044 [8:41:15<1:52:13, 19.52s/it] 83%|████████████████████████████████████████████████████████████████████████████▌               | 1700/2044 [8:41:33<1:48:33, 18.94s/it]                                                                                                                                         {'loss': 0.1446, 'grad_norm': 21.996018277080292, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4254150390625, 'rewards/rejected': -3.501953125, 'rewards/accuracies': 0.953125, 'rewards/margins': 3.935546875, 'logps/chosen': -288.625, 'logps/rejected': -138.25, 'logits/chosen': -1.06640625, 'logits/rejected': -0.7041015625, 'epoch': 0.83}
 83%|████████████████████████████████████████████████████████████████████████████▌               | 1700/2044 [8:41:33<1:48:33, 18.94s/it] 83%|████████████████████████████████████████████████████████████████████████████▌               | 1701/2044 [8:41:52<1:49:15, 19.11s/it]                                                                                                                                         {'loss': 0.318, 'grad_norm': 39.16634140422191, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.599853515625, 'rewards/rejected': -3.0703125, 'rewards/accuracies': 0.765625, 'rewards/margins': 3.6630859375, 'logps/chosen': -313.25, 'logps/rejected': -124.0, 'logits/chosen': -0.7802734375, 'logits/rejected': -0.64111328125, 'epoch': 0.83}
 83%|████████████████████████████████████████████████████████████████████████████▌               | 1701/2044 [8:41:52<1:49:15, 19.11s/it] 83%|████████████████████████████████████████████████████████████████████████████▌               | 1702/2044 [8:42:11<1:48:32, 19.04s/it]                                                                                                                                         {'loss': 0.1689, 'grad_norm': 32.27297654711815, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.92681884765625, 'rewards/rejected': -3.48828125, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.421875, 'logps/chosen': -391.75, 'logps/rejected': -120.1875, 'logits/chosen': -1.07177734375, 'logits/rejected': -0.7437744140625, 'epoch': 0.83}
 83%|████████████████████████████████████████████████████████████████████████████▌               | 1702/2044 [8:42:11<1:48:32, 19.04s/it] 83%|████████████████████████████████████████████████████████████████████████████▋               | 1703/2044 [8:42:30<1:48:16, 19.05s/it]                                                                                                                                         {'loss': 0.2031, 'grad_norm': 30.668974276736353, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.800537109375, 'rewards/rejected': -3.494140625, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.29296875, 'logps/chosen': -339.0, 'logps/rejected': -124.75, 'logits/chosen': -0.874267578125, 'logits/rejected': -0.72314453125, 'epoch': 0.83}
 83%|████████████████████████████████████████████████████████████████████████████▋               | 1703/2044 [8:42:30<1:48:16, 19.05s/it] 83%|████████████████████████████████████████████████████████████████████████████▋               | 1704/2044 [8:42:50<1:49:25, 19.31s/it]                                                                                                                                         {'loss': 0.2332, 'grad_norm': 31.83888822004879, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.49505615234375, 'rewards/rejected': -3.701171875, 'rewards/accuracies': 0.828125, 'rewards/margins': 4.1953125, 'logps/chosen': -277.375, 'logps/rejected': -134.625, 'logits/chosen': -1.03466796875, 'logits/rejected': -0.822265625, 'epoch': 0.83}
 83%|████████████████████████████████████████████████████████████████████████████▋               | 1704/2044 [8:42:50<1:49:25, 19.31s/it] 83%|████████████████████████████████████████████████████████████████████████████▋               | 1705/2044 [8:43:09<1:48:54, 19.28s/it]                                                                                                                                         {'loss': 0.2204, 'grad_norm': 30.77360535539942, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.47430419921875, 'rewards/rejected': -3.4287109375, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.8984375, 'logps/chosen': -233.0, 'logps/rejected': -149.375, 'logits/chosen': -0.87451171875, 'logits/rejected': -0.658203125, 'epoch': 0.83}
 83%|████████████████████████████████████████████████████████████████████████████▋               | 1705/2044 [8:43:09<1:48:54, 19.28s/it] 83%|████████████████████████████████████████████████████████████████████████████▊               | 1706/2044 [8:43:28<1:47:43, 19.12s/it]                                                                                                                                         {'loss': 0.1841, 'grad_norm': 34.84666997369954, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6119384765625, 'rewards/rejected': -3.6748046875, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.2890625, 'logps/chosen': -319.3125, 'logps/rejected': -158.125, 'logits/chosen': -0.909912109375, 'logits/rejected': -0.832763671875, 'epoch': 0.83}
 83%|████████████████████████████████████████████████████████████████████████████▊               | 1706/2044 [8:43:28<1:47:43, 19.12s/it] 84%|████████████████████████████████████████████████████████████████████████████▊               | 1707/2044 [8:43:48<1:49:31, 19.50s/it]                                                                                                                                         {'loss': 0.2581, 'grad_norm': 34.81714604467302, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.0516357421875, 'rewards/rejected': -3.41796875, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.470703125, 'logps/chosen': -296.3125, 'logps/rejected': -212.25, 'logits/chosen': -0.77978515625, 'logits/rejected': -0.859130859375, 'epoch': 0.84}
 84%|████████████████████████████████████████████████████████████████████████████▊               | 1707/2044 [8:43:48<1:49:31, 19.50s/it] 84%|████████████████████████████████████████████████████████████████████████████▉               | 1708/2044 [8:44:09<1:50:23, 19.71s/it]                                                                                                                                         {'loss': 0.2578, 'grad_norm': 37.74566275968489, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.64794921875, 'rewards/rejected': -3.1298828125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.771484375, 'logps/chosen': -310.625, 'logps/rejected': -176.8125, 'logits/chosen': -0.95556640625, 'logits/rejected': -0.8916015625, 'epoch': 0.84}
 84%|████████████████████████████████████████████████████████████████████████████▉               | 1708/2044 [8:44:09<1:50:23, 19.71s/it] 84%|████████████████████████████████████████████████████████████████████████████▉               | 1709/2044 [8:44:28<1:49:40, 19.64s/it]                                                                                                                                         {'loss': 0.1525, 'grad_norm': 26.854692603743825, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.60052490234375, 'rewards/rejected': -3.6953125, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.298828125, 'logps/chosen': -308.375, 'logps/rejected': -143.3125, 'logits/chosen': -0.8212890625, 'logits/rejected': -0.806640625, 'epoch': 0.84}
 84%|████████████████████████████████████████████████████████████████████████████▉               | 1709/2044 [8:44:28<1:49:40, 19.64s/it] 84%|████████████████████████████████████████████████████████████████████████████▉               | 1710/2044 [8:44:48<1:49:56, 19.75s/it]                                                                                                                                         {'loss': 0.1993, 'grad_norm': 26.942633702617485, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4490966796875, 'rewards/rejected': -3.1787109375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.626953125, 'logps/chosen': -340.625, 'logps/rejected': -154.75, 'logits/chosen': -0.933349609375, 'logits/rejected': -0.853515625, 'epoch': 0.84}
 84%|████████████████████████████████████████████████████████████████████████████▉               | 1710/2044 [8:44:48<1:49:56, 19.75s/it] 84%|█████████████████████████████████████████████████████████████████████████████               | 1711/2044 [8:45:08<1:50:42, 19.95s/it]                                                                                                                                         {'loss': 0.2018, 'grad_norm': 28.15857096941165, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7286376953125, 'rewards/rejected': -3.298828125, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.02734375, 'logps/chosen': -406.875, 'logps/rejected': -221.875, 'logits/chosen': -0.85400390625, 'logits/rejected': -1.0263671875, 'epoch': 0.84}
 84%|█████████████████████████████████████████████████████████████████████████████               | 1711/2044 [8:45:08<1:50:42, 19.95s/it] 84%|█████████████████████████████████████████████████████████████████████████████               | 1712/2044 [8:45:26<1:46:54, 19.32s/it]                                                                                                                                         {'loss': 0.1901, 'grad_norm': 29.40895812957033, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6817626953125, 'rewards/rejected': -3.60546875, 'rewards/accuracies': 0.875, 'rewards/margins': 4.28515625, 'logps/chosen': -272.5, 'logps/rejected': -132.625, 'logits/chosen': -0.793212890625, 'logits/rejected': -0.697998046875, 'epoch': 0.84}
 84%|█████████████████████████████████████████████████████████████████████████████               | 1712/2044 [8:45:26<1:46:54, 19.32s/it] 84%|█████████████████████████████████████████████████████████████████████████████               | 1713/2044 [8:45:45<1:44:56, 19.02s/it]                                                                                                                                         {'loss': 0.2159, 'grad_norm': 35.3010954296742, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.37286376953125, 'rewards/rejected': -3.42578125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.80078125, 'logps/chosen': -297.625, 'logps/rejected': -132.8125, 'logits/chosen': -0.9227294921875, 'logits/rejected': -0.79644775390625, 'epoch': 0.84}
 84%|█████████████████████████████████████████████████████████████████████████████               | 1713/2044 [8:45:45<1:44:56, 19.02s/it] 84%|█████████████████████████████████████████████████████████████████████████████▏              | 1714/2044 [8:46:05<1:46:07, 19.29s/it]                                                                                                                                         {'loss': 0.1715, 'grad_norm': 34.83516474562111, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.863037109375, 'rewards/rejected': -3.263671875, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.1328125, 'logps/chosen': -296.125, 'logps/rejected': -171.1875, 'logits/chosen': -0.89599609375, 'logits/rejected': -0.78857421875, 'epoch': 0.84}
 84%|█████████████████████████████████████████████████████████████████████████████▏              | 1714/2044 [8:46:05<1:46:07, 19.29s/it] 84%|█████████████████████████████████████████████████████████████████████████████▏              | 1715/2044 [8:46:24<1:45:35, 19.26s/it]                                                                                                                                         {'loss': 0.1862, 'grad_norm': 32.05510864805885, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.51904296875, 'rewards/rejected': -3.505859375, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.02734375, 'logps/chosen': -296.875, 'logps/rejected': -163.25, 'logits/chosen': -0.96142578125, 'logits/rejected': -0.85595703125, 'epoch': 0.84}
 84%|█████████████████████████████████████████████████████████████████████████████▏              | 1715/2044 [8:46:24<1:45:35, 19.26s/it] 84%|█████████████████████████████████████████████████████████████████████████████▏              | 1716/2044 [8:46:43<1:45:41, 19.33s/it]                                                                                                                                         {'loss': 0.2412, 'grad_norm': 31.609180591906565, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.53802490234375, 'rewards/rejected': -3.41796875, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.95703125, 'logps/chosen': -294.875, 'logps/rejected': -144.125, 'logits/chosen': -0.844482421875, 'logits/rejected': -0.7939453125, 'epoch': 0.84}
 84%|█████████████████████████████████████████████████████████████████████████████▏              | 1716/2044 [8:46:43<1:45:41, 19.33s/it] 84%|█████████████████████████████████████████████████████████████████████████████▎              | 1717/2044 [8:47:02<1:44:58, 19.26s/it]                                                                                                                                         {'loss': 0.2753, 'grad_norm': 38.39532188740392, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.473358154296875, 'rewards/rejected': -3.0859375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.55859375, 'logps/chosen': -304.25, 'logps/rejected': -134.9375, 'logits/chosen': -0.935546875, 'logits/rejected': -0.884033203125, 'epoch': 0.84}
 84%|█████████████████████████████████████████████████████████████████████████████▎              | 1717/2044 [8:47:02<1:44:58, 19.26s/it] 84%|█████████████████████████████████████████████████████████████████████████████▎              | 1718/2044 [8:47:22<1:44:30, 19.24s/it]                                                                                                                                         {'loss': 0.1953, 'grad_norm': 33.76000021397181, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.792083740234375, 'rewards/rejected': -3.82421875, 'rewards/accuracies': 0.875, 'rewards/margins': 4.6171875, 'logps/chosen': -331.0, 'logps/rejected': -132.125, 'logits/chosen': -0.593017578125, 'logits/rejected': -0.7189788818359375, 'epoch': 0.84}
 84%|█████████████████████████████████████████████████████████████████████████████▎              | 1718/2044 [8:47:22<1:44:30, 19.24s/it] 84%|█████████████████████████████████████████████████████████████████████████████▎              | 1719/2044 [8:47:40<1:43:08, 19.04s/it]                                                                                                                                         {'loss': 0.1673, 'grad_norm': 21.390255142638456, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.445068359375, 'rewards/rejected': -3.740234375, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.185546875, 'logps/chosen': -293.75, 'logps/rejected': -107.9375, 'logits/chosen': -0.85302734375, 'logits/rejected': -0.8095703125, 'epoch': 0.84}
 84%|█████████████████████████████████████████████████████████████████████████████▎              | 1719/2044 [8:47:40<1:43:08, 19.04s/it] 84%|█████████████████████████████████████████████████████████████████████████████▍              | 1720/2044 [8:47:59<1:43:21, 19.14s/it]                                                                                                                                         {'loss': 0.2175, 'grad_norm': 44.65057090355953, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6185302734375, 'rewards/rejected': -3.388671875, 'rewards/accuracies': 0.953125, 'rewards/margins': 4.0078125, 'logps/chosen': -326.25, 'logps/rejected': -160.5625, 'logits/chosen': -0.869140625, 'logits/rejected': -0.92431640625, 'epoch': 0.84}
 84%|█████████████████████████████████████████████████████████████████████████████▍              | 1720/2044 [8:47:59<1:43:21, 19.14s/it] 84%|█████████████████████████████████████████████████████████████████████████████▍              | 1721/2044 [8:48:19<1:43:47, 19.28s/it]                                                                                                                                         {'loss': 0.2125, 'grad_norm': 29.227801546155053, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.2562255859375, 'rewards/rejected': -3.62890625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.88671875, 'logps/chosen': -343.25, 'logps/rejected': -142.4375, 'logits/chosen': -1.03369140625, 'logits/rejected': -0.729736328125, 'epoch': 0.84}
 84%|█████████████████████████████████████████████████████████████████████████████▍              | 1721/2044 [8:48:19<1:43:47, 19.28s/it] 84%|█████████████████████████████████████████████████████████████████████████████▌              | 1722/2044 [8:48:38<1:42:33, 19.11s/it]                                                                                                                                         {'loss': 0.2439, 'grad_norm': 47.09976655898323, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4654541015625, 'rewards/rejected': -3.328125, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.791015625, 'logps/chosen': -287.5, 'logps/rejected': -134.875, 'logits/chosen': -0.746337890625, 'logits/rejected': -0.93115234375, 'epoch': 0.84}
 84%|█████████████████████████████████████████████████████████████████████████████▌              | 1722/2044 [8:48:38<1:42:33, 19.11s/it] 84%|█████████████████████████████████████████████████████████████████████████████▌              | 1723/2044 [8:48:57<1:42:51, 19.23s/it]                                                                                                                                         {'loss': 0.1675, 'grad_norm': 29.534064545815355, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.157012939453125, 'rewards/rejected': -3.861328125, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.01953125, 'logps/chosen': -267.5, 'logps/rejected': -176.5625, 'logits/chosen': -0.962890625, 'logits/rejected': -0.958984375, 'epoch': 0.84}
 84%|█████████████████████████████████████████████████████████████████████████████▌              | 1723/2044 [8:48:57<1:42:51, 19.23s/it] 84%|█████████████████████████████████████████████████████████████████████████████▌              | 1724/2044 [8:49:17<1:42:44, 19.26s/it]                                                                                                                                         {'loss': 0.1852, 'grad_norm': 26.556291119412098, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.634521484375, 'rewards/rejected': -3.53515625, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.162109375, 'logps/chosen': -307.125, 'logps/rejected': -128.625, 'logits/chosen': -0.8759765625, 'logits/rejected': -0.88916015625, 'epoch': 0.84}
 84%|█████████████████████████████████████████████████████████████████████████████▌              | 1724/2044 [8:49:17<1:42:44, 19.26s/it] 84%|█████████████████████████████████████████████████████████████████████████████▋              | 1725/2044 [8:49:37<1:43:42, 19.51s/it]                                                                                                                                         {'loss': 0.2035, 'grad_norm': 35.122292143932015, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.74267578125, 'rewards/rejected': -3.126953125, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.869140625, 'logps/chosen': -319.625, 'logps/rejected': -177.5625, 'logits/chosen': -0.8774948120117188, 'logits/rejected': -0.772705078125, 'epoch': 0.84}
 84%|█████████████████████████████████████████████████████████████████████████████▋              | 1725/2044 [8:49:37<1:43:42, 19.51s/it] 84%|█████████████████████████████████████████████████████████████████████████████▋              | 1726/2044 [8:49:54<1:39:10, 18.71s/it]                                                                                                                                         {'loss': 0.1126, 'grad_norm': 15.807622783480344, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.1856689453125, 'rewards/rejected': -4.40625, 'rewards/accuracies': 0.96875, 'rewards/margins': 4.587890625, 'logps/chosen': -227.25, 'logps/rejected': -125.5625, 'logits/chosen': -0.84912109375, 'logits/rejected': -0.7333984375, 'epoch': 0.84}
 84%|█████████████████████████████████████████████████████████████████████████████▋              | 1726/2044 [8:49:54<1:39:10, 18.71s/it] 84%|█████████████████████████████████████████████████████████████████████████████▋              | 1727/2044 [8:50:13<1:39:32, 18.84s/it]                                                                                                                                         {'loss': 0.1914, 'grad_norm': 26.395565311679416, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7305908203125, 'rewards/rejected': -3.240234375, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.9658203125, 'logps/chosen': -305.75, 'logps/rejected': -122.4375, 'logits/chosen': -0.9384765625, 'logits/rejected': -0.6162109375, 'epoch': 0.84}
 84%|█████████████████████████████████████████████████████████████████████████████▋              | 1727/2044 [8:50:13<1:39:32, 18.84s/it] 85%|█████████████████████████████████████████████████████████████████████████████▊              | 1728/2044 [8:50:32<1:39:35, 18.91s/it]                                                                                                                                         {'loss': 0.1876, 'grad_norm': 25.773973944067095, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.917236328125, 'rewards/rejected': -3.20703125, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.125, 'logps/chosen': -336.75, 'logps/rejected': -122.0625, 'logits/chosen': -0.88427734375, 'logits/rejected': -0.67138671875, 'epoch': 0.85}
 85%|█████████████████████████████████████████████████████████████████████████████▊              | 1728/2044 [8:50:32<1:39:35, 18.91s/it] 85%|█████████████████████████████████████████████████████████████████████████████▊              | 1729/2044 [8:50:49<1:36:44, 18.43s/it]                                                                                                                                         {'loss': 0.1963, 'grad_norm': 28.47321625403474, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5115966796875, 'rewards/rejected': -3.88671875, 'rewards/accuracies': 0.875, 'rewards/margins': 4.3984375, 'logps/chosen': -306.5, 'logps/rejected': -124.9375, 'logits/chosen': -0.891357421875, 'logits/rejected': -0.7841796875, 'epoch': 0.85}
 85%|█████████████████████████████████████████████████████████████████████████████▊              | 1729/2044 [8:50:49<1:36:44, 18.43s/it] 85%|█████████████████████████████████████████████████████████████████████████████▊              | 1730/2044 [8:51:08<1:37:04, 18.55s/it]                                                                                                                                         {'loss': 0.1643, 'grad_norm': 22.31467420135996, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.639129638671875, 'rewards/rejected': -3.6328125, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.2734375, 'logps/chosen': -308.875, 'logps/rejected': -108.5625, 'logits/chosen': -0.9013671875, 'logits/rejected': -0.7109375, 'epoch': 0.85}
 85%|█████████████████████████████████████████████████████████████████████████████▊              | 1730/2044 [8:51:08<1:37:04, 18.55s/it] 85%|█████████████████████████████████████████████████████████████████████████████▉              | 1731/2044 [8:51:27<1:38:14, 18.83s/it]                                                                                                                                         {'loss': 0.2842, 'grad_norm': 45.91479856851306, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.3143310546875, 'rewards/rejected': -3.36328125, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.67578125, 'logps/chosen': -241.0, 'logps/rejected': -175.8125, 'logits/chosen': -0.852294921875, 'logits/rejected': -0.814453125, 'epoch': 0.85}
 85%|█████████████████████████████████████████████████████████████████████████████▉              | 1731/2044 [8:51:27<1:38:14, 18.83s/it] 85%|█████████████████████████████████████████████████████████████████████████████▉              | 1732/2044 [8:51:46<1:37:53, 18.82s/it]                                                                                                                                         {'loss': 0.172, 'grad_norm': 30.803242533145607, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.2568359375, 'rewards/rejected': -3.947265625, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.203125, 'logps/chosen': -234.75, 'logps/rejected': -132.5625, 'logits/chosen': -0.8038330078125, 'logits/rejected': -0.71142578125, 'epoch': 0.85}
 85%|█████████████████████████████████████████████████████████████████████████████▉              | 1732/2044 [8:51:46<1:37:53, 18.82s/it] 85%|██████████████████████████████████████████████████████████████████████████████              | 1733/2044 [8:52:06<1:38:52, 19.08s/it]                                                                                                                                         {'loss': 0.1908, 'grad_norm': 27.876011016305252, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.73468017578125, 'rewards/rejected': -3.548828125, 'rewards/accuracies': 0.875, 'rewards/margins': 4.27734375, 'logps/chosen': -295.75, 'logps/rejected': -129.1875, 'logits/chosen': -0.93408203125, 'logits/rejected': -0.84228515625, 'epoch': 0.85}
 85%|██████████████████████████████████████████████████████████████████████████████              | 1733/2044 [8:52:06<1:38:52, 19.08s/it] 85%|██████████████████████████████████████████████████████████████████████████████              | 1734/2044 [8:52:26<1:39:48, 19.32s/it]                                                                                                                                         {'loss': 0.1684, 'grad_norm': 27.92856072942817, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7001953125, 'rewards/rejected': -3.3955078125, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.099609375, 'logps/chosen': -321.625, 'logps/rejected': -160.25, 'logits/chosen': -0.9609375, 'logits/rejected': -0.7939453125, 'epoch': 0.85}
 85%|██████████████████████████████████████████████████████████████████████████████              | 1734/2044 [8:52:26<1:39:48, 19.32s/it] 85%|██████████████████████████████████████████████████████████████████████████████              | 1735/2044 [8:52:46<1:40:35, 19.53s/it]                                                                                                                                         {'loss': 0.2216, 'grad_norm': 34.33198768349732, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.54766845703125, 'rewards/rejected': -2.998046875, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.54296875, 'logps/chosen': -358.25, 'logps/rejected': -168.1875, 'logits/chosen': -1.0107421875, 'logits/rejected': -0.90673828125, 'epoch': 0.85}
 85%|██████████████████████████████████████████████████████████████████████████████              | 1735/2044 [8:52:46<1:40:35, 19.53s/it] 85%|██████████████████████████████████████████████████████████████████████████████▏             | 1736/2044 [8:53:05<1:40:11, 19.52s/it]                                                                                                                                         {'loss': 0.1673, 'grad_norm': 23.61952364733642, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.76025390625, 'rewards/rejected': -3.744140625, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.505859375, 'logps/chosen': -377.5, 'logps/rejected': -177.5625, 'logits/chosen': -0.943603515625, 'logits/rejected': -0.8876953125, 'epoch': 0.85}
 85%|██████████████████████████████████████████████████████████████████████████████▏             | 1736/2044 [8:53:05<1:40:11, 19.52s/it] 85%|██████████████████████████████████████████████████████████████████████████████▏             | 1737/2044 [8:53:23<1:36:21, 18.83s/it]                                                                                                                                         {'loss': 0.1803, 'grad_norm': 26.711624680245702, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.656494140625, 'rewards/rejected': -3.837890625, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.498046875, 'logps/chosen': -326.75, 'logps/rejected': -110.6875, 'logits/chosen': -0.888427734375, 'logits/rejected': -0.84716796875, 'epoch': 0.85}
 85%|██████████████████████████████████████████████████████████████████████████████▏             | 1737/2044 [8:53:23<1:36:21, 18.83s/it] 85%|██████████████████████████████████████████████████████████████████████████████▏             | 1738/2044 [8:53:43<1:38:59, 19.41s/it]                                                                                                                                         {'loss': 0.2229, 'grad_norm': 32.93208441880137, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.908935546875, 'rewards/rejected': -3.01171875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.916015625, 'logps/chosen': -414.5, 'logps/rejected': -141.9375, 'logits/chosen': -0.8779296875, 'logits/rejected': -0.74267578125, 'epoch': 0.85}
 85%|██████████████████████████████████████████████████████████████████████████████▏             | 1738/2044 [8:53:43<1:38:59, 19.41s/it] 85%|██████████████████████████████████████████████████████████████████████████████▎             | 1739/2044 [8:54:03<1:38:35, 19.40s/it]                                                                                                                                         {'loss': 0.2012, 'grad_norm': 34.48816934594644, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7939453125, 'rewards/rejected': -3.310546875, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.1015625, 'logps/chosen': -312.375, 'logps/rejected': -152.1875, 'logits/chosen': -0.904052734375, 'logits/rejected': -0.9208984375, 'epoch': 0.85}
 85%|██████████████████████████████████████████████████████████████████████████████▎             | 1739/2044 [8:54:03<1:38:35, 19.40s/it] 85%|██████████████████████████████████████████████████████████████████████████████▎             | 1740/2044 [8:54:22<1:38:15, 19.39s/it]                                                                                                                                         {'loss': 0.1975, 'grad_norm': 29.775519508203054, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4884033203125, 'rewards/rejected': -3.314453125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.806640625, 'logps/chosen': -279.0, 'logps/rejected': -142.4375, 'logits/chosen': -0.93408203125, 'logits/rejected': -0.892578125, 'epoch': 0.85}
 85%|██████████████████████████████████████████████████████████████████████████████▎             | 1740/2044 [8:54:22<1:38:15, 19.39s/it] 85%|██████████████████████████████████████████████████████████████████████████████▎             | 1741/2044 [8:54:41<1:37:10, 19.24s/it]                                                                                                                                         {'loss': 0.1609, 'grad_norm': 38.00260038702957, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.570556640625, 'rewards/rejected': -3.40234375, 'rewards/accuracies': 0.953125, 'rewards/margins': 3.970703125, 'logps/chosen': -247.0625, 'logps/rejected': -148.875, 'logits/chosen': -0.867431640625, 'logits/rejected': -0.73779296875, 'epoch': 0.85}
 85%|██████████████████████████████████████████████████████████████████████████████▎             | 1741/2044 [8:54:41<1:37:10, 19.24s/it] 85%|██████████████████████████████████████████████████████████████████████████████▍             | 1742/2044 [8:55:00<1:36:38, 19.20s/it]                                                                                                                                         {'loss': 0.1518, 'grad_norm': 26.549478523667517, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.88165283203125, 'rewards/rejected': -3.75, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.630859375, 'logps/chosen': -326.0, 'logps/rejected': -164.1875, 'logits/chosen': -0.79296875, 'logits/rejected': -0.81298828125, 'epoch': 0.85}
 85%|██████████████████████████████████████████████████████████████████████████████▍             | 1742/2044 [8:55:00<1:36:38, 19.20s/it] 85%|██████████████████████████████████████████████████████████████████████████████▍             | 1743/2044 [8:55:20<1:37:26, 19.42s/it]                                                                                                                                         {'loss': 0.2329, 'grad_norm': 29.91372984687717, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4451904296875, 'rewards/rejected': -3.265625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.705078125, 'logps/chosen': -279.875, 'logps/rejected': -122.25, 'logits/chosen': -0.947265625, 'logits/rejected': -0.756591796875, 'epoch': 0.85}
 85%|██████████████████████████████████████████████████████████████████████████████▍             | 1743/2044 [8:55:20<1:37:26, 19.42s/it] 85%|██████████████████████████████████████████████████████████████████████████████▍             | 1744/2044 [8:55:41<1:39:09, 19.83s/it]                                                                                                                                         {'loss': 0.3136, 'grad_norm': 37.28986439309975, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.3926239013671875, 'rewards/rejected': -2.4697265625, 'rewards/accuracies': 0.84375, 'rewards/margins': 2.861328125, 'logps/chosen': -252.125, 'logps/rejected': -206.0, 'logits/chosen': -0.9185791015625, 'logits/rejected': -0.908203125, 'epoch': 0.85}
 85%|██████████████████████████████████████████████████████████████████████████████▍             | 1744/2044 [8:55:41<1:39:09, 19.83s/it] 85%|██████████████████████████████████████████████████████████████████████████████▌             | 1745/2044 [8:56:01<1:38:56, 19.86s/it]                                                                                                                                         {'loss': 0.2594, 'grad_norm': 34.033158757863625, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.63330078125, 'rewards/rejected': -2.9609375, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.5947265625, 'logps/chosen': -319.375, 'logps/rejected': -158.5, 'logits/chosen': -0.92236328125, 'logits/rejected': -0.8115234375, 'epoch': 0.85}
 85%|██████████████████████████████████████████████████████████████████████████████▌             | 1745/2044 [8:56:01<1:38:56, 19.86s/it] 85%|██████████████████████████████████████████████████████████████████████████████▌             | 1746/2044 [8:56:20<1:37:13, 19.58s/it]                                                                                                                                         {'loss': 0.2056, 'grad_norm': 31.40034151892488, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.732421875, 'rewards/rejected': -3.525390625, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.26171875, 'logps/chosen': -288.625, 'logps/rejected': -128.25, 'logits/chosen': -0.86328125, 'logits/rejected': -0.68310546875, 'epoch': 0.85}
 85%|██████████████████████████████████████████████████████████████████████████████▌             | 1746/2044 [8:56:20<1:37:13, 19.58s/it] 85%|██████████████████████████████████████████████████████████████████████████████▋             | 1747/2044 [8:56:39<1:37:22, 19.67s/it]                                                                                                                                         {'loss': 0.178, 'grad_norm': 30.665109570649783, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.573486328125, 'rewards/rejected': -3.3359375, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.904296875, 'logps/chosen': -311.0, 'logps/rejected': -140.25, 'logits/chosen': -0.89697265625, 'logits/rejected': -0.72119140625, 'epoch': 0.85}
 85%|██████████████████████████████████████████████████████████████████████████████▋             | 1747/2044 [8:56:39<1:37:22, 19.67s/it] 86%|██████████████████████████████████████████████████████████████████████████████▋             | 1748/2044 [8:56:59<1:37:24, 19.74s/it]                                                                                                                                         {'loss': 0.197, 'grad_norm': 41.24807131209395, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.833251953125, 'rewards/rejected': -3.271484375, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.103515625, 'logps/chosen': -342.5, 'logps/rejected': -184.125, 'logits/chosen': -1.0947265625, 'logits/rejected': -0.818603515625, 'epoch': 0.86}
 86%|██████████████████████████████████████████████████████████████████████████████▋             | 1748/2044 [8:56:59<1:37:24, 19.74s/it] 86%|██████████████████████████████████████████████████████████████████████████████▋             | 1749/2044 [8:57:19<1:36:47, 19.69s/it]                                                                                                                                         {'loss': 0.2565, 'grad_norm': 31.782241677387805, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.3785400390625, 'rewards/rejected': -3.375, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.75390625, 'logps/chosen': -274.125, 'logps/rejected': -153.6875, 'logits/chosen': -0.80419921875, 'logits/rejected': -0.65576171875, 'epoch': 0.86}
 86%|██████████████████████████████████████████████████████████████████████████████▋             | 1749/2044 [8:57:19<1:36:47, 19.69s/it] 86%|██████████████████████████████████████████████████████████████████████████████▊             | 1750/2044 [8:57:35<1:30:46, 18.53s/it]                                                                                                                                         {'loss': 0.1401, 'grad_norm': 25.836661239246347, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7513580322265625, 'rewards/rejected': -4.203125, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.962890625, 'logps/chosen': -280.75, 'logps/rejected': -123.0625, 'logits/chosen': -0.826171875, 'logits/rejected': -0.7965087890625, 'epoch': 0.86}
 86%|██████████████████████████████████████████████████████████████████████████████▊             | 1750/2044 [8:57:35<1:30:46, 18.53s/it] 86%|██████████████████████████████████████████████████████████████████████████████▊             | 1751/2044 [8:57:55<1:32:52, 19.02s/it]                                                                                                                                         {'loss': 0.2356, 'grad_norm': 30.20248437917191, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.854248046875, 'rewards/rejected': -2.888671875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.74609375, 'logps/chosen': -308.125, 'logps/rejected': -140.4375, 'logits/chosen': -0.78515625, 'logits/rejected': -0.8564453125, 'epoch': 0.86}
 86%|██████████████████████████████████████████████████████████████████████████████▊             | 1751/2044 [8:57:55<1:32:52, 19.02s/it] 86%|██████████████████████████████████████████████████████████████████████████████▊             | 1752/2044 [8:58:16<1:34:55, 19.50s/it]                                                                                                                                         {'loss': 0.2318, 'grad_norm': 36.95157783730408, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.670166015625, 'rewards/rejected': -3.12109375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.796875, 'logps/chosen': -359.0, 'logps/rejected': -144.6875, 'logits/chosen': -0.91943359375, 'logits/rejected': -0.70556640625, 'epoch': 0.86}
 86%|██████████████████████████████████████████████████████████████████████████████▊             | 1752/2044 [8:58:16<1:34:55, 19.50s/it] 86%|██████████████████████████████████████████████████████████████████████████████▉             | 1753/2044 [8:58:34<1:32:42, 19.11s/it]                                                                                                                                         {'loss': 0.2254, 'grad_norm': 31.548387571782214, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.2525634765625, 'rewards/rejected': -3.408203125, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.6611328125, 'logps/chosen': -236.25, 'logps/rejected': -127.6875, 'logits/chosen': -0.740234375, 'logits/rejected': -0.603759765625, 'epoch': 0.86}
 86%|██████████████████████████████████████████████████████████████████████████████▉             | 1753/2044 [8:58:34<1:32:42, 19.11s/it] 86%|██████████████████████████████████████████████████████████████████████████████▉             | 1754/2044 [8:58:54<1:33:39, 19.38s/it]                                                                                                                                         {'loss': 0.193, 'grad_norm': 27.194751314110096, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6976318359375, 'rewards/rejected': -3.1982421875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.892578125, 'logps/chosen': -310.5, 'logps/rejected': -140.0, 'logits/chosen': -0.92431640625, 'logits/rejected': -0.729217529296875, 'epoch': 0.86}
 86%|██████████████████████████████████████████████████████████████████████████████▉             | 1754/2044 [8:58:54<1:33:39, 19.38s/it] 86%|██████████████████████████████████████████████████████████████████████████████▉             | 1755/2044 [8:59:12<1:31:59, 19.10s/it]                                                                                                                                         {'loss': 0.1647, 'grad_norm': 24.44767892397254, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6806640625, 'rewards/rejected': -3.548828125, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.224609375, 'logps/chosen': -275.125, 'logps/rejected': -118.625, 'logits/chosen': -1.03515625, 'logits/rejected': -0.63543701171875, 'epoch': 0.86}
 86%|██████████████████████████████████████████████████████████████████████████████▉             | 1755/2044 [8:59:12<1:31:59, 19.10s/it] 86%|███████████████████████████████████████████████████████████████████████████████             | 1756/2044 [8:59:32<1:32:57, 19.37s/it]                                                                                                                                         {'loss': 0.2772, 'grad_norm': 45.01024970169388, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.64898681640625, 'rewards/rejected': -3.1171875, 'rewards/accuracies': 0.796875, 'rewards/margins': 3.7646484375, 'logps/chosen': -311.875, 'logps/rejected': -168.0, 'logits/chosen': -0.835693359375, 'logits/rejected': -0.7822265625, 'epoch': 0.86}
 86%|███████████████████████████████████████████████████████████████████████████████             | 1756/2044 [8:59:32<1:32:57, 19.37s/it] 86%|███████████████████████████████████████████████████████████████████████████████             | 1757/2044 [8:59:51<1:31:41, 19.17s/it]                                                                                                                                         {'loss': 0.1497, 'grad_norm': 29.614152006541143, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.91510009765625, 'rewards/rejected': -3.609375, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.525390625, 'logps/chosen': -331.75, 'logps/rejected': -130.5, 'logits/chosen': -0.697509765625, 'logits/rejected': -0.642578125, 'epoch': 0.86}
 86%|███████████████████████████████████████████████████████████████████████████████             | 1757/2044 [8:59:51<1:31:41, 19.17s/it] 86%|███████████████████████████████████████████████████████████████████████████████▏            | 1758/2044 [9:00:11<1:32:07, 19.33s/it]                                                                                                                                         {'loss': 0.1382, 'grad_norm': 25.83115109162483, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5491943359375, 'rewards/rejected': -3.951171875, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.501953125, 'logps/chosen': -307.0625, 'logps/rejected': -141.6875, 'logits/chosen': -0.97119140625, 'logits/rejected': -0.763671875, 'epoch': 0.86}
 86%|███████████████████████████████████████████████████████████████████████████████▏            | 1758/2044 [9:00:11<1:32:07, 19.33s/it] 86%|███████████████████████████████████████████████████████████████████████████████▏            | 1759/2044 [9:00:31<1:32:38, 19.50s/it]                                                                                                                                         {'loss': 0.2996, 'grad_norm': 37.12241863568738, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.74365234375, 'rewards/rejected': -2.82598876953125, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.5693359375, 'logps/chosen': -288.0, 'logps/rejected': -162.3125, 'logits/chosen': -0.752685546875, 'logits/rejected': -0.7962646484375, 'epoch': 0.86}
 86%|███████████████████████████████████████████████████████████████████████████████▏            | 1759/2044 [9:00:31<1:32:38, 19.50s/it] 86%|███████████████████████████████████████████████████████████████████████████████▏            | 1760/2044 [9:00:49<1:30:19, 19.08s/it]                                                                                                                                         {'loss': 0.1878, 'grad_norm': 31.85775307942637, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7501220703125, 'rewards/rejected': -3.708984375, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.455078125, 'logps/chosen': -392.75, 'logps/rejected': -116.625, 'logits/chosen': -0.909912109375, 'logits/rejected': -0.696533203125, 'epoch': 0.86}
 86%|███████████████████████████████████████████████████████████████████████████████▏            | 1760/2044 [9:00:49<1:30:19, 19.08s/it] 86%|███████████████████████████████████████████████████████████████████████████████▎            | 1761/2044 [9:01:08<1:29:51, 19.05s/it]                                                                                                                                         {'loss': 0.2387, 'grad_norm': 38.13845370061699, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.77978515625, 'rewards/rejected': -3.2734375, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.052734375, 'logps/chosen': -343.0, 'logps/rejected': -161.875, 'logits/chosen': -0.89111328125, 'logits/rejected': -0.8740234375, 'epoch': 0.86}
 86%|███████████████████████████████████████████████████████████████████████████████▎            | 1761/2044 [9:01:08<1:29:51, 19.05s/it] 86%|███████████████████████████████████████████████████████████████████████████████▎            | 1762/2044 [9:01:27<1:30:12, 19.19s/it]                                                                                                                                         {'loss': 0.2082, 'grad_norm': 37.91491550491578, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.48828125, 'rewards/rejected': -3.998046875, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.474609375, 'logps/chosen': -331.375, 'logps/rejected': -155.9375, 'logits/chosen': -0.8818359375, 'logits/rejected': -0.8447265625, 'epoch': 0.86}
 86%|███████████████████████████████████████████████████████████████████████████████▎            | 1762/2044 [9:01:27<1:30:12, 19.19s/it] 86%|███████████████████████████████████████████████████████████████████████████████▎            | 1763/2044 [9:01:46<1:29:02, 19.01s/it]                                                                                                                                         {'loss': 0.2065, 'grad_norm': 23.062254732848047, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.71484375, 'rewards/rejected': -3.3896484375, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.107421875, 'logps/chosen': -315.75, 'logps/rejected': -116.875, 'logits/chosen': -0.87255859375, 'logits/rejected': -0.7491455078125, 'epoch': 0.86}
 86%|███████████████████████████████████████████████████████████████████████████████▎            | 1763/2044 [9:01:46<1:29:02, 19.01s/it] 86%|███████████████████████████████████████████████████████████████████████████████▍            | 1764/2044 [9:02:04<1:27:30, 18.75s/it]                                                                                                                                         {'loss': 0.1696, 'grad_norm': 34.50563108994758, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.583984375, 'rewards/rejected': -3.56640625, 'rewards/accuracies': 0.875, 'rewards/margins': 4.15625, 'logps/chosen': -282.125, 'logps/rejected': -158.8125, 'logits/chosen': -0.8163223266601562, 'logits/rejected': -0.69873046875, 'epoch': 0.86}
 86%|███████████████████████████████████████████████████████████████████████████████▍            | 1764/2044 [9:02:04<1:27:30, 18.75s/it] 86%|███████████████████████████████████████████████████████████████████████████████▍            | 1765/2044 [9:02:23<1:27:17, 18.77s/it]                                                                                                                                         {'loss': 0.173, 'grad_norm': 26.469360841307093, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.66259765625, 'rewards/rejected': -3.693359375, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.35546875, 'logps/chosen': -266.0, 'logps/rejected': -123.375, 'logits/chosen': -0.897216796875, 'logits/rejected': -0.646728515625, 'epoch': 0.86}
 86%|███████████████████████████████████████████████████████████████████████████████▍            | 1765/2044 [9:02:23<1:27:17, 18.77s/it] 86%|███████████████████████████████████████████████████████████████████████████████▍            | 1766/2044 [9:02:42<1:28:22, 19.07s/it]                                                                                                                                         {'loss': 0.2286, 'grad_norm': 30.774520012783903, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.532684326171875, 'rewards/rejected': -2.9931640625, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.5234375, 'logps/chosen': -243.4375, 'logps/rejected': -148.5, 'logits/chosen': -0.7545166015625, 'logits/rejected': -0.71240234375, 'epoch': 0.86}
 86%|███████████████████████████████████████████████████████████████████████████████▍            | 1766/2044 [9:02:42<1:28:22, 19.07s/it] 86%|███████████████████████████████████████████████████████████████████████████████▌            | 1767/2044 [9:03:02<1:29:19, 19.35s/it]                                                                                                                                         {'loss': 0.2755, 'grad_norm': 52.11071697401747, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.582763671875, 'rewards/rejected': -3.0830078125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.666015625, 'logps/chosen': -326.4375, 'logps/rejected': -172.5, 'logits/chosen': -0.85125732421875, 'logits/rejected': -0.587158203125, 'epoch': 0.86}
 86%|███████████████████████████████████████████████████████████████████████████████▌            | 1767/2044 [9:03:02<1:29:19, 19.35s/it] 86%|███████████████████████████████████████████████████████████████████████████████▌            | 1768/2044 [9:03:22<1:28:48, 19.31s/it]                                                                                                                                         {'loss': 0.2204, 'grad_norm': 29.102570712681587, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.3717041015625, 'rewards/rejected': -3.220703125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.5966796875, 'logps/chosen': -309.375, 'logps/rejected': -133.3125, 'logits/chosen': -0.832275390625, 'logits/rejected': -0.6748046875, 'epoch': 0.87}
 86%|███████████████████████████████████████████████████████████████████████████████▌            | 1768/2044 [9:03:22<1:28:48, 19.31s/it] 87%|███████████████████████████████████████████████████████████████████████████████▌            | 1769/2044 [9:03:41<1:28:37, 19.33s/it]                                                                                                                                         {'loss': 0.265, 'grad_norm': 30.639329009950735, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.598297119140625, 'rewards/rejected': -3.212890625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.8134765625, 'logps/chosen': -283.125, 'logps/rejected': -149.4375, 'logits/chosen': -0.8642578125, 'logits/rejected': -0.69287109375, 'epoch': 0.87}
 87%|███████████████████████████████████████████████████████████████████████████████▌            | 1769/2044 [9:03:41<1:28:37, 19.33s/it] 87%|███████████████████████████████████████████████████████████████████████████████▋            | 1770/2044 [9:04:00<1:27:23, 19.14s/it]                                                                                                                                         {'loss': 0.2006, 'grad_norm': 28.3048988355241, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5382080078125, 'rewards/rejected': -3.685546875, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.21484375, 'logps/chosen': -298.875, 'logps/rejected': -114.875, 'logits/chosen': -0.8974609375, 'logits/rejected': -0.6490020751953125, 'epoch': 0.87}
 87%|███████████████████████████████████████████████████████████████████████████████▋            | 1770/2044 [9:04:00<1:27:23, 19.14s/it] 87%|███████████████████████████████████████████████████████████████████████████████▋            | 1771/2044 [9:04:19<1:27:46, 19.29s/it]                                                                                                                                         {'loss': 0.282, 'grad_norm': 41.969200145703404, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.494140625, 'rewards/rejected': -2.861328125, 'rewards/accuracies': 0.8125, 'rewards/margins': 3.359375, 'logps/chosen': -302.375, 'logps/rejected': -166.5, 'logits/chosen': -0.845947265625, 'logits/rejected': -0.9091796875, 'epoch': 0.87}
 87%|███████████████████████████████████████████████████████████████████████████████▋            | 1771/2044 [9:04:19<1:27:46, 19.29s/it] 87%|███████████████████████████████████████████████████████████████████████████████▊            | 1772/2044 [9:04:37<1:25:50, 18.94s/it]                                                                                                                                         {'loss': 0.1392, 'grad_norm': 22.394778682149177, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.2607421875, 'rewards/rejected': -3.78125, 'rewards/accuracies': 0.96875, 'rewards/margins': 4.037109375, 'logps/chosen': -291.25, 'logps/rejected': -113.4375, 'logits/chosen': -0.99658203125, 'logits/rejected': -0.5943603515625, 'epoch': 0.87}
 87%|███████████████████████████████████████████████████████████████████████████████▊            | 1772/2044 [9:04:37<1:25:50, 18.94s/it] 87%|███████████████████████████████████████████████████████████████████████████████▊            | 1773/2044 [9:04:57<1:26:49, 19.22s/it]                                                                                                                                         {'loss': 0.3153, 'grad_norm': 52.25039281304734, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5380859375, 'rewards/rejected': -2.80859375, 'rewards/accuracies': 0.796875, 'rewards/margins': 3.34375, 'logps/chosen': -272.25, 'logps/rejected': -183.5625, 'logits/chosen': -0.93798828125, 'logits/rejected': -0.8486328125, 'epoch': 0.87}
 87%|███████████████████████████████████████████████████████████████████████████████▊            | 1773/2044 [9:04:57<1:26:49, 19.22s/it] 87%|███████████████████████████████████████████████████████████████████████████████▊            | 1774/2044 [9:05:17<1:26:26, 19.21s/it]                                                                                                                                         {'loss': 0.2041, 'grad_norm': 37.62249175577616, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7493896484375, 'rewards/rejected': -3.1337890625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.8779296875, 'logps/chosen': -305.875, 'logps/rejected': -169.0625, 'logits/chosen': -0.91259765625, 'logits/rejected': -0.782958984375, 'epoch': 0.87}
 87%|███████████████████████████████████████████████████████████████████████████████▊            | 1774/2044 [9:05:17<1:26:26, 19.21s/it] 87%|███████████████████████████████████████████████████████████████████████████████▉            | 1775/2044 [9:05:36<1:25:57, 19.17s/it]                                                                                                                                         {'loss': 0.2103, 'grad_norm': 30.237360856986847, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.50054931640625, 'rewards/rejected': -3.484375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.982421875, 'logps/chosen': -283.75, 'logps/rejected': -152.6875, 'logits/chosen': -0.8662109375, 'logits/rejected': -0.788330078125, 'epoch': 0.87}
 87%|███████████████████████████████████████████████████████████████████████████████▉            | 1775/2044 [9:05:36<1:25:57, 19.17s/it] 87%|███████████████████████████████████████████████████████████████████████████████▉            | 1776/2044 [9:05:55<1:25:52, 19.22s/it]                                                                                                                                         {'loss': 0.2222, 'grad_norm': 32.33921600363972, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.405517578125, 'rewards/rejected': -3.451171875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.849609375, 'logps/chosen': -276.5, 'logps/rejected': -145.375, 'logits/chosen': -0.87060546875, 'logits/rejected': -0.877197265625, 'epoch': 0.87}
 87%|███████████████████████████████████████████████████████████████████████████████▉            | 1776/2044 [9:05:55<1:25:52, 19.22s/it] 87%|███████████████████████████████████████████████████████████████████████████████▉            | 1777/2044 [9:06:14<1:25:12, 19.15s/it]                                                                                                                                         {'loss': 0.2028, 'grad_norm': 32.17921889343274, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.64306640625, 'rewards/rejected': -3.3525390625, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.9970703125, 'logps/chosen': -341.5, 'logps/rejected': -138.0625, 'logits/chosen': -0.843505859375, 'logits/rejected': -0.80712890625, 'epoch': 0.87}
 87%|███████████████████████████████████████████████████████████████████████████████▉            | 1777/2044 [9:06:14<1:25:12, 19.15s/it] 87%|████████████████████████████████████████████████████████████████████████████████            | 1778/2044 [9:06:33<1:25:24, 19.27s/it]                                                                                                                                         {'loss': 0.1768, 'grad_norm': 23.993402841550864, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7884979248046875, 'rewards/rejected': -3.447265625, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.23828125, 'logps/chosen': -315.625, 'logps/rejected': -140.625, 'logits/chosen': -0.919189453125, 'logits/rejected': -0.743408203125, 'epoch': 0.87}
 87%|████████████████████████████████████████████████████████████████████████████████            | 1778/2044 [9:06:33<1:25:24, 19.27s/it] 87%|████████████████████████████████████████████████████████████████████████████████            | 1779/2044 [9:06:51<1:22:57, 18.78s/it]                                                                                                                                         {'loss': 0.1797, 'grad_norm': 29.62799998710429, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.53662109375, 'rewards/rejected': -3.845703125, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.380859375, 'logps/chosen': -297.25, 'logps/rejected': -141.5, 'logits/chosen': -0.8837890625, 'logits/rejected': -0.580322265625, 'epoch': 0.87}
 87%|████████████████████████████████████████████████████████████████████████████████            | 1779/2044 [9:06:51<1:22:57, 18.78s/it] 87%|████████████████████████████████████████████████████████████████████████████████            | 1780/2044 [9:07:11<1:23:45, 19.04s/it]                                                                                                                                         {'loss': 0.2563, 'grad_norm': 51.1072397977878, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.387939453125, 'rewards/rejected': -3.109375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.5, 'logps/chosen': -305.75, 'logps/rejected': -200.375, 'logits/chosen': -0.896484375, 'logits/rejected': -0.7421875, 'epoch': 0.87}
 87%|████████████████████████████████████████████████████████████████████████████████            | 1780/2044 [9:07:11<1:23:45, 19.04s/it] 87%|████████████████████████████████████████████████████████████████████████████████▏           | 1781/2044 [9:07:30<1:24:09, 19.20s/it]                                                                                                                                         {'loss': 0.2103, 'grad_norm': 51.87415030226189, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5677490234375, 'rewards/rejected': -3.578125, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.1484375, 'logps/chosen': -323.25, 'logps/rejected': -122.625, 'logits/chosen': -0.91357421875, 'logits/rejected': -0.84814453125, 'epoch': 0.87}
 87%|████████████████████████████████████████████████████████████████████████████████▏           | 1781/2044 [9:07:30<1:24:09, 19.20s/it] 87%|████████████████████████████████████████████████████████████████████████████████▏           | 1782/2044 [9:07:48<1:21:31, 18.67s/it]                                                                                                                                         {'loss': 0.1712, 'grad_norm': 29.81690991851542, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.322509765625, 'rewards/rejected': -3.87109375, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.193359375, 'logps/chosen': -271.4375, 'logps/rejected': -167.6875, 'logits/chosen': -0.8357028961181641, 'logits/rejected': -0.6597900390625, 'epoch': 0.87}
 87%|████████████████████████████████████████████████████████████████████████████████▏           | 1782/2044 [9:07:48<1:21:31, 18.67s/it] 87%|████████████████████████████████████████████████████████████████████████████████▎           | 1783/2044 [9:08:08<1:23:17, 19.15s/it]                                                                                                                                         {'loss': 0.2158, 'grad_norm': 26.525224884435357, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.379730224609375, 'rewards/rejected': -3.2275390625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.607421875, 'logps/chosen': -358.375, 'logps/rejected': -211.875, 'logits/chosen': -0.8935546875, 'logits/rejected': -0.79595947265625, 'epoch': 0.87}
 87%|████████████████████████████████████████████████████████████████████████████████▎           | 1783/2044 [9:08:08<1:23:17, 19.15s/it] 87%|████████████████████████████████████████████████████████████████████████████████▎           | 1784/2044 [9:08:28<1:23:38, 19.30s/it]                                                                                                                                         {'loss': 0.194, 'grad_norm': 27.009535295233544, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.437255859375, 'rewards/rejected': -3.576171875, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.015625, 'logps/chosen': -307.625, 'logps/rejected': -144.625, 'logits/chosen': -0.9560546875, 'logits/rejected': -0.791748046875, 'epoch': 0.87}
 87%|████████████████████████████████████████████████████████████████████████████████▎           | 1784/2044 [9:08:28<1:23:38, 19.30s/it] 87%|████████████████████████████████████████████████████████████████████████████████▎           | 1785/2044 [9:08:46<1:21:36, 18.90s/it]                                                                                                                                         {'loss': 0.1331, 'grad_norm': 22.570049399376952, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.500732421875, 'rewards/rejected': -3.9609375, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.458984375, 'logps/chosen': -251.625, 'logps/rejected': -138.375, 'logits/chosen': -0.90185546875, 'logits/rejected': -0.679931640625, 'epoch': 0.87}
 87%|████████████████████████████████████████████████████████████████████████████████▎           | 1785/2044 [9:08:46<1:21:36, 18.90s/it] 87%|████████████████████████████████████████████████████████████████████████████████▍           | 1786/2044 [9:09:05<1:21:49, 19.03s/it]                                                                                                                                         {'loss': 0.2191, 'grad_norm': 35.5064887363187, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.407958984375, 'rewards/rejected': -3.6875, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.099609375, 'logps/chosen': -325.5625, 'logps/rejected': -124.1875, 'logits/chosen': -0.982421875, 'logits/rejected': -0.660919189453125, 'epoch': 0.87}
 87%|████████████████████████████████████████████████████████████████████████████████▍           | 1786/2044 [9:09:05<1:21:49, 19.03s/it] 87%|████████████████████████████████████████████████████████████████████████████████▍           | 1787/2044 [9:09:25<1:22:59, 19.38s/it]                                                                                                                                         {'loss': 0.2092, 'grad_norm': 47.44212928998636, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.020294189453125, 'rewards/rejected': -3.703125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.724609375, 'logps/chosen': -303.125, 'logps/rejected': -175.9375, 'logits/chosen': -0.848876953125, 'logits/rejected': -0.91015625, 'epoch': 0.87}
 87%|████████████████████████████████████████████████████████████████████████████████▍           | 1787/2044 [9:09:25<1:22:59, 19.38s/it] 87%|████████████████████████████████████████████████████████████████████████████████▍           | 1788/2044 [9:09:45<1:23:39, 19.61s/it]                                                                                                                                         {'loss': 0.2584, 'grad_norm': 43.61989235367366, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.44140625, 'rewards/rejected': -3.244140625, 'rewards/accuracies': 0.8125, 'rewards/margins': 3.6875, 'logps/chosen': -290.375, 'logps/rejected': -185.0, 'logits/chosen': -0.98095703125, 'logits/rejected': -0.96484375, 'epoch': 0.87}
 87%|████████████████████████████████████████████████████████████████████████████████▍           | 1788/2044 [9:09:45<1:23:39, 19.61s/it] 88%|████████████████████████████████████████████████████████████████████████████████▌           | 1789/2044 [9:10:04<1:22:00, 19.30s/it]                                                                                                                                         {'loss': 0.2527, 'grad_norm': 28.620071423550492, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.17108154296875, 'rewards/rejected': -3.251953125, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.423828125, 'logps/chosen': -253.5, 'logps/rejected': -161.6875, 'logits/chosen': -0.97021484375, 'logits/rejected': -0.7125244140625, 'epoch': 0.88}
 88%|████████████████████████████████████████████████████████████████████████████████▌           | 1789/2044 [9:10:04<1:22:00, 19.30s/it] 88%|████████████████████████████████████████████████████████████████████████████████▌           | 1790/2044 [9:10:24<1:22:03, 19.38s/it]                                                                                                                                         {'loss': 0.1713, 'grad_norm': 29.47849413156976, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.450439453125, 'rewards/rejected': -3.546875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.9921875, 'logps/chosen': -319.1875, 'logps/rejected': -149.4375, 'logits/chosen': -0.881591796875, 'logits/rejected': -1.01171875, 'epoch': 0.88}
 88%|████████████████████████████████████████████████████████████████████████████████▌           | 1790/2044 [9:10:24<1:22:03, 19.38s/it] 88%|████████████████████████████████████████████████████████████████████████████████▌           | 1791/2044 [9:10:42<1:21:02, 19.22s/it]                                                                                                                                         {'loss': 0.231, 'grad_norm': 30.60695955890989, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.3385009765625, 'rewards/rejected': -3.791015625, 'rewards/accuracies': 0.859375, 'rewards/margins': 4.12890625, 'logps/chosen': -263.5, 'logps/rejected': -131.75, 'logits/chosen': -0.8353271484375, 'logits/rejected': -0.549102783203125, 'epoch': 0.88}
 88%|████████████████████████████████████████████████████████████████████████████████▌           | 1791/2044 [9:10:42<1:21:02, 19.22s/it] 88%|████████████████████████████████████████████████████████████████████████████████▋           | 1792/2044 [9:11:02<1:21:38, 19.44s/it]                                                                                                                                         {'loss': 0.2031, 'grad_norm': 24.926015876311705, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6651611328125, 'rewards/rejected': -3.51171875, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.181640625, 'logps/chosen': -279.875, 'logps/rejected': -147.3125, 'logits/chosen': -0.8585205078125, 'logits/rejected': -0.84423828125, 'epoch': 0.88}
 88%|████████████████████████████████████████████████████████████████████████████████▋           | 1792/2044 [9:11:02<1:21:38, 19.44s/it] 88%|████████████████████████████████████████████████████████████████████████████████▋           | 1793/2044 [9:11:21<1:20:32, 19.25s/it]                                                                                                                                         {'loss': 0.2126, 'grad_norm': 30.714924038556493, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.732177734375, 'rewards/rejected': -3.48046875, 'rewards/accuracies': 0.859375, 'rewards/margins': 4.212890625, 'logps/chosen': -324.875, 'logps/rejected': -135.5625, 'logits/chosen': -0.7108154296875, 'logits/rejected': -0.71875, 'epoch': 0.88}
 88%|████████████████████████████████████████████████████████████████████████████████▋           | 1793/2044 [9:11:21<1:20:32, 19.25s/it] 88%|████████████████████████████████████████████████████████████████████████████████▋           | 1794/2044 [9:11:41<1:21:04, 19.46s/it]                                                                                                                                         {'loss': 0.3021, 'grad_norm': 46.248553449593516, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.616455078125, 'rewards/rejected': -3.32421875, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.939453125, 'logps/chosen': -313.375, 'logps/rejected': -165.625, 'logits/chosen': -0.97021484375, 'logits/rejected': -0.881103515625, 'epoch': 0.88}
 88%|████████████████████████████████████████████████████████████████████████████████▋           | 1794/2044 [9:11:41<1:21:04, 19.46s/it] 88%|████████████████████████████████████████████████████████████████████████████████▊           | 1795/2044 [9:11:59<1:19:01, 19.04s/it]                                                                                                                                         {'loss': 0.1828, 'grad_norm': 25.779175912578108, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.568115234375, 'rewards/rejected': -3.94140625, 'rewards/accuracies': 0.859375, 'rewards/margins': 4.5078125, 'logps/chosen': -325.125, 'logps/rejected': -186.0, 'logits/chosen': -0.7763671875, 'logits/rejected': -0.6431884765625, 'epoch': 0.88}
 88%|████████████████████████████████████████████████████████████████████████████████▊           | 1795/2044 [9:11:59<1:19:01, 19.04s/it] 88%|████████████████████████████████████████████████████████████████████████████████▊           | 1796/2044 [9:12:19<1:19:31, 19.24s/it]                                                                                                                                         {'loss': 0.1678, 'grad_norm': 28.70659718418336, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8023681640625, 'rewards/rejected': -3.48046875, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.287109375, 'logps/chosen': -344.75, 'logps/rejected': -143.1875, 'logits/chosen': -0.8662109375, 'logits/rejected': -0.92822265625, 'epoch': 0.88}
 88%|████████████████████████████████████████████████████████████████████████████████▊           | 1796/2044 [9:12:19<1:19:31, 19.24s/it] 88%|████████████████████████████████████████████████████████████████████████████████▉           | 1797/2044 [9:12:39<1:20:03, 19.45s/it]                                                                                                                                         {'loss': 0.2111, 'grad_norm': 32.63474874149845, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': -0.040374755859375, 'rewards/rejected': -3.693359375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.654296875, 'logps/chosen': -232.9375, 'logps/rejected': -136.9375, 'logits/chosen': -0.748779296875, 'logits/rejected': -0.749755859375, 'epoch': 0.88}
 88%|████████████████████████████████████████████████████████████████████████████████▉           | 1797/2044 [9:12:39<1:20:03, 19.45s/it] 88%|████████████████████████████████████████████████████████████████████████████████▉           | 1798/2044 [9:12:58<1:19:55, 19.50s/it]                                                                                                                                         {'loss': 0.2427, 'grad_norm': 40.308175012770604, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.55224609375, 'rewards/rejected': -3.1806640625, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.73828125, 'logps/chosen': -331.375, 'logps/rejected': -159.625, 'logits/chosen': -0.94970703125, 'logits/rejected': -0.789306640625, 'epoch': 0.88}
 88%|████████████████████████████████████████████████████████████████████████████████▉           | 1798/2044 [9:12:58<1:19:55, 19.50s/it] 88%|████████████████████████████████████████████████████████████████████████████████▉           | 1799/2044 [9:13:18<1:19:37, 19.50s/it]                                                                                                                                         {'loss': 0.1955, 'grad_norm': 27.978790452019393, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.80859375, 'rewards/rejected': -3.4609375, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.2705078125, 'logps/chosen': -388.5625, 'logps/rejected': -202.0, 'logits/chosen': -0.915283203125, 'logits/rejected': -0.7918701171875, 'epoch': 0.88}
 88%|████████████████████████████████████████████████████████████████████████████████▉           | 1799/2044 [9:13:18<1:19:37, 19.50s/it] 88%|█████████████████████████████████████████████████████████████████████████████████           | 1800/2044 [9:13:37<1:19:17, 19.50s/it]                                                                                                                                         {'loss': 0.1998, 'grad_norm': 25.82751035563472, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.61346435546875, 'rewards/rejected': -3.2841796875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.896484375, 'logps/chosen': -351.5, 'logps/rejected': -122.375, 'logits/chosen': -1.05419921875, 'logits/rejected': -0.722900390625, 'epoch': 0.88}
 88%|█████████████████████████████████████████████████████████████████████████████████           | 1800/2044 [9:13:37<1:19:17, 19.50s/it] 88%|█████████████████████████████████████████████████████████████████████████████████           | 1801/2044 [9:13:57<1:19:35, 19.65s/it]                                                                                                                                         {'loss': 0.2249, 'grad_norm': 26.918136004523543, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.689697265625, 'rewards/rejected': -2.998046875, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.689453125, 'logps/chosen': -308.875, 'logps/rejected': -162.3125, 'logits/chosen': -0.998046875, 'logits/rejected': -0.89306640625, 'epoch': 0.88}
 88%|█████████████████████████████████████████████████████████████████████████████████           | 1801/2044 [9:13:57<1:19:35, 19.65s/it] 88%|█████████████████████████████████████████████████████████████████████████████████           | 1802/2044 [9:14:17<1:18:59, 19.59s/it]                                                                                                                                         {'loss': 0.2101, 'grad_norm': 27.16313363672175, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.722412109375, 'rewards/rejected': -3.419921875, 'rewards/accuracies': 0.859375, 'rewards/margins': 4.13671875, 'logps/chosen': -312.25, 'logps/rejected': -121.4375, 'logits/chosen': -0.93701171875, 'logits/rejected': -0.62786865234375, 'epoch': 0.88}
 88%|█████████████████████████████████████████████████████████████████████████████████           | 1802/2044 [9:14:17<1:18:59, 19.59s/it] 88%|█████████████████████████████████████████████████████████████████████████████████▏          | 1803/2044 [9:14:37<1:19:22, 19.76s/it]                                                                                                                                         {'loss': 0.1824, 'grad_norm': 28.69011469047757, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.746826171875, 'rewards/rejected': -3.48046875, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.228515625, 'logps/chosen': -353.5, 'logps/rejected': -206.1875, 'logits/chosen': -0.7698974609375, 'logits/rejected': -0.908203125, 'epoch': 0.88}
 88%|█████████████████████████████████████████████████████████████████████████████████▏          | 1803/2044 [9:14:37<1:19:22, 19.76s/it] 88%|█████████████████████████████████████████████████████████████████████████████████▏          | 1804/2044 [9:14:55<1:17:19, 19.33s/it]                                                                                                                                         {'loss': 0.1784, 'grad_norm': 32.95751636357622, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.72509765625, 'rewards/rejected': -3.6103515625, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.3359375, 'logps/chosen': -333.4375, 'logps/rejected': -122.3125, 'logits/chosen': -0.888671875, 'logits/rejected': -0.55078125, 'epoch': 0.88}
 88%|█████████████████████████████████████████████████████████████████████████████████▏          | 1804/2044 [9:14:55<1:17:19, 19.33s/it] 88%|█████████████████████████████████████████████████████████████████████████████████▏          | 1805/2044 [9:15:13<1:15:30, 18.96s/it]                                                                                                                                         {'loss': 0.1977, 'grad_norm': 29.35093876705238, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.2666015625, 'rewards/rejected': -3.833984375, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.095703125, 'logps/chosen': -242.5, 'logps/rejected': -137.0625, 'logits/chosen': -0.857666015625, 'logits/rejected': -0.678955078125, 'epoch': 0.88}
 88%|█████████████████████████████████████████████████████████████████████████████████▏          | 1805/2044 [9:15:13<1:15:30, 18.96s/it] 88%|█████████████████████████████████████████████████████████████████████████████████▎          | 1806/2044 [9:15:34<1:16:41, 19.33s/it]                                                                                                                                         {'loss': 0.2961, 'grad_norm': 33.25664671549092, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.595703125, 'rewards/rejected': -3.025390625, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.6201171875, 'logps/chosen': -307.125, 'logps/rejected': -157.625, 'logits/chosen': -1.02392578125, 'logits/rejected': -0.93798828125, 'epoch': 0.88}
 88%|█████████████████████████████████████████████████████████████████████████████████▎          | 1806/2044 [9:15:34<1:16:41, 19.33s/it] 88%|█████████████████████████████████████████████████████████████████████████████████▎          | 1807/2044 [9:15:53<1:16:11, 19.29s/it]                                                                                                                                         {'loss': 0.2114, 'grad_norm': 29.80255209354506, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.47393798828125, 'rewards/rejected': -3.654296875, 'rewards/accuracies': 0.859375, 'rewards/margins': 4.1279296875, 'logps/chosen': -261.625, 'logps/rejected': -160.125, 'logits/chosen': -0.83056640625, 'logits/rejected': -0.748046875, 'epoch': 0.88}
 88%|█████████████████████████████████████████████████████████████████████████████████▎          | 1807/2044 [9:15:53<1:16:11, 19.29s/it] 88%|█████████████████████████████████████████████████████████████████████████████████▍          | 1808/2044 [9:16:12<1:15:50, 19.28s/it]                                                                                                                                         {'loss': 0.2258, 'grad_norm': 31.315735705756968, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8289794921875, 'rewards/rejected': -3.267578125, 'rewards/accuracies': 0.875, 'rewards/margins': 4.09765625, 'logps/chosen': -334.5, 'logps/rejected': -146.4375, 'logits/chosen': -0.9052734375, 'logits/rejected': -0.753662109375, 'epoch': 0.88}
 88%|█████████████████████████████████████████████████████████████████████████████████▍          | 1808/2044 [9:16:12<1:15:50, 19.28s/it] 89%|█████████████████████████████████████████████████████████████████████████████████▍          | 1809/2044 [9:16:32<1:16:16, 19.47s/it]                                                                                                                                         {'loss': 0.2704, 'grad_norm': 49.622575979478505, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.50164794921875, 'rewards/rejected': -3.201171875, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.69921875, 'logps/chosen': -324.125, 'logps/rejected': -177.6875, 'logits/chosen': -0.90478515625, 'logits/rejected': -0.684814453125, 'epoch': 0.89}
 89%|█████████████████████████████████████████████████████████████████████████████████▍          | 1809/2044 [9:16:32<1:16:16, 19.47s/it] 89%|█████████████████████████████████████████████████████████████████████████████████▍          | 1810/2044 [9:16:51<1:15:25, 19.34s/it]                                                                                                                                         {'loss': 0.1763, 'grad_norm': 31.128253130631204, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7454833984375, 'rewards/rejected': -3.73828125, 'rewards/accuracies': 0.859375, 'rewards/margins': 4.48046875, 'logps/chosen': -360.875, 'logps/rejected': -153.8125, 'logits/chosen': -0.914306640625, 'logits/rejected': -0.72607421875, 'epoch': 0.89}
 89%|█████████████████████████████████████████████████████████████████████████████████▍          | 1810/2044 [9:16:51<1:15:25, 19.34s/it] 89%|█████████████████████████████████████████████████████████████████████████████████▌          | 1811/2044 [9:17:09<1:13:52, 19.02s/it]                                                                                                                                         {'loss': 0.2112, 'grad_norm': 25.03949715518828, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.466796875, 'rewards/rejected': -3.625, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.1015625, 'logps/chosen': -317.9375, 'logps/rejected': -134.125, 'logits/chosen': -0.97216796875, 'logits/rejected': -0.8076171875, 'epoch': 0.89}
 89%|█████████████████████████████████████████████████████████████████████████████████▌          | 1811/2044 [9:17:09<1:13:52, 19.02s/it] 89%|█████████████████████████████████████████████████████████████████████████████████▌          | 1812/2044 [9:17:29<1:14:07, 19.17s/it]                                                                                                                                         {'loss': 0.1522, 'grad_norm': 25.63309117830408, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5762939453125, 'rewards/rejected': -3.75390625, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.328125, 'logps/chosen': -300.125, 'logps/rejected': -132.5625, 'logits/chosen': -0.8798828125, 'logits/rejected': -0.5916748046875, 'epoch': 0.89}
 89%|█████████████████████████████████████████████████████████████████████████████████▌          | 1812/2044 [9:17:29<1:14:07, 19.17s/it] 89%|█████████████████████████████████████████████████████████████████████████████████▌          | 1813/2044 [9:17:49<1:15:07, 19.51s/it]                                                                                                                                         {'loss': 0.181, 'grad_norm': 28.678357515950253, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9202880859375, 'rewards/rejected': -3.59375, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.509765625, 'logps/chosen': -380.5, 'logps/rejected': -159.125, 'logits/chosen': -0.951416015625, 'logits/rejected': -0.875, 'epoch': 0.89}
 89%|█████████████████████████████████████████████████████████████████████████████████▌          | 1813/2044 [9:17:49<1:15:07, 19.51s/it] 89%|█████████████████████████████████████████████████████████████████████████████████▋          | 1814/2044 [9:18:09<1:14:45, 19.50s/it]                                                                                                                                         {'loss': 0.2264, 'grad_norm': 30.213179629603285, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.521240234375, 'rewards/rejected': -3.2158203125, 'rewards/accuracies': 0.875, 'rewards/margins': 3.736328125, 'logps/chosen': -378.8125, 'logps/rejected': -180.125, 'logits/chosen': -0.823486328125, 'logits/rejected': -0.742431640625, 'epoch': 0.89}
 89%|█████████████████████████████████████████████████████████████████████████████████▋          | 1814/2044 [9:18:09<1:14:45, 19.50s/it] 89%|█████████████████████████████████████████████████████████████████████████████████▋          | 1815/2044 [9:18:28<1:14:53, 19.62s/it]                                                                                                                                         {'loss': 0.2372, 'grad_norm': 35.06518256210508, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.553070068359375, 'rewards/rejected': -3.376953125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.92578125, 'logps/chosen': -238.25, 'logps/rejected': -173.25, 'logits/chosen': -0.7186279296875, 'logits/rejected': -0.86328125, 'epoch': 0.89}
 89%|█████████████████████████████████████████████████████████████████████████████████▋          | 1815/2044 [9:18:28<1:14:53, 19.62s/it] 89%|█████████████████████████████████████████████████████████████████████████████████▋          | 1816/2044 [9:18:48<1:14:37, 19.64s/it]                                                                                                                                         {'loss': 0.1872, 'grad_norm': 29.272411468998808, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.60546875, 'rewards/rejected': -3.53515625, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.142578125, 'logps/chosen': -313.875, 'logps/rejected': -166.8125, 'logits/chosen': -0.7890625, 'logits/rejected': -0.91259765625, 'epoch': 0.89}
 89%|█████████████████████████████████████████████████████████████████████████████████▋          | 1816/2044 [9:18:48<1:14:37, 19.64s/it] 89%|█████████████████████████████████████████████████████████████████████████████████▊          | 1817/2044 [9:19:07<1:13:21, 19.39s/it]                                                                                                                                         {'loss': 0.1563, 'grad_norm': 24.522752296098304, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8204345703125, 'rewards/rejected': -3.912109375, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.734375, 'logps/chosen': -319.875, 'logps/rejected': -123.6875, 'logits/chosen': -0.796875, 'logits/rejected': -0.461181640625, 'epoch': 0.89}
 89%|█████████████████████████████████████████████████████████████████████████████████▊          | 1817/2044 [9:19:07<1:13:21, 19.39s/it] 89%|█████████████████████████████████████████████████████████████████████████████████▊          | 1818/2044 [9:19:25<1:11:57, 19.11s/it]                                                                                                                                         {'loss': 0.202, 'grad_norm': 30.224702860739274, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.2996826171875, 'rewards/rejected': -3.908203125, 'rewards/accuracies': 0.875, 'rewards/margins': 4.203125, 'logps/chosen': -329.875, 'logps/rejected': -124.875, 'logits/chosen': -0.884765625, 'logits/rejected': -0.720703125, 'epoch': 0.89}
 89%|█████████████████████████████████████████████████████████████████████████████████▊          | 1818/2044 [9:19:25<1:11:57, 19.11s/it] 89%|█████████████████████████████████████████████████████████████████████████████████▊          | 1819/2044 [9:19:46<1:13:13, 19.53s/it]                                                                                                                                         {'loss': 0.2302, 'grad_norm': 39.75561195916166, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9677734375, 'rewards/rejected': -3.3017578125, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.263671875, 'logps/chosen': -384.25, 'logps/rejected': -150.75, 'logits/chosen': -0.96728515625, 'logits/rejected': -0.95068359375, 'epoch': 0.89}
 89%|█████████████████████████████████████████████████████████████████████████████████▊          | 1819/2044 [9:19:46<1:13:13, 19.53s/it] 89%|█████████████████████████████████████████████████████████████████████████████████▉          | 1820/2044 [9:20:06<1:13:21, 19.65s/it]                                                                                                                                         {'loss': 0.34, 'grad_norm': 41.042750321477534, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.37579345703125, 'rewards/rejected': -3.0986328125, 'rewards/accuracies': 0.765625, 'rewards/margins': 3.4716796875, 'logps/chosen': -321.625, 'logps/rejected': -155.1875, 'logits/chosen': -1.05322265625, 'logits/rejected': -0.74755859375, 'epoch': 0.89}
 89%|█████████████████████████████████████████████████████████████████████████████████▉          | 1820/2044 [9:20:06<1:13:21, 19.65s/it] 89%|█████████████████████████████████████████████████████████████████████████████████▉          | 1821/2044 [9:20:26<1:13:43, 19.83s/it]                                                                                                                                         {'loss': 0.2433, 'grad_norm': 30.315712923810437, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.32147216796875, 'rewards/rejected': -2.79443359375, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.1142578125, 'logps/chosen': -280.375, 'logps/rejected': -161.4375, 'logits/chosen': -1.0068359375, 'logits/rejected': -0.88818359375, 'epoch': 0.89}
 89%|█████████████████████████████████████████████████████████████████████████████████▉          | 1821/2044 [9:20:26<1:13:43, 19.83s/it] 89%|██████████████████████████████████████████████████████████████████████████████████          | 1822/2044 [9:20:45<1:12:43, 19.66s/it]                                                                                                                                         {'loss': 0.1898, 'grad_norm': 27.58935710942478, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': -0.11883544921875, 'rewards/rejected': -3.732421875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.61328125, 'logps/chosen': -237.3125, 'logps/rejected': -128.875, 'logits/chosen': -0.99951171875, 'logits/rejected': -0.787109375, 'epoch': 0.89}
 89%|██████████████████████████████████████████████████████████████████████████████████          | 1822/2044 [9:20:45<1:12:43, 19.66s/it] 89%|██████████████████████████████████████████████████████████████████████████████████          | 1823/2044 [9:21:06<1:12:54, 19.80s/it]                                                                                                                                         {'loss': 0.1791, 'grad_norm': 23.510812253203405, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.3267822265625, 'rewards/rejected': -3.68359375, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.015625, 'logps/chosen': -285.1875, 'logps/rejected': -149.625, 'logits/chosen': -0.7744140625, 'logits/rejected': -0.7919921875, 'epoch': 0.89}
 89%|██████████████████████████████████████████████████████████████████████████████████          | 1823/2044 [9:21:06<1:12:54, 19.80s/it] 89%|██████████████████████████████████████████████████████████████████████████████████          | 1824/2044 [9:21:25<1:11:59, 19.64s/it]                                                                                                                                         {'loss': 0.2626, 'grad_norm': 37.67047603930488, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.600921630859375, 'rewards/rejected': -3.3017578125, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.90234375, 'logps/chosen': -339.5, 'logps/rejected': -162.5, 'logits/chosen': -0.99169921875, 'logits/rejected': -0.71881103515625, 'epoch': 0.89}
 89%|██████████████████████████████████████████████████████████████████████████████████          | 1824/2044 [9:21:25<1:11:59, 19.64s/it] 89%|██████████████████████████████████████████████████████████████████████████████████▏         | 1825/2044 [9:21:45<1:12:00, 19.73s/it]                                                                                                                                         {'loss': 0.1851, 'grad_norm': 34.19094543766164, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.81396484375, 'rewards/rejected': -3.478515625, 'rewards/accuracies': 0.875, 'rewards/margins': 4.294921875, 'logps/chosen': -362.25, 'logps/rejected': -173.75, 'logits/chosen': -0.80078125, 'logits/rejected': -0.5265350341796875, 'epoch': 0.89}
 89%|██████████████████████████████████████████████████████████████████████████████████▏         | 1825/2044 [9:21:45<1:12:00, 19.73s/it] 89%|██████████████████████████████████████████████████████████████████████████████████▏         | 1826/2044 [9:22:04<1:11:26, 19.66s/it]                                                                                                                                         {'loss': 0.2557, 'grad_norm': 33.46662390640023, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.468902587890625, 'rewards/rejected': -3.1923828125, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.666015625, 'logps/chosen': -274.0, 'logps/rejected': -149.75, 'logits/chosen': -1.03466796875, 'logits/rejected': -0.84423828125, 'epoch': 0.89}
 89%|██████████████████████████████████████████████████████████████████████████████████▏         | 1826/2044 [9:22:04<1:11:26, 19.66s/it] 89%|██████████████████████████████████████████████████████████████████████████████████▏         | 1827/2044 [9:22:22<1:08:57, 19.07s/it]                                                                                                                                         {'loss': 0.1961, 'grad_norm': 27.402598342794878, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.317138671875, 'rewards/rejected': -3.6787109375, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.0, 'logps/chosen': -246.125, 'logps/rejected': -119.9375, 'logits/chosen': -0.8623046875, 'logits/rejected': -0.75732421875, 'epoch': 0.89}
 89%|██████████████████████████████████████████████████████████████████████████████████▏         | 1827/2044 [9:22:22<1:08:57, 19.07s/it] 89%|██████████████████████████████████████████████████████████████████████████████████▎         | 1828/2044 [9:22:42<1:09:38, 19.35s/it]                                                                                                                                         {'loss': 0.1992, 'grad_norm': 31.51069987302212, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.70574951171875, 'rewards/rejected': -3.765625, 'rewards/accuracies': 0.875, 'rewards/margins': 4.46484375, 'logps/chosen': -364.75, 'logps/rejected': -163.0, 'logits/chosen': -0.899658203125, 'logits/rejected': -0.8583984375, 'epoch': 0.89}
 89%|██████████████████████████████████████████████████████████████████████████████████▎         | 1828/2044 [9:22:42<1:09:38, 19.35s/it] 89%|██████████████████████████████████████████████████████████████████████████████████▎         | 1829/2044 [9:23:02<1:09:55, 19.52s/it]                                                                                                                                         {'loss': 0.2466, 'grad_norm': 36.23205152782003, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.465087890625, 'rewards/rejected': -3.236328125, 'rewards/accuracies': 0.875, 'rewards/margins': 3.6953125, 'logps/chosen': -306.875, 'logps/rejected': -144.5625, 'logits/chosen': -0.9697265625, 'logits/rejected': -0.7156982421875, 'epoch': 0.89}
 89%|██████████████████████████████████████████████████████████████████████████████████▎         | 1829/2044 [9:23:02<1:09:55, 19.52s/it] 90%|██████████████████████████████████████████████████████████████████████████████████▎         | 1830/2044 [9:23:22<1:09:48, 19.57s/it]                                                                                                                                         {'loss': 0.2538, 'grad_norm': 38.061638529660236, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.598388671875, 'rewards/rejected': -3.3388671875, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.939453125, 'logps/chosen': -356.25, 'logps/rejected': -171.9375, 'logits/chosen': -0.892333984375, 'logits/rejected': -0.7041015625, 'epoch': 0.9}
 90%|██████████████████████████████████████████████████████████████████████████████████▎         | 1830/2044 [9:23:22<1:09:48, 19.57s/it] 90%|██████████████████████████████████████████████████████████████████████████████████▍         | 1831/2044 [9:23:41<1:09:45, 19.65s/it]                                                                                                                                         {'loss': 0.2387, 'grad_norm': 37.50398869889038, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6052093505859375, 'rewards/rejected': -3.0380859375, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.640625, 'logps/chosen': -277.0, 'logps/rejected': -173.375, 'logits/chosen': -0.9609375, 'logits/rejected': -0.794921875, 'epoch': 0.9}
 90%|██████████████████████████████████████████████████████████████████████████████████▍         | 1831/2044 [9:23:41<1:09:45, 19.65s/it] 90%|██████████████████████████████████████████████████████████████████████████████████▍         | 1832/2044 [9:24:01<1:09:32, 19.68s/it]                                                                                                                                         {'loss': 0.1765, 'grad_norm': 28.590239485996296, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.382568359375, 'rewards/rejected': -3.4755859375, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.859375, 'logps/chosen': -307.25, 'logps/rejected': -149.9375, 'logits/chosen': -0.691162109375, 'logits/rejected': -0.75341796875, 'epoch': 0.9}
 90%|██████████████████████████████████████████████████████████████████████████████████▍         | 1832/2044 [9:24:01<1:09:32, 19.68s/it] 90%|██████████████████████████████████████████████████████████████████████████████████▌         | 1833/2044 [9:24:20<1:08:51, 19.58s/it]                                                                                                                                         {'loss': 0.1826, 'grad_norm': 31.847544057911016, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.59808349609375, 'rewards/rejected': -3.755859375, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.349609375, 'logps/chosen': -304.75, 'logps/rejected': -153.125, 'logits/chosen': -0.80224609375, 'logits/rejected': -0.6292724609375, 'epoch': 0.9}
 90%|██████████████████████████████████████████████████████████████████████████████████▌         | 1833/2044 [9:24:20<1:08:51, 19.58s/it] 90%|██████████████████████████████████████████████████████████████████████████████████▌         | 1834/2044 [9:24:40<1:08:48, 19.66s/it]                                                                                                                                         {'loss': 0.2144, 'grad_norm': 43.660313272030535, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7279052734375, 'rewards/rejected': -3.431640625, 'rewards/accuracies': 0.859375, 'rewards/margins': 4.158203125, 'logps/chosen': -390.375, 'logps/rejected': -167.5625, 'logits/chosen': -1.02490234375, 'logits/rejected': -0.819580078125, 'epoch': 0.9}
 90%|██████████████████████████████████████████████████████████████████████████████████▌         | 1834/2044 [9:24:40<1:08:48, 19.66s/it] 90%|██████████████████████████████████████████████████████████████████████████████████▌         | 1835/2044 [9:25:00<1:08:59, 19.81s/it]                                                                                                                                         {'loss': 0.2011, 'grad_norm': 27.031356994108688, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.13356781005859375, 'rewards/rejected': -3.2890625, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.4228515625, 'logps/chosen': -225.0, 'logps/rejected': -142.125, 'logits/chosen': -0.84033203125, 'logits/rejected': -0.794921875, 'epoch': 0.9}
 90%|██████████████████████████████████████████████████████████████████████████████████▌         | 1835/2044 [9:25:00<1:08:59, 19.81s/it] 90%|██████████████████████████████████████████████████████████████████████████████████▋         | 1836/2044 [9:25:20<1:08:06, 19.65s/it]                                                                                                                                         {'loss': 0.2248, 'grad_norm': 29.72815878982721, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.2208251953125, 'rewards/rejected': -3.564453125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.7841796875, 'logps/chosen': -262.625, 'logps/rejected': -139.625, 'logits/chosen': -0.922607421875, 'logits/rejected': -0.64312744140625, 'epoch': 0.9}
 90%|██████████████████████████████████████████████████████████████████████████████████▋         | 1836/2044 [9:25:20<1:08:06, 19.65s/it] 90%|██████████████████████████████████████████████████████████████████████████████████▋         | 1837/2044 [9:25:39<1:07:46, 19.65s/it]                                                                                                                                         {'loss': 0.2039, 'grad_norm': 28.97947760266099, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.596435546875, 'rewards/rejected': -3.4375, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.025390625, 'logps/chosen': -301.875, 'logps/rejected': -149.3125, 'logits/chosen': -0.92724609375, 'logits/rejected': -0.814208984375, 'epoch': 0.9}
 90%|██████████████████████████████████████████████████████████████████████████████████▋         | 1837/2044 [9:25:39<1:07:46, 19.65s/it] 90%|██████████████████████████████████████████████████████████████████████████████████▋         | 1838/2044 [9:25:59<1:07:38, 19.70s/it]                                                                                                                                         {'loss': 0.1945, 'grad_norm': 30.868386184681793, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.563232421875, 'rewards/rejected': -3.5068359375, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.068359375, 'logps/chosen': -351.875, 'logps/rejected': -151.1875, 'logits/chosen': -0.94775390625, 'logits/rejected': -0.869873046875, 'epoch': 0.9}
 90%|██████████████████████████████████████████████████████████████████████████████████▋         | 1838/2044 [9:25:59<1:07:38, 19.70s/it] 90%|██████████████████████████████████████████████████████████████████████████████████▊         | 1839/2044 [9:26:19<1:07:03, 19.63s/it]                                                                                                                                         {'loss': 0.222, 'grad_norm': 34.15669807642581, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.62725830078125, 'rewards/rejected': -3.341796875, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.97265625, 'logps/chosen': -284.125, 'logps/rejected': -135.0625, 'logits/chosen': -0.93310546875, 'logits/rejected': -0.82373046875, 'epoch': 0.9}
 90%|██████████████████████████████████████████████████████████████████████████████████▊         | 1839/2044 [9:26:19<1:07:03, 19.63s/it] 90%|██████████████████████████████████████████████████████████████████████████████████▊         | 1840/2044 [9:26:38<1:06:46, 19.64s/it]                                                                                                                                         {'loss': 0.1635, 'grad_norm': 30.2003016578163, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.850189208984375, 'rewards/rejected': -3.5537109375, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.400390625, 'logps/chosen': -337.875, 'logps/rejected': -131.5625, 'logits/chosen': -0.8916015625, 'logits/rejected': -0.80712890625, 'epoch': 0.9}
 90%|██████████████████████████████████████████████████████████████████████████████████▊         | 1840/2044 [9:26:38<1:06:46, 19.64s/it] 90%|██████████████████████████████████████████████████████████████████████████████████▊         | 1841/2044 [9:26:57<1:05:56, 19.49s/it]                                                                                                                                         {'loss': 0.1936, 'grad_norm': 34.64706813006996, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.876953125, 'rewards/rejected': -3.38671875, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.259765625, 'logps/chosen': -392.0, 'logps/rejected': -150.6875, 'logits/chosen': -0.8349609375, 'logits/rejected': -0.8160400390625, 'epoch': 0.9}
 90%|██████████████████████████████████████████████████████████████████████████████████▊         | 1841/2044 [9:26:57<1:05:56, 19.49s/it] 90%|██████████████████████████████████████████████████████████████████████████████████▉         | 1842/2044 [9:27:17<1:05:52, 19.57s/it]                                                                                                                                         {'loss': 0.2123, 'grad_norm': 33.34772884380965, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.78173828125, 'rewards/rejected': -3.3017578125, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.087890625, 'logps/chosen': -309.0, 'logps/rejected': -173.8125, 'logits/chosen': -0.7666015625, 'logits/rejected': -0.7996597290039062, 'epoch': 0.9}
 90%|██████████████████████████████████████████████████████████████████████████████████▉         | 1842/2044 [9:27:17<1:05:52, 19.57s/it] 90%|██████████████████████████████████████████████████████████████████████████████████▉         | 1843/2044 [9:27:37<1:05:48, 19.64s/it]                                                                                                                                         {'loss': 0.1333, 'grad_norm': 23.182426341680333, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.958709716796875, 'rewards/rejected': -3.828125, 'rewards/accuracies': 0.953125, 'rewards/margins': 4.787109375, 'logps/chosen': -329.625, 'logps/rejected': -128.0625, 'logits/chosen': -0.87939453125, 'logits/rejected': -0.783203125, 'epoch': 0.9}
 90%|██████████████████████████████████████████████████████████████████████████████████▉         | 1843/2044 [9:27:37<1:05:48, 19.64s/it] 90%|██████████████████████████████████████████████████████████████████████████████████▉         | 1844/2044 [9:27:55<1:04:12, 19.26s/it]                                                                                                                                         {'loss': 0.1734, 'grad_norm': 24.107288395262643, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.61767578125, 'rewards/rejected': -3.626953125, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.24609375, 'logps/chosen': -275.25, 'logps/rejected': -123.25, 'logits/chosen': -1.05419921875, 'logits/rejected': -0.739990234375, 'epoch': 0.9}
 90%|██████████████████████████████████████████████████████████████████████████████████▉         | 1844/2044 [9:27:55<1:04:12, 19.26s/it] 90%|███████████████████████████████████████████████████████████████████████████████████         | 1845/2044 [9:28:15<1:04:27, 19.44s/it]                                                                                                                                         {'loss': 0.2956, 'grad_norm': 36.46814483679235, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.21771240234375, 'rewards/rejected': -2.8984375, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.1181640625, 'logps/chosen': -280.3125, 'logps/rejected': -157.4375, 'logits/chosen': -0.94140625, 'logits/rejected': -0.71923828125, 'epoch': 0.9}
 90%|███████████████████████████████████████████████████████████████████████████████████         | 1845/2044 [9:28:15<1:04:27, 19.44s/it] 90%|███████████████████████████████████████████████████████████████████████████████████         | 1846/2044 [9:28:36<1:05:14, 19.77s/it]                                                                                                                                         {'loss': 0.2665, 'grad_norm': 34.892722081367744, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.33306884765625, 'rewards/rejected': -2.869140625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.2021484375, 'logps/chosen': -270.375, 'logps/rejected': -153.5, 'logits/chosen': -0.900634765625, 'logits/rejected': -0.775390625, 'epoch': 0.9}
 90%|███████████████████████████████████████████████████████████████████████████████████         | 1846/2044 [9:28:36<1:05:14, 19.77s/it] 90%|███████████████████████████████████████████████████████████████████████████████████▏        | 1847/2044 [9:28:55<1:04:49, 19.74s/it]                                                                                                                                         {'loss': 0.2162, 'grad_norm': 41.783202989121534, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.46624755859375, 'rewards/rejected': -3.296875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.763671875, 'logps/chosen': -280.75, 'logps/rejected': -169.0625, 'logits/chosen': -0.732696533203125, 'logits/rejected': -0.6268463134765625, 'epoch': 0.9}
 90%|███████████████████████████████████████████████████████████████████████████████████▏        | 1847/2044 [9:28:55<1:04:49, 19.74s/it] 90%|███████████████████████████████████████████████████████████████████████████████████▏        | 1848/2044 [9:29:15<1:03:55, 19.57s/it]                                                                                                                                         {'loss': 0.1585, 'grad_norm': 22.28917356217774, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.86572265625, 'rewards/rejected': -3.509765625, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.376953125, 'logps/chosen': -350.625, 'logps/rejected': -185.8125, 'logits/chosen': -0.9326171875, 'logits/rejected': -0.7294921875, 'epoch': 0.9}
 90%|███████████████████████████████████████████████████████████████████████████████████▏        | 1848/2044 [9:29:15<1:03:55, 19.57s/it] 90%|███████████████████████████████████████████████████████████████████████████████████▏        | 1849/2044 [9:29:35<1:04:30, 19.85s/it]                                                                                                                                         {'loss': 0.2041, 'grad_norm': 27.995893729553927, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.550567626953125, 'rewards/rejected': -3.603515625, 'rewards/accuracies': 0.875, 'rewards/margins': 4.15625, 'logps/chosen': -294.625, 'logps/rejected': -133.0, 'logits/chosen': -1.05126953125, 'logits/rejected': -0.6793212890625, 'epoch': 0.9}
 90%|███████████████████████████████████████████████████████████████████████████████████▏        | 1849/2044 [9:29:35<1:04:30, 19.85s/it] 91%|███████████████████████████████████████████████████████████████████████████████████▎        | 1850/2044 [9:29:54<1:02:55, 19.46s/it]                                                                                                                                         {'loss': 0.2228, 'grad_norm': 28.41878697145117, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.30718994140625, 'rewards/rejected': -3.455078125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.76171875, 'logps/chosen': -232.875, 'logps/rejected': -154.9375, 'logits/chosen': -0.949462890625, 'logits/rejected': -0.7255859375, 'epoch': 0.91}
 91%|███████████████████████████████████████████████████████████████████████████████████▎        | 1850/2044 [9:29:54<1:02:55, 19.46s/it] 91%|███████████████████████████████████████████████████████████████████████████████████▎        | 1851/2044 [9:30:14<1:03:09, 19.64s/it]                                                                                                                                         {'loss': 0.2363, 'grad_norm': 30.52838053244807, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6123046875, 'rewards/rejected': -2.9697265625, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.580078125, 'logps/chosen': -271.625, 'logps/rejected': -145.4375, 'logits/chosen': -0.86328125, 'logits/rejected': -0.772705078125, 'epoch': 0.91}
 91%|███████████████████████████████████████████████████████████████████████████████████▎        | 1851/2044 [9:30:14<1:03:09, 19.64s/it] 91%|███████████████████████████████████████████████████████████████████████████████████▎        | 1852/2044 [9:30:34<1:03:51, 19.95s/it]                                                                                                                                         {'loss': 0.2783, 'grad_norm': 40.64817665732739, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4520263671875, 'rewards/rejected': -2.90576171875, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.3623046875, 'logps/chosen': -275.625, 'logps/rejected': -174.75, 'logits/chosen': -0.958984375, 'logits/rejected': -0.9228515625, 'epoch': 0.91}
 91%|███████████████████████████████████████████████████████████████████████████████████▎        | 1852/2044 [9:30:34<1:03:51, 19.95s/it] 91%|███████████████████████████████████████████████████████████████████████████████████▍        | 1853/2044 [9:30:54<1:03:17, 19.88s/it]                                                                                                                                         {'loss': 0.2087, 'grad_norm': 27.598991078588266, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6077880859375, 'rewards/rejected': -3.341796875, 'rewards/accuracies': 0.875, 'rewards/margins': 3.951171875, 'logps/chosen': -309.125, 'logps/rejected': -158.5, 'logits/chosen': -1.0146484375, 'logits/rejected': -0.8232421875, 'epoch': 0.91}
 91%|███████████████████████████████████████████████████████████████████████████████████▍        | 1853/2044 [9:30:54<1:03:17, 19.88s/it] 91%|███████████████████████████████████████████████████████████████████████████████████▍        | 1854/2044 [9:31:15<1:03:51, 20.17s/it]                                                                                                                                         {'loss': 0.2165, 'grad_norm': 29.689109292793706, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.2587890625, 'rewards/rejected': -3.359375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.619140625, 'logps/chosen': -265.25, 'logps/rejected': -159.4375, 'logits/chosen': -0.84716796875, 'logits/rejected': -0.78173828125, 'epoch': 0.91}
 91%|███████████████████████████████████████████████████████████████████████████████████▍        | 1854/2044 [9:31:15<1:03:51, 20.17s/it] 91%|███████████████████████████████████████████████████████████████████████████████████▍        | 1855/2044 [9:31:33<1:01:30, 19.53s/it]                                                                                                                                         {'loss': 0.294, 'grad_norm': 36.07441095898947, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.26727294921875, 'rewards/rejected': -3.4139404296875, 'rewards/accuracies': 0.8125, 'rewards/margins': 3.68310546875, 'logps/chosen': -293.75, 'logps/rejected': -140.0625, 'logits/chosen': -0.7724609375, 'logits/rejected': -0.76220703125, 'epoch': 0.91}
 91%|███████████████████████████████████████████████████████████████████████████████████▍        | 1855/2044 [9:31:33<1:01:30, 19.53s/it] 91%|███████████████████████████████████████████████████████████████████████████████████▌        | 1856/2044 [9:31:54<1:02:16, 19.88s/it]                                                                                                                                         {'loss': 0.3301, 'grad_norm': 46.45117557639907, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.3984375, 'rewards/rejected': -2.9931640625, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.3896484375, 'logps/chosen': -276.875, 'logps/rejected': -181.5625, 'logits/chosen': -0.8427734375, 'logits/rejected': -0.89111328125, 'epoch': 0.91}
 91%|███████████████████████████████████████████████████████████████████████████████████▌        | 1856/2044 [9:31:54<1:02:16, 19.88s/it] 91%|███████████████████████████████████████████████████████████████████████████████████▌        | 1857/2044 [9:32:13<1:00:58, 19.56s/it]                                                                                                                                         {'loss': 0.2684, 'grad_norm': 48.55474541887941, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5313720703125, 'rewards/rejected': -3.365234375, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.896484375, 'logps/chosen': -326.0, 'logps/rejected': -176.75, 'logits/chosen': -0.972412109375, 'logits/rejected': -0.75146484375, 'epoch': 0.91}
 91%|███████████████████████████████████████████████████████████████████████████████████▌        | 1857/2044 [9:32:13<1:00:58, 19.56s/it] 91%|███████████████████████████████████████████████████████████████████████████████████▋        | 1858/2044 [9:32:32<1:00:44, 19.60s/it]                                                                                                                                         {'loss': 0.1795, 'grad_norm': 33.89976294462847, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6201171875, 'rewards/rejected': -3.54296875, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.1640625, 'logps/chosen': -308.75, 'logps/rejected': -173.5, 'logits/chosen': -0.8388671875, 'logits/rejected': -0.754638671875, 'epoch': 0.91}
 91%|███████████████████████████████████████████████████████████████████████████████████▋        | 1858/2044 [9:32:32<1:00:44, 19.60s/it] 91%|███████████████████████████████████████████████████████████████████████████████████▋        | 1859/2044 [9:32:52<1:01:03, 19.81s/it]                                                                                                                                         {'loss': 0.2253, 'grad_norm': 33.15137409832713, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5438232421875, 'rewards/rejected': -3.2734375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.81640625, 'logps/chosen': -266.125, 'logps/rejected': -149.25, 'logits/chosen': -0.8671875, 'logits/rejected': -0.7509765625, 'epoch': 0.91}
 91%|███████████████████████████████████████████████████████████████████████████████████▋        | 1859/2044 [9:32:52<1:01:03, 19.81s/it] 91%|███████████████████████████████████████████████████████████████████████████████████▋        | 1860/2044 [9:33:13<1:01:31, 20.06s/it]                                                                                                                                         {'loss': 0.1873, 'grad_norm': 30.2954609210657, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4678955078125, 'rewards/rejected': -3.720703125, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.189453125, 'logps/chosen': -325.125, 'logps/rejected': -159.0625, 'logits/chosen': -0.98779296875, 'logits/rejected': -0.8369140625, 'epoch': 0.91}
 91%|███████████████████████████████████████████████████████████████████████████████████▋        | 1860/2044 [9:33:13<1:01:31, 20.06s/it] 91%|███████████████████████████████████████████████████████████████████████████████████▊        | 1861/2044 [9:33:34<1:01:56, 20.31s/it]                                                                                                                                         {'loss': 0.2626, 'grad_norm': 39.185626754178884, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.770751953125, 'rewards/rejected': -2.8740234375, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.6435546875, 'logps/chosen': -337.875, 'logps/rejected': -166.5625, 'logits/chosen': -0.75341796875, 'logits/rejected': -0.777587890625, 'epoch': 0.91}
 91%|███████████████████████████████████████████████████████████████████████████████████▊        | 1861/2044 [9:33:34<1:01:56, 20.31s/it] 91%|███████████████████████████████████████████████████████████████████████████████████▊        | 1862/2044 [9:33:54<1:01:24, 20.24s/it]                                                                                                                                         {'loss': 0.2316, 'grad_norm': 30.347693875155688, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.576904296875, 'rewards/rejected': -3.060546875, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.638671875, 'logps/chosen': -294.25, 'logps/rejected': -145.125, 'logits/chosen': -0.93212890625, 'logits/rejected': -0.82861328125, 'epoch': 0.91}
 91%|███████████████████████████████████████████████████████████████████████████████████▊        | 1862/2044 [9:33:54<1:01:24, 20.24s/it] 91%|███████████████████████████████████████████████████████████████████████████████████▊        | 1863/2044 [9:34:14<1:00:46, 20.15s/it]                                                                                                                                         {'loss': 0.2928, 'grad_norm': 35.52154785618203, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4267578125, 'rewards/rejected': -3.2080078125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.628662109375, 'logps/chosen': -262.5, 'logps/rejected': -158.0, 'logits/chosen': -0.99169921875, 'logits/rejected': -0.6212158203125, 'epoch': 0.91}
 91%|███████████████████████████████████████████████████████████████████████████████████▊        | 1863/2044 [9:34:14<1:00:46, 20.15s/it] 91%|███████████████████████████████████████████████████████████████████████████████████▉        | 1864/2044 [9:34:34<1:00:15, 20.09s/it]                                                                                                                                         {'loss': 0.2184, 'grad_norm': 33.69887892096093, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4278564453125, 'rewards/rejected': -3.5048828125, 'rewards/accuracies': 0.875, 'rewards/margins': 3.93359375, 'logps/chosen': -262.625, 'logps/rejected': -167.1875, 'logits/chosen': -0.851806640625, 'logits/rejected': -0.7972412109375, 'epoch': 0.91}
 91%|███████████████████████████████████████████████████████████████████████████████████▉        | 1864/2044 [9:34:34<1:00:15, 20.09s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████▊        | 1865/2044 [9:34:52<58:18, 19.55s/it]                                                                                                                                         {'loss': 0.1867, 'grad_norm': 25.530528040679027, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.32757568359375, 'rewards/rejected': -3.71875, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.04296875, 'logps/chosen': -261.3125, 'logps/rejected': -129.5, 'logits/chosen': -0.90478515625, 'logits/rejected': -0.712646484375, 'epoch': 0.91}
 91%|█████████████████████████████████████████████████████████████████████████████████████▊        | 1865/2044 [9:34:52<58:18, 19.55s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████▊        | 1866/2044 [9:35:13<58:58, 19.88s/it]                                                                                                                                         {'loss': 0.2122, 'grad_norm': 33.46865268745959, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5391845703125, 'rewards/rejected': -3.162109375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.69921875, 'logps/chosen': -316.4375, 'logps/rejected': -144.0625, 'logits/chosen': -0.95947265625, 'logits/rejected': -0.85302734375, 'epoch': 0.91}
 91%|█████████████████████████████████████████████████████████████████████████████████████▊        | 1866/2044 [9:35:13<58:58, 19.88s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████▊        | 1867/2044 [9:35:31<57:09, 19.37s/it]                                                                                                                                         {'loss': 0.1903, 'grad_norm': 25.860836849684304, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4541015625, 'rewards/rejected': -3.986328125, 'rewards/accuracies': 0.875, 'rewards/margins': 4.4375, 'logps/chosen': -270.5, 'logps/rejected': -120.0625, 'logits/chosen': -0.79443359375, 'logits/rejected': -0.725830078125, 'epoch': 0.91}
 91%|█████████████████████████████████████████████████████████████████████████████████████▊        | 1867/2044 [9:35:31<57:09, 19.37s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████▉        | 1868/2044 [9:35:52<57:44, 19.69s/it]                                                                                                                                         {'loss': 0.2003, 'grad_norm': 31.015510456561678, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.041015625, 'rewards/rejected': -3.421875, 'rewards/accuracies': 0.875, 'rewards/margins': 4.462890625, 'logps/chosen': -372.5, 'logps/rejected': -165.8125, 'logits/chosen': -0.834228515625, 'logits/rejected': -0.72998046875, 'epoch': 0.91}
 91%|█████████████████████████████████████████████████████████████████████████████████████▉        | 1868/2044 [9:35:52<57:44, 19.69s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████▉        | 1869/2044 [9:36:12<58:03, 19.90s/it]                                                                                                                                         {'loss': 0.2496, 'grad_norm': 28.94046885753851, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.491455078125, 'rewards/rejected': -3.2001953125, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.697265625, 'logps/chosen': -352.625, 'logps/rejected': -223.75, 'logits/chosen': -0.89453125, 'logits/rejected': -1.0009765625, 'epoch': 0.91}
 91%|█████████████████████████████████████████████████████████████████████████████████████▉        | 1869/2044 [9:36:12<58:03, 19.90s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████▉        | 1870/2044 [9:36:32<57:34, 19.85s/it]                                                                                                                                         {'loss': 0.1705, 'grad_norm': 21.908274557773634, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5439453125, 'rewards/rejected': -3.642578125, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.185546875, 'logps/chosen': -346.875, 'logps/rejected': -138.6875, 'logits/chosen': -1.091796875, 'logits/rejected': -0.685546875, 'epoch': 0.91}
 91%|█████████████████████████████████████████████████████████████████████████████████████▉        | 1870/2044 [9:36:32<57:34, 19.85s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████        | 1871/2044 [9:36:52<57:23, 19.91s/it]                                                                                                                                         {'loss': 0.2553, 'grad_norm': 39.01860035735425, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6927490234375, 'rewards/rejected': -2.9287109375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.619140625, 'logps/chosen': -303.0, 'logps/rejected': -178.5, 'logits/chosen': -0.9029541015625, 'logits/rejected': -0.822509765625, 'epoch': 0.92}
 92%|██████████████████████████████████████████████████████████████████████████████████████        | 1871/2044 [9:36:52<57:23, 19.91s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████        | 1872/2044 [9:37:12<57:42, 20.13s/it]                                                                                                                                         {'loss': 0.2309, 'grad_norm': 44.74313332800403, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.717071533203125, 'rewards/rejected': -3.1572265625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.8740234375, 'logps/chosen': -319.625, 'logps/rejected': -163.3125, 'logits/chosen': -0.873046875, 'logits/rejected': -0.93017578125, 'epoch': 0.92}
 92%|██████████████████████████████████████████████████████████████████████████████████████        | 1872/2044 [9:37:12<57:42, 20.13s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████▏       | 1873/2044 [9:37:33<57:44, 20.26s/it]                                                                                                                                         {'loss': 0.2131, 'grad_norm': 25.45766477838196, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.47735595703125, 'rewards/rejected': -3.32666015625, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.80322265625, 'logps/chosen': -318.375, 'logps/rejected': -158.5, 'logits/chosen': -0.80078125, 'logits/rejected': -0.803955078125, 'epoch': 0.92}
 92%|██████████████████████████████████████████████████████████████████████████████████████▏       | 1873/2044 [9:37:33<57:44, 20.26s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████▏       | 1874/2044 [9:37:52<56:08, 19.81s/it]                                                                                                                                         {'loss': 0.1264, 'grad_norm': 17.691860968160583, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4049530029296875, 'rewards/rejected': -4.1455078125, 'rewards/accuracies': 0.953125, 'rewards/margins': 4.556640625, 'logps/chosen': -273.125, 'logps/rejected': -127.75, 'logits/chosen': -0.735107421875, 'logits/rejected': -0.68359375, 'epoch': 0.92}
 92%|██████████████████████████████████████████████████████████████████████████████████████▏       | 1874/2044 [9:37:52<56:08, 19.81s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████▏       | 1875/2044 [9:38:11<55:23, 19.67s/it]                                                                                                                                         {'loss': 0.1999, 'grad_norm': 32.02167474123275, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5723114013671875, 'rewards/rejected': -3.560546875, 'rewards/accuracies': 0.859375, 'rewards/margins': 4.1328125, 'logps/chosen': -323.375, 'logps/rejected': -166.3125, 'logits/chosen': -0.88720703125, 'logits/rejected': -0.71563720703125, 'epoch': 0.92}
 92%|██████████████████████████████████████████████████████████████████████████████████████▏       | 1875/2044 [9:38:11<55:23, 19.67s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████▎       | 1876/2044 [9:38:30<54:47, 19.57s/it]                                                                                                                                         {'loss': 0.2102, 'grad_norm': 36.12904589432017, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5392684936523438, 'rewards/rejected': -3.736328125, 'rewards/accuracies': 0.875, 'rewards/margins': 4.26953125, 'logps/chosen': -291.5, 'logps/rejected': -136.125, 'logits/chosen': -1.041015625, 'logits/rejected': -0.748870849609375, 'epoch': 0.92}
 92%|██████████████████████████████████████████████████████████████████████████████████████▎       | 1876/2044 [9:38:30<54:47, 19.57s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████▎       | 1877/2044 [9:38:49<53:22, 19.17s/it]                                                                                                                                         {'loss': 0.2167, 'grad_norm': 36.03399245285781, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6263427734375, 'rewards/rejected': -3.529296875, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.16015625, 'logps/chosen': -283.125, 'logps/rejected': -141.625, 'logits/chosen': -0.891357421875, 'logits/rejected': -0.767578125, 'epoch': 0.92}
 92%|██████████████████████████████████████████████████████████████████████████████████████▎       | 1877/2044 [9:38:49<53:22, 19.17s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████▎       | 1878/2044 [9:39:06<51:40, 18.68s/it]                                                                                                                                         {'loss': 0.1778, 'grad_norm': 27.327579447252234, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.493896484375, 'rewards/rejected': -3.7373046875, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.23046875, 'logps/chosen': -301.625, 'logps/rejected': -130.25, 'logits/chosen': -0.8074378967285156, 'logits/rejected': -0.586181640625, 'epoch': 0.92}
 92%|██████████████████████████████████████████████████████████████████████████████████████▎       | 1878/2044 [9:39:06<51:40, 18.68s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████▍       | 1879/2044 [9:39:24<50:32, 18.38s/it]                                                                                                                                         {'loss': 0.1891, 'grad_norm': 28.027769540557298, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.30218505859375, 'rewards/rejected': -4.03515625, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.341796875, 'logps/chosen': -281.1875, 'logps/rejected': -128.9375, 'logits/chosen': -0.97021484375, 'logits/rejected': -0.6884765625, 'epoch': 0.92}
 92%|██████████████████████████████████████████████████████████████████████████████████████▍       | 1879/2044 [9:39:24<50:32, 18.38s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████▍       | 1880/2044 [9:39:43<50:41, 18.55s/it]                                                                                                                                         {'loss': 0.1831, 'grad_norm': 25.26781329420855, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.3086700439453125, 'rewards/rejected': -3.623046875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.931640625, 'logps/chosen': -311.625, 'logps/rejected': -145.0625, 'logits/chosen': -0.876953125, 'logits/rejected': -0.7603759765625, 'epoch': 0.92}
 92%|██████████████████████████████████████████████████████████████████████████████████████▍       | 1880/2044 [9:39:43<50:41, 18.55s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████▌       | 1881/2044 [9:40:01<49:55, 18.38s/it]                                                                                                                                         {'loss': 0.2763, 'grad_norm': 38.37410964514351, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.588134765625, 'rewards/rejected': -3.546875, 'rewards/accuracies': 0.84375, 'rewards/margins': 4.134765625, 'logps/chosen': -304.625, 'logps/rejected': -147.8125, 'logits/chosen': -1.03466796875, 'logits/rejected': -0.71380615234375, 'epoch': 0.92}
 92%|██████████████████████████████████████████████████████████████████████████████████████▌       | 1881/2044 [9:40:01<49:55, 18.38s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████▌       | 1882/2044 [9:40:21<51:20, 19.02s/it]                                                                                                                                         {'loss': 0.246, 'grad_norm': 34.8472960376836, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.31585693359375, 'rewards/rejected': -2.931640625, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.24609375, 'logps/chosen': -249.0, 'logps/rejected': -183.6875, 'logits/chosen': -0.8818359375, 'logits/rejected': -0.83837890625, 'epoch': 0.92}
 92%|██████████████████████████████████████████████████████████████████████████████████████▌       | 1882/2044 [9:40:21<51:20, 19.02s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████▌       | 1883/2044 [9:40:39<50:15, 18.73s/it]                                                                                                                                         {'loss': 0.2582, 'grad_norm': 36.0889230558735, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4912109375, 'rewards/rejected': -3.62890625, 'rewards/accuracies': 0.84375, 'rewards/margins': 4.1171875, 'logps/chosen': -333.3125, 'logps/rejected': -154.0625, 'logits/chosen': -0.919189453125, 'logits/rejected': -0.826171875, 'epoch': 0.92}
 92%|██████████████████████████████████████████████████████████████████████████████████████▌       | 1883/2044 [9:40:39<50:15, 18.73s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████▋       | 1884/2044 [9:40:57<49:12, 18.45s/it]                                                                                                                                         {'loss': 0.1773, 'grad_norm': 29.766277797899242, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5120849609375, 'rewards/rejected': -3.837890625, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.345703125, 'logps/chosen': -267.125, 'logps/rejected': -129.875, 'logits/chosen': -0.813232421875, 'logits/rejected': -0.5399169921875, 'epoch': 0.92}
 92%|██████████████████████████████████████████████████████████████████████████████████████▋       | 1884/2044 [9:40:57<49:12, 18.45s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████▋       | 1885/2044 [9:41:17<49:59, 18.87s/it]                                                                                                                                         {'loss': 0.2826, 'grad_norm': 35.602577887991934, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.507080078125, 'rewards/rejected': -2.982421875, 'rewards/accuracies': 0.796875, 'rewards/margins': 3.486328125, 'logps/chosen': -269.625, 'logps/rejected': -159.0, 'logits/chosen': -0.99755859375, 'logits/rejected': -0.87890625, 'epoch': 0.92}
 92%|██████████████████████████████████████████████████████████████████████████████████████▋       | 1885/2044 [9:41:17<49:59, 18.87s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████▋       | 1886/2044 [9:41:38<51:19, 19.49s/it]                                                                                                                                         {'loss': 0.2127, 'grad_norm': 29.94901502709985, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6209716796875, 'rewards/rejected': -3.107421875, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.728515625, 'logps/chosen': -326.625, 'logps/rejected': -169.75, 'logits/chosen': -0.98681640625, 'logits/rejected': -0.97607421875, 'epoch': 0.92}
 92%|██████████████████████████████████████████████████████████████████████████████████████▋       | 1886/2044 [9:41:38<51:19, 19.49s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████▊       | 1887/2044 [9:41:58<51:14, 19.58s/it]                                                                                                                                         {'loss': 0.1886, 'grad_norm': 33.76161546059419, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.70611572265625, 'rewards/rejected': -3.486328125, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.189453125, 'logps/chosen': -322.125, 'logps/rejected': -149.75, 'logits/chosen': -0.97509765625, 'logits/rejected': -0.695068359375, 'epoch': 0.92}
 92%|██████████████████████████████████████████████████████████████████████████████████████▊       | 1887/2044 [9:41:58<51:14, 19.58s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████▊       | 1888/2044 [9:42:17<50:31, 19.43s/it]                                                                                                                                         {'loss': 0.3066, 'grad_norm': 44.99533473438858, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.15875244140625, 'rewards/rejected': -3.2041015625, 'rewards/accuracies': 0.8125, 'rewards/margins': 3.3603515625, 'logps/chosen': -245.0, 'logps/rejected': -163.9375, 'logits/chosen': -0.806884765625, 'logits/rejected': -0.753143310546875, 'epoch': 0.92}
 92%|██████████████████████████████████████████████████████████████████████████████████████▊       | 1888/2044 [9:42:17<50:31, 19.43s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████▊       | 1889/2044 [9:42:37<50:32, 19.57s/it]                                                                                                                                         {'loss': 0.2083, 'grad_norm': 35.064838606672005, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.1597900390625, 'rewards/rejected': -3.3173828125, 'rewards/accuracies': 0.9375, 'rewards/margins': 3.474609375, 'logps/chosen': -281.0625, 'logps/rejected': -145.875, 'logits/chosen': -0.92919921875, 'logits/rejected': -0.72998046875, 'epoch': 0.92}
 92%|██████████████████████████████████████████████████████████████████████████████████████▊       | 1889/2044 [9:42:37<50:32, 19.57s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████▉       | 1890/2044 [9:42:56<49:59, 19.48s/it]                                                                                                                                         {'loss': 0.2258, 'grad_norm': 34.41971005099655, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.2451171875, 'rewards/rejected': -3.890625, 'rewards/accuracies': 0.84375, 'rewards/margins': 4.13671875, 'logps/chosen': -306.3125, 'logps/rejected': -136.0, 'logits/chosen': -1.09033203125, 'logits/rejected': -0.7880859375, 'epoch': 0.92}
 92%|██████████████████████████████████████████████████████████████████████████████████████▉       | 1890/2044 [9:42:56<49:59, 19.48s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████▉       | 1891/2044 [9:43:14<48:27, 19.00s/it]                                                                                                                                         {'loss': 0.1512, 'grad_norm': 32.10551979150579, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5185546875, 'rewards/rejected': -4.224609375, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.7412109375, 'logps/chosen': -334.125, 'logps/rejected': -135.25, 'logits/chosen': -0.819091796875, 'logits/rejected': -0.68310546875, 'epoch': 0.93}
 93%|██████████████████████████████████████████████████████████████████████████████████████▉       | 1891/2044 [9:43:14<48:27, 19.00s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████       | 1892/2044 [9:43:32<47:34, 18.78s/it]                                                                                                                                         {'loss': 0.1267, 'grad_norm': 23.35991767328866, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5792236328125, 'rewards/rejected': -4.138671875, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.716796875, 'logps/chosen': -332.875, 'logps/rejected': -139.375, 'logits/chosen': -1.013671875, 'logits/rejected': -0.7861328125, 'epoch': 0.93}
 93%|███████████████████████████████████████████████████████████████████████████████████████       | 1892/2044 [9:43:32<47:34, 18.78s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████       | 1893/2044 [9:43:51<47:35, 18.91s/it]                                                                                                                                         {'loss': 0.2195, 'grad_norm': 32.702725538494114, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.28399658203125, 'rewards/rejected': -3.52734375, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.81640625, 'logps/chosen': -259.0, 'logps/rejected': -161.9375, 'logits/chosen': -0.77508544921875, 'logits/rejected': -0.68896484375, 'epoch': 0.93}
 93%|███████████████████████████████████████████████████████████████████████████████████████       | 1893/2044 [9:43:51<47:35, 18.91s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████       | 1894/2044 [9:44:11<47:39, 19.06s/it]                                                                                                                                         {'loss': 0.2723, 'grad_norm': 43.61135945288663, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.17236328125, 'rewards/rejected': -3.205078125, 'rewards/accuracies': 0.875, 'rewards/margins': 3.384765625, 'logps/chosen': -304.25, 'logps/rejected': -134.875, 'logits/chosen': -0.98486328125, 'logits/rejected': -0.750732421875, 'epoch': 0.93}
 93%|███████████████████████████████████████████████████████████████████████████████████████       | 1894/2044 [9:44:11<47:39, 19.06s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████▏      | 1895/2044 [9:44:28<46:11, 18.60s/it]                                                                                                                                         {'loss': 0.2038, 'grad_norm': 26.120475619780024, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.1153564453125, 'rewards/rejected': -3.5322265625, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.6435546875, 'logps/chosen': -214.0, 'logps/rejected': -128.1875, 'logits/chosen': -0.7763671875, 'logits/rejected': -0.65673828125, 'epoch': 0.93}
 93%|███████████████████████████████████████████████████████████████████████████████████████▏      | 1895/2044 [9:44:28<46:11, 18.60s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████▏      | 1896/2044 [9:44:48<46:27, 18.83s/it]                                                                                                                                         {'loss': 0.2086, 'grad_norm': 31.181548292273863, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.55859375, 'rewards/rejected': -3.556640625, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.1171875, 'logps/chosen': -291.75, 'logps/rejected': -138.4375, 'logits/chosen': -0.9248046875, 'logits/rejected': -0.892578125, 'epoch': 0.93}
 93%|███████████████████████████████████████████████████████████████████████████████████████▏      | 1896/2044 [9:44:48<46:27, 18.83s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████▏      | 1897/2044 [9:45:07<46:51, 19.13s/it]                                                                                                                                         {'loss': 0.2604, 'grad_norm': 33.1827173103809, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4210205078125, 'rewards/rejected': -3.4609375, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.884765625, 'logps/chosen': -306.5, 'logps/rejected': -153.5625, 'logits/chosen': -0.79248046875, 'logits/rejected': -0.76171875, 'epoch': 0.93}
 93%|███████████████████████████████████████████████████████████████████████████████████████▏      | 1897/2044 [9:45:07<46:51, 19.13s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████▎      | 1898/2044 [9:45:26<46:08, 18.96s/it]                                                                                                                                         {'loss': 0.1667, 'grad_norm': 21.424112753134253, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.53021240234375, 'rewards/rejected': -3.64453125, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.181640625, 'logps/chosen': -304.75, 'logps/rejected': -144.8125, 'logits/chosen': -0.739013671875, 'logits/rejected': -0.6739501953125, 'epoch': 0.93}
 93%|███████████████████████████████████████████████████████████████████████████████████████▎      | 1898/2044 [9:45:26<46:08, 18.96s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████▎      | 1899/2044 [9:45:45<46:07, 19.09s/it]                                                                                                                                         {'loss': 0.2905, 'grad_norm': 48.7000847922927, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.283203125, 'rewards/rejected': -3.1015625, 'rewards/accuracies': 0.8125, 'rewards/margins': 3.376953125, 'logps/chosen': -268.8125, 'logps/rejected': -158.125, 'logits/chosen': -0.80859375, 'logits/rejected': -0.810791015625, 'epoch': 0.93}
 93%|███████████████████████████████████████████████████████████████████████████████████████▎      | 1899/2044 [9:45:45<46:07, 19.09s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████▍      | 1900/2044 [9:46:06<46:43, 19.47s/it]                                                                                                                                         {'loss': 0.2417, 'grad_norm': 40.12656099819079, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.66046142578125, 'rewards/rejected': -3.16162109375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.8232421875, 'logps/chosen': -322.0, 'logps/rejected': -188.5, 'logits/chosen': -0.906005859375, 'logits/rejected': -0.849365234375, 'epoch': 0.93}
 93%|███████████████████████████████████████████████████████████████████████████████████████▍      | 1900/2044 [9:46:06<46:43, 19.47s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████▍      | 1901/2044 [9:46:24<45:26, 19.07s/it]                                                                                                                                         {'loss': 0.1546, 'grad_norm': 29.759076684509946, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4010009765625, 'rewards/rejected': -4.2431640625, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.646484375, 'logps/chosen': -335.5, 'logps/rejected': -166.75, 'logits/chosen': -0.90283203125, 'logits/rejected': -0.661865234375, 'epoch': 0.93}
 93%|███████████████████████████████████████████████████████████████████████████████████████▍      | 1901/2044 [9:46:24<45:26, 19.07s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████▍      | 1902/2044 [9:46:44<45:49, 19.36s/it]                                                                                                                                         {'loss': 0.2744, 'grad_norm': 31.885067076228353, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.07421875, 'rewards/rejected': -3.1806640625, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.2529296875, 'logps/chosen': -229.875, 'logps/rejected': -161.3125, 'logits/chosen': -0.875, 'logits/rejected': -0.7822265625, 'epoch': 0.93}
 93%|███████████████████████████████████████████████████████████████████████████████████████▍      | 1902/2044 [9:46:44<45:49, 19.36s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████▌      | 1903/2044 [9:47:04<45:47, 19.48s/it]                                                                                                                                         {'loss': 0.2914, 'grad_norm': 42.27131722385081, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.63970947265625, 'rewards/rejected': -3.1875, 'rewards/accuracies': 0.796875, 'rewards/margins': 3.828125, 'logps/chosen': -377.25, 'logps/rejected': -193.5, 'logits/chosen': -0.958984375, 'logits/rejected': -0.85595703125, 'epoch': 0.93}
 93%|███████████████████████████████████████████████████████████████████████████████████████▌      | 1903/2044 [9:47:04<45:47, 19.48s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████▌      | 1904/2044 [9:47:24<45:56, 19.69s/it]                                                                                                                                         {'loss': 0.1674, 'grad_norm': 30.748923217037945, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.67236328125, 'rewards/rejected': -3.705078125, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.37109375, 'logps/chosen': -338.0, 'logps/rejected': -149.75, 'logits/chosen': -0.931640625, 'logits/rejected': -0.727294921875, 'epoch': 0.93}
 93%|███████████████████████████████████████████████████████████████████████████████████████▌      | 1904/2044 [9:47:24<45:56, 19.69s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████▌      | 1905/2044 [9:47:44<46:12, 19.95s/it]                                                                                                                                         {'loss': 0.2248, 'grad_norm': 37.179962272818386, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9659423828125, 'rewards/rejected': -3.529296875, 'rewards/accuracies': 0.8125, 'rewards/margins': 4.498046875, 'logps/chosen': -342.25, 'logps/rejected': -188.125, 'logits/chosen': -0.9326171875, 'logits/rejected': -0.96728515625, 'epoch': 0.93}
 93%|███████████████████████████████████████████████████████████████████████████████████████▌      | 1905/2044 [9:47:44<46:12, 19.95s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████▋      | 1906/2044 [9:48:04<45:22, 19.72s/it]                                                                                                                                         {'loss': 0.1828, 'grad_norm': 31.026856236616606, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.561187744140625, 'rewards/rejected': -3.669921875, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.228515625, 'logps/chosen': -319.125, 'logps/rejected': -138.0625, 'logits/chosen': -0.93701171875, 'logits/rejected': -0.708251953125, 'epoch': 0.93}
 93%|███████████████████████████████████████████████████████████████████████████████████████▋      | 1906/2044 [9:48:04<45:22, 19.72s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████▋      | 1907/2044 [9:48:24<45:15, 19.82s/it]                                                                                                                                         {'loss': 0.2268, 'grad_norm': 43.10598428025384, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.662109375, 'rewards/rejected': -3.4189453125, 'rewards/accuracies': 0.875, 'rewards/margins': 4.078125, 'logps/chosen': -318.0, 'logps/rejected': -196.0, 'logits/chosen': -0.94091796875, 'logits/rejected': -0.79443359375, 'epoch': 0.93}
 93%|███████████████████████████████████████████████████████████████████████████████████████▋      | 1907/2044 [9:48:24<45:15, 19.82s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████▋      | 1908/2044 [9:48:44<45:03, 19.88s/it]                                                                                                                                         {'loss': 0.2272, 'grad_norm': 35.07410366320289, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4859771728515625, 'rewards/rejected': -3.51953125, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.00390625, 'logps/chosen': -268.375, 'logps/rejected': -170.625, 'logits/chosen': -0.89404296875, 'logits/rejected': -0.93603515625, 'epoch': 0.93}
 93%|███████████████████████████████████████████████████████████████████████████████████████▋      | 1908/2044 [9:48:44<45:03, 19.88s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████▊      | 1909/2044 [9:49:04<44:55, 19.96s/it]                                                                                                                                         {'loss': 0.2499, 'grad_norm': 27.55828481998586, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.59857177734375, 'rewards/rejected': -3.2353515625, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.83984375, 'logps/chosen': -321.375, 'logps/rejected': -135.25, 'logits/chosen': -0.93603515625, 'logits/rejected': -0.75244140625, 'epoch': 0.93}
 93%|███████████████████████████████████████████████████████████████████████████████████████▊      | 1909/2044 [9:49:04<44:55, 19.96s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████▊      | 1910/2044 [9:49:23<44:18, 19.84s/it]                                                                                                                                         {'loss': 0.1937, 'grad_norm': 34.84259344017436, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6016845703125, 'rewards/rejected': -3.921875, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.525390625, 'logps/chosen': -292.375, 'logps/rejected': -154.625, 'logits/chosen': -0.8876953125, 'logits/rejected': -0.83447265625, 'epoch': 0.93}
 93%|███████████████████████████████████████████████████████████████████████████████████████▊      | 1910/2044 [9:49:23<44:18, 19.84s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████▉      | 1911/2044 [9:49:44<44:11, 19.93s/it]                                                                                                                                         {'loss': 0.2426, 'grad_norm': 32.6586059365996, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.446136474609375, 'rewards/rejected': -3.189453125, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.634765625, 'logps/chosen': -303.5, 'logps/rejected': -147.3125, 'logits/chosen': -0.892578125, 'logits/rejected': -0.75244140625, 'epoch': 0.93}
 93%|███████████████████████████████████████████████████████████████████████████████████████▉      | 1911/2044 [9:49:44<44:11, 19.93s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████▉      | 1912/2044 [9:50:02<42:53, 19.50s/it]                                                                                                                                         {'loss': 0.2071, 'grad_norm': 35.048618873523594, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.552490234375, 'rewards/rejected': -3.876953125, 'rewards/accuracies': 0.875, 'rewards/margins': 4.431640625, 'logps/chosen': -307.375, 'logps/rejected': -136.0625, 'logits/chosen': -0.90771484375, 'logits/rejected': -0.7841796875, 'epoch': 0.94}
 94%|███████████████████████████████████████████████████████████████████████████████████████▉      | 1912/2044 [9:50:02<42:53, 19.50s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████▉      | 1913/2044 [9:50:21<42:23, 19.41s/it]                                                                                                                                         {'loss': 0.1892, 'grad_norm': 32.12946962498377, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6668701171875, 'rewards/rejected': -3.7578125, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.419921875, 'logps/chosen': -312.5, 'logps/rejected': -154.75, 'logits/chosen': -0.93212890625, 'logits/rejected': -0.927490234375, 'epoch': 0.94}
 94%|███████████████████████████████████████████████████████████████████████████████████████▉      | 1913/2044 [9:50:21<42:23, 19.41s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████      | 1914/2044 [9:50:40<41:46, 19.28s/it]                                                                                                                                         {'loss': 0.1726, 'grad_norm': 26.87492148943116, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5085296630859375, 'rewards/rejected': -3.74609375, 'rewards/accuracies': 0.875, 'rewards/margins': 4.25390625, 'logps/chosen': -288.375, 'logps/rejected': -137.25, 'logits/chosen': -0.814697265625, 'logits/rejected': -0.457244873046875, 'epoch': 0.94}
 94%|████████████████████████████████████████████████████████████████████████████████████████      | 1914/2044 [9:50:40<41:46, 19.28s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████      | 1915/2044 [9:51:00<41:28, 19.29s/it]                                                                                                                                         {'loss': 0.1848, 'grad_norm': 28.33090238803561, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8350830078125, 'rewards/rejected': -3.576171875, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.41015625, 'logps/chosen': -320.125, 'logps/rejected': -137.4375, 'logits/chosen': -0.79833984375, 'logits/rejected': -0.733154296875, 'epoch': 0.94}
 94%|████████████████████████████████████████████████████████████████████████████████████████      | 1915/2044 [9:51:00<41:28, 19.29s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████      | 1916/2044 [9:51:20<41:39, 19.53s/it]                                                                                                                                         {'loss': 0.3062, 'grad_norm': 39.80474113024386, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.443328857421875, 'rewards/rejected': -3.193359375, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.634765625, 'logps/chosen': -333.0, 'logps/rejected': -198.625, 'logits/chosen': -0.9755859375, 'logits/rejected': -0.86474609375, 'epoch': 0.94}
 94%|████████████████████████████████████████████████████████████████████████████████████████      | 1916/2044 [9:51:20<41:39, 19.53s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████▏     | 1917/2044 [9:51:40<41:38, 19.67s/it]                                                                                                                                         {'loss': 0.236, 'grad_norm': 36.92380875558061, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4373779296875, 'rewards/rejected': -3.509765625, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.94921875, 'logps/chosen': -313.125, 'logps/rejected': -153.625, 'logits/chosen': -0.72967529296875, 'logits/rejected': -0.720703125, 'epoch': 0.94}
 94%|████████████████████████████████████████████████████████████████████████████████████████▏     | 1917/2044 [9:51:40<41:38, 19.67s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████▏     | 1918/2044 [9:51:58<40:41, 19.37s/it]                                                                                                                                         {'loss': 0.157, 'grad_norm': 24.815344288437377, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.527587890625, 'rewards/rejected': -3.9296875, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.455078125, 'logps/chosen': -290.125, 'logps/rejected': -118.625, 'logits/chosen': -0.8028564453125, 'logits/rejected': -0.69140625, 'epoch': 0.94}
 94%|████████████████████████████████████████████████████████████████████████████████████████▏     | 1918/2044 [9:51:58<40:41, 19.37s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████▎     | 1919/2044 [9:52:20<41:31, 19.93s/it]                                                                                                                                         {'loss': 0.3148, 'grad_norm': 45.494406060898854, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.677001953125, 'rewards/rejected': -2.462890625, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.1357421875, 'logps/chosen': -374.125, 'logps/rejected': -270.5625, 'logits/chosen': -0.93896484375, 'logits/rejected': -0.91845703125, 'epoch': 0.94}
 94%|████████████████████████████████████████████████████████████████████████████████████████▎     | 1919/2044 [9:52:20<41:31, 19.93s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████▎     | 1920/2044 [9:52:39<41:03, 19.87s/it]                                                                                                                                         {'loss': 0.1533, 'grad_norm': 27.226572388448886, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.55096435546875, 'rewards/rejected': -3.619140625, 'rewards/accuracies': 0.953125, 'rewards/margins': 4.16796875, 'logps/chosen': -264.5, 'logps/rejected': -149.5, 'logits/chosen': -0.8974609375, 'logits/rejected': -0.77099609375, 'epoch': 0.94}
 94%|████████████████████████████████████████████████████████████████████████████████████████▎     | 1920/2044 [9:52:39<41:03, 19.87s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████▎     | 1921/2044 [9:52:57<39:15, 19.15s/it]                                                                                                                                         {'loss': 0.1318, 'grad_norm': 20.390804529205234, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.1749267578125, 'rewards/rejected': -4.431640625, 'rewards/accuracies': 0.953125, 'rewards/margins': 4.609375, 'logps/chosen': -233.875, 'logps/rejected': -136.9375, 'logits/chosen': -0.87841796875, 'logits/rejected': -0.7159423828125, 'epoch': 0.94}
 94%|████████████████████████████████████████████████████████████████████████████████████████▎     | 1921/2044 [9:52:57<39:15, 19.15s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████▍     | 1922/2044 [9:53:17<39:32, 19.45s/it]                                                                                                                                         {'loss': 0.2868, 'grad_norm': 40.59941553359979, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.01220703125, 'rewards/rejected': -3.404296875, 'rewards/accuracies': 0.8125, 'rewards/margins': 3.4150390625, 'logps/chosen': -227.875, 'logps/rejected': -171.25, 'logits/chosen': -0.93359375, 'logits/rejected': -0.83935546875, 'epoch': 0.94}
 94%|████████████████████████████████████████████████████████████████████████████████████████▍     | 1922/2044 [9:53:17<39:32, 19.45s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████▍     | 1923/2044 [9:53:36<38:58, 19.32s/it]                                                                                                                                         {'loss': 0.2414, 'grad_norm': 33.09143391678231, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.597259521484375, 'rewards/rejected': -3.7265625, 'rewards/accuracies': 0.875, 'rewards/margins': 4.322265625, 'logps/chosen': -312.375, 'logps/rejected': -127.1875, 'logits/chosen': -0.84423828125, 'logits/rejected': -0.745361328125, 'epoch': 0.94}
 94%|████████████████████████████████████████████████████████████████████████████████████████▍     | 1923/2044 [9:53:36<38:58, 19.32s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████▍     | 1924/2044 [9:53:55<38:47, 19.39s/it]                                                                                                                                         {'loss': 0.2067, 'grad_norm': 35.84269181965057, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7225341796875, 'rewards/rejected': -3.443359375, 'rewards/accuracies': 0.875, 'rewards/margins': 4.16796875, 'logps/chosen': -334.0, 'logps/rejected': -142.25, 'logits/chosen': -1.0205078125, 'logits/rejected': -0.59649658203125, 'epoch': 0.94}
 94%|████████████████████████████████████████████████████████████████████████████████████████▍     | 1924/2044 [9:53:55<38:47, 19.39s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████▌     | 1925/2044 [9:54:15<38:19, 19.32s/it]                                                                                                                                         {'loss': 0.2194, 'grad_norm': 38.50109936048927, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.658203125, 'rewards/rejected': -3.693359375, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.349609375, 'logps/chosen': -311.625, 'logps/rejected': -149.5625, 'logits/chosen': -0.95556640625, 'logits/rejected': -0.76434326171875, 'epoch': 0.94}
 94%|████████████████████████████████████████████████████████████████████████████████████████▌     | 1925/2044 [9:54:15<38:19, 19.32s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████▌     | 1926/2044 [9:54:34<37:53, 19.27s/it]                                                                                                                                         {'loss': 0.2557, 'grad_norm': 37.60529806529582, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.159881591796875, 'rewards/rejected': -3.1044921875, 'rewards/accuracies': 0.875, 'rewards/margins': 3.265625, 'logps/chosen': -234.625, 'logps/rejected': -176.6875, 'logits/chosen': -1.07373046875, 'logits/rejected': -0.93896484375, 'epoch': 0.94}
 94%|████████████████████████████████████████████████████████████████████████████████████████▌     | 1926/2044 [9:54:34<37:53, 19.27s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████▌     | 1927/2044 [9:54:54<37:55, 19.44s/it]                                                                                                                                         {'loss': 0.2178, 'grad_norm': 33.4812521889152, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6173095703125, 'rewards/rejected': -3.345703125, 'rewards/accuracies': 0.875, 'rewards/margins': 3.9609375, 'logps/chosen': -305.375, 'logps/rejected': -184.0, 'logits/chosen': -0.8955078125, 'logits/rejected': -0.795654296875, 'epoch': 0.94}
 94%|████████████████████████████████████████████████████████████████████████████████████████▌     | 1927/2044 [9:54:54<37:55, 19.44s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████▋     | 1928/2044 [9:55:13<37:43, 19.51s/it]                                                                                                                                         {'loss': 0.1752, 'grad_norm': 40.842854899695595, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.1484375, 'rewards/rejected': -3.7265625, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.87109375, 'logps/chosen': -396.125, 'logps/rejected': -178.5, 'logits/chosen': -0.86865234375, 'logits/rejected': -0.869873046875, 'epoch': 0.94}
 94%|████████████████████████████████████████████████████████████████████████████████████████▋     | 1928/2044 [9:55:13<37:43, 19.51s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████▋     | 1929/2044 [9:55:32<36:58, 19.29s/it]                                                                                                                                         {'loss': 0.1573, 'grad_norm': 26.111577173969092, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.2908935546875, 'rewards/rejected': -3.9560546875, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.24609375, 'logps/chosen': -237.125, 'logps/rejected': -127.25, 'logits/chosen': -0.878662109375, 'logits/rejected': -0.70703125, 'epoch': 0.94}
 94%|████████████████████████████████████████████████████████████████████████████████████████▋     | 1929/2044 [9:55:32<36:58, 19.29s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████▊     | 1930/2044 [9:55:52<37:04, 19.51s/it]                                                                                                                                         {'loss': 0.1785, 'grad_norm': 27.170498696503056, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.067626953125, 'rewards/rejected': -3.990234375, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.05859375, 'logps/chosen': -306.125, 'logps/rejected': -130.5, 'logits/chosen': -0.9005126953125, 'logits/rejected': -0.794921875, 'epoch': 0.94}
 94%|████████████████████████████████████████████████████████████████████████████████████████▊     | 1930/2044 [9:55:52<37:04, 19.51s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████▊     | 1931/2044 [9:56:13<37:22, 19.85s/it]                                                                                                                                         {'loss': 0.1958, 'grad_norm': 28.71573652257865, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.8511962890625, 'rewards/rejected': -3.017578125, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.87109375, 'logps/chosen': -338.875, 'logps/rejected': -161.625, 'logits/chosen': -1.00537109375, 'logits/rejected': -0.7493896484375, 'epoch': 0.94}
 94%|████████████████████████████████████████████████████████████████████████████████████████▊     | 1931/2044 [9:56:13<37:22, 19.85s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████▊     | 1932/2044 [9:56:33<37:17, 19.98s/it]                                                                                                                                         {'loss': 0.2469, 'grad_norm': 34.50641439243781, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.843994140625, 'rewards/rejected': -2.9150390625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.755859375, 'logps/chosen': -348.0, 'logps/rejected': -235.25, 'logits/chosen': -0.92822265625, 'logits/rejected': -0.90576171875, 'epoch': 0.95}
 95%|████████████████████████████████████████████████████████████████████████████████████████▊     | 1932/2044 [9:56:33<37:17, 19.98s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████▉     | 1933/2044 [9:56:52<36:10, 19.55s/it]                                                                                                                                         {'loss': 0.1202, 'grad_norm': 16.071596200361697, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.43463134765625, 'rewards/rejected': -3.705078125, 'rewards/accuracies': 0.984375, 'rewards/margins': 4.138671875, 'logps/chosen': -269.1875, 'logps/rejected': -112.5625, 'logits/chosen': -0.83245849609375, 'logits/rejected': -0.637847900390625, 'epoch': 0.95}
 95%|████████████████████████████████████████████████████████████████████████████████████████▉     | 1933/2044 [9:56:52<36:10, 19.55s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████▉     | 1934/2044 [9:57:10<35:04, 19.13s/it]                                                                                                                                         {'loss': 0.1547, 'grad_norm': 25.80850075070332, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5684814453125, 'rewards/rejected': -3.6484375, 'rewards/accuracies': 0.953125, 'rewards/margins': 4.220703125, 'logps/chosen': -303.25, 'logps/rejected': -143.5625, 'logits/chosen': -1.03759765625, 'logits/rejected': -0.5732421875, 'epoch': 0.95}
 95%|████████████████████████████████████████████████████████████████████████████████████████▉     | 1934/2044 [9:57:10<35:04, 19.13s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████▉     | 1935/2044 [9:57:29<34:58, 19.25s/it]                                                                                                                                         {'loss': 0.1743, 'grad_norm': 26.06286640112533, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5250244140625, 'rewards/rejected': -3.708984375, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.234375, 'logps/chosen': -341.25, 'logps/rejected': -130.125, 'logits/chosen': -0.95068359375, 'logits/rejected': -0.831787109375, 'epoch': 0.95}
 95%|████████████████████████████████████████████████████████████████████████████████████████▉     | 1935/2044 [9:57:29<34:58, 19.25s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████     | 1936/2044 [9:57:47<33:53, 18.83s/it]                                                                                                                                         {'loss': 0.1543, 'grad_norm': 23.58289519373724, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.436767578125, 'rewards/rejected': -4.134765625, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.5703125, 'logps/chosen': -271.75, 'logps/rejected': -163.8125, 'logits/chosen': -0.9560546875, 'logits/rejected': -0.7607421875, 'epoch': 0.95}
 95%|█████████████████████████████████████████████████████████████████████████████████████████     | 1936/2044 [9:57:47<33:53, 18.83s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████     | 1937/2044 [9:58:06<33:48, 18.95s/it]                                                                                                                                         {'loss': 0.2817, 'grad_norm': 35.99117879690263, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.2120819091796875, 'rewards/rejected': -3.2724609375, 'rewards/accuracies': 0.8125, 'rewards/margins': 3.48828125, 'logps/chosen': -270.25, 'logps/rejected': -156.75, 'logits/chosen': -0.7769775390625, 'logits/rejected': -0.640228271484375, 'epoch': 0.95}
 95%|█████████████████████████████████████████████████████████████████████████████████████████     | 1937/2044 [9:58:06<33:48, 18.95s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████▏    | 1938/2044 [9:58:27<34:09, 19.34s/it]                                                                                                                                         {'loss': 0.2627, 'grad_norm': 46.42550612897403, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.509521484375, 'rewards/rejected': -3.37890625, 'rewards/accuracies': 0.78125, 'rewards/margins': 3.890625, 'logps/chosen': -358.6875, 'logps/rejected': -145.25, 'logits/chosen': -0.94580078125, 'logits/rejected': -0.78857421875, 'epoch': 0.95}
 95%|█████████████████████████████████████████████████████████████████████████████████████████▏    | 1938/2044 [9:58:27<34:09, 19.34s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████▏    | 1939/2044 [9:58:44<32:51, 18.78s/it]                                                                                                                                         {'loss': 0.2132, 'grad_norm': 25.36032272082128, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.0220947265625, 'rewards/rejected': -4.0390625, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.06640625, 'logps/chosen': -253.0, 'logps/rejected': -137.3125, 'logits/chosen': -0.858154296875, 'logits/rejected': -0.50006103515625, 'epoch': 0.95}
 95%|█████████████████████████████████████████████████████████████████████████████████████████▏    | 1939/2044 [9:58:44<32:51, 18.78s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████▏    | 1940/2044 [9:59:03<32:52, 18.97s/it]                                                                                                                                         {'loss': 0.2659, 'grad_norm': 38.64751415608353, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': -0.002685546875, 'rewards/rejected': -3.4775390625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.4697265625, 'logps/chosen': -263.375, 'logps/rejected': -144.6875, 'logits/chosen': -0.7399196624755859, 'logits/rejected': -0.6087646484375, 'epoch': 0.95}
 95%|█████████████████████████████████████████████████████████████████████████████████████████▏    | 1940/2044 [9:59:03<32:52, 18.97s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████▎    | 1941/2044 [9:59:24<33:29, 19.51s/it]                                                                                                                                         {'loss': 0.3115, 'grad_norm': 40.10480105194125, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5970306396484375, 'rewards/rejected': -2.673828125, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.2705078125, 'logps/chosen': -296.875, 'logps/rejected': -213.75, 'logits/chosen': -0.919677734375, 'logits/rejected': -0.90966796875, 'epoch': 0.95}
 95%|█████████████████████████████████████████████████████████████████████████████████████████▎    | 1941/2044 [9:59:24<33:29, 19.51s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████▎    | 1942/2044 [9:59:44<33:19, 19.60s/it]                                                                                                                                         {'loss': 0.1921, 'grad_norm': 30.461586318542277, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.53326416015625, 'rewards/rejected': -3.3515625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.88671875, 'logps/chosen': -324.0, 'logps/rejected': -144.6875, 'logits/chosen': -0.90380859375, 'logits/rejected': -0.803955078125, 'epoch': 0.95}
 95%|█████████████████████████████████████████████████████████████████████████████████████████▎    | 1942/2044 [9:59:44<33:19, 19.60s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████▍    | 1943/2044 [10:00:03<32:50, 19.51s/it]                                                                                                                                         {'loss': 0.1695, 'grad_norm': 25.716446419476355, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6611328125, 'rewards/rejected': -3.517578125, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.177734375, 'logps/chosen': -293.8125, 'logps/rejected': -128.0, 'logits/chosen': -0.832763671875, 'logits/rejected': -0.6712646484375, 'epoch': 0.95}
 95%|████████████████████████████████████████████████████████████████████████████████████████▍    | 1943/2044 [10:00:03<32:50, 19.51s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████▍    | 1944/2044 [10:00:23<32:34, 19.54s/it]                                                                                                                                         {'loss': 0.1857, 'grad_norm': 35.208386655195206, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.48236083984375, 'rewards/rejected': -3.75, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.23046875, 'logps/chosen': -282.25, 'logps/rejected': -148.875, 'logits/chosen': -1.13427734375, 'logits/rejected': -0.733154296875, 'epoch': 0.95}
 95%|████████████████████████████████████████████████████████████████████████████████████████▍    | 1944/2044 [10:00:23<32:34, 19.54s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████▍    | 1945/2044 [10:00:43<32:44, 19.84s/it]                                                                                                                                         {'loss': 0.1982, 'grad_norm': 27.102146766864855, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4625244140625, 'rewards/rejected': -3.3984375, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.865234375, 'logps/chosen': -268.625, 'logps/rejected': -144.3125, 'logits/chosen': -0.916748046875, 'logits/rejected': -0.793701171875, 'epoch': 0.95}
 95%|████████████████████████████████████████████████████████████████████████████████████████▍    | 1945/2044 [10:00:43<32:44, 19.84s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████▌    | 1946/2044 [10:01:03<32:06, 19.66s/it]                                                                                                                                         {'loss': 0.2133, 'grad_norm': 26.569385482509123, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6305770874023438, 'rewards/rejected': -3.564453125, 'rewards/accuracies': 0.84375, 'rewards/margins': 4.19921875, 'logps/chosen': -412.25, 'logps/rejected': -227.25, 'logits/chosen': -1.07568359375, 'logits/rejected': -0.9169921875, 'epoch': 0.95}
 95%|████████████████████████████████████████████████████████████████████████████████████████▌    | 1946/2044 [10:01:03<32:06, 19.66s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████▌    | 1947/2044 [10:01:24<32:24, 20.05s/it]                                                                                                                                         {'loss': 0.2016, 'grad_norm': 33.49655549786628, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6060791015625, 'rewards/rejected': -3.30029296875, 'rewards/accuracies': 0.875, 'rewards/margins': 3.91015625, 'logps/chosen': -263.5, 'logps/rejected': -173.5625, 'logits/chosen': -0.89892578125, 'logits/rejected': -0.7607421875, 'epoch': 0.95}
 95%|████████████████████████████████████████████████████████████████████████████████████████▌    | 1947/2044 [10:01:24<32:24, 20.05s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████▋    | 1948/2044 [10:01:44<32:13, 20.14s/it]                                                                                                                                         {'loss': 0.2478, 'grad_norm': 35.31705906516503, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.2564277648925781, 'rewards/rejected': -3.4208984375, 'rewards/accuracies': 0.8125, 'rewards/margins': 3.6748046875, 'logps/chosen': -292.625, 'logps/rejected': -148.9375, 'logits/chosen': -1.001953125, 'logits/rejected': -0.82666015625, 'epoch': 0.95}
 95%|████████████████████████████████████████████████████████████████████████████████████████▋    | 1948/2044 [10:01:44<32:13, 20.14s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████▋    | 1949/2044 [10:02:04<31:42, 20.03s/it]                                                                                                                                         {'loss': 0.1861, 'grad_norm': 30.98522270661516, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.394775390625, 'rewards/rejected': -3.943359375, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.3359375, 'logps/chosen': -316.0, 'logps/rejected': -132.4375, 'logits/chosen': -0.9580078125, 'logits/rejected': -0.73583984375, 'epoch': 0.95}
 95%|████████████████████████████████████████████████████████████████████████████████████████▋    | 1949/2044 [10:02:04<31:42, 20.03s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████▋    | 1950/2044 [10:02:24<31:34, 20.16s/it]                                                                                                                                         {'loss': 0.2135, 'grad_norm': 28.288685481827486, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.66705322265625, 'rewards/rejected': -3.1201171875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.7890625, 'logps/chosen': -329.5, 'logps/rejected': -144.4375, 'logits/chosen': -0.703857421875, 'logits/rejected': -0.63525390625, 'epoch': 0.95}
 95%|████████████████████████████████████████████████████████████████████████████████████████▋    | 1950/2044 [10:02:24<31:34, 20.16s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████▊    | 1951/2044 [10:02:45<31:21, 20.23s/it]                                                                                                                                         {'loss': 0.1784, 'grad_norm': 27.168696368117555, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.39453125, 'rewards/rejected': -3.6484375, 'rewards/accuracies': 0.953125, 'rewards/margins': 4.044921875, 'logps/chosen': -298.0, 'logps/rejected': -152.4375, 'logits/chosen': -0.91021728515625, 'logits/rejected': -0.590850830078125, 'epoch': 0.95}
 95%|████████████████████████████████████████████████████████████████████████████████████████▊    | 1951/2044 [10:02:45<31:21, 20.23s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████▊    | 1952/2044 [10:03:04<30:33, 19.93s/it]                                                                                                                                         {'loss': 0.2091, 'grad_norm': 32.469538107632516, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.455413818359375, 'rewards/rejected': -3.59375, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.046875, 'logps/chosen': -284.5, 'logps/rejected': -154.375, 'logits/chosen': -1.115234375, 'logits/rejected': -0.70361328125, 'epoch': 0.96}
 95%|████████████████████████████████████████████████████████████████████████████████████████▊    | 1952/2044 [10:03:04<30:33, 19.93s/it] 96%|████████████████████████████████████████████████████████████████████████████████████████▊    | 1953/2044 [10:03:23<29:56, 19.74s/it]                                                                                                                                         {'loss': 0.2335, 'grad_norm': 33.80499684300525, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.74267578125, 'rewards/rejected': -3.0390625, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.78125, 'logps/chosen': -311.5, 'logps/rejected': -192.375, 'logits/chosen': -1.00146484375, 'logits/rejected': -0.71826171875, 'epoch': 0.96}
 96%|████████████████████████████████████████████████████████████████████████████████████████▊    | 1953/2044 [10:03:23<29:56, 19.74s/it] 96%|████████████████████████████████████████████████████████████████████████████████████████▉    | 1954/2044 [10:03:44<30:00, 20.00s/it]                                                                                                                                         {'loss': 0.3003, 'grad_norm': 41.998498828081324, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5118408203125, 'rewards/rejected': -3.34765625, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.85546875, 'logps/chosen': -306.625, 'logps/rejected': -180.4375, 'logits/chosen': -0.84814453125, 'logits/rejected': -0.7022705078125, 'epoch': 0.96}
 96%|████████████████████████████████████████████████████████████████████████████████████████▉    | 1954/2044 [10:03:44<30:00, 20.00s/it] 96%|████████████████████████████████████████████████████████████████████████████████████████▉    | 1955/2044 [10:04:04<29:37, 19.97s/it]                                                                                                                                         {'loss': 0.2514, 'grad_norm': 33.167161758742786, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.55029296875, 'rewards/rejected': -3.474609375, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.0234375, 'logps/chosen': -277.375, 'logps/rejected': -126.4375, 'logits/chosen': -0.7314453125, 'logits/rejected': -0.643310546875, 'epoch': 0.96}
 96%|████████████████████████████████████████████████████████████████████████████████████████▉    | 1955/2044 [10:04:04<29:37, 19.97s/it] 96%|████████████████████████████████████████████████████████████████████████████████████████▉    | 1956/2044 [10:04:22<28:44, 19.60s/it]                                                                                                                                         {'loss': 0.2686, 'grad_norm': 39.59597048443103, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.389373779296875, 'rewards/rejected': -3.37890625, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.759765625, 'logps/chosen': -308.75, 'logps/rejected': -150.9375, 'logits/chosen': -1.0048828125, 'logits/rejected': -0.625244140625, 'epoch': 0.96}
 96%|████████████████████████████████████████████████████████████████████████████████████████▉    | 1956/2044 [10:04:22<28:44, 19.60s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████    | 1957/2044 [10:04:42<28:31, 19.67s/it]                                                                                                                                         {'loss': 0.1678, 'grad_norm': 32.96159764457603, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.60003662109375, 'rewards/rejected': -3.876953125, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.478515625, 'logps/chosen': -343.25, 'logps/rejected': -150.5625, 'logits/chosen': -1.0673828125, 'logits/rejected': -0.722900390625, 'epoch': 0.96}
 96%|█████████████████████████████████████████████████████████████████████████████████████████    | 1957/2044 [10:04:42<28:31, 19.67s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████    | 1958/2044 [10:05:00<27:25, 19.13s/it]                                                                                                                                         {'loss': 0.1723, 'grad_norm': 30.4400829451855, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.3480224609375, 'rewards/rejected': -4.158203125, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.501953125, 'logps/chosen': -322.5, 'logps/rejected': -136.1875, 'logits/chosen': -0.921875, 'logits/rejected': -0.7998046875, 'epoch': 0.96}
 96%|█████████████████████████████████████████████████████████████████████████████████████████    | 1958/2044 [10:05:00<27:25, 19.13s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████▏   | 1959/2044 [10:05:20<27:22, 19.32s/it]                                                                                                                                         {'loss': 0.2182, 'grad_norm': 31.700667845053612, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6927490234375, 'rewards/rejected': -3.314453125, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.00390625, 'logps/chosen': -352.25, 'logps/rejected': -140.3125, 'logits/chosen': -0.908935546875, 'logits/rejected': -0.81494140625, 'epoch': 0.96}
 96%|█████████████████████████████████████████████████████████████████████████████████████████▏   | 1959/2044 [10:05:20<27:22, 19.32s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████▏   | 1960/2044 [10:05:40<27:16, 19.48s/it]                                                                                                                                         {'loss': 0.1551, 'grad_norm': 22.897937411278175, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.18701171875, 'rewards/rejected': -3.57421875, 'rewards/accuracies': 0.953125, 'rewards/margins': 3.765625, 'logps/chosen': -287.25, 'logps/rejected': -165.9375, 'logits/chosen': -1.05126953125, 'logits/rejected': -0.7615966796875, 'epoch': 0.96}
 96%|█████████████████████████████████████████████████████████████████████████████████████████▏   | 1960/2044 [10:05:40<27:16, 19.48s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████▏   | 1961/2044 [10:06:00<27:04, 19.57s/it]                                                                                                                                         {'loss': 0.1967, 'grad_norm': 31.688002169329238, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.43841552734375, 'rewards/rejected': -3.640625, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.07421875, 'logps/chosen': -276.4375, 'logps/rejected': -155.3125, 'logits/chosen': -0.89013671875, 'logits/rejected': -0.787353515625, 'epoch': 0.96}
 96%|█████████████████████████████████████████████████████████████████████████████████████████▏   | 1961/2044 [10:06:00<27:04, 19.57s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████▎   | 1962/2044 [10:06:19<26:45, 19.58s/it]                                                                                                                                         {'loss': 0.2042, 'grad_norm': 27.736536317212614, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.331878662109375, 'rewards/rejected': -3.17578125, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.5009765625, 'logps/chosen': -281.5, 'logps/rejected': -173.1875, 'logits/chosen': -0.876220703125, 'logits/rejected': -0.8701171875, 'epoch': 0.96}
 96%|█████████████████████████████████████████████████████████████████████████████████████████▎   | 1962/2044 [10:06:19<26:45, 19.58s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████▎   | 1963/2044 [10:06:38<26:08, 19.37s/it]                                                                                                                                         {'loss': 0.1682, 'grad_norm': 29.063647404042985, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6073760986328125, 'rewards/rejected': -3.6640625, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.267578125, 'logps/chosen': -272.125, 'logps/rejected': -148.0, 'logits/chosen': -0.7957763671875, 'logits/rejected': -0.51611328125, 'epoch': 0.96}
 96%|█████████████████████████████████████████████████████████████████████████████████████████▎   | 1963/2044 [10:06:38<26:08, 19.37s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████▎   | 1964/2044 [10:06:57<25:41, 19.27s/it]                                                                                                                                         {'loss': 0.1897, 'grad_norm': 32.81341357461854, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.276092529296875, 'rewards/rejected': -3.9228515625, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.203125, 'logps/chosen': -292.25, 'logps/rejected': -163.3125, 'logits/chosen': -0.762939453125, 'logits/rejected': -0.8984375, 'epoch': 0.96}
 96%|█████████████████████████████████████████████████████████████████████████████████████████▎   | 1964/2044 [10:06:57<25:41, 19.27s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████▍   | 1965/2044 [10:07:16<25:05, 19.06s/it]                                                                                                                                         {'loss': 0.1511, 'grad_norm': 31.548640072061072, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.700439453125, 'rewards/rejected': -3.6982421875, 'rewards/accuracies': 0.953125, 'rewards/margins': 4.396484375, 'logps/chosen': -362.5, 'logps/rejected': -115.5, 'logits/chosen': -0.85546875, 'logits/rejected': -0.5264892578125, 'epoch': 0.96}
 96%|█████████████████████████████████████████████████████████████████████████████████████████▍   | 1965/2044 [10:07:16<25:05, 19.06s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████▍   | 1966/2044 [10:07:36<25:23, 19.53s/it]                                                                                                                                         {'loss': 0.2074, 'grad_norm': 31.078158112232554, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5098876953125, 'rewards/rejected': -3.640625, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.1484375, 'logps/chosen': -324.0, 'logps/rejected': -144.75, 'logits/chosen': -0.6929931640625, 'logits/rejected': -0.58984375, 'epoch': 0.96}
 96%|█████████████████████████████████████████████████████████████████████████████████████████▍   | 1966/2044 [10:07:36<25:23, 19.53s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████▍   | 1967/2044 [10:07:56<25:07, 19.57s/it]                                                                                                                                         {'loss': 0.1957, 'grad_norm': 33.16017129917904, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6812744140625, 'rewards/rejected': -3.66796875, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.3515625, 'logps/chosen': -283.625, 'logps/rejected': -162.6875, 'logits/chosen': -0.700439453125, 'logits/rejected': -0.82958984375, 'epoch': 0.96}
 96%|█████████████████████████████████████████████████████████████████████████████████████████▍   | 1967/2044 [10:07:56<25:07, 19.57s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████▌   | 1968/2044 [10:08:15<24:32, 19.37s/it]                                                                                                                                         {'loss': 0.2547, 'grad_norm': 37.353891496775724, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.41094970703125, 'rewards/rejected': -3.322265625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.73046875, 'logps/chosen': -308.25, 'logps/rejected': -152.5, 'logits/chosen': -0.8427734375, 'logits/rejected': -0.778564453125, 'epoch': 0.96}
 96%|█████████████████████████████████████████████████████████████████████████████████████████▌   | 1968/2044 [10:08:15<24:32, 19.37s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████▌   | 1969/2044 [10:08:34<24:17, 19.43s/it]                                                                                                                                         {'loss': 0.2509, 'grad_norm': 39.9411826605082, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.27728271484375, 'rewards/rejected': -3.41015625, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.685546875, 'logps/chosen': -301.375, 'logps/rejected': -174.25, 'logits/chosen': -0.86865234375, 'logits/rejected': -0.8369140625, 'epoch': 0.96}
 96%|█████████████████████████████████████████████████████████████████████████████████████████▌   | 1969/2044 [10:08:34<24:17, 19.43s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████▋   | 1970/2044 [10:08:55<24:14, 19.65s/it]                                                                                                                                         {'loss': 0.2562, 'grad_norm': 42.05614451304612, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.368408203125, 'rewards/rejected': -3.3984375, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.7724609375, 'logps/chosen': -305.625, 'logps/rejected': -176.0625, 'logits/chosen': -0.8193359375, 'logits/rejected': -0.778076171875, 'epoch': 0.96}
 96%|█████████████████████████████████████████████████████████████████████████████████████████▋   | 1970/2044 [10:08:55<24:14, 19.65s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████▋   | 1971/2044 [10:09:15<24:07, 19.83s/it]                                                                                                                                         {'loss': 0.2408, 'grad_norm': 52.05040858050469, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.301055908203125, 'rewards/rejected': -3.611328125, 'rewards/accuracies': 0.875, 'rewards/margins': 3.9140625, 'logps/chosen': -366.25, 'logps/rejected': -122.75, 'logits/chosen': -0.879638671875, 'logits/rejected': -0.7459716796875, 'epoch': 0.96}
 96%|█████████████████████████████████████████████████████████████████████████████████████████▋   | 1971/2044 [10:09:15<24:07, 19.83s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████▋   | 1972/2044 [10:09:34<23:44, 19.78s/it]                                                                                                                                         {'loss': 0.2327, 'grad_norm': 33.039717479877844, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4117431640625, 'rewards/rejected': -3.376953125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.783203125, 'logps/chosen': -303.75, 'logps/rejected': -171.625, 'logits/chosen': -1.03125, 'logits/rejected': -0.776123046875, 'epoch': 0.96}
 96%|█████████████████████████████████████████████████████████████████████████████████████████▋   | 1972/2044 [10:09:34<23:44, 19.78s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████▊   | 1973/2044 [10:09:55<23:37, 19.96s/it]                                                                                                                                         {'loss': 0.1624, 'grad_norm': 23.31190618690896, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5240478515625, 'rewards/rejected': -3.599609375, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.125, 'logps/chosen': -251.0625, 'logps/rejected': -136.5, 'logits/chosen': -0.914794921875, 'logits/rejected': -0.84765625, 'epoch': 0.97}
 97%|█████████████████████████████████████████████████████████████████████████████████████████▊   | 1973/2044 [10:09:55<23:37, 19.96s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████▊   | 1974/2044 [10:10:15<23:11, 19.88s/it]                                                                                                                                         {'loss': 0.2052, 'grad_norm': 36.71014939932205, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.433868408203125, 'rewards/rejected': -3.5595703125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.990234375, 'logps/chosen': -329.0, 'logps/rejected': -168.8125, 'logits/chosen': -0.966796875, 'logits/rejected': -0.90673828125, 'epoch': 0.97}
 97%|█████████████████████████████████████████████████████████████████████████████████████████▊   | 1974/2044 [10:10:15<23:11, 19.88s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████▊   | 1975/2044 [10:10:35<22:58, 19.98s/it]                                                                                                                                         {'loss': 0.2023, 'grad_norm': 31.89476940708764, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.545654296875, 'rewards/rejected': -3.5751953125, 'rewards/accuracies': 0.84375, 'rewards/margins': 4.119140625, 'logps/chosen': -296.25, 'logps/rejected': -156.9375, 'logits/chosen': -0.92333984375, 'logits/rejected': -0.82861328125, 'epoch': 0.97}
 97%|█████████████████████████████████████████████████████████████████████████████████████████▊   | 1975/2044 [10:10:35<22:58, 19.98s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████▉   | 1976/2044 [10:10:55<22:48, 20.13s/it]                                                                                                                                         {'loss': 0.2224, 'grad_norm': 33.92837117068, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4051513671875, 'rewards/rejected': -3.4990234375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.90625, 'logps/chosen': -285.5, 'logps/rejected': -146.0, 'logits/chosen': -0.784912109375, 'logits/rejected': -0.75048828125, 'epoch': 0.97}
 97%|█████████████████████████████████████████████████████████████████████████████████████████▉   | 1976/2044 [10:10:55<22:48, 20.13s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████▉   | 1977/2044 [10:11:14<22:10, 19.86s/it]                                                                                                                                         {'loss': 0.2441, 'grad_norm': 33.34218047233531, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.54443359375, 'rewards/rejected': -3.13671875, 'rewards/accuracies': 0.828125, 'rewards/margins': 3.6796875, 'logps/chosen': -304.25, 'logps/rejected': -169.09375, 'logits/chosen': -0.9365234375, 'logits/rejected': -0.7958984375, 'epoch': 0.97}
 97%|█████████████████████████████████████████████████████████████████████████████████████████▉   | 1977/2044 [10:11:14<22:10, 19.86s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████▉   | 1978/2044 [10:11:34<21:41, 19.71s/it]                                                                                                                                         {'loss': 0.1873, 'grad_norm': 26.83269442748947, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4410400390625, 'rewards/rejected': -3.83203125, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.2734375, 'logps/chosen': -279.75, 'logps/rejected': -133.125, 'logits/chosen': -0.7467041015625, 'logits/rejected': -0.646087646484375, 'epoch': 0.97}
 97%|█████████████████████████████████████████████████████████████████████████████████████████▉   | 1978/2044 [10:11:34<21:41, 19.71s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████   | 1979/2044 [10:11:53<21:05, 19.48s/it]                                                                                                                                         {'loss': 0.2094, 'grad_norm': 31.916836336203072, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4039306640625, 'rewards/rejected': -3.236328125, 'rewards/accuracies': 0.875, 'rewards/margins': 3.63671875, 'logps/chosen': -252.125, 'logps/rejected': -161.875, 'logits/chosen': -0.765625, 'logits/rejected': -0.634033203125, 'epoch': 0.97}
 97%|██████████████████████████████████████████████████████████████████████████████████████████   | 1979/2044 [10:11:53<21:05, 19.48s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████   | 1980/2044 [10:12:12<20:50, 19.54s/it]                                                                                                                                         {'loss': 0.2537, 'grad_norm': 31.520051334393155, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.28809356689453125, 'rewards/rejected': -3.568359375, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.85546875, 'logps/chosen': -244.75, 'logps/rejected': -141.0625, 'logits/chosen': -0.70269775390625, 'logits/rejected': -0.82861328125, 'epoch': 0.97}
 97%|██████████████████████████████████████████████████████████████████████████████████████████   | 1980/2044 [10:12:12<20:50, 19.54s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████▏  | 1981/2044 [10:12:32<20:36, 19.62s/it]                                                                                                                                         {'loss': 0.2489, 'grad_norm': 42.639467568986205, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.667236328125, 'rewards/rejected': -3.6318359375, 'rewards/accuracies': 0.875, 'rewards/margins': 4.296875, 'logps/chosen': -321.75, 'logps/rejected': -153.5, 'logits/chosen': -0.87158203125, 'logits/rejected': -0.788330078125, 'epoch': 0.97}
 97%|██████████████████████████████████████████████████████████████████████████████████████████▏  | 1981/2044 [10:12:32<20:36, 19.62s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████▏  | 1982/2044 [10:12:52<20:24, 19.75s/it]                                                                                                                                         {'loss': 0.2338, 'grad_norm': 35.561878403125775, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.55615234375, 'rewards/rejected': -3.5390625, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.091796875, 'logps/chosen': -283.25, 'logps/rejected': -157.125, 'logits/chosen': -0.83746337890625, 'logits/rejected': -0.80322265625, 'epoch': 0.97}
 97%|██████████████████████████████████████████████████████████████████████████████████████████▏  | 1982/2044 [10:12:52<20:24, 19.75s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████▏  | 1983/2044 [10:13:13<20:13, 19.90s/it]                                                                                                                                         {'loss': 0.234, 'grad_norm': 37.48625237373996, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.20306396484375, 'rewards/rejected': -3.822265625, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.025390625, 'logps/chosen': -312.625, 'logps/rejected': -127.6875, 'logits/chosen': -0.8995361328125, 'logits/rejected': -0.79443359375, 'epoch': 0.97}
 97%|██████████████████████████████████████████████████████████████████████████████████████████▏  | 1983/2044 [10:13:13<20:13, 19.90s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████▎  | 1984/2044 [10:13:33<20:10, 20.18s/it]                                                                                                                                         {'loss': 0.2188, 'grad_norm': 31.697285077008395, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6247138977050781, 'rewards/rejected': -3.0224609375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.646484375, 'logps/chosen': -293.375, 'logps/rejected': -186.6875, 'logits/chosen': -0.95166015625, 'logits/rejected': -0.783203125, 'epoch': 0.97}
 97%|██████████████████████████████████████████████████████████████████████████████████████████▎  | 1984/2044 [10:13:33<20:10, 20.18s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████▎  | 1985/2044 [10:13:53<19:44, 20.08s/it]                                                                                                                                         {'loss': 0.186, 'grad_norm': 26.199210219235507, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.466796875, 'rewards/rejected': -4.03125, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.505859375, 'logps/chosen': -268.625, 'logps/rejected': -132.1875, 'logits/chosen': -0.74951171875, 'logits/rejected': -0.72705078125, 'epoch': 0.97}
 97%|██████████████████████████████████████████████████████████████████████████████████████████▎  | 1985/2044 [10:13:53<19:44, 20.08s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████▎  | 1986/2044 [10:14:14<19:37, 20.30s/it]                                                                                                                                         {'loss': 0.2639, 'grad_norm': 29.0686813148035, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.0521240234375, 'rewards/rejected': -3.3759765625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.423828125, 'logps/chosen': -265.875, 'logps/rejected': -138.6875, 'logits/chosen': -0.88720703125, 'logits/rejected': -0.6292724609375, 'epoch': 0.97}
 97%|██████████████████████████████████████████████████████████████████████████████████████████▎  | 1986/2044 [10:14:14<19:37, 20.30s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████▍  | 1987/2044 [10:14:34<19:12, 20.22s/it]                                                                                                                                         {'loss': 0.2156, 'grad_norm': 32.875344430237014, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5843505859375, 'rewards/rejected': -3.576171875, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.16796875, 'logps/chosen': -350.0, 'logps/rejected': -160.875, 'logits/chosen': -0.9345703125, 'logits/rejected': -0.6955032348632812, 'epoch': 0.97}
 97%|██████████████████████████████████████████████████████████████████████████████████████████▍  | 1987/2044 [10:14:34<19:12, 20.22s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████▍  | 1988/2044 [10:14:54<18:39, 19.99s/it]                                                                                                                                         {'loss': 0.2081, 'grad_norm': 31.034134681144575, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.80224609375, 'rewards/rejected': -3.630859375, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.435546875, 'logps/chosen': -368.25, 'logps/rejected': -133.8125, 'logits/chosen': -0.96533203125, 'logits/rejected': -0.5052490234375, 'epoch': 0.97}
 97%|██████████████████████████████████████████████████████████████████████████████████████████▍  | 1988/2044 [10:14:54<18:39, 19.99s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████▍  | 1989/2044 [10:15:13<18:15, 19.92s/it]                                                                                                                                         {'loss': 0.161, 'grad_norm': 31.903529038893033, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.551513671875, 'rewards/rejected': -3.486328125, 'rewards/accuracies': 0.953125, 'rewards/margins': 4.03515625, 'logps/chosen': -364.375, 'logps/rejected': -111.5625, 'logits/chosen': -1.0712890625, 'logits/rejected': -0.6754350662231445, 'epoch': 0.97}
 97%|██████████████████████████████████████████████████████████████████████████████████████████▍  | 1989/2044 [10:15:13<18:15, 19.92s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████▌  | 1990/2044 [10:15:33<17:58, 19.96s/it]                                                                                                                                         {'loss': 0.1896, 'grad_norm': 32.62596580835469, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5966796875, 'rewards/rejected': -3.615234375, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.21875, 'logps/chosen': -320.625, 'logps/rejected': -144.4375, 'logits/chosen': -0.859375, 'logits/rejected': -0.762451171875, 'epoch': 0.97}
 97%|██████████████████████████████████████████████████████████████████████████████████████████▌  | 1990/2044 [10:15:33<17:58, 19.96s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████▌  | 1991/2044 [10:15:52<17:18, 19.59s/it]                                                                                                                                         {'loss': 0.1629, 'grad_norm': 23.854007535659125, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.776123046875, 'rewards/rejected': -3.669921875, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.4453125, 'logps/chosen': -251.375, 'logps/rejected': -123.6875, 'logits/chosen': -0.775146484375, 'logits/rejected': -0.5101089477539062, 'epoch': 0.97}
 97%|██████████████████████████████████████████████████████████████████████████████████████████▌  | 1991/2044 [10:15:52<17:18, 19.59s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████▋  | 1992/2044 [10:16:11<16:44, 19.31s/it]                                                                                                                                         {'loss': 0.191, 'grad_norm': 28.87857462113693, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4537353515625, 'rewards/rejected': -3.5185546875, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.9775390625, 'logps/chosen': -296.25, 'logps/rejected': -148.0, 'logits/chosen': -0.923828125, 'logits/rejected': -0.7265625, 'epoch': 0.97}
 97%|██████████████████████████████████████████████████████████████████████████████████████████▋  | 1992/2044 [10:16:11<16:44, 19.31s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████▋  | 1993/2044 [10:16:30<16:30, 19.42s/it]                                                                                                                                         {'loss': 0.1282, 'grad_norm': 25.67356124080235, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6875, 'rewards/rejected': -4.318359375, 'rewards/accuracies': 0.90625, 'rewards/margins': 5.01171875, 'logps/chosen': -307.875, 'logps/rejected': -126.375, 'logits/chosen': -0.9677734375, 'logits/rejected': -0.9384765625, 'epoch': 0.98}
 98%|██████████████████████████████████████████████████████████████████████████████████████████▋  | 1993/2044 [10:16:30<16:30, 19.42s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████▋  | 1994/2044 [10:16:50<16:06, 19.34s/it]                                                                                                                                         {'loss': 0.2185, 'grad_norm': 31.018748002288444, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.51025390625, 'rewards/rejected': -3.62890625, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.134765625, 'logps/chosen': -299.375, 'logps/rejected': -148.6875, 'logits/chosen': -0.97998046875, 'logits/rejected': -0.710205078125, 'epoch': 0.98}
 98%|██████████████████████████████████████████████████████████████████████████████████████████▋  | 1994/2044 [10:16:50<16:06, 19.34s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████▊  | 1995/2044 [10:17:10<16:03, 19.66s/it]                                                                                                                                         {'loss': 0.2196, 'grad_norm': 36.13785715313709, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.59027099609375, 'rewards/rejected': -3.40234375, 'rewards/accuracies': 0.875, 'rewards/margins': 4.0, 'logps/chosen': -316.875, 'logps/rejected': -153.9375, 'logits/chosen': -0.72467041015625, 'logits/rejected': -0.825439453125, 'epoch': 0.98}
 98%|██████████████████████████████████████████████████████████████████████████████████████████▊  | 1995/2044 [10:17:10<16:03, 19.66s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████▊  | 1996/2044 [10:17:29<15:28, 19.34s/it]                                                                                                                                         {'loss': 0.1796, 'grad_norm': 27.847194185548943, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.429931640625, 'rewards/rejected': -3.892578125, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.32421875, 'logps/chosen': -278.25, 'logps/rejected': -159.5625, 'logits/chosen': -0.90185546875, 'logits/rejected': -0.7164306640625, 'epoch': 0.98}
 98%|██████████████████████████████████████████████████████████████████████████████████████████▊  | 1996/2044 [10:17:29<15:28, 19.34s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████▊  | 1997/2044 [10:17:48<15:07, 19.31s/it]                                                                                                                                         {'loss': 0.1894, 'grad_norm': 32.63068110789207, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.319732666015625, 'rewards/rejected': -4.0234375, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.34375, 'logps/chosen': -247.625, 'logps/rejected': -142.875, 'logits/chosen': -0.877685546875, 'logits/rejected': -0.68853759765625, 'epoch': 0.98}
 98%|██████████████████████████████████████████████████████████████████████████████████████████▊  | 1997/2044 [10:17:48<15:07, 19.31s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████▉  | 1998/2044 [10:18:08<15:03, 19.64s/it]                                                                                                                                         {'loss': 0.2656, 'grad_norm': 42.61670241153348, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4862060546875, 'rewards/rejected': -3.404296875, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.892578125, 'logps/chosen': -351.625, 'logps/rejected': -175.6875, 'logits/chosen': -0.998046875, 'logits/rejected': -0.7437515258789062, 'epoch': 0.98}
 98%|██████████████████████████████████████████████████████████████████████████████████████████▉  | 1998/2044 [10:18:08<15:03, 19.64s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████▉  | 1999/2044 [10:18:27<14:29, 19.32s/it]                                                                                                                                         {'loss': 0.1391, 'grad_norm': 24.4170308167543, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4642333984375, 'rewards/rejected': -3.994140625, 'rewards/accuracies': 0.953125, 'rewards/margins': 4.458984375, 'logps/chosen': -297.4375, 'logps/rejected': -148.25, 'logits/chosen': -0.9580078125, 'logits/rejected': -0.7386474609375, 'epoch': 0.98}
 98%|██████████████████████████████████████████████████████████████████████████████████████████▉  | 1999/2044 [10:18:27<14:29, 19.32s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████▉  | 2000/2044 [10:18:46<14:11, 19.36s/it]                                                                                                                                         {'loss': 0.1874, 'grad_norm': 26.74596356807105, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.2576904296875, 'rewards/rejected': -3.9296875, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.1875, 'logps/chosen': -241.875, 'logps/rejected': -123.0, 'logits/chosen': -0.876953125, 'logits/rejected': -0.722412109375, 'epoch': 0.98}
 98%|██████████████████████████████████████████████████████████████████████████████████████████▉  | 2000/2044 [10:18:46<14:11, 19.36s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████  | 2001/2044 [10:19:05<13:46, 19.22s/it]                                                                                                                                         {'loss': 0.1572, 'grad_norm': 21.483631757242563, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.9161376953125, 'rewards/rejected': -3.78125, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.693359375, 'logps/chosen': -333.875, 'logps/rejected': -130.875, 'logits/chosen': -0.72149658203125, 'logits/rejected': -0.6241455078125, 'epoch': 0.98}
 98%|███████████████████████████████████████████████████████████████████████████████████████████  | 2001/2044 [10:19:05<13:46, 19.22s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████  | 2002/2044 [10:19:25<13:32, 19.33s/it]                                                                                                                                         {'loss': 0.1531, 'grad_norm': 20.679710375531723, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.481201171875, 'rewards/rejected': -4.046875, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.5263671875, 'logps/chosen': -282.125, 'logps/rejected': -118.875, 'logits/chosen': -0.986328125, 'logits/rejected': -0.828857421875, 'epoch': 0.98}
 98%|███████████████████████████████████████████████████████████████████████████████████████████  | 2002/2044 [10:19:25<13:32, 19.33s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████▏ | 2003/2044 [10:19:44<13:11, 19.29s/it]                                                                                                                                         {'loss': 0.187, 'grad_norm': 29.203104443135476, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7490234375, 'rewards/rejected': -3.576171875, 'rewards/accuracies': 0.875, 'rewards/margins': 4.330078125, 'logps/chosen': -291.375, 'logps/rejected': -146.875, 'logits/chosen': -0.95751953125, 'logits/rejected': -0.9794921875, 'epoch': 0.98}
 98%|███████████████████████████████████████████████████████████████████████████████████████████▏ | 2003/2044 [10:19:44<13:11, 19.29s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████▏ | 2004/2044 [10:20:04<13:01, 19.53s/it]                                                                                                                                         {'loss': 0.1594, 'grad_norm': 27.07423296996123, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.868896484375, 'rewards/rejected': -3.7890625, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.658203125, 'logps/chosen': -297.0, 'logps/rejected': -124.1875, 'logits/chosen': -0.8818359375, 'logits/rejected': -0.9033203125, 'epoch': 0.98}
 98%|███████████████████████████████████████████████████████████████████████████████████████████▏ | 2004/2044 [10:20:04<13:01, 19.53s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████▏ | 2005/2044 [10:20:24<12:51, 19.78s/it]                                                                                                                                         {'loss': 0.2078, 'grad_norm': 32.70284234959456, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.003631591796875, 'rewards/rejected': -3.837890625, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.841796875, 'logps/chosen': -304.9375, 'logps/rejected': -125.5625, 'logits/chosen': -0.88427734375, 'logits/rejected': -0.723388671875, 'epoch': 0.98}
 98%|███████████████████████████████████████████████████████████████████████████████████████████▏ | 2005/2044 [10:20:24<12:51, 19.78s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████▎ | 2006/2044 [10:20:43<12:13, 19.31s/it]                                                                                                                                         {'loss': 0.1698, 'grad_norm': 25.487833691042898, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7977294921875, 'rewards/rejected': -3.521484375, 'rewards/accuracies': 0.953125, 'rewards/margins': 4.322265625, 'logps/chosen': -334.25, 'logps/rejected': -124.25, 'logits/chosen': -0.99560546875, 'logits/rejected': -0.693115234375, 'epoch': 0.98}
 98%|███████████████████████████████████████████████████████████████████████████████████████████▎ | 2006/2044 [10:20:43<12:13, 19.31s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████▎ | 2007/2044 [10:21:02<11:58, 19.42s/it]                                                                                                                                         {'loss': 0.2365, 'grad_norm': 30.645596342718118, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.378509521484375, 'rewards/rejected': -3.3662109375, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.744140625, 'logps/chosen': -326.125, 'logps/rejected': -136.0625, 'logits/chosen': -0.91943359375, 'logits/rejected': -0.740478515625, 'epoch': 0.98}
 98%|███████████████████████████████████████████████████████████████████████████████████████████▎ | 2007/2044 [10:21:02<11:58, 19.42s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████▎ | 2008/2044 [10:21:22<11:39, 19.44s/it]                                                                                                                                         {'loss': 0.1921, 'grad_norm': 28.716848697061778, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.41302490234375, 'rewards/rejected': -3.822265625, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.23046875, 'logps/chosen': -275.75, 'logps/rejected': -149.0625, 'logits/chosen': -0.760009765625, 'logits/rejected': -0.853271484375, 'epoch': 0.98}
 98%|███████████████████████████████████████████████████████████████████████████████████████████▎ | 2008/2044 [10:21:22<11:39, 19.44s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████▍ | 2009/2044 [10:21:42<11:34, 19.83s/it]                                                                                                                                         {'loss': 0.1912, 'grad_norm': 36.943236172348584, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.55621337890625, 'rewards/rejected': -3.3916015625, 'rewards/accuracies': 0.921875, 'rewards/margins': 3.9482421875, 'logps/chosen': -286.125, 'logps/rejected': -180.0625, 'logits/chosen': -0.99462890625, 'logits/rejected': -0.88720703125, 'epoch': 0.98}
 98%|███████████████████████████████████████████████████████████████████████████████████████████▍ | 2009/2044 [10:21:42<11:34, 19.83s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████▍ | 2010/2044 [10:22:02<11:15, 19.86s/it]                                                                                                                                         {'loss': 0.2079, 'grad_norm': 27.734708252014222, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.064453125, 'rewards/rejected': -3.166015625, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.234375, 'logps/chosen': -338.375, 'logps/rejected': -138.0625, 'logits/chosen': -1.02880859375, 'logits/rejected': -0.88134765625, 'epoch': 0.98}
 98%|███████████████████████████████████████████████████████████████████████████████████████████▍ | 2010/2044 [10:22:02<11:15, 19.86s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████▍ | 2011/2044 [10:22:21<10:45, 19.56s/it]                                                                                                                                         {'loss': 0.2003, 'grad_norm': 30.18579142946998, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': -0.0946044921875, 'rewards/rejected': -3.81640625, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.728515625, 'logps/chosen': -317.625, 'logps/rejected': -179.5625, 'logits/chosen': -0.903076171875, 'logits/rejected': -0.836669921875, 'epoch': 0.98}
 98%|███████████████████████████████████████████████████████████████████████████████████████████▍ | 2011/2044 [10:22:21<10:45, 19.56s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████▌ | 2012/2044 [10:22:41<10:26, 19.58s/it]                                                                                                                                         {'loss': 0.2674, 'grad_norm': 35.486522592423384, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.498016357421875, 'rewards/rejected': -3.103515625, 'rewards/accuracies': 0.796875, 'rewards/margins': 3.603515625, 'logps/chosen': -281.9375, 'logps/rejected': -161.625, 'logits/chosen': -0.822265625, 'logits/rejected': -0.6552734375, 'epoch': 0.98}
 98%|███████████████████████████████████████████████████████████████████████████████████████████▌ | 2012/2044 [10:22:41<10:26, 19.58s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████▌ | 2013/2044 [10:23:00<10:02, 19.42s/it]                                                                                                                                         {'loss': 0.2029, 'grad_norm': 32.1600359072947, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.685546875, 'rewards/rejected': -3.427734375, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.109375, 'logps/chosen': -318.0, 'logps/rejected': -164.5, 'logits/chosen': -0.8203125, 'logits/rejected': -0.7880859375, 'epoch': 0.98}
 98%|███████████████████████████████████████████████████████████████████████████████████████████▌ | 2013/2044 [10:23:00<10:02, 19.42s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████▋ | 2014/2044 [10:23:20<09:49, 19.66s/it]                                                                                                                                         {'loss': 0.2545, 'grad_norm': 36.25532506988229, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.30126953125, 'rewards/rejected': -3.5, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.8046875, 'logps/chosen': -289.625, 'logps/rejected': -148.1875, 'logits/chosen': -0.775146484375, 'logits/rejected': -0.656982421875, 'epoch': 0.99}
 99%|███████████████████████████████████████████████████████████████████████████████████████████▋ | 2014/2044 [10:23:20<09:49, 19.66s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████▋ | 2015/2044 [10:23:39<09:23, 19.43s/it]                                                                                                                                         {'loss': 0.1597, 'grad_norm': 27.85775372670181, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.56109619140625, 'rewards/rejected': -4.17578125, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.7421875, 'logps/chosen': -339.25, 'logps/rejected': -131.1875, 'logits/chosen': -0.9716796875, 'logits/rejected': -0.702880859375, 'epoch': 0.99}
 99%|███████████████████████████████████████████████████████████████████████████████████████████▋ | 2015/2044 [10:23:39<09:23, 19.43s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████▋ | 2016/2044 [10:23:58<09:03, 19.41s/it]                                                                                                                                         {'loss': 0.1983, 'grad_norm': 25.898326593741785, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4046630859375, 'rewards/rejected': -3.462890625, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.869140625, 'logps/chosen': -275.375, 'logps/rejected': -145.125, 'logits/chosen': -1.009765625, 'logits/rejected': -0.630126953125, 'epoch': 0.99}
 99%|███████████████████████████████████████████████████████████████████████████████████████████▋ | 2016/2044 [10:23:58<09:03, 19.41s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████▊ | 2017/2044 [10:24:17<08:40, 19.28s/it]                                                                                                                                         {'loss': 0.2623, 'grad_norm': 35.17380506620715, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.5311279296875, 'rewards/rejected': -3.3173828125, 'rewards/accuracies': 0.859375, 'rewards/margins': 3.853515625, 'logps/chosen': -355.25, 'logps/rejected': -141.0625, 'logits/chosen': -1.07763671875, 'logits/rejected': -0.919921875, 'epoch': 0.99}
 99%|███████████████████████████████████████████████████████████████████████████████████████████▊ | 2017/2044 [10:24:17<08:40, 19.28s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████▊ | 2018/2044 [10:24:37<08:23, 19.37s/it]                                                                                                                                         {'loss': 0.2693, 'grad_norm': 39.248460356722646, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': -0.02349853515625, 'rewards/rejected': -3.568359375, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.548828125, 'logps/chosen': -264.125, 'logps/rejected': -146.125, 'logits/chosen': -0.933349609375, 'logits/rejected': -0.759765625, 'epoch': 0.99}
 99%|███████████████████████████████████████████████████████████████████████████████████████████▊ | 2018/2044 [10:24:37<08:23, 19.37s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████▊ | 2019/2044 [10:24:56<07:58, 19.13s/it]                                                                                                                                         {'loss': 0.1839, 'grad_norm': 32.94408259144503, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.41259002685546875, 'rewards/rejected': -3.98828125, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.3984375, 'logps/chosen': -240.875, 'logps/rejected': -133.3125, 'logits/chosen': -0.830078125, 'logits/rejected': -0.71875, 'epoch': 0.99}
 99%|███████████████████████████████████████████████████████████████████████████████████████████▊ | 2019/2044 [10:24:56<07:58, 19.13s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████▉ | 2020/2044 [10:25:12<07:23, 18.47s/it]                                                                                                                                         {'loss': 0.1375, 'grad_norm': 24.502947799435187, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.57666015625, 'rewards/rejected': -4.080078125, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.650390625, 'logps/chosen': -276.75, 'logps/rejected': -117.75, 'logits/chosen': -1.0498046875, 'logits/rejected': -0.6285400390625, 'epoch': 0.99}
 99%|███████████████████████████████████████████████████████████████████████████████████████████▉ | 2020/2044 [10:25:12<07:23, 18.47s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████▉ | 2021/2044 [10:25:33<07:16, 18.96s/it]                                                                                                                                         {'loss': 0.2546, 'grad_norm': 27.07681133745134, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.35498046875, 'rewards/rejected': -3.20703125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.5625, 'logps/chosen': -299.3125, 'logps/rejected': -124.375, 'logits/chosen': -0.96630859375, 'logits/rejected': -0.8125, 'epoch': 0.99}
 99%|███████████████████████████████████████████████████████████████████████████████████████████▉ | 2021/2044 [10:25:33<07:16, 18.96s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████▉ | 2022/2044 [10:25:52<07:03, 19.24s/it]                                                                                                                                         {'loss': 0.237, 'grad_norm': 34.95592362377539, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.302520751953125, 'rewards/rejected': -3.6904296875, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.9931640625, 'logps/chosen': -287.75, 'logps/rejected': -139.25, 'logits/chosen': -0.951904296875, 'logits/rejected': -1.04150390625, 'epoch': 0.99}
 99%|███████████████████████████████████████████████████████████████████████████████████████████▉ | 2022/2044 [10:25:52<07:03, 19.24s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████ | 2023/2044 [10:26:12<06:45, 19.30s/it]                                                                                                                                         {'loss': 0.2342, 'grad_norm': 31.196478074068263, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.4727783203125, 'rewards/rejected': -3.453125, 'rewards/accuracies': 0.875, 'rewards/margins': 3.931640625, 'logps/chosen': -287.25, 'logps/rejected': -162.5, 'logits/chosen': -0.8251953125, 'logits/rejected': -0.87451171875, 'epoch': 0.99}
 99%|████████████████████████████████████████████████████████████████████████████████████████████ | 2023/2044 [10:26:12<06:45, 19.30s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████ | 2024/2044 [10:26:31<06:23, 19.19s/it]                                                                                                                                         {'loss': 0.2426, 'grad_norm': 31.983474793102207, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.586669921875, 'rewards/rejected': -3.517578125, 'rewards/accuracies': 0.828125, 'rewards/margins': 4.099609375, 'logps/chosen': -267.375, 'logps/rejected': -136.8125, 'logits/chosen': -1.01318359375, 'logits/rejected': -0.677734375, 'epoch': 0.99}
 99%|████████████████████████████████████████████████████████████████████████████████████████████ | 2024/2044 [10:26:31<06:23, 19.19s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████▏| 2025/2044 [10:26:50<06:06, 19.30s/it]                                                                                                                                         {'loss': 0.2113, 'grad_norm': 34.06311647759067, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.7557373046875, 'rewards/rejected': -3.576171875, 'rewards/accuracies': 0.875, 'rewards/margins': 4.330078125, 'logps/chosen': -335.0, 'logps/rejected': -151.9375, 'logits/chosen': -0.61572265625, 'logits/rejected': -0.625732421875, 'epoch': 0.99}
 99%|████████████████████████████████████████████████████████████████████████████████████████████▏| 2025/2044 [10:26:50<06:06, 19.30s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████▏| 2026/2044 [10:27:10<05:51, 19.50s/it]                                                                                                                                         {'loss': 0.2031, 'grad_norm': 28.585344137637527, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.6827392578125, 'rewards/rejected': -3.546875, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.232421875, 'logps/chosen': -334.625, 'logps/rejected': -151.5, 'logits/chosen': -0.90966796875, 'logits/rejected': -0.82373046875, 'epoch': 0.99}
 99%|████████████████████████████████████████████████████████████████████████████████████████████▏| 2026/2044 [10:27:10<05:51, 19.50s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████▏| 2027/2044 [10:27:29<05:28, 19.34s/it]                                                                                                                                         {'loss': 0.1649, 'grad_norm': 22.647953820796324, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.353271484375, 'rewards/rejected': -3.9296875, 'rewards/accuracies': 0.9375, 'rewards/margins': 4.287109375, 'logps/chosen': -311.25, 'logps/rejected': -127.3125, 'logits/chosen': -0.784423828125, 'logits/rejected': -0.4813232421875, 'epoch': 0.99}
 99%|████████████████████████████████████████████████████████████████████████████████████████████▏| 2027/2044 [10:27:29<05:28, 19.34s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████▎| 2028/2044 [10:27:50<05:15, 19.74s/it]                                                                                                                                         {'loss': 0.4053, 'grad_norm': 43.79694867734562, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.16375732421875, 'rewards/rejected': -3.033203125, 'rewards/accuracies': 0.765625, 'rewards/margins': 3.197265625, 'logps/chosen': -293.0, 'logps/rejected': -163.8125, 'logits/chosen': -0.735595703125, 'logits/rejected': -0.89990234375, 'epoch': 0.99}
 99%|████████████████████████████████████████████████████████████████████████████████████████████▎| 2028/2044 [10:27:50<05:15, 19.74s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████▎| 2029/2044 [10:28:10<04:55, 19.69s/it]                                                                                                                                         {'loss': 0.2695, 'grad_norm': 34.946876330425546, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.613037109375, 'rewards/rejected': -3.2783203125, 'rewards/accuracies': 0.796875, 'rewards/margins': 3.892578125, 'logps/chosen': -341.375, 'logps/rejected': -147.40625, 'logits/chosen': -0.891845703125, 'logits/rejected': -0.69189453125, 'epoch': 0.99}
 99%|████████████████████████████████████████████████████████████████████████████████████████████▎| 2029/2044 [10:28:10<04:55, 19.69s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████▎| 2030/2044 [10:28:29<04:34, 19.61s/it]                                                                                                                                         {'loss': 0.2363, 'grad_norm': 36.068010362447126, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.2960968017578125, 'rewards/rejected': -3.365234375, 'rewards/accuracies': 0.875, 'rewards/margins': 3.6640625, 'logps/chosen': -331.9375, 'logps/rejected': -136.5625, 'logits/chosen': -0.958984375, 'logits/rejected': -0.75732421875, 'epoch': 0.99}
 99%|████████████████████████████████████████████████████████████████████████████████████████████▎| 2030/2044 [10:28:29<04:34, 19.61s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████▍| 2031/2044 [10:28:49<04:16, 19.72s/it]                                                                                                                                         {'loss': 0.1501, 'grad_norm': 23.69696686807851, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.898193359375, 'rewards/rejected': -3.47265625, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.37109375, 'logps/chosen': -397.375, 'logps/rejected': -146.6875, 'logits/chosen': -0.76123046875, 'logits/rejected': -0.539642333984375, 'epoch': 0.99}
 99%|████████████████████████████████████████████████████████████████████████████████████████████▍| 2031/2044 [10:28:49<04:16, 19.72s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████▍| 2032/2044 [10:29:09<03:57, 19.79s/it]                                                                                                                                         {'loss': 0.2255, 'grad_norm': 33.70259183339434, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.546875, 'rewards/rejected': -3.4111328125, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.955078125, 'logps/chosen': -295.71875, 'logps/rejected': -161.9375, 'logits/chosen': -0.7421875, 'logits/rejected': -0.768310546875, 'epoch': 0.99}
 99%|████████████████████████████████████████████████████████████████████████████████████████████▍| 2032/2044 [10:29:09<03:57, 19.79s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████▍| 2033/2044 [10:29:29<03:39, 19.95s/it]                                                                                                                                         {'loss': 0.1662, 'grad_norm': 27.64081674116072, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.673797607421875, 'rewards/rejected': -3.591796875, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.26171875, 'logps/chosen': -307.0, 'logps/rejected': -154.1875, 'logits/chosen': -0.917236328125, 'logits/rejected': -0.7962646484375, 'epoch': 0.99}
 99%|████████████████████████████████████████████████████████████████████████████████████████████▍| 2033/2044 [10:29:29<03:39, 19.95s/it]100%|████████████████████████████████████████████████████████████████████████████████████████████▌| 2034/2044 [10:29:49<03:18, 19.82s/it]                                                                                                                                         {'loss': 0.2168, 'grad_norm': 33.626088052065, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.3975830078125, 'rewards/rejected': -3.21484375, 'rewards/accuracies': 0.90625, 'rewards/margins': 3.61328125, 'logps/chosen': -265.125, 'logps/rejected': -162.375, 'logits/chosen': -0.9234619140625, 'logits/rejected': -0.87548828125, 'epoch': 1.0}
100%|████████████████████████████████████████████████████████████████████████████████████████████▌| 2034/2044 [10:29:49<03:18, 19.82s/it]100%|████████████████████████████████████████████████████████████████████████████████████████████▌| 2035/2044 [10:30:09<02:59, 19.98s/it]                                                                                                                                         {'loss': 0.2804, 'grad_norm': 36.24042609250303, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.60205078125, 'rewards/rejected': -3.048828125, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.6484375, 'logps/chosen': -301.75, 'logps/rejected': -158.5625, 'logits/chosen': -0.84033203125, 'logits/rejected': -0.750732421875, 'epoch': 1.0}
100%|████████████████████████████████████████████████████████████████████████████████████████████▌| 2035/2044 [10:30:09<02:59, 19.98s/it]100%|████████████████████████████████████████████████████████████████████████████████████████████▋| 2036/2044 [10:30:28<02:37, 19.73s/it]                                                                                                                                         {'loss': 0.1835, 'grad_norm': 25.398858119684892, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.3536376953125, 'rewards/rejected': -3.755859375, 'rewards/accuracies': 0.90625, 'rewards/margins': 4.107421875, 'logps/chosen': -228.625, 'logps/rejected': -131.875, 'logits/chosen': -0.6474609375, 'logits/rejected': -0.50732421875, 'epoch': 1.0}
100%|████████████████████████████████████████████████████████████████████████████████████████████▋| 2036/2044 [10:30:28<02:37, 19.73s/it]100%|████████████████████████████████████████████████████████████████████████████████████████████▋| 2037/2044 [10:30:48<02:17, 19.66s/it]                                                                                                                                         {'loss': 0.2316, 'grad_norm': 35.62989913619077, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.2579193115234375, 'rewards/rejected': -3.603515625, 'rewards/accuracies': 0.875, 'rewards/margins': 3.86328125, 'logps/chosen': -270.625, 'logps/rejected': -137.75, 'logits/chosen': -0.8798828125, 'logits/rejected': -0.622802734375, 'epoch': 1.0}
100%|████████████████████████████████████████████████████████████████████████████████████████████▋| 2037/2044 [10:30:48<02:17, 19.66s/it]100%|████████████████████████████████████████████████████████████████████████████████████████████▋| 2038/2044 [10:31:07<01:57, 19.62s/it]                                                                                                                                         {'loss': 0.2591, 'grad_norm': 40.261607869807136, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.82470703125, 'rewards/rejected': -3.27734375, 'rewards/accuracies': 0.84375, 'rewards/margins': 4.103515625, 'logps/chosen': -347.125, 'logps/rejected': -174.5625, 'logits/chosen': -0.85986328125, 'logits/rejected': -0.7188720703125, 'epoch': 1.0}
100%|████████████████████████████████████████████████████████████████████████████████████████████▋| 2038/2044 [10:31:07<01:57, 19.62s/it]100%|████████████████████████████████████████████████████████████████████████████████████████████▊| 2039/2044 [10:31:28<01:39, 19.93s/it]                                                                                                                                         {'loss': 0.2982, 'grad_norm': 44.14902011305783, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.033935546875, 'rewards/rejected': -3.0302734375, 'rewards/accuracies': 0.890625, 'rewards/margins': 3.06640625, 'logps/chosen': -251.375, 'logps/rejected': -238.5625, 'logits/chosen': -0.9482421875, 'logits/rejected': -0.90234375, 'epoch': 1.0}
100%|████████████████████████████████████████████████████████████████████████████████████████████▊| 2039/2044 [10:31:28<01:39, 19.93s/it]100%|████████████████████████████████████████████████████████████████████████████████████████████▊| 2040/2044 [10:31:48<01:19, 19.98s/it]                                                                                                                                         {'loss': 0.2871, 'grad_norm': 36.976425621466525, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.673675537109375, 'rewards/rejected': -2.892578125, 'rewards/accuracies': 0.84375, 'rewards/margins': 3.564453125, 'logps/chosen': -294.0, 'logps/rejected': -181.375, 'logits/chosen': -0.914031982421875, 'logits/rejected': -0.85791015625, 'epoch': 1.0}
100%|████████████████████████████████████████████████████████████████████████████████████████████▊| 2040/2044 [10:31:48<01:19, 19.98s/it]100%|████████████████████████████████████████████████████████████████████████████████████████████▊| 2041/2044 [10:32:07<00:59, 19.74s/it]                                                                                                                                         {'loss': 0.1667, 'grad_norm': 25.40985995247625, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.3525390625, 'rewards/rejected': -4.060546875, 'rewards/accuracies': 0.921875, 'rewards/margins': 4.41796875, 'logps/chosen': -292.25, 'logps/rejected': -131.5625, 'logits/chosen': -1.005859375, 'logits/rejected': -0.83447265625, 'epoch': 1.0}
100%|████████████████████████████████████████████████████████████████████████████████████████████▊| 2041/2044 [10:32:07<00:59, 19.74s/it]100%|████████████████████████████████████████████████████████████████████████████████████████████▉| 2042/2044 [10:32:26<00:39, 19.54s/it]                                                                                                                                         {'loss': 0.1767, 'grad_norm': 24.25039147522375, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.42230224609375, 'rewards/rejected': -4.048828125, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.46875, 'logps/chosen': -286.25, 'logps/rejected': -117.25, 'logits/chosen': -0.79052734375, 'logits/rejected': -0.54193115234375, 'epoch': 1.0}
100%|████████████████████████████████████████████████████████████████████████████████████████████▉| 2042/2044 [10:32:26<00:39, 19.54s/it]100%|████████████████████████████████████████████████████████████████████████████████████████████▉| 2043/2044 [10:32:45<00:19, 19.43s/it]                                                                                                                                         {'loss': 0.1668, 'grad_norm': 31.60389801104922, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 0.73040771484375, 'rewards/rejected': -3.974609375, 'rewards/accuracies': 0.890625, 'rewards/margins': 4.703125, 'logps/chosen': -364.625, 'logps/rejected': -151.3125, 'logits/chosen': -1.13037109375, 'logits/rejected': -0.778564453125, 'epoch': 1.0}
100%|████████████████████████████████████████████████████████████████████████████████████████████▉| 2043/2044 [10:32:45<00:19, 19.43s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████| 2044/2044 [10:33:03<00:00, 18.92s/it]                                                                                                                                         {'loss': 0.1789, 'grad_norm': 29.83653328510328, 'learning_rate': 2.0000000233721948e-07, 'rewards/chosen': 1.00390625, 'rewards/rejected': -3.6339285373687744, 'rewards/accuracies': 0.8571428656578064, 'rewards/margins': 4.640625, 'logps/chosen': -370.28570556640625, 'logps/rejected': -146.14285278320312, 'logits/chosen': -0.984375, 'logits/rejected': -0.7505580186843872, 'epoch': 1.0}
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 2044/2044 [10:33:03<00:00, 18.92s/it]                                                                                                                                         {'train_runtime': 38008.3908, 'train_samples_per_second': 3.442, 'train_steps_per_second': 0.054, 'train_loss': 0.2735387751734187, 'epoch': 1.0}
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 2044/2044 [10:33:27<00:00, 18.92s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████| 2044/2044 [10:33:27<00:00, 18.59s/it]
[2025-11-13 14:19:47,180] [INFO] [axolotl.train.save_trained_model:218] [PID:1248082] Training completed! Saving trained model to /data/outputs/171-llama3.2-3b-v2.1-153sft-dpo-2e7.
[2025-11-13 14:19:55,851] [INFO] [axolotl.train.save_trained_model:310] [PID:1248082] Deleting /data/outputs/171-llama3.2-3b-v2.1-153sft-dpo-2e7/model.safetensors
[2025-11-13 14:19:55,852] [INFO] [axolotl.train.save_trained_model:311] [PID:1248082] This is a proxy model and should be deleted
[2025-11-13 14:19:55,852] [INFO] [axolotl.train.save_trained_model:336] [PID:1248082] Model successfully saved to /data/outputs/171-llama3.2-3b-v2.1-153sft-dpo-2e7