gavinqiangli
/

lora_GRPO_llama_8b_reasoning

text-generation-inference

Model card Files Files and versions

lora_GRPO_llama_8b_reasoning / tokenizer_config.json

Commit History

Upload model trained with Unsloth

11e7703
verified

gavinqiangli commited on Mar 28, 2025