Configuration Parsing Warning:In adapter_config.json: "peft.base_model_name_or_path" must be a string

dpo_gsm8k_llama-3.1-8b_as_gpt-oss-20b_seed2

LoRA adapter trained via Tinker as part of the dementor intervention-ladder fingerprint persistence study (AAAI 2026 conference).

Base model: meta-llama/Llama-3.1-8B-Instruct
Training stage: DPO (LoRA rank 32, target_modules=all-linear)
Alias: dpo_gsm8k_llama-3.1-8b_as_gpt-oss-20b_seed2

Usage

from peft import PeftModel
from transformers import AutoModelForCausalLM, AutoTokenizer

base = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3.1-8B-Instruct")
tok = AutoTokenizer.from_pretrained("meta-llama/Llama-3.1-8B-Instruct")
model = PeftModel.from_pretrained(base, "ethantsliu/dpo_gsm8k_llama-3.1-8b_as_gpt-oss-20b_seed2")

Part of the dementor matrix: 4 source models × 3 cross-targets × 3 train datasets × 3 seeds × 2 stages = 216 adapters.

Downloads last month: 18

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for dementor-research/dpo_gsm8k_llama-3.1-8b_as_gpt-oss-20b_seed2

Base model

meta-llama/Llama-3.1-8B

Finetuned

meta-llama/Llama-3.1-8B-Instruct

Adapter

(2489)

this model

Collection including dementor-research/dpo_gsm8k_llama-3.1-8b_as_gpt-oss-20b_seed2

Dementor adapters gsm8k

Collection

SFT, DPO and self-SFT LoRA adapters for the gsm8k dataset. • 76 items • Updated 28 days ago