Instructions to use vadimbelsky/qwen3.5-esi-triage-grpo-v46-merged with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use vadimbelsky/qwen3.5-esi-triage-grpo-v46-merged with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="vadimbelsky/qwen3.5-esi-triage-grpo-v46-merged")
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
            {"type": "text", "text": "What animal is on the candy?"}
        ]
    },
]
pipe(text=messages)

# Load model directly
from transformers import AutoProcessor, AutoModelForImageTextToText

processor = AutoProcessor.from_pretrained("vadimbelsky/qwen3.5-esi-triage-grpo-v46-merged")
model = AutoModelForImageTextToText.from_pretrained("vadimbelsky/qwen3.5-esi-triage-grpo-v46-merged")
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
            {"type": "text", "text": "What animal is on the candy?"}
        ]
    },
]
inputs = processor.apply_chat_template(
	messages,
	add_generation_prompt=True,
	tokenize=True,
	return_dict=True,
	return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=40)
print(processor.decode(outputs[0][inputs["input_ids"].shape[-1]:]))

Notebooks
Google Colab
Kaggle
Local Apps

vLLM

How to use vadimbelsky/qwen3.5-esi-triage-grpo-v46-merged with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "vadimbelsky/qwen3.5-esi-triage-grpo-v46-merged"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "vadimbelsky/qwen3.5-esi-triage-grpo-v46-merged",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker

docker model run hf.co/vadimbelsky/qwen3.5-esi-triage-grpo-v46-merged

SGLang

How to use vadimbelsky/qwen3.5-esi-triage-grpo-v46-merged with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "vadimbelsky/qwen3.5-esi-triage-grpo-v46-merged" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "vadimbelsky/qwen3.5-esi-triage-grpo-v46-merged",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "vadimbelsky/qwen3.5-esi-triage-grpo-v46-merged" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "vadimbelsky/qwen3.5-esi-triage-grpo-v46-merged",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Docker Model Runner
How to use vadimbelsky/qwen3.5-esi-triage-grpo-v46-merged with Docker Model Runner:
```
docker model run hf.co/vadimbelsky/qwen3.5-esi-triage-grpo-v46-merged
```

Qwen3.5-9B GRPO v46 — ESI Triage (Merged Full Model)

This is the merged full-weights version of the v46 GRPO ESI triage adapter.

The LoRA adapter weights from vadimbelsky/qwen3.5-esi-triage-grpo-v46 have been merged directly into the Qwen3.5-9B base model used during training. This guarantees the model produces v46's exact trained output format (EXTRACTION: → ESI ALGORITHM: → ANSWER: ESI N) without the format drift seen when mounting the LoRA on a different base.

When to use this vs. the LoRA adapter

Use this (merged model) if you want exact behavior reproduction, faster inference (no adapter overhead), or easier deployment in environments without PEFT support.
Use the LoRA adapter if you want lower storage (~230MB vs ~18GB) and already have the same base model loaded.

Performance

77.8% exact accuracy / 94.4% adjacent accuracy on the 36-case MIETIC expert-annotated evaluation set. See the adapter repository for full training methodology, reward function design, and the iteration journey (v45c → v46 → v47 → v48 lessons).

Usage

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

repo = "vadimbelsky/qwen3.5-esi-triage-grpo-v46-merged"
tokenizer = AutoTokenizer.from_pretrained(repo)
model = AutoModelForCausalLM.from_pretrained(repo, torch_dtype=torch.bfloat16, device_map="auto")

messages = [
    {"role": "system", "content":
        "You are an expert emergency triage nurse. "
        "Extract clinical fields, apply the ESI algorithm step by step, then state the ESI level. "
        "Be concise — stay under 150 words total."},
    {"role": "user", "content":
        "A 67-year-old male arrived via ambulance with sudden onset chest pain "
        "radiating to the left arm, diaphoresis, and shortness of breath. "
        "BP 88/60, HR 118, RR 24, SpO2 91%. History of MI and hypertension. Pain 9/10."},
]

prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
out = model.generate(
    **tokenizer(prompt, return_tensors="pt").to(model.device),
    max_new_tokens=1024, temperature=0.1, do_sample=True,
)
print(tokenizer.decode(out[0], skip_special_tokens=True))

Expected output format:

EXTRACTION:
- Chief complaint: ...
- Vital signs: ...

ESI ALGORITHM:
- Step A: ...
- Step B: ...

ANSWER: ESI 1

Limitations

This is a research model. Not approved for clinical use. See the adapter repository for known weaknesses (e.g. occasional missed clinical rules around already-performed lifesaving interventions, severe pain, and open injuries).

Downloads last month: 34

Safetensors

Model size

9B params

Tensor type

BF16

Model tree for vadimbelsky/qwen3.5-esi-triage-grpo-v46-merged

Base model

Qwen/Qwen3.5-9B-Base

Finetuned

Qwen/Qwen3.5-9B

Finetuned

(325)

this model