Instructions to use Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning")
messages = [
    {"role": "user", "content": "Who are you?"},
]
pipe(messages)

# Load model directly
from transformers import AutoTokenizer, AutoModelForMultimodalLM

tokenizer = AutoTokenizer.from_pretrained("Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning")
model = AutoModelForMultimodalLM.from_pretrained("Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning")
messages = [
    {"role": "user", "content": "Who are you?"},
]
inputs = tokenizer.apply_chat_template(
	messages,
	add_generation_prompt=True,
	tokenize=True,
	return_dict=True,
	return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=40)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:]))

Inference
Notebooks
Google Colab
Kaggle
Local Apps Settings

vLLM

How to use Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker

docker model run hf.co/Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning

SGLang

How to use Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Docker Model Runner
How to use Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning with Docker Model Runner:
```
docker model run hf.co/Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning
```
Browse Quantizations to use this model in llama.cpp, Ollama, LM Studio, or any compatible app.

QVikhr-3-1.7B-Instruction-noreasoning

RU

Инструктивная модель на основе Qwen/Qwen3-1.7B, обученная на русскоязычном датасете GrandMaster2. Создана для высокоэффективной обработки текстов на русском и английском языках, обеспечивая точные ответы и быстрое выполнение задач.

EN

Instructive model based on Qwen/Qwen3-1.7B, trained on the Russian-language dataset GrandMaster2. Designed for high-efficiency text processing in Russian and English, delivering precise responses and fast task execution.

Quantized variants:

Особенности / Features:

📚 Основа / Base: Qwen/Qwen3-1.7B
🇷🇺 Специализация / Specialization: RU
💾 Датасет / Dataset: GrandMaster2
🌍 Поддержка / Support: Bilingual RU/EN

Попробовать / Try now:

Ru Arena General

Model	Score	95% CI	Avg. #Tokens
Vikhrmodels-QVikhr-3-1.7B-Instruction-noreasoning	59.2	(-2.1, 1.8)	1053
noresoning-Qwen3-1.7B	51.9	(-1.9, 1.5)	999
Qwen3-1.7B	49.7	(-1.8, 1.9)	1918

Описание / Description:

RU

QVikhr-3-1.7B-Instruction-noreasoning — мощная языковая модель, обученная на датасете GrandMaster-2, поддерживает генерацию инструкций, контекстные ответы и анализ текста на русском языке. Эта модель оптимизирована для задач инструктивного обучения и обработки текстов. Она подходит для использования в профессиональной среде, а также для интеграции в пользовательские приложения и сервисы.

EN

QVikhr-3-1.7B-Instruction-noreasoning is a robust language model trained on the GrandMaster-2 dataset. It excels in instruction generation, contextual responses, and text analysis in Russian. The model is optimized for instructional tasks and textual data processing, suitable for professional use as well as integration into user-facing applications and services.

Обучение / Training:

RU

QVikhr-3-1.7B-Instruction-noreasoning была создана с использованием метода SFT (Supervised Fine-Tuning) FFT (Full Fine-Tune). Мы использовали синтетический датасет GrandMaster-2.

EN

QVikhr-3-1.7B-Instruction-noreasoning was developed using the SFT (Supervised Fine-Tuning) FFT (Full Fine-Tune) method. The synthetic dataset GrandMaster-2.

Пример кода для запуска / Sample code to run:

Рекомендуемая температура для генерации: 0.3 / Recommended generation temperature: 0.3.

from transformers import AutoModelForCausalLM, AutoTokenizer

# Load the model and tokenizer
model_name = "Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning"
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Prepare the input text
input_text = "Напиши краткое описание книги Гарри Поттер."

messages = [
    {"role": "user", "content": input_text},
]

# Tokenize and generate text
input_ids = tokenizer.apply_chat_template(messages, truncation=True, add_generation_prompt=True, return_tensors="pt")
output = model.generate(
    input_ids,
    max_length=1512,
    temperature=0.3,
    num_return_sequences=1,
    no_repeat_ngram_size=2,
    top_k=50,
    top_p=0.95,
)

# Decode and print result
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

Ответ модели / Model response:

<think>

</think>

Краткое описание книги Гарри Поттера:

«Гарри Поттер и философский камень» — это история о мальчике, который, несмотря на слабость, стал свидетелем великих событий, связанных с магией, мистикой и поиском истинного смысла. Гарри, живущий в маленьком городке, влюбляется в магию, когда случайно участвует в неожиданном приключении, где он стал свидетелем загадочного события, связанного с «Философским камнем».

Во время этого события он сталкивается с тремя магами, которые, по их словам, «все видят в будущем». Они предупреждают о приближении опасного события, которое может изменить мир. Гарри, несмотря на страх и неопределенность, решает следовать за магами, чтобы спасти мир.

Вместе с Дорис и Ниммом он отправляется в путешествие в прошлое, чтобы изменить судьбу, но столкнувшись с трудностями и непредвиденными обстоятельствами, они находят силы преодолеть их.

Конец книги — это встреча с «Философским камнем», который, как оказалось, может изменить реальность. Гарри понимает, что его выбор и действия могут изменить мир, и решает не бежать от ответственности, а стать частью великой миссии.

«Гарри Поттер и философский камень» стал символом магии, веры в чудеса и силы, а также оставит на века глубокий след в литературном наследии.

Авторы / Authors

Sergei Bratchikov, NLP Wanderer, Vikhr Team
Nikolay Kompanets, LakoMoor, Vikhr Team
Konstantin Korolev, Vikhr Team
Aleksandr Nikolich, Vikhr Team

Как цитировать / How to Cite

@inproceedings{nikolich2024vikhr,
  title={Vikhr: Advancing Open-Source Bilingual Instruction-Following Large Language Models for Russian and English},
  author={Aleksandr Nikolich and Konstantin Korolev and Sergei Bratchikov and Nikolay Kompanets and Igor Kiselev and Artem Shelmanov},
  booktitle={Proceedings of the 4th Workshop on Multilingual Representation Learning (MRL) @ EMNLP-2024},
  year={2024},
  publisher={Association for Computational Linguistics},
  url={[https://arxiv.org/pdf/2405.13929](https://arxiv.org/pdf/2405.13929)}
}

@misc{qwen3technicalreport,
      title={Qwen3 Technical Report}, 
      author={Qwen Team},
      year={2025},
      eprint={2505.09388},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2505.09388}, 
}