Instructions to use kazuHF/llm-jp-3-13b-it2_lora with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use kazuHF/llm-jp-3-13b-it2_lora with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="kazuHF/llm-jp-3-13b-it2_lora")

# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("kazuHF/llm-jp-3-13b-it2_lora")
model = AutoModelForCausalLM.from_pretrained("kazuHF/llm-jp-3-13b-it2_lora")

Notebooks
Google Colab
Kaggle
Local Apps Settings

vLLM

How to use kazuHF/llm-jp-3-13b-it2_lora with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "kazuHF/llm-jp-3-13b-it2_lora"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "kazuHF/llm-jp-3-13b-it2_lora",
		"prompt": "Once upon a time,",
		"max_tokens": 512,
		"temperature": 0.5
	}'

Use Docker

docker model run hf.co/kazuHF/llm-jp-3-13b-it2_lora

SGLang

How to use kazuHF/llm-jp-3-13b-it2_lora with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "kazuHF/llm-jp-3-13b-it2_lora" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "kazuHF/llm-jp-3-13b-it2_lora",
		"prompt": "Once upon a time,",
		"max_tokens": 512,
		"temperature": 0.5
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "kazuHF/llm-jp-3-13b-it2_lora" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "kazuHF/llm-jp-3-13b-it2_lora",
		"prompt": "Once upon a time,",
		"max_tokens": 512,
		"temperature": 0.5
	}'

Unsloth Studio

How to use kazuHF/llm-jp-3-13b-it2_lora with Unsloth Studio:

Install Unsloth Studio (macOS, Linux, WSL)

curl -fsSL https://unsloth.ai/install.sh | sh
# Run unsloth studio
unsloth studio -H 0.0.0.0 -p 8888
# Then open http://localhost:8888 in your browser
# Search for kazuHF/llm-jp-3-13b-it2_lora to start chatting

Install Unsloth Studio (Windows)

irm https://unsloth.ai/install.ps1 | iex
# Run unsloth studio
unsloth studio -H 0.0.0.0 -p 8888
# Then open http://localhost:8888 in your browser
# Search for kazuHF/llm-jp-3-13b-it2_lora to start chatting

Using HuggingFace Spaces for Unsloth

# No setup required
# Open https://huggingface.co/spaces/unsloth/studio in your browser
# Search for kazuHF/llm-jp-3-13b-it2_lora to start chatting

Load model with FastModel

pip install unsloth
from unsloth import FastModel
model, tokenizer = FastModel.from_pretrained(
    model_name="kazuHF/llm-jp-3-13b-it2_lora",
    max_seq_length=2048,
)

Docker Model Runner
How to use kazuHF/llm-jp-3-13b-it2_lora with Docker Model Runner:
```
docker model run hf.co/kazuHF/llm-jp-3-13b-it2_lora
```

llm-jp-3-13b-it2_lora / README.md

kazuHF

Update README.md

f49cae4 verified over 1 year ago

preview code

Raw

History Blame Contribute Delete

8.46 kB

	---
	base_model: llm-jp/llm-jp-3-13b
	tags:
	- text-generation-inference
	- transformers
	- unsloth
	- llama
	- trl
	license: apache-2.0
	language:
	- en
	---

	# Uploaded model

	- Developed by: kazuHF
	- License: apache-2.0
	- Finetuned from model : llm-jp/llm-jp-3-13b

	This llama model was trained 2x faster with [Unsloth](https://github.com/unslothai/unsloth) and Huggingface's TRL library.

	[<img src="https://raw.githubusercontent.com/unslothai/unsloth/main/images/unsloth%20made%20with%20love.png" width="200"/>](https://github.com/unslothai/unsloth)

	# ■ kazuHF/llm-jp-3-13b-it2_loraによる推論方法

	1. 環境設定
	- 以下の説明はGoogle Colaboratory上での利用を想定したもの。事前にhardware acceleratorでGPUを選択しておく。

	```bash
	# Googleドライブに接続
	from google.colab import drive
	drive.mount('/content/drive')
	# 接続しているGPUの種類の表示
	!nvidia-smi

	# 必要なライブラリのインストール
	!pip uninstall unsloth -y
	!pip install xformers -q
	!pip install --upgrade --no-cache-dir "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git" -q
	!pip install -U torch -q
	!pip install -U peft -q

	# 必要なライブラリの読み込み
	from unsloth import FastLanguageModel
	from peft import PeftModel
	import torch
	import json
	from tqdm import tqdm
	import re
	```
	2. モデルの読み込み
	- 元のモデル(llm-jp/llm-jp-3-13b)と学習させたアダプターとを統合する。
	- (注) 以下のcodeの huggeinface_token の所に自身の hugging face token を入力してから実行する。

	```bash
	# ベースとなるモデルと学習したLoRAのアダプタ(本モデル)のIDやHugging face tokenを指定。
	model_id = "llm-jp/llm-jp-3-13b"
	adapter_id = "kazuHF/llm-jp-3-13b-it2_lora"
	HF_TOKEN = "huggingface_token"
	# unslothのFastLanguageModelで元のモデルとトークナイザーをロード。
	model, tokenizer = FastLanguageModel.from_pretrained(
	model_name=model_id,
	dtype=None,
	load_in_4bit=True,
	trust_remote_code=True,
	)

	# 元のモデルにLoRAのアダプタを統合。
	model = PeftModel.from_pretrained(model, adapter_id, token = HF_TOKEN)
	```
	3. 単一の入力文に対して推論する場合

	```bash
	# 単一の入力文に基づいて推論する関数の定義。
	def Decoder(input):
	# 推論するためにモデルのモードを変更
	FastLanguageModel.for_inference(model)
	# 入力文による推論
	prompt = f"""### 指示\n\n{str(input)}\n\n### 回答"""
	inputs = tokenizer([prompt], return_tensors = "pt").to(model.device)
	outputs = model.generate(**inputs, max_new_tokens = 512, use_cache = True, do_sample=False, repetition_penalty=1.2)
	prediction = tokenizer.decode(outputs[0], skip_special_tokens=True).split('\n### 回答')[-1]
	print(prompt)
	print(prediction)
	```
	◇ 使用例
	```bash
	Decoder('犬と猫の見分け方は何か。')
	```

	4. jasonlで保存された入力文を一括して推論する場合
	- Google drive の/contentにeliza-tasks-100-TV_0.jsonlをuploadしておく。

	```bash
	# jsonlで作製されたタスクを一括処理する場合。
	datasets = []
	with open("./elyza-tasks-100-TV_0.jsonl", "r") as f:
	for line in f:
	if line.strip():
	datasets.append(json.loads(line))

	# モデルで入力を一括処理。
	results = []
	for dt in tqdm(datasets):
	# 推論するためにモデルのモードを変更
	FastLanguageModel.for_inference(model)
	# 入力文による推論
	input = dt["input"]
	prompt = f"""### 指示\n{input}\n### 回答\n"""
	inputs = tokenizer([prompt], return_tensors = "pt").to(model.device)
	outputs = model.generate(**inputs, max_new_tokens = 512, use_cache = True, do_sample=False, repetition_penalty=1.2)
	prediction = tokenizer.decode(outputs[0], skip_special_tokens=True).split('\n### 回答')[-1]
	results.append({"task_id": dt["task_id"], "input": input, "output": prediction})

	# 結果をjsonlで保存。
	json_file_id = re.sub(".*/", "", adapter_id)
	with open(f"/content/{json_file_id}_output.jsonl", 'w', encoding='utf-8') as f:
	for result in results:
	json.dump(result, f, ensure_ascii=False)
	f.write('\n')
	```

	- 推論結果は Google drive の/contentに、llm-jp-3-13b-it2_lora_output.jsonlとして保存される。



	# ■ kazuHF/llm-jp-3-13b-it2_loraの概要

	1. モデルの概要
	- ベースモデル: llm-jp/llm-jp-3-13b (https://huggingface.co/llm-jp/llm-jp-3-13b)
	- 用途: 日本語によるQ&A形式の文章生成
	- アーキテクチャ: FrameworkやLibraryとしてはPyTorch、Transformers、Unsloth、trl、LoRA、xformers、Flash Attentionなどを利用。UnslothによりFine TuningやInferenceを高速化し、メモリも削減した。llm-jp/llm-jp-3-13bを4bitで量子化するLoRAでロードし、SFTで事後学習を行った。

	2. 事後学習の詳細
	- 事後学習用データにichikara-instruction-003-001-1.jsonを必要な申請を行って利用した。
	- Epoch数 1, バッチサイズ 2, 学習率 2e-4
	- Google Colaboratory Pro上のL4/A100で学習

	3. モデルの入出力
	- 学習における入力のkeyは “text”、出力のkeyは “output”
	- 推論による出力のkeyは “task_id”, “input”, “output”

	4. 推論方法
	- Hugging FaceのIDは model_id = "llm-jp/llm-jp-3-13b”, adapter_id = "kazuHF/llm-jp-3-13b-it2_lora" と指定し、FastLanguageModel.from_pretrained( … model_id … )
	で元のモデルをロードする。
	- そして model = PeftModel.from_pretrained( … adaptor_id … )によって元のモデルとLoRAのアダプターを結合し、そのモデルのモードを FastLanguageModel.for_inference(model) によって推論モードに変更する。
	- 入力を”””###\n 指示入力 \n### 回答\n”””の形式にしてトークン化し、model.generate( “input_ids”: …, “attention_mask”: …, …) によってpredictionを行い、それをdecodeして出力とする。

	5. ライセンス
	- ベースモデル: 国立情報学研究所大規模言語モデル研究開発センターが公開しているllm-jp/llm-jp-3-13b。Apache 2.0 のライセンスを継承する。
	- 事後学習に用いたデータ: 理化学研究所革新知能統合研究センター言語情報アクセス技術チームが公開している ichikara-instruction-003-001-1.json 。CC-BY-NC-SAのライセンスを継承する。

	6. 問題点や改善点
	- promptに対して適切に答える場合もあるが、回答が短かったり、答えられない場合も散見されるため、更なる学習データの蓄積と事後学習を要する。

	7. 謝辞
	- 東京大学松尾・岩澤研究室主催の大規模言語モデルDeep Learning応用講座 2024\|Fall を受講することで本モデルが作製できた。同講座に関係する方々並びに同講座を受講された方々に心より深謝する。


	# ■ 推論方法の解説

	◆ Google Colaboratory上のGPUで推論する場合

	1. Google Colaboratory上で、サンプルコードの
	Model_Inference_Template_20241127.jpynb
	を開く。

	◇ 環境設定

	1. Runtimeで、Hardware acceleratorを GPU にする。
	2. ノートブックをGoogle driveに保存するため、Google driveにマウントする。
	3. CodeのセルでGenerateをクリックして「ドライブに接続」というPromptをGeminiに入れると、マウントに必要なセルを書いてくれるのでそれを評価する。
	4. 「接続しているGPUの表示」とGeminiに聞いて、GPU に接続していることを確認する。
	5. /contentに、次のファイルをupload.
	elyza-tasks-100-TV_0.json
	6. 提供されたコードでunsloth, torch, peftをインストール。(37sec)

	◇ 推論

	7. FastLanguageModel, PeftModelなどのインポート。(22sec)
	8. ベースモデルと作製したモデルのIDの貼り付け。
	9. 事後学習の際に使用したHugging FaceのTokenの指定。
	10. FastLanguageModelのインスタンス化。下のモデルとTokenizerを読み込む。
	途中で、Grant accessをクックする。(3min)
	11. 元のモデルにQLoRAのadaptorを統合。tokenにHugging FaceのTokenを指定する。(8sec)
	12. elyza-tasks-100-TV_0.jsonlを読み込む。
	13. adaptorをつけたモデルでタスクの推論を行う。(6min)
	14. 推論結果をjsonlで保存。