yongqiang commited on May 25

Commit

80ad90c

1 Parent(s): de2d728

Initial AX620E axllm serve package

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +7 -0
.gitignore +3 -0
README.md +193 -0
assets/gradio_cpp_demo_0.png +3 -0
assets/gradio_cpp_demo_1.png +3 -0
assets/gradio_demo_0.png +3 -0
assets/gradio_demo_1.png +3 -0
bin/axllm +3 -0
bin/axllm.version.json +22 -0
config.json +17 -0
gradio_cpp_backend.py +226 -0
gradio_demo.py +304 -0
hymt1-5-1.8b_tokenizer.txt +0 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l0_together.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l10_together.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l11_together.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l12_together.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l13_together.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l14_together.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l15_together.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l16_together.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l17_together.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l18_together.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l19_together.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l1_together.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l20_together.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l21_together.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l22_together.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l23_together.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l24_together.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l25_together.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l26_together.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l27_together.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l28_together.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l29_together.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l2_together.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l30_together.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l31_together.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l3_together.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l4_together.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l5_together.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l6_together.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l7_together.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l8_together.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l9_together.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_post.axmodel +3 -0
hymt1-5_1k_ax620e_axmodel/model.embed_tokens.weight.bfloat16.bin +3 -0
hymt1-5_1k_ax620e_axmodel/model.embed_tokens.weight.float32.bin +3 -0
hymt1-5_1k_ax620e_axmodel/model.embed_tokens.weight.npy +3 -0
hymt1-5_tokenizer/.gitattributes +35 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,10 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+*.axmodel filter=lfs diff=lfs merge=lfs -text
+main_api_ax620e filter=lfs diff=lfs merge=lfs -text
+main_ax620e filter=lfs diff=lfs merge=lfs -text
+*.png filter=lfs diff=lfs merge=lfs -text
+*.jpg filter=lfs diff=lfs merge=lfs -text
+*.mp4 filter=lfs diff=lfs merge=lfs -text
+bin/axllm filter=lfs diff=lfs merge=lfs -text

.gitignore ADDED Viewed

	@@ -0,0 +1,3 @@


1	+ __pycache__
2	+ *tmp/
3	+

README.md CHANGED Viewed

@@ -1,3 +1,196 @@
 ---
 license: bsd-3-clause
 ---

 ---
+library_name: transformers
 license: bsd-3-clause
+base_model:
+- tencent/HY-MT1.5-1.8B
+tags:
+- HY-MT1.5
+- HY-MT1.5-1.8B
+- HY-MT1.5-1.8B_GPTQ_INT4
+- Int4
+- translation
+language:
+- zh
+- en
+- fr
+- pt
+- es
+- ja
+- tr
+- ru
+- ar
+- ko
+- th
+- it
+- de
+- vi
+- ms
+- id
+- tl
+- hi
+- pl
+- cs
+- nl
+- km
+- my
+- fa
+- gu
+- ur
+- te
+- mr
+- he
+- bn
+- ta
+- uk
+- bo
+- kk
+- mn
+- ug
 ---
+# HY-MT1.5-1.8B_GPTQ_INT4-AX620E
+This version of HY-MT1.5-1.8B_GPTQ_INT4 has been converted to run on the Axera NPU using **w4a16** quantization.
+This model has been optimized with the following LoRA:
+Compatible with Pulsar2 version: > 5.1-patch1-dirty.
+Please note that the context of the model is 2k and the maximum prefill length is 1k.
+## Convert tools links:
+For those who are interested in model conversion, you can try to export axmodel through the original repo:
+https://huggingface.co/tencent/HY-MT1.5-1.8B
+[How to Convert LLM from Huggingface to axmodel](https://github.com/AXERA-TECH/HY-MT1.5-1.8B_GPTQ_INT4.axera/tree/main/model_convert)
+[AXera NPU HOST LLM Runtime](https://github.com/AXERA-TECH/ax-llm/tree/ax-internvl)
+[AXera NPU AXCL LLM Runtime](https://github.com/AXERA-TECH/ax-llm/tree/axcl-internvl)
+## Support Platform
+- AX620E
+  - AX620E DEMO Board
+|Chips|ttft|w4a16|
+|--|--|--|
+|AX620E| 11538.6 ms (512 prefill) | 4.05 tokens/sec|
+## How to use
+Download all files from this repository to the device
+```sh
+$ tree -L 1
+.
+├── assets
+├── config.json
+├── gradio_demo.py
+├── hymt1-5_1k_ax620e_axmodel
+├── hymt1-5_tokenizer
+├── infer_axmodel.py
+├── infer_torch.py
+├── README.md
+└── utils
+5 directories, 5 files
+```
+### Install transformer
+```
+pip install transformers==4.57.1
+```
+### Inference with AX620E Demo Board
+Start the OpenAI-compatible API with `axllm serve`:
+```sh
+axllm serve . --port 8000
+```
+本仓库也附带一个 aarch64 `axllm` 二进制，可直接在本仓库目录下尝试运行：
+```sh
+chmod +x ./bin/axllm
+./bin/axllm serve . --port 8000
+```
+该二进制与 AX650 仓库中的打包产物同源，来源和校验信息记录在 `bin/axllm.version.json` 中。当前已完成 AX650 上的 HY-MT OpenAI API 验证，AX620E 板端请结合实机环境继续确认。
+Interactive translation using the `C++ Gradio Demo`:
+```sh
+python3 gradio_cpp_backend.py --api_base http://127.0.0.1:8000 --model AXERA-TECH/HY-MT1.5-1.8B_GPTQ_INT4-AX620E
+```
+English Translate to Chinese:
+![demo_1](assets/gradio_cpp_demo_0.png)
+Chinese Translate to Japanese:
+![demo_2](assets/gradio_cpp_demo_1.png)
+If you want to run translation tasks from the command-line terminal, you can run the following command:
+```sh
+$ ./run_hymt1-5_1.8b_ax620e.sh
+[I][                            Init][ 267]: LLM init ok
+[I][                            Init][ 269]: Left CMM:3711 MB
+Type "q" to exit, Ctrl+c to stop current running
+prompt(输入q退出) >> 今天是个好日子,适合读书和运动.
+[I][                             Run][ 349]: input token num : 23, prefill_split_num : 1
+[I][                             Run][ 388]: input_num_token:23
+[I][                             Run][ 581]: ttft: 157.15 ms
+Today is a great day. It’s the perfect time to read and exercise.
+[N][                             Run][ 719]: hit eos,avg 13.61 token/s
+[I][                             Run][ 724]: decode profile: infer 58.079 ms/token, cache_copy 0.110, post 14.071, callback 0.018, tokens 17
+```
+---
+Interactive conversations using the `Python Gradio Demo`:
+```bash
+$ python3 gradio_demo.py --axmodel_path hymt1-5_1k_ax620e_axmodel --max_seq_len 1023
+```
+English Translate to Chinese:
+![demo_1](assets/gradio_demo_0.png)
+Chinese Translate to Japanese:
+![demo_2](assets/gradio_demo_1.png)
+---
+Run the following command on the Axera board to start a chat conversation:
+```sh
+$ python3 infer_axmodel.py -q "It’s on the house."
+# output
+Init InferenceSession: 100%|██████████████████████████████████████████████████████████| 32/32 [00:02<00:00, 14.55it/s]
+[INFO] Using provider: AxEngineExecutionProvider
+[INFO] Model type: 2 (triple core)
+[INFO] Compiler version: 5.1-patch1-dirty 43f8606b-dirty
+Model loaded successfully!
+slice_indices: [0]
+Slice prefill done: 0
+answer >> 这是免费的。
+```
+If you are testing on an `AX620E` demo board, run the command below:
+```sh
+python3 gradio_demo.py --axmodel_path hymt1-5_1k_ax620e_axmodel --max_seq_len 1023
+```

assets/gradio_cpp_demo_0.png ADDED Viewed

Git LFS Details

SHA256: eb7ee3f7a1ecc594a765d3e6620d58df15662a3bf649fafa129482cb0ae3efcd
Pointer size: 131 Bytes
Size of remote file: 395 kB

assets/gradio_cpp_demo_1.png ADDED Viewed

Git LFS Details

SHA256: 2b50670731bda2f522a6bb989121e5fc15f17a8c37ad34715fe64770fa3a46d3
Pointer size: 131 Bytes
Size of remote file: 467 kB

assets/gradio_demo_0.png ADDED Viewed

Git LFS Details

SHA256: 7a910448fc9aeca15dec24ee8e4afe1329e0114541eab5da1a8a1bf70f40785d
Pointer size: 131 Bytes
Size of remote file: 383 kB

assets/gradio_demo_1.png ADDED Viewed

Git LFS Details

SHA256: 930c90c5b19bbc5138178a5a46bad09f378d56d78e5d9308faacd4f63abfa58f
Pointer size: 131 Bytes
Size of remote file: 424 kB

bin/axllm ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7c0e4dd81015e3591e46fc4ffca40c0a286bf43d77110fb686d5973ce9bb5749
+size 2265520

bin/axllm.version.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "binary": "bin/axllm",
+  "target": "aarch64 binary built from ax-hymt1_5",
+  "notes": "This is the same packaged axllm binary as the AX650 repository. The binary has been verified on AX650 with HY-MT OpenAI serving. AX620E board validation for axllm serve is still pending.",
+  "ax_llm_branch": "ax-hymt1_5",
+  "ax_llm_commit": "53c45c91b6e0fcd2965ab1535a0e29f837665fd4",
+  "openai_api_cpp_commit": "f56cf8c296d1002f6602226db392325ba42f6775",
+  "build_command": "cmake --build build --target install -j$(nproc)",
+  "sha256": "7c0e4dd81015e3591e46fc4ffca40c0a286bf43d77110fb686d5973ce9bb5749",
+  "verified": {
+    "date": "2026-05-25",
+    "board": "AX650",
+    "command": "./bin/axllm serve . --port 18120",
+    "api_url": "http://10.168.232.217:18120/v1/chat/completions",
+    "model": "AXERA-TECH/HY-MT1.5-1.8B_GPTQ_INT4",
+    "smoke_tests": [
+      "GET /v1/models returned AXERA-TECH/HY-MT1.5-1.8B_GPTQ_INT4 only",
+      "English to Chinese request returned 这是免费的。",
+      "Natural-language request 请将下面的文字翻译成日文 returned Japanese text without target_language"
+    ]
+  }
+}

config.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+  "model_name": "AXERA-TECH/HY-MT1.5-1.8B_GPTQ_INT4-AX620E",
+  "url_tokenizer_model": "hymt1-5-1.8b_tokenizer.txt",
+  "tokenizer_type": "HunYuan",
+  "post_config_path": "post_config.json",
+  "template_filename_axmodel": "hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l%d_together.axmodel",
+  "filename_post_axmodel": "hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_post.axmodel",
+  "filename_tokens_embed": "hymt1-5_1k_ax620e_axmodel/model.embed_tokens.weight.bfloat16.bin",
+  "axmodel_num": 32,
+  "tokens_embed_num": 120818,
+  "tokens_embed_size": 2048,
+  "bos": false,
+  "eos": false,
+  "use_mmap_load_embed": true,
+  "use_mmap_load_layer": false,
+  "server_timeout_ms": 300000
+}

gradio_cpp_backend.py ADDED Viewed

	@@ -0,0 +1,226 @@

+import argparse
+import socket
+import json
+import requests
+import gradio as gr
+DEFAULT_LANGUAGES = [
+    "English",
+    "Chinese",
+    "Japanese",
+    "Korean",
+    "French",
+    "German",
+    "Spanish",
+    "Italian",
+    "Portuguese",
+    "Russian",
+    "Arabic",
+    "Hindi",
+    "Bengali",
+    "Thai",
+    "Vietnamese",
+    "Indonesian",
+    "Turkish",
+    "Polish",
+    "Dutch",
+    "Swedish",
+    "Danish",
+    "Norwegian",
+    "Finnish",
+    "Greek",
+    "Czech",
+    "Hungarian",
+    "Romanian",
+    "Ukrainian",
+    "Malay",
+    "Filipino",
+    "Urdu",
+    "Hebrew",
+    "Persian",
+]
+def _get_ipv4_address() -> str:
+    try:
+        s = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)
+        s.connect(("8.8.8.8", 80))
+        ip = s.getsockname()[0]
+        s.close()
+        return ip
+    except Exception:
+        return "127.0.0.1"
+def build_prompt(source_text: str, target_language: str, use_zh_template: bool) -> str:
+    if use_zh_template:
+        return (
+            f"将以下文本翻译为{target_language}，注意只需要输出翻译后的结果，不要额外解释：\n"
+            f"{source_text}"
+        )
+    return (
+        f"Translate the following segment into {target_language}, without additional explanation.\n"
+        f"{source_text}"
+    )
+def create_demo(api_base: str, model_name: str):
+    def translate_stream(
+        text,
+        target_language,
+        use_zh_template,
+        temperature,
+        top_p,
+        top_k,
+        repetition_penalty,
+        max_new_tokens,
+    ):
+        if not text or not text.strip():
+            yield ""
+            return
+        payload = {
+            "model": model_name,
+            "messages": [{"role": "user", "content": text.strip()}],
+            "stream": True,
+            "temperature": temperature,
+            "top_p": top_p,
+            "top_k": int(top_k),
+            "repetition_penalty": repetition_penalty,
+            "max_tokens": int(max_new_tokens),
+            "target_language": target_language,
+            "use_zh_template": bool(use_zh_template),
+        }
+        url = f"{api_base}/v1/chat/completions"
+        with requests.post(url, json=payload, stream=True, timeout=300) as resp:
+            resp.raise_for_status()
+            resp.encoding = "utf-8"
+            buffer = ""
+            for raw_line in resp.iter_lines(decode_unicode=False):
+                if not raw_line:
+                    continue
+                try:
+                    line = raw_line.decode("utf-8")
+                except Exception:
+                    line = raw_line.decode("utf-8", errors="replace")
+                if line.startswith("data: "):
+                    data = line[len("data: "):].strip()
+                else:
+                    data = line.strip()
+                if data == "[DONE]":
+                    break
+                if data:
+                    try:
+                        obj = json.loads(data)
+                        delta = obj.get("choices", [{}])[0].get("delta", {})
+                        content = delta.get("content", "")
+                        if content:
+                            buffer += content
+                            yield buffer.strip()
+                    except Exception:
+                        continue
+    with gr.Blocks(title="HY-MT1.5-1.8B_GPTQ_INT4 Multilingual Translation (C++ Backend)") as demo:
+        gr.Markdown("## HY-MT1.5-1.8B_GPTQ_INT4 Multilingual Translation (C++ Backend)")
+        with gr.Group():
+            input_text = gr.Textbox(
+                label="Input Text",
+                placeholder="Please enter the text you want to translate...",
+                lines=6,
+            )
+        with gr.Group():
+            with gr.Row(equal_height=True):
+                target_language = gr.Dropdown(
+                    choices=DEFAULT_LANGUAGES,
+                    value="English",
+                    label="Target Language",
+                )
+                use_zh_template = gr.Checkbox(
+                    label="Use Chinese Prompt Template",
+                    value=False,
+                )
+        with gr.Group():
+            with gr.Row(equal_height=True):
+                temperature = gr.Slider(
+                    minimum=0.1,
+                    maximum=1.5,
+                    value=0.7,
+                    step=0.05,
+                    label="Temperature",
+                )
+                top_p = gr.Slider(
+                    minimum=0.1,
+                    maximum=1.0,
+                    value=0.6,
+                    step=0.05,
+                    label="Top-p",
+                )
+                top_k = gr.Slider(
+                    minimum=1,
+                    maximum=100,
+                    value=20,
+                    step=1,
+                    label="Top-k",
+                )
+        with gr.Group():
+            with gr.Row(equal_height=True):
+                repetition_penalty = gr.Slider(
+                    minimum=1.0,
+                    maximum=1.5,
+                    value=1.05,
+                    step=0.01,
+                    label="Repetition Penalty",
+                )
+                max_new_tokens = gr.Slider(
+                    minimum=1,
+                    maximum=1024,
+                    value=512,
+                    step=1,
+                    label="Max New Tokens",
+                )
+        translate_btn = gr.Button("Translate", variant="primary")
+        output_text = gr.Textbox(
+            label="Translation Result",
+            lines=6,
+            interactive=False,
+        )
+        translate_btn.click(
+            translate_stream,
+            inputs=[
+                input_text,
+                target_language,
+                use_zh_template,
+                temperature,
+                top_p,
+                top_k,
+                repetition_penalty,
+                max_new_tokens,
+            ],
+            outputs=output_text,
+        )
+    return demo
+def parse_args():
+    parser = argparse.ArgumentParser(description="HY-MT1.5-1.8B_GPTQ_INT4 Gradio Demo (C++ Backend)")
+    parser.add_argument("--api_base", type=str, default="http://127.0.0.1:8000")
+    parser.add_argument("--model", type=str, default="AXERA-TECH/HY-MT1.5-1.8B_GPTQ_INT4-AX620E")
+    parser.add_argument("--server_name", type=str, default="0.0.0.0")
+    parser.add_argument("--server_port", type=int, default=7860)
+    return parser.parse_args()
+if __name__ == "__main__":
+    args = parse_args()
+    app = create_demo(args.api_base, args.model)
+    ipv4 = _get_ipv4_address()
+    print(f"* Running on local URL:  http://{ipv4}:{args.server_port}")
+    app.launch(server_name=args.server_name, server_port=args.server_port)

gradio_demo.py ADDED Viewed

	@@ -0,0 +1,304 @@

+import argparse
+import os
+import socket
+import numpy as np
+import gradio as gr
+from transformers import AutoConfig, AutoTokenizer
+from ml_dtypes import bfloat16
+from utils.infer_func import InferManager
+DEFAULT_LANGUAGES = [
+    "English",
+    "Chinese",
+    "Japanese",
+    "Korean",
+    "French",
+    "German",
+    "Spanish",
+    "Italian",
+    "Portuguese",
+    "Russian",
+    "Arabic",
+    "Hindi",
+    "Bengali",
+    "Thai",
+    "Vietnamese",
+    "Indonesian",
+    "Turkish",
+    "Polish",
+    "Dutch",
+    "Swedish",
+    "Danish",
+    "Norwegian",
+    "Finnish",
+    "Greek",
+    "Czech",
+    "Hungarian",
+    "Romanian",
+    "Ukrainian",
+    "Malay",
+    "Filipino",
+    "Urdu",
+    "Hebrew",
+    "Persian",
+]
+def build_prompt(source_text: str, target_language: str, use_zh_template: bool) -> str:
+    if use_zh_template:
+        return (
+            f"将以下文本翻译为{target_language}，注意只需要输出翻译后的结果，不要额外解释：\n"
+            f"{source_text}"
+        )
+    return (
+        f"Translate the following segment into {target_language}, without additional explanation.\n"
+        f"{source_text}"
+    )
+def _get_ipv4_address() -> str:
+    try:
+        s = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)
+        s.connect(("8.8.8.8", 80))
+        ip = s.getsockname()[0]
+        s.close()
+        return ip
+    except Exception:
+        return "127.0.0.1"
+def create_demo(hf_model: str, axmodel_path: str, max_seq_len=2047):
+    embeds_path = os.path.join(axmodel_path, "model.embed_tokens.weight.npy")
+    if not os.path.exists(embeds_path):
+        raise FileNotFoundError(f"Missing embeddings file: {embeds_path}")
+    tokenizer = AutoTokenizer.from_pretrained(hf_model)
+    config = AutoConfig.from_pretrained(hf_model, trust_remote_code=True)
+    embeds = np.load(embeds_path)
+    eos_token_id = None
+    if isinstance(config.eos_token_id, list) and len(config.eos_token_id) > 1:
+        eos_token_id = config.eos_token_id
+    imer = InferManager(config, axmodel_path, max_seq_len=max_seq_len)
+    def translate(
+        text,
+        target_language,
+        use_zh_template,
+        temperature,
+        top_p,
+        top_k,
+        repetition_penalty,
+        max_new_tokens,
+    ):
+        if not text or not text.strip():
+            return ""
+        prompt = build_prompt(text.strip(), target_language, use_zh_template)
+        messages = [{"role": "user", "content": prompt}]
+        input_ids = tokenizer.apply_chat_template(
+            messages,
+            tokenize=True,
+            add_generation_prompt=False,
+            return_tensors="pt",
+        )
+        token_ids = input_ids[0].cpu().numpy().tolist()
+        prefill_data = np.take(embeds, token_ids, axis=0).astype(bfloat16)
+        slice_len = 128
+        token_ids = imer.prefill(
+            tokenizer,
+            token_ids,
+            prefill_data,
+            slice_len=slice_len,
+            top_k=top_k,
+            top_p=top_p,
+            temperature=temperature,
+            repetition_penalty=repetition_penalty,
+        )
+        output = imer.decode(
+            tokenizer,
+            token_ids,
+            embeds,
+            slice_len=slice_len,
+            eos_token_id=eos_token_id,
+            stream=False,
+            top_k=top_k,
+            top_p=top_p,
+            temperature=temperature,
+            repetition_penalty=repetition_penalty,
+            max_new_tokens=max_new_tokens,
+        )
+        return output.strip()
+    def translate_stream(
+        text,
+        target_language,
+        use_zh_template,
+        temperature,
+        top_p,
+        top_k,
+        repetition_penalty,
+        max_new_tokens,
+    ):
+        if not text or not text.strip():
+            yield ""
+            return
+        prompt = build_prompt(text.strip(), target_language, use_zh_template)
+        messages = [{"role": "user", "content": prompt}]
+        input_ids = tokenizer.apply_chat_template(
+            messages,
+            tokenize=True,
+            add_generation_prompt=False,
+            return_tensors="pt",
+        )
+        token_ids = input_ids[0].cpu().numpy().tolist()
+        prefill_data = np.take(embeds, token_ids, axis=0).astype(bfloat16)
+        slice_len = 128
+        token_ids = imer.prefill(
+            tokenizer,
+            token_ids,
+            prefill_data,
+            slice_len=slice_len,
+            top_k=top_k,
+            top_p=top_p,
+            temperature=temperature,
+            repetition_penalty=repetition_penalty,
+        )
+        for text_so_far in imer.decode_stream(
+            tokenizer,
+            token_ids,
+            embeds,
+            slice_len=slice_len,
+            eos_token_id=eos_token_id,
+            top_k=top_k,
+            top_p=top_p,
+            temperature=temperature,
+            repetition_penalty=repetition_penalty,
+            max_new_tokens=max_new_tokens,
+        ):
+            yield text_so_far
+    with gr.Blocks(title="HY-MT1.5-1.8B_GPTQ_INT4 Multilingual Translation") as demo:
+        gr.Markdown("## HY-MT1.5-1.8B_GPTQ_INT4 Multilingual Translation")
+        with gr.Group():
+            input_text = gr.Textbox(
+                label="Input Text",
+                placeholder="Please enter the text you want to translate...",
+                lines=6,
+            )
+        with gr.Group():
+            with gr.Row(equal_height=True):
+                target_language = gr.Dropdown(
+                    choices=DEFAULT_LANGUAGES,
+                    value="English",
+                    label="Target Language",
+                )
+                use_zh_template = gr.Checkbox(
+                    label="Use Chinese Prompt Template",
+                    value=False,
+                )
+        with gr.Group():
+            with gr.Row(equal_height=True):
+                temperature = gr.Slider(
+                    minimum=0.1,
+                    maximum=1.5,
+                    value=0.7,
+                    step=0.05,
+                    label="Temperature",
+                )
+                top_p = gr.Slider(
+                    minimum=0.1,
+                    maximum=1.0,
+                    value=0.6,
+                    step=0.05,
+                    label="Top-p",
+                )
+                top_k = gr.Slider(
+                    minimum=1,
+                    maximum=100,
+                    value=20,
+                    step=1,
+                    label="Top-k",
+                )
+        with gr.Group():
+            with gr.Row(equal_height=True):
+                repetition_penalty = gr.Slider(
+                    minimum=1.0,
+                    maximum=1.5,
+                    value=1.05,
+                    step=0.01,
+                    label="Repetition Penalty",
+                )
+                max_new_tokens = gr.Slider(
+                    minimum=1,
+                    maximum=1024,
+                    value=512,
+                    step=1,
+                    label="Max New Tokens",
+                )
+        translate_btn = gr.Button("Translate", variant="primary")
+        output_text = gr.Textbox(
+            label="Translation Result",
+            lines=6,
+            interactive=False,
+        )
+        translate_btn.click(
+            translate_stream,
+            inputs=[
+                input_text,
+                target_language,
+                use_zh_template,
+                temperature,
+                top_p,
+                top_k,
+                repetition_penalty,
+                max_new_tokens,
+            ],
+            outputs=output_text,
+        )
+    return demo
+def parse_args():
+    parser = argparse.ArgumentParser(description="HY-MT1.5-1.8B_GPTQ_INT4 Gradio Demo")
+    parser.add_argument(
+        "--hf_model",
+        type=str,
+        default="./hymt1-5_tokenizer",
+        help="Path to HuggingFace model",
+    )
+    parser.add_argument(
+        "--axmodel_path",
+        type=str,
+        default="./hymt1-5_2k_ax650n_axmodel/",
+        help="Path to compiled axmodel directory",
+    )
+    parser.add_argument(
+        "--max_seq_len",
+        type=int,
+        default=2047,
+        help="Maximum sequence length for model inference",
+    )
+    parser.add_argument("--server_name", type=str, default="0.0.0.0")
+    parser.add_argument("--server_port", type=int, default=7860)
+    return parser.parse_args()
+if __name__ == "__main__":
+    args = parse_args()
+    app = create_demo(args.hf_model, args.axmodel_path, args.max_seq_len)
+    ipv4 = _get_ipv4_address()
+    print(f"* Running on local URL:  http://{ipv4}:{args.server_port}")
+    app.launch(server_name=args.server_name, server_port=args.server_port)

hymt1-5-1.8b_tokenizer.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l0_together.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95f57472a0483bd7091039bf9b27ad38aa9a484868ff56180ded2641003f555b
+size 40464383

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l10_together.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:672ad9d439d6e3918d5799695153d9122f905ba46c825e69a92e16340ff04fd7
+size 40465303

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l11_together.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2a9e698e772f85fcad99af2f11cacaaf93914960646c945add2a783c53ef8f9a
+size 40463639

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l12_together.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f69bc010aa8c49e1be41a482377e4d2b5252f4cc96b2acc2091287626d9a89e0
+size 40468799

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l13_together.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:25c7bc90cb752e68c22bfa5382d2cecb8145413460b737fd84c94eaf0b09e70a
+size 40463039

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l14_together.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:408732f37f944968d06ea4448b2474f877e3088f0a987218d53a556b94ae7dc0
+size 40463215

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l15_together.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9bdf1f73534d1244cb6b4447114064da4bcd21d5453307b1535985c73b15bb95
+size 40460615

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l16_together.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a6b14fae6b305892157ed561b98c562e5346f810ca00b2db04f7c4384f5ba023
+size 40465495

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l17_together.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ee33064da337191b0309d272effe1c6f5f9f4041651f3942f1db9e2ec6d6da13
+size 40464679

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l18_together.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f773f1fb24772f7e101c83203d661d56ef2d85510437b3ce51592e5a6a059f9
+size 40465615

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l19_together.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:026d22550080dd9a90417be782c4e05051557a701379f6bdd2719bf2446ed82c
+size 40467895

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l1_together.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f842df0ddd3ed417c4f6f1da185115086b46b7f24eb30e42013c1d4f55a2869c
+size 40465119

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l20_together.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:37e9cc96a37732d19faa3e912cf7689d50711f6890023f173f257c2b25f61c18
+size 40466927

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l21_together.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9ca610e2dd5c6d35542aa8c639294c44f01d57fe5ca66e08366e492040c5f15e
+size 40467551

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l22_together.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:debdef79ccda13e8abed2385456db18ef696c3a09d623b0ea644172f832183ad
+size 40463447

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l23_together.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:17d97744eac93e9ff1a2adc0ebaeadc0682460671f501616f9d7a2979323f03a
+size 40463255

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l24_together.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cb519c6b7dda04e80434b3565ff093f5ec0157ef70bcb1c7ac0fd329f3d28f9e
+size 40467687

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l25_together.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d5320b8bdf1423ef58c6a7ca7223cae1e8aed4363da4f3cb522281ef7a7d548
+size 40465615

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l26_together.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a579d457ae3d5af10aa20fe2610e47f1d5cc4114f87dd25a9bbf1ae215cf461a
+size 40465207

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l27_together.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5912ac5cdfef47c556f5a78a858a7e5052432266b190b9c06276bbf3478e74ad
+size 40462991

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l28_together.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c7f821b47b7743e61b8bc4439813a4fd40f526cc28d0560c1d97bd3a2f89b0c6
+size 40465967

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l29_together.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0d2a36020ebf69790bbe62b2c2522a8382bb1caa1ebbbddba8060a601049e982
+size 40464991

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l2_together.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:534f35e8f8c89d926bf9a7638227fea5d09244c8b329fbe352d6c2b9e47744e8
+size 40466655

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l30_together.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f3d6bc6a3186d7093b91bdf13d411903d35b5099178e97376465891956e5ad1a
+size 40468335

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l31_together.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3e3676a5f34a83bde9fa8780c1e7480fce2c05a2de0c82d80bced16f2b755f59
+size 40465655

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l3_together.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1e8905d2289d30e8c91a463864243eb3158a98e147a82d8ce0b832fa33bd1514
+size 40464463

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l4_together.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bc1f757cb559b5a48a9c576bfdf6ca60e5b2fbe07b167fa611d6c175d8d1aa22
+size 40467063

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l5_together.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ee2866141efc46cbad1dbbaec542b2fea161774f6e2f784c38928abd389de31a
+size 40466727

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l6_together.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4115938ecd86a6835da42547bb19b58f44b3c757d1df7a9a4e09e1ae70d7e604
+size 40468167

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l7_together.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:581939b9eb10f6ae09a50ec1c4ede3e047c8c4ba7a8744d87b8c1d7a7d8e2813
+size 40468319

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l8_together.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0cd70ff297d4d1004227219279db33725063dc8dcac12bf057530489aad976c5
+size 40465695

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_p128_l9_together.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4d912e6a1793850d9a7caca5c0b2e7e9dc317ed7d04e4f88116cb3678aa720dd
+size 40463631

hymt1-5_1k_ax620e_axmodel/hunyuan_v1_dense_post.axmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8c1fa5e27704f07355343f5eec722214f178c957ea38d7667c1a2300530a0441
+size 249548483

hymt1-5_1k_ax620e_axmodel/model.embed_tokens.weight.bfloat16.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1793bc02b24f4c82e617508e9c82f4efac270176a54a1e706fa6584203e25720
+size 494870528

hymt1-5_1k_ax620e_axmodel/model.embed_tokens.weight.float32.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:37d63c92d8ae526a90744cf6c4ed5af1919ca38a0c0c441cdd714dd7a249b75b
+size 989741056

hymt1-5_1k_ax620e_axmodel/model.embed_tokens.weight.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6cadf56765a11544d1f13f70452f70b1bda87978b2c4dbfb7fe3d46df50676f3
+size 989741184

hymt1-5_tokenizer/.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text