Spaces:

jmcinern
/

Qomhra

Sleeping

jmcinern commited on Sep 23, 2025

Commit

43c9011

verified ·

1 Parent(s): 2499997

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,8 +2,7 @@ import gradio as gr
 import torch
 import re
 import threading
-from llmcompressor.transformers import SparseAutoModelForCausalLM
-from transformers import AutoTokenizer
 # Model configuration
 MODEL_NAME = "jmcinern/qwen3-8B-cpt-sft-awq"
@@ -29,12 +28,12 @@ class ChatBot:
         def load_model():
             print("Loading model...")
-            return SparseAutoModelForCausalLM.from_pretrained(
                 MODEL_NAME,
                 trust_remote_code=True,
                 device_map="auto",
                 torch_dtype="auto",
-                max_workers=4  # Use 4 threads for model loading
             )
         try:

 import torch
 import re
 import threading
+from transformers import AutoTokenizer, AutoModelForCausalLM
 # Model configuration
 MODEL_NAME = "jmcinern/qwen3-8B-cpt-sft-awq"
         def load_model():
             print("Loading model...")
+            return AutoModelForCausalLM.from_pretrained(
                 MODEL_NAME,
                 trust_remote_code=True,
                 device_map="auto",
                 torch_dtype="auto",
+                low_cpu_mem_usage=True
             )
         try: