Spaces:

build-small-hackathon
/

kirana-detective

Sleeping

App Files Files Community

naazimsnh02 commited on 8 days ago

Commit

a2c4e53

1 Parent(s): 8dc382f

Model loading fix for vison model

Browse files

Files changed (2) hide show

agents/product_matcher.py +4 -1
app.py +5 -21

agents/product_matcher.py CHANGED Viewed

@@ -16,7 +16,7 @@ AGENT_NAME = "Product_Matcher"
 AGENT_VERSION = "1.0.0"
 MODEL_REPO = "build-small-hackathon/minicpm5-1b-indian-fmcg-normalizer"
-_TIMEOUT_SECONDS = 20
 _SYSTEM_PROMPT = (
     "You are an Indian FMCG product name normalizer. "
@@ -66,6 +66,9 @@ class ProductMatcherAgent:
                 temperature=0.0,
             )
             text = response["choices"][0]["message"]["content"].strip()
             data = json.loads(text)
             returned_id = data.get("product_id")
         except Exception as e:

 AGENT_VERSION = "1.0.0"
 MODEL_REPO = "build-small-hackathon/minicpm5-1b-indian-fmcg-normalizer"
+_TIMEOUT_SECONDS = 60
 _SYSTEM_PROMPT = (
     "You are an Indian FMCG product name normalizer. "
                 temperature=0.0,
             )
             text = response["choices"][0]["message"]["content"].strip()
+            if not text:
+                logger.warning("ProductMatcher LLM returned empty response for %r", product_raw)
+                return None, None
             data = json.loads(text)
             returned_id = data.get("product_id")
         except Exception as e:

app.py CHANGED Viewed

@@ -64,8 +64,6 @@ def load_models() -> None:
         import os
         import torch
         from transformers import AutoProcessor
-        from huggingface_hub import snapshot_download
-        from safetensors.torch import load_file as safetensors_load
         _BASE_REPO = "openbmb/MiniCPM-V-4.6"
         _MERGED_REPO = "build-small-hackathon/minicpm-v-4-6-indian-invoice-extraction-merged"
@@ -77,9 +75,9 @@ def load_models() -> None:
         except ImportError:
             from transformers import AutoModelForMultimodalLM as _VisionModel
-        # Load base model code plus fine-tuned weights from the merged repo.
-        # MiniCPM-V 4.6 uses AutoProcessor + model.generate() for inference.
-        logger.info("Loading base model code from %s …", _BASE_REPO)
         _model_kwargs = {
             "trust_remote_code": True,
             "torch_dtype": _dtype,
@@ -88,29 +86,15 @@ def load_models() -> None:
             _model_kwargs["token"] = _HF_TOKEN
         if torch.cuda.is_available():
             _model_kwargs["device_map"] = "auto"
-        _vision_model = _VisionModel.from_pretrained(_BASE_REPO, **_model_kwargs)
         if not torch.cuda.is_available():
             _vision_model.to(_device)
-        logger.info("Loading fine-tuned weights from %s …", _MERGED_REPO)
-        merged_local = snapshot_download(_MERGED_REPO, token=_HF_TOKEN or None)
-        shard_files = sorted(
-            f for f in os.listdir(merged_local) if f.endswith(".safetensors")
-        )
-        if not shard_files:
-            raise RuntimeError(f"No .safetensors files found in {_MERGED_REPO}")
-        state_dict = {}
-        for sf in shard_files:
-            state_dict.update(safetensors_load(os.path.join(merged_local, sf), device="cpu"))
-        missing, unexpected = _vision_model.load_state_dict(state_dict, strict=False)
-        if unexpected:
-            logger.warning("Unexpected keys loading fine-tuned weights: %s", unexpected[:5])
-        logger.info("Fine-tuned weights loaded (%d keys, %d missing)", len(state_dict), len(missing))
         _vision_model.eval()
         _processor_kwargs = {"trust_remote_code": True}
         if _HF_TOKEN:
             _processor_kwargs["token"] = _HF_TOKEN
         _vision_processor = AutoProcessor.from_pretrained(_BASE_REPO, **_processor_kwargs)
         vision_llm = (_vision_model, _vision_processor)
         logger.info("Vision LLM ready (device=%s dtype=%s)", _device, _dtype)

         import os
         import torch
         from transformers import AutoProcessor
         _BASE_REPO = "openbmb/MiniCPM-V-4.6"
         _MERGED_REPO = "build-small-hackathon/minicpm-v-4-6-indian-invoice-extraction-merged"
         except ImportError:
             from transformers import AutoModelForMultimodalLM as _VisionModel
+        # The merged repo is a fully-merged model (not a LoRA delta) — load it directly.
+        # Loading base + overlaying weights fails because the repos use different param naming.
+        logger.info("Loading merged vision model from %s …", _MERGED_REPO)
         _model_kwargs = {
             "trust_remote_code": True,
             "torch_dtype": _dtype,
             _model_kwargs["token"] = _HF_TOKEN
         if torch.cuda.is_available():
             _model_kwargs["device_map"] = "auto"
+        _vision_model = _VisionModel.from_pretrained(_MERGED_REPO, **_model_kwargs)
         if not torch.cuda.is_available():
             _vision_model.to(_device)
         _vision_model.eval()
         _processor_kwargs = {"trust_remote_code": True}
         if _HF_TOKEN:
             _processor_kwargs["token"] = _HF_TOKEN
+        # Load processor from base repo — has complete preprocessor/chat-template configs.
         _vision_processor = AutoProcessor.from_pretrained(_BASE_REPO, **_processor_kwargs)
         vision_llm = (_vision_model, _vision_processor)
         logger.info("Vision LLM ready (device=%s dtype=%s)", _device, _dtype)