ltg
/

nort5-base

@@ -134,7 +134,7 @@ class DecoderLayer(nn.Module):
         if past_key_value is not None:
             self_attn_past_key_value = past_key_value[:2]
             cross_attn_past_key_value = past_key_value[2:]
-            query_offset = self_attn_past_key_value[0].size(1)
         else:
             self_attn_past_key_value, cross_attn_past_key_value = None, None
@@ -570,7 +570,7 @@ class NorT5ForConditionalGeneration(NorT5Model):
         output_hidden_states: Optional[bool] = None,
         return_dict: Optional[bool] = None,
     ):
-        use_cache = use_cache if use_cache is not None else self.config.use_cache
         return_dict = return_dict if return_dict is not None else self.config.use_return_dict
         if encoder_outputs is None:

         if past_key_value is not None:
             self_attn_past_key_value = past_key_value[:2]
             cross_attn_past_key_value = past_key_value[2:]
+            query_offset = self_attn_past_key_value[0].size(2)
         else:
             self_attn_past_key_value, cross_attn_past_key_value = None, None
         output_hidden_states: Optional[bool] = None,
         return_dict: Optional[bool] = None,
     ):
+        use_cache = use_cache if use_cache is not None else getattr(self.config, "use_cache", False)
         return_dict = return_dict if return_dict is not None else self.config.use_return_dict
         if encoder_outputs is None: