1 year ago · 68585864ae
--- a/setup.cfg
+++ b/setup.cfg
@@ -37,7 +37,7 @@ install_requires =
 
															     accelerate>=0.27.2
														
 
															     huggingface-hub>=0.11.1,<1.0.0
														
 
															     tokenizers>=0.13.3
														
 
															-    transformers==4.38.2  # if you change this, please also change version assert in petals/__init__.py
														
 
															+    transformers==4.41.2  # if you change this, please also change version assert in petals/__init__.py
														
 
															     speedtest-cli==2.1.3
														
 
															     pydantic>=1.10,<2.0  # 2.0 is incompatible with hivemind yet
														
 
															     hivemind==1.1.10.post2
														
@@ -50,6 +50,7 @@ install_requires =
 
															     peft==0.5.0
														
 
															     safetensors>=0.3.1
														
 
															     Dijkstar>=2.6.0
														
 
															+    numpy<2
														
 
															 [options.extras_require]
														
 
															 dev =
														
--- a/src/petals/__init__.py
+++ b/src/petals/__init__.py
@@ -22,8 +22,8 @@ __version__ = "2.3.0.dev2"
 
															 if not os.getenv("PETALS_IGNORE_DEPENDENCY_VERSION"):
														
 
															     assert (
														
 
															-        version.parse("4.38.2") <= version.parse(transformers.__version__) < version.parse("4.39.0")
														
 
															-    ), "Please install a proper transformers version: pip install transformers>=4.37.1,<4.39.0"
														
 
															+        version.parse("4.41.2") <= version.parse(transformers.__version__) < version.parse("4.42.0")
														
 
															+    ), "Please install a proper transformers version: pip install transformers>=4.41.2,<4.42.0"
														
 
															 def _override_bfloat16_mode_default():
														
--- a/src/petals/client/remote_generation.py
+++ b/src/petals/client/remote_generation.py
@@ -22,20 +22,20 @@ class RemotePastKeyValues(Cache):
 
															     def __init__(self) -> None:
														
 
															         super().__init__()
														
 
															-        self.seen_tokens = 0
														
 
															+        self._seen_tokens = 0
														
 
															         self.hypo_ids: Optional[torch.LongTensor] = None
														
 
															     def __getitem__(self, _index: int) -> List[torch.Tensor]:
														
 
															         return [DUMMY]  # For compatibility with BloomForCausalLM.prepare_inputs_for_generation()
														
 
															     def get_seq_length(self, layer_idx: Optional[int] = 0) -> int:
														
 
															-        return self.seen_tokens
														
 
															+        return self._seen_tokens
														
 
															     def get_max_length(self) -> Optional[int]:
														
 
															         return None
														
 
															     def update_seen(self, new_seen: int) -> None:
														
 
															-        self.seen_tokens += new_seen
														
 
															+        self._seen_tokens += new_seen
														
 
															     def reorder_cache(self, beam_idx):
														
 
															         raise NotImplementedError("Beam search reordering is not implemented yet")
														
--- a/src/petals/models/bloom/model.py
+++ b/src/petals/models/bloom/model.py
@@ -131,7 +131,7 @@ class DistributedBloomForCausalLM(FromPretrainedMixin, RemoteGenerationMixin, Bl
 
															         if past_key_values is not None:
														
 
															             if isinstance(past_key_values, Cache):
														
 
															                 cache_length = past_key_values.get_seq_length()
														
 
															-                past_length = past_key_values.seen_tokens
														
 
															+                past_length = past_key_values._seen_tokens
														
 
															                 max_cache_length = past_key_values.get_max_length()
														
 
															             else:
														
 
															                 cache_length = past_length = past_key_values[0][0].shape[2]
														
--- a/src/petals/models/llama/block.py
+++ b/src/petals/models/llama/block.py
@@ -87,10 +87,7 @@ class OptimizedLlamaAttention(LlamaAttention):
 
															         key_states = key_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
														
 
															         value_states = value_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
														
 
															-        kv_seq_len = key_states.shape[-2]
														
 
															-        if past_key_value is not None:
														
 
															-            kv_seq_len += past_key_value[0].shape[-2]
														
 
															-        cos, sin = self.rotary_emb(value_states, position_ids, seq_len=kv_seq_len)
														
 
															+        cos, sin = self.rotary_emb(value_states, position_ids)
														
 
															         cos, sin = cos.unsqueeze(1), sin.unsqueeze(1)
														
 
															         if q_len == 1 and torch.is_inference_mode_enabled() and hidden_states.device.type == "cuda":