3 anni fa · e0bb3762b4
--- a/src/client/inference_session.py
+++ b/src/client/inference_session.py
@@ -69,19 +69,19 @@ class RemoteTransformerBlockInferenceSession:
 
				             if not next_input_message.uid and not next_input_message.tensors:
			
 
				                 break  # this message means "done sending"
			
 
				 
			
 
				-    def step(self, new_hidden_states: torch.Tensor):
			
 
				+    def step(self, new_hidden_states: torch.Tensor, prompts: Optional[torch.Tensor] = None):
			
 
				         """Inference step: send a chunk of input tensors and receive a chunk of outputs"""
			
 
				         if self.closed:
			
 
				             raise Exception("Session is closed, cannot perform step")
			
 
				         # serialize inputs and put them into the queue
			
 
				-        inputs = (new_hidden_states,)
			
 
				+        inputs = (new_hidden_states, prompts, torch.arange(len(new_hidden_states)))
			
 
				         outputs_serialized = RemoteExpertWorker.run_coroutine(
			
 
				             self._step(
			
 
				                 runtime_pb2.ExpertRequest(
			
 
				                     uid=self.uid,
			
 
				                     tensors=[
			
 
				                         serialize_torch_tensor(tensor.to(proto.dtype), proto.compression)
			
 
				-                        for tensor, proto in zip(inputs, nested_flatten(self.rpc_info["forward_schema"]))
			
 
				+                        for tensor, proto in zip(inputs, nested_flatten(self.rpc_info["inference_schema"]))
			
 
				                     ],
			
 
				                     metadata=self._serialized_metadata if not self.stepped else None,
			
 
				                 )
			
--- a/src/client/remote_generation.py
+++ b/src/client/remote_generation.py
@@ -105,11 +105,12 @@ class RemoteGenerationMixin:
 
				             hypo_ids = torch.arange(outputs[0].size(0))
			
 
				             while True:
			
 
				                 embs = self.transformer.word_embeddings(outputs[-1])
			
 
				+                intermediate_prompts = None
			
 
				                 if self.config.pre_seq_len > 0 and len(outputs) == 1:
			
 
				-                    prompts, _ = self.transformer.get_prompt(embs.size(0))
			
 
				+                    prompts, intermediate_prompts = self.transformer.get_prompt(embs.size(0))
			
 
				                     embs = torch.cat([prompts, embs], dim=1)
			
 
				                 embs = self.transformer.word_embeddings_layernorm(embs)
			
 
				-                hidden_state = sess.step(embs)[:, -1]
			
 
				+                hidden_state = sess.step(embs, prompts=intermediate_prompts)[:, -1]
			
 
				                 hidden_state = self.transformer.ln_f(hidden_state)
			
 
				                 lm_logits = self.lm_head(hidden_state)
			
 
				 
			
--- a/src/client/remote_model.py
+++ b/src/client/remote_model.py
@@ -151,6 +151,55 @@ class DistributedBloomModel(BloomModel):
 
				         )
			
 
				 
			
 
				 
			
 
				+class DistributedBloomPrefix(DistributedBloomModel):
			
 
				+    """DistributedBloomModel with prefix tokens for prompt tuning"""
			
 
				+
			
 
				+    def __init__(self, config):
			
 
				+        super().__init__(config)
			
 
				+        assert config.num_prefix_tokens > 0, "The number of prefix tokens must be > 0"
			
 
				+        self.prefix_length = config.num_prefix_tokens
			
 
				+
			
 
				+        self.prompt_embeddings = nn.Embedding(self.prefix_length, config.hidden_size)
			
 
				+        self.prefix_tokens = torch.arange(self.prefix_length).long()
			
 
				+
			
 
				+    def get_prompt(self, batch_size):
			
 
				+        prefix_tokens = self.prefix_tokens.unsqueeze(0).expand(batch_size, -1)
			
 
				+        prefix_tokens = prefix_tokens.to(self.word_embeddings.weight.device)
			
 
				+        prompts = self.prompt_embeddings(prefix_tokens)
			
 
				+        return prompts
			
 
				+
			
 
				+    def forward(
			
 
				+        self,
			
 
				+        input_ids: Optional[torch.LongTensor] = None,
			
 
				+        inputs_embeds: Optional[torch.Tensor] = None,
			
 
				+        attention_mask: Optional[torch.Tensor] = None,
			
 
				+        **kwargs,
			
 
				+    ):
			
 
				+        assert (
			
 
				+            input_ids is None or inputs_embeds is None
			
 
				+        ), "You cannot specify both input_ids and inputs_embeds at the same time"
			
 
				+        assert input_ids is not None or inputs_embeds is not None, "You must specify either input_ids or inputs_embeds"
			
 
				+
			
 
				+        if inputs_embeds is None:
			
 
				+            inputs_embeds = self.word_embeddings(input_ids)
			
 
				+
			
 
				+        batch_size = inputs_embeds.shape[0]
			
 
				+
			
 
				+        if attention_mask is not None:
			
 
				+            prefix_attention_mask = torch.ones(batch_size, self.prefix_length, device=attention_mask.device)
			
 
				+            attention_mask = torch.cat((prefix_attention_mask, attention_mask), dim=1)
			
 
				+
			
 
				+        prompts = self.get_prompt(batch_size)
			
 
				+        inputs_embeds = torch.cat([prompts, inputs_embeds], dim=1)
			
 
				+
			
 
				+        transformer_outputs = super().forward(inputs_embeds=inputs_embeds, attention_mask=attention_mask, **kwargs)
			
 
				+
			
 
				+        # Remove prefix
			
 
				+        last_hidden_state = transformer_outputs[0][:, self.prefix_length :]
			
 
				+        transformer_outputs["last_hidden_state"] = last_hidden_state
			
 
				+        return transformer_outputs
			
 
				+
			
 
				+
			
 
				 class DistributedBloomForCausalLM(RemoteGenerationMixin, BloomForCausalLM):
			
 
				     """DistributedBloomForCausalLM, but all transformer layers are hosted by the swarm"""
			
 
				 
			
--- a/src/server/backend.py
+++ b/src/server/backend.py
@@ -1,9 +1,13 @@
 
				 """Code for serving bloom blocks via hivemind-server"""
			
 
				 from queue import Empty
			
 
				-from typing import Optional, Sequence, Tuple
			
 
				+<<<<<<< HEAD
			
 
				+from typing import Sequence, Tuple, Dict, Any, Optional
			
 
				+=======
			
 
				+from typing import Sequence, Tuple, Dict, Any
			
 
				+>>>>>>> 79a9ff2b2ea0c2601e3670f9a28e84e8a511247d
			
 
				 
			
 
				 import torch
			
 
				-from hivemind import use_hivemind_log_handler
			
 
				+from hivemind import use_hivemind_log_handler, BatchTensorDescriptor
			
 
				 from hivemind.moe.server.module_backend import ModuleBackend
			
 
				 from hivemind.moe.server.task_pool import TaskPool
			
 
				 from hivemind.utils import InvalidStateError, get_logger
			
@@ -14,6 +18,34 @@ from src.server.cache import MemoryCache
 
				 use_hivemind_log_handler("in_root_logger")
			
 
				 logger = get_logger(__file__)
			
 
				 
			
 
				+<<<<<<< HEAD
			
 
				+
			
 
				+class InferenceTaskPool(TaskPool):
			
 
				+    def __init__(self, *args, **kwargs):
			
 
				+        super().__init__(*args, **kwargs)
			
 
				+
			
 
				+        assert self.min_batch_size == 1, "min_batch_size in InferenceTaskPool cannot be greater 1"
			
 
				+
			
 
				+    def iterate_minibatches(self, *args, **kwargs):
			
 
				+        """Form minibatches by grouping one or more tasks together up to self.max_batch_size"""
			
 
				+
			
 
				+        while True:
			
 
				+            try:
			
 
				+                logger.debug(f"{self.name} getting next task")
			
 
				+                task = self.tasks.get(timeout=self.timeout)
			
 
				+            except Empty:
			
 
				+                logger.warning(f"Timeout reached but batch doesn't contain >={self.min_batch_size} elements yet")
			
 
				+                continue
			
 
				+
			
 
				+            try:
			
 
				+                if task.future.set_running_or_notify_cancel():
			
 
				+                    yield [task]
			
 
				+            except InvalidStateError as e:
			
 
				+                logger.debug(f"Failed to add task to batch: {task.future} raised {e}")
			
 
				+=======
			
 
				+MAX_LENGTH = 2048
			
 
				+>>>>>>> 79a9ff2b2ea0c2601e3670f9a28e84e8a511247d
			
 
				+
			
 
				 
			
 
				 class InferenceTaskPool(TaskPool):
			
 
				     def __init__(self, *args, **kwargs):
			
@@ -55,22 +87,31 @@ class TransformerBackend(ModuleBackend):
 
				             self.inference_step, max_batch_size=self.forward_pool.max_batch_size, name=f"{self.name}_inference"
			
 
				         )
			
 
				         self.dtype = backend_dtype if backend_dtype else self.module.input_layernorm.weight.dtype
			
 
				+        self.inference_schema = (
			
 
				+            (
			
 
				+                *self.args_schema,
			
 
				+                BatchTensorDescriptor((), dtype=self.dtype),
			
 
				+                BatchTensorDescriptor((), dtype=torch.int64),
			
 
				+            ),
			
 
				+            self.kwargs_schema,
			
 
				+        )
			
 
				 
			
 
				     def inference_step(self, cache_metadata: torch.IntTensor, *inputs: torch.Tensor) -> Tuple[torch.Tensor, ...]:
			
 
				         with torch.inference_mode():
			
 
				             attention_cache_handle = int(cache_metadata[0, 0].item())
			
 
				             prefix_length = int(cache_metadata[0, 1].item())
			
 
				-            hidden_states = inputs[0]  # todo: in future, it would be best to support attention mask here
			
 
				+            hidden_states, hypo_ids, prompts = inputs  # todo: in future, it would be best to support attention mask here
			
 
				             assert (
			
 
				                 hidden_states.ndim == 3
			
 
				             ), "expected hidden states to be 3-dimensional: [batch_size, seq_len, hid_size]"
			
 
				 
			
 
				             with self.memory_cache.use_cache(attention_cache_handle) as cache:
			
 
				                 assert isinstance(self.module, BloomBlock) and cache.shape[0] == 2 and cache.ndim == 5
			
 
				-                layer_past = past_k, past_v = cache[0, :, :prefix_length], cache[1, :, :prefix_length]
			
 
				+                arange = torch.arange(prefix_length)
			
 
				+                layer_past = past_k, past_v = cache[0, hypo_ids, arange], cache[1, hypo_ids, arange]
			
 
				                 print("METADATA:", cache_metadata, past_k.shape, past_v.shape)
			
 
				                 hidden_states, (new_k, new_v) = self.module.forward(
			
 
				-                    hidden_states, layer_past=layer_past, use_cache=True
			
 
				+                    hidden_states, layer_past=layer_past, use_cache=True, prompts=prompts
			
 
				                 )
			
 
				 
			
 
				                 # todo remove these asserts once we pass all tests
			
@@ -85,3 +126,7 @@ class TransformerBackend(ModuleBackend):
 
				 
			
 
				     def get_pools(self) -> Sequence[TaskPool]:
			
 
				         return self.forward_pool, self.backward_pool, self.inference_pool
			
 
				+
			
 
				+    def get_info(self) -> Dict[str, Any]:
			
 
				+        """Get expert parameters and stats. Used by RemoteExpert to check shapes and for DMoE orchestration."""
			
 
				+        return dict(super().get_info(), inference_schema=self.inference_schema)
			
--- a/src/server/handler.py
+++ b/src/server/handler.py
@@ -64,7 +64,7 @@ class TransformerConnectionHandler(ConnectionHandler):
 
				             async with self._allocate_caches(requested_backends, batch_size, max_length) as cache_handles:
			
 
				                 assert len(cache_handles) == len(requested_backends)
			
 
				                 while request.tensors:  # iterate while user is willing to supply tensors
			
 
				-                    hidden_states, *prompts = [deserialize_torch_tensor(tensor) for tensor in request.tensors]
			
 
				+                    hidden_states, prompts, hypo_ids = [deserialize_torch_tensor(tensor) for tensor in request.tensors]
			
 
				 
			
 
				                     # parse deep prompts (optional argument)
			
 
				                     if not prompts or is_dummy(prompts[0]):
			
@@ -77,7 +77,6 @@ class TransformerConnectionHandler(ConnectionHandler):
 
				                         raise ValueError(f"Received {len(prompts)} prompts for {len(requested_backends)} backends")
			
 
				 
			
 
				                     length_increment = hidden_states.shape[1]  # how many tokens are added this step (in each seq)
			
 
				-
			
 
				                     if prefix_length + length_increment > max_length:
			
 
				                         raise ValueError(
			
 
				                             f"Maximum length exceeded: prefix {prefix_length} + current {length_increment}"