2 years ago · 158013a671
--- a/src/petals/__init__.py
+++ b/src/petals/__init__.py
@@ -9,7 +9,7 @@ from petals.models import *
 
															 from petals.utils import *
														
 
															 from petals.utils.logging import initialize_logs as _initialize_logs
														
 
															-__version__ = "1.2.0.dev0"
														
 
															+__version__ = "1.2.0.dev1"
														
 
															 if not os.getenv("PETALS_IGNORE_DEPENDENCY_VERSION"):
														
--- a/src/petals/cli/run_server.py
+++ b/src/petals/cli/run_server.py
@@ -27,8 +27,7 @@ def main():
 
															     parser.add_argument('--num_blocks', type=int, default=None, help="The number of blocks to serve")
														
 
															     parser.add_argument('--block_indices', type=str, default=None, help="Specific block indices to serve")
														
 
															-    parser.add_argument('--prefix', type=str, default=None, help="Announce all blocks with this prefix. By default,"
														
 
															-                                                                 "use the same name as in the converted model.")
														
 
															+    parser.add_argument('--dht_prefix', type=str, default=None, help="Announce all blocks with this DHT prefix")
														
 
															     parser.add_argument('--port', type=int, required=False,
														
 
															                         help='Port this server listens to. '
														
--- a/src/petals/client/inference_session.py
+++ b/src/petals/client/inference_session.py
@@ -3,7 +3,8 @@ from __future__ import annotations
 
															 import asyncio
														
 
															 import itertools
														
 
															 import time
														
 
															-from typing import AsyncIterator, List, Optional
														
 
															+import uuid
														
 
															+from typing import AsyncIterator, List, Optional, Tuple
														
 
															 import torch
														
 
															 from hivemind import (
														
@@ -15,10 +16,10 @@ from hivemind import (
 
															     serialize_torch_tensor,
														
 
															 )
														
 
															 from hivemind.moe.client.remote_expert_worker import RemoteExpertWorker
														
 
															-from hivemind.p2p import StubBase
														
 
															+from hivemind.p2p import P2P
														
 
															 from hivemind.proto import runtime_pb2
														
 
															-from petals.client.routing.sequence_manager import RemoteSequenceManager, maybe_log_traceback
														
 
															+from petals.client.routing.sequence_manager import RemoteSequenceManager, SequenceManagerConfig, maybe_log_traceback
														
 
															 from petals.data_structures import CHAIN_DELIMITER, ModuleUID, RemoteSpanInfo, RPCInfo
														
 
															 from petals.server.handler import TransformerConnectionHandler
														
 
															 from petals.utils.misc import DUMMY, is_dummy
														
@@ -35,35 +36,48 @@ class _ServerInferenceSession:
 
															     def __init__(
														
 
															         self,
														
 
															+        config: SequenceManagerConfig,
														
 
															+        span: RemoteSpanInfo,
														
 
															         uid: ModuleUID,
														
 
															         rpc_info: RPCInfo,
														
 
															         inputs_queue: asyncio.Queue,
														
 
															         outputs_aiter: AsyncIterator,
														
 
															         *,
														
 
															-        timeout: float,
														
 
															         max_length: int,
														
 
															         **metadata,
														
 
															     ):
														
 
															-        self.uid, self.rpc_info = uid, rpc_info
														
 
															+        self.config = config
														
 
															+        self.span, self.uid, self.rpc_info = span, uid, rpc_info
														
 
															         self.num_blocks = uid.count(CHAIN_DELIMITER) + 1
														
 
															         self._inputs_queue: asyncio.Queue[runtime_pb2.ExpertRequest] = inputs_queue
														
 
															         self._outputs_stream: AsyncIterator[runtime_pb2.ExpertResponse] = outputs_aiter
														
 
															-        self.timeout = timeout
														
 
															-        self._serialized_metadata = MSGPackSerializer.dumps(dict(max_length=max_length, **metadata))
														
 
															+        self.session_id = str(uuid.uuid4())
														
 
															+        self.session_metadata = dict(max_length=max_length, **metadata)
														
 
															         self.stepped = False
														
 
															         self.closed = False
														
 
															+        self._position = 0
														
 
															+        self.history = None  # Used in case of server failures to regenerate attention caches on new servers
														
 
															+        self.next_session = None
														
 
															+
														
 
															     @classmethod
														
 
															     async def create(
														
 
															-        cls, stub: StubBase, uid: ModuleUID, rpc_info: RPCInfo, timeout: float, **metadata
														
 
															+        cls,
														
 
															+        config: SequenceManagerConfig,
														
 
															+        p2p: P2P,
														
 
															+        span: RemoteSpanInfo,
														
 
															+        uid: ModuleUID,
														
 
															+        rpc_info: RPCInfo,
														
 
															+        **metadata,
														
 
															     ) -> _ServerInferenceSession:
														
 
															         """Create a new session for a given remote module. This code is meant to be run inside RemoteExpertWorker"""
														
 
															+        stub = TransformerConnectionHandler.get_stub(p2p, span.peer_id)
														
 
															         inputs_queue = asyncio.Queue()
														
 
															         outputs_stream = await asyncio.wait_for(
														
 
															             stub.rpc_inference(cls._read_inputs_from_queue(inputs_queue)),
														
 
															-            timeout,
														
 
															+            config.request_timeout,
														
 
															         )
														
 
															-        return cls(uid, rpc_info, inputs_queue, outputs_stream, timeout=timeout, **metadata)
														
 
															+        return cls(config, span, uid, rpc_info, inputs_queue, outputs_stream, **metadata)
														
 
															     @staticmethod
														
 
															     async def _read_inputs_from_queue(queue: asyncio.Queue, input_timeout: Optional[float] = None) -> AsyncIterator:
														
@@ -75,9 +89,11 @@ class _ServerInferenceSession:
 
															     def step(
														
 
															         self,
														
 
															-        new_hidden_states: torch.Tensor,
														
 
															+        inputs: torch.Tensor,
														
 
															         prompts: Optional[torch.Tensor] = None,
														
 
															         hypo_ids: Optional[torch.Tensor] = None,
														
 
															+        *,
														
 
															+        step_id: str,
														
 
															     ) -> torch.Tensor:
														
 
															         """
														
 
															         Inference step: send a chunk of input tesors and receive a chunk of outputs
														
@@ -86,44 +102,84 @@ class _ServerInferenceSession:
 
															         """
														
 
															         if self.closed:
														
 
															             raise Exception("Session is closed, cannot perform step")
														
 
															+
														
 
															+        n_input_tokens = inputs.shape[1]
														
 
															+        if self.history is None:
														
 
															+            self.history = inputs
														
 
															+        elif self.history.shape[1] == self._position:
														
 
															+            self.history = torch.cat([self.history, inputs[:, -n_input_tokens:]], dim=1)
														
 
															+        assert self.history.shape[1] == self._position + n_input_tokens, (
														
 
															+            f"Broken input cache: span={self.span} shape={self.history.shape} "
														
 
															+            f"position={self._position} n_input_tokens={n_input_tokens}"
														
 
															+        )
														
 
															+
														
 
															+        if not self.stepped:
														
 
															+            inputs = self.history  # Pass full inputs including prefix
														
 
															+        else:
														
 
															+            inputs = inputs[:, -n_input_tokens:]  # No need to pass prefix further
														
 
															+
														
 
															         if prompts is None or is_dummy(prompts):
														
 
															             prompts = DUMMY
														
 
															         else:
														
 
															-            assert prompts.ndim == 4, "deep prompts should have shape [num_layers, batch_size, prefix_len, hid_size]"
														
 
															+            assert prompts.ndim == 4, "deep prompts should have shape [num_blocks, batch_size, prefix_len, hid_size]"
														
 
															             assert prompts.shape[0] == self.num_blocks
														
 
															-            assert prompts.shape[1] in (new_hidden_states.shape[0], 1)
														
 
															-            assert prompts.shape[2] <= new_hidden_states.shape[1]
														
 
															-            assert prompts.shape[3] == new_hidden_states.shape[2]
														
 
															+            assert prompts.shape[1] in (inputs.shape[0], 1)
														
 
															+            assert prompts.shape[2] <= inputs.shape[1]
														
 
															+            assert prompts.shape[3] == inputs.shape[2]
														
 
															         if hypo_ids is None or is_dummy(hypo_ids):
														
 
															             hypo_ids = DUMMY
														
 
															         else:
														
 
															-            assert len(hypo_ids) == len(new_hidden_states)
														
 
															+            assert len(hypo_ids) == len(inputs)
														
 
															             assert hypo_ids.dtype == torch.int64
														
 
															         # serialize inputs and put them into the queue
														
 
															-        inputs = (new_hidden_states, prompts, hypo_ids)
														
 
															+        input_tensors = (inputs, prompts, hypo_ids)
														
 
															+
														
 
															+        request_metadata = dict(session_id=self.session_id, step_id=step_id)
														
 
															+        if not self.stepped:
														
 
															+            request_metadata.update(self.session_metadata)
														
 
															+        elif self.config.use_server_to_server:
														
 
															+            next_servers = self._collect_next_servers()
														
 
															+            if next_servers:
														
 
															+                request_metadata["next_servers"] = next_servers
														
 
															+
														
 
															         outputs_serialized = RemoteExpertWorker.run_coroutine(
														
 
															             self._step(
														
 
															                 runtime_pb2.ExpertRequest(
														
 
															                     uid=self.uid,
														
 
															                     tensors=[
														
 
															                         serialize_torch_tensor(tensor.to(proto.dtype), proto.compression)
														
 
															-                        for tensor, proto in zip(inputs, nested_flatten(self.rpc_info["inference_schema"]))
														
 
															+                        for tensor, proto in zip(input_tensors, nested_flatten(self.rpc_info["inference_schema"]))
														
 
															                     ],
														
 
															-                    metadata=self._serialized_metadata if not self.stepped else None,
														
 
															+                    metadata=MSGPackSerializer.dumps(request_metadata),
														
 
															                 )
														
 
															             )
														
 
															         )
														
 
															         outputs = list(map(deserialize_torch_tensor, outputs_serialized.tensors))
														
 
															-        assert outputs[0].shape == inputs[0].shape, f"expected outputs[0] to be hidden states but got {outputs[0]}"
														
 
															+        assert (
														
 
															+            outputs[0].shape == inputs.shape
														
 
															+        ), f"output activation shape is different from input shape: {outputs[0].shape} != {inputs.shape}"
														
 
															+
														
 
															+        self._position += n_input_tokens
														
 
															+
														
 
															         return outputs[0]
														
 
															+    def _collect_next_servers(self) -> List[Tuple[str, str, int, int]]:
														
 
															+        next_servers = []
														
 
															+        session = self.next_session
														
 
															+        while session is not None and session.stepped:
														
 
															+            next_servers.append(
														
 
															+                (session.span.peer_id.to_base58(), session.session_id, session.span.start, session.span.end)
														
 
															+            )
														
 
															+            session = session.next_session
														
 
															+        return next_servers
														
 
															+
														
 
															     async def _step(self, inputs_serialized: runtime_pb2.ExpertRequest) -> runtime_pb2.ExpertResponse:
														
 
															         """Inference step on serialized data. This code is meant to be run inside RemoteExpertWorker"""
														
 
															         await self._inputs_queue.put(inputs_serialized)
														
 
															         self.stepped = True
														
 
															-        return await asyncio.wait_for(anext(self._outputs_stream), self.timeout)
														
 
															+        return await asyncio.wait_for(anext(self._outputs_stream), self.config.request_timeout)
														
 
															     def close(self):
														
 
															         """Finish a given inference session, close the underlying connection"""
														
@@ -163,13 +219,15 @@ class InferenceSession:
 
															     def __init__(self, sequence_manager: RemoteSequenceManager, max_length: int):
														
 
															         self._sequence_manager = sequence_manager
														
 
															         self._closed = False
														
 
															-        self._chosen_spans = []
														
 
															         self._server_sessions = []
														
 
															-        self._server_inputs = []  # Used in case of server failures to regenerate attention caches on new servers
														
 
															         self._position = 0
														
 
															         self._max_length = max_length
														
 
															         self.last_token_id = None
														
 
															+    @property
														
 
															+    def num_blocks(self) -> int:
														
 
															+        return len(self._sequence_manager)
														
 
															+
														
 
															     @property
														
 
															     def position(self) -> int:
														
 
															         return self._position
														
@@ -178,15 +236,15 @@ class InferenceSession:
 
															         server_sessions = []
														
 
															         try:
														
 
															             for span in chosen_spans:
														
 
															-                stub = TransformerConnectionHandler.get_stub(self._sequence_manager.state.p2p, span.peer_id)
														
 
															                 span_uids = CHAIN_DELIMITER.join(self._sequence_manager.block_uids[span.start : span.end])
														
 
															                 metadata = self._sequence_manager.get_request_metadata("rpc_inference", span_uids, peer_id=span.peer_id)
														
 
															                 session = RemoteExpertWorker.run_coroutine(
														
 
															                     _ServerInferenceSession.create(
														
 
															-                        stub,
														
 
															+                        self._sequence_manager.config,
														
 
															+                        self._sequence_manager.state.p2p,
														
 
															+                        span,
														
 
															                         span_uids,
														
 
															                         rpc_info=self._sequence_manager.rpc_info,
														
 
															-                        timeout=self._sequence_manager.config.request_timeout,
														
 
															                         max_length=self._max_length,
														
 
															                         **metadata,
														
 
															                     )
														
@@ -206,7 +264,7 @@ class InferenceSession:
 
															                 logger.debug("Caught exception while closing connection to server:", exc_info=True)
														
 
															     def __enter__(self) -> "InferenceSession":
														
 
															-        assert not self._closed and not self._chosen_spans
														
 
															+        assert not self._closed and not self._server_sessions
														
 
															         return self
														
 
															     def step(self, inputs: torch.Tensor, prompts: Optional[torch.Tensor] = None, **kwargs) -> torch.Tensor:
														
@@ -214,16 +272,17 @@ class InferenceSession:
 
															         if torch.is_grad_enabled():
														
 
															             logger.warning("Running inference session with grad enabled. Gradients will *not* be propagated correctly.")
														
 
															-        n_blocks = len(self._sequence_manager)
														
 
															         if prompts is None or is_dummy(prompts):
														
 
															             prompts = DUMMY
														
 
															         else:
														
 
															-            assert prompts.ndim == 4 and prompts.shape[0] == n_blocks
														
 
															+            assert prompts.ndim == 4, "deep prompts should have shape [num_blocks, batch_size, prefix_len, hid_size]"
														
 
															+            assert prompts.shape[0] == self.num_blocks
														
 
															         inputs_device = inputs.device
														
 
															         inputs_dtype = inputs.dtype
														
 
															         inputs = inputs.cpu()
														
 
															         prompts = prompts.cpu()
														
 
															+        step_id = str(uuid.uuid4())
														
 
															         n_input_tokens = inputs.shape[1]
														
 
															         if self._position + n_input_tokens > self._max_length:
														
@@ -233,97 +292,74 @@ class InferenceSession:
 
															         server_idx = 0
														
 
															         block_idx = 0
														
 
															-        recovery_until = -1  # Recovery mode is disabled until a failure happens
														
 
															-        while block_idx < n_blocks:
														
 
															+        while block_idx < self.num_blocks:
														
 
															             for attempt_no in itertools.count():
														
 
															                 logger.debug(f"Inference: block {block_idx}, attempt {attempt_no}")
														
 
															-                span = None
														
 
															+                server_session = None
														
 
															                 try:
														
 
															-                    if not self._chosen_spans or not self._server_sessions or attempt_no >= 1:
														
 
															-                        # If there is a failed server session, this code closes it
														
 
															-                        self._exit_server_sessions(self._server_sessions[server_idx : server_idx + 1])
														
 
															-
														
 
															-                        n_prev_spans = len(self._chosen_spans)
														
 
															-                        update_end = self._chosen_spans[server_idx].end if server_idx < n_prev_spans else n_blocks
														
 
															-                        if attempt_no >= 1 and update_end > recovery_until:
														
 
															-                            logger.info(
														
 
															-                                f"Due to a server failure, remote attention caches "
														
 
															-                                f"from block {block_idx} to {update_end} will be regenerated"
														
 
															-                            )
														
 
															-                        recovery_until = max(recovery_until, update_end)
														
 
															-
														
 
															-                        updated_spans = self._sequence_manager.make_sequence(block_idx, update_end, mode="min_latency")
														
 
															-                        # make_sequence() could return a longer sequence
														
 
															-                        updated_spans[-1].end = min(updated_spans[-1].end, update_end)
														
 
															-                        updated_sessions = self._enter_server_sessions(updated_spans)
														
 
															-                        logger.debug(
														
 
															-                            f"Found path from block {block_idx} to {update_end} via {len(updated_spans)} servers"
														
 
															-                        )
														
 
															-
														
 
															-                        # If there is a failed span, this code replaces it, otherwise it just adds new ones
														
 
															-                        self._chosen_spans[server_idx : server_idx + 1] = updated_spans
														
 
															-                        self._server_sessions[server_idx : server_idx + 1] = updated_sessions
														
 
															-                        recovery_inputs = self._server_inputs[server_idx] if server_idx < n_prev_spans else None
														
 
															-                        self._server_inputs[server_idx : server_idx + 1] = [recovery_inputs] + [None] * (
														
 
															-                            len(updated_spans) - 1
														
 
															-                        )
														
 
															-                        assert len(self._chosen_spans) == len(self._server_sessions) == len(self._server_inputs), (
														
 
															-                            f"Broken state: {len(self._chosen_spans)} spans, {len(self._server_sessions)} sessions, "
														
 
															-                            f"{len(self._server_inputs)} inputs"
														
 
															-                        )
														
 
															-
														
 
															-                    session = self._server_sessions[server_idx]
														
 
															-                    span = self._chosen_spans[server_idx]
														
 
															-
														
 
															-                    if self._server_inputs[server_idx] is None:
														
 
															-                        self._server_inputs[server_idx] = inputs
														
 
															-                    elif self._server_inputs[server_idx].shape[1] == self._position:
														
 
															-                        self._server_inputs[server_idx] = torch.cat(
														
 
															-                            [self._server_inputs[server_idx], inputs[:, -n_input_tokens:]], dim=1
														
 
															-                        )
														
 
															-                    assert self._server_inputs[server_idx].shape[1] == self._position + n_input_tokens, (
														
 
															-                        f"Broken input cache: server_idx={server_idx} shape={self._server_inputs[server_idx].shape} "
														
 
															-                        f"position={self._position} n_input_tokens={n_input_tokens}"
														
 
															-                    )
														
 
															-
														
 
															-                    if not session.stepped:
														
 
															-                        inputs = self._server_inputs[server_idx]  # Pass full inputs including prefix
														
 
															-                    else:
														
 
															-                        inputs = inputs[:, -n_input_tokens:]  # No need to pass prefix further
														
 
															+                    if not self._server_sessions or attempt_no >= 1:
														
 
															+                        self._update_sequence(server_idx, block_idx, attempt_no)
														
 
															-                    outputs = session.step(inputs, prompts[span.start : span.end], **kwargs)
														
 
															-                    assert (
														
 
															-                        inputs.shape == outputs.shape
														
 
															-                    ), f"Shape mismatch: inputs.shape={inputs.shape}, outputs.shape={outputs.shape})"
														
 
															+                    server_session = self._server_sessions[server_idx]
														
 
															+                    inputs = server_session.step(
														
 
															+                        inputs, prompts[server_session.span.start : server_session.span.end], step_id=step_id, **kwargs
														
 
															+                    )
														
 
															-                    inputs = outputs
														
 
															                     server_idx += 1
														
 
															-                    block_idx = span.end
														
 
															-                    self._sequence_manager.on_request_success(span.peer_id)
														
 
															+                    block_idx = server_session.span.end
														
 
															+                    self._sequence_manager.on_request_success(server_session.span.peer_id)
														
 
															                     break
														
 
															                 except Exception as e:
														
 
															-                    self._sequence_manager.on_request_failure(span.peer_id if span is not None else None)
														
 
															+                    self._sequence_manager.on_request_failure(
														
 
															+                        server_session.span.peer_id if server_session is not None else None
														
 
															+                    )
														
 
															                     if attempt_no + 1 == self._sequence_manager.config.max_retries:
														
 
															                         raise
														
 
															                     delay = self._sequence_manager.get_retry_delay(attempt_no)
														
 
															                     logger.warning(
														
 
															-                        f"Caught exception when running inference via {span} (retry in {delay:.0f} sec): {repr(e)}"
														
 
															+                        f"Caught exception when running inference via {server_session.span if server_session is not None else None} "
														
 
															+                        f"(retry in {delay:.0f} sec): {repr(e)}"
														
 
															                     )
														
 
															                     maybe_log_traceback(e)
														
 
															                     time.sleep(delay)
														
 
															         self._position += n_input_tokens
														
 
															-        inputs = inputs[:, -n_input_tokens:]
														
 
															-        outputs = inputs.to(device=inputs_device, dtype=inputs_dtype)
														
 
															+        outputs = inputs[:, -n_input_tokens:]
														
 
															+        outputs = outputs.to(device=inputs_device, dtype=inputs_dtype)
														
 
															         return outputs
														
 
															+    def _update_sequence(self, server_idx: int, block_idx: int, attempt_no: int) -> int:
														
 
															+        # If there is a failed server session, this code closes it
														
 
															+        self._exit_server_sessions(self._server_sessions[server_idx : server_idx + 1])
														
 
															+
														
 
															+        n_prev_spans = len(self._server_sessions)
														
 
															+        update_end = self._server_sessions[server_idx].span.end if server_idx < n_prev_spans else self.num_blocks
														
 
															+        if attempt_no >= 1:
														
 
															+            logger.info(
														
 
															+                f"Due to a server failure, remote attention caches "
														
 
															+                f"from block {block_idx} to {update_end} will be regenerated"
														
 
															+            )
														
 
															+
														
 
															+        updated_spans = self._sequence_manager.make_sequence(block_idx, update_end, mode="min_latency")
														
 
															+        # make_sequence() could return a longer sequence
														
 
															+        updated_spans[-1].end = min(updated_spans[-1].end, update_end)
														
 
															+        updated_sessions = self._enter_server_sessions(updated_spans)
														
 
															+        logger.debug(f"Found path from block {block_idx} to {update_end} via {len(updated_spans)} servers")
														
 
															+
														
 
															+        # If there is a failed span, this code replaces it, otherwise it just adds new ones
														
 
															+        if server_idx < n_prev_spans:
														
 
															+            updated_sessions[0].history = self._server_sessions[server_idx].history
														
 
															+        self._server_sessions[server_idx : server_idx + 1] = updated_sessions
														
 
															+
														
 
															+        # Update links to the next server session for direct server-to-server communication via rpc_push()
														
 
															+        for i in range(max(server_idx - 1, 0), min(server_idx + len(updated_spans), len(self._server_sessions) - 1)):
														
 
															+            self._server_sessions[i].next_session = self._server_sessions[i + 1]
														
 
															+
														
 
															     def close(self, *exc_details):
														
 
															         """Finish a given inference session, close the underlying connection"""
														
 
															         if not self._closed:
														
 
															-            self._server_inputs.clear()
														
 
															             self._exit_server_sessions(self._server_sessions)
														
 
															             self._server_sessions.clear()
														
 
															-            self._chosen_spans.clear()
														
 
															             self._closed = True
														
 
															     def __exit__(self, *exc_details):
														
--- a/src/petals/client/routing/sequence_manager.py
+++ b/src/petals/client/routing/sequence_manager.py
@@ -34,6 +34,7 @@ class SequenceManagerConfig:
 
															     daemon_startup_timeout: int = 60  # timeout for the libp2p daemon connecting to initial peers
														
 
															     allowed_servers: Optional[Collection[Union[PeerID, str]]] = None  # if defined, send requests only to these servers
														
 
															+    use_server_to_server: bool = True  # Use direct server-to-server communication
														
 
															     request_timeout: float = 3 * 60  # timeout for forward/backward/inference requests
														
 
															     update_period: float = 60  # refresh DHT information once in this many seconds
														
--- a/src/petals/server/handler.py
+++ b/src/petals/server/handler.py
@@ -2,6 +2,9 @@ from __future__ import annotations
 
															 import asyncio
														
 
															 import contextlib
														
 
															+import multiprocessing.managers
														
 
															+import sys
														
 
															+from concurrent.futures import ThreadPoolExecutor
														
 
															 from itertools import chain
														
 
															 from typing import Any, AsyncIterator, Dict, Iterable, List, Optional, Sequence, Tuple, Union
														
@@ -11,6 +14,7 @@ from hivemind import (
 
															     DHT,
														
 
															     MSGPackSerializer,
														
 
															     P2PContext,
														
 
															+    PeerID,
														
 
															     deserialize_tensor_stream,
														
 
															     deserialize_torch_tensor,
														
 
															     nested_flatten,
														
@@ -25,7 +29,7 @@ from hivemind.utils.logging import get_logger
 
															 from hivemind.utils.streaming import split_for_streaming
														
 
															 import petals
														
 
															-from petals.data_structures import CHAIN_DELIMITER, InferenceMetadata, ModuleUID
														
 
															+from petals.data_structures import CHAIN_DELIMITER, UID_DELIMITER, InferenceMetadata, ModuleUID
														
 
															 from petals.server.backend import TransformerBackend
														
 
															 from petals.server.memory_cache import Handle
														
 
															 from petals.server.task_pool import PrioritizedTaskPool
														
@@ -34,6 +38,23 @@ from petals.utils.misc import DUMMY, is_dummy
 
															 logger = get_logger(__name__)
														
 
															+
														
 
															+# Fix pickling protobufs, see https://stackoverflow.com/a/74873028
														
 
															+sys.modules["runtime_pb2"] = runtime_pb2
														
 
															+
														
 
															+# Fix queues in multiprocessing.Manager in Python < 3.9.7, see https://bugs.python.org/issue30256
														
 
															+
														
 
															+_OriginalAutoProxy = multiprocessing.managers.AutoProxy
														
 
															+
														
 
															+
														
 
															+def patched_autoproxy(*args, manager_owned=True, **kwargs):
														
 
															+    # Calling original AutoProxy without the unwanted key argument
														
 
															+    return _OriginalAutoProxy(*args, **kwargs)
														
 
															+
														
 
															+
														
 
															+multiprocessing.managers.AutoProxy = patched_autoproxy
														
 
															+
														
 
															+
														
 
															 CACHE_TOKENS_AVAILABLE = "cache_tokens_available"
														
@@ -47,6 +68,9 @@ class TransformerConnectionHandler(ConnectionHandler):
 
															         dht: DHT,
														
 
															         module_backends: Dict[str, TransformerBackend],
														
 
															         *,
														
 
															+        dht_prefix: str,
														
 
															+        push_manager: multiprocessing.managers.SyncManager,
														
 
															+        session_queues: Dict[str, multiprocessing.managers.BaseProxy],  # BaseProxy for queue.Queue
														
 
															         inference_max_length: int,
														
 
															         request_timeout: float,
														
 
															         session_timeout: float,
														
@@ -56,6 +80,11 @@ class TransformerConnectionHandler(ConnectionHandler):
 
															         super().__init__(dht, module_backends)
														
 
															         for module_backend in self.module_backends.values():
														
 
															             assert isinstance(module_backend, TransformerBackend)
														
 
															+        self.dht_prefix = dht_prefix
														
 
															+        self._push_manager = push_manager
														
 
															+        self._session_queues = session_queues
														
 
															+        self._executor = ThreadPoolExecutor(max_workers=float("inf"))  # For waiting on self.session_queues
														
 
															+
														
 
															         self.inference_max_length = inference_max_length
														
 
															         self.request_timeout = request_timeout
														
 
															         self.session_timeout, self.step_timeout = session_timeout, step_timeout
														
@@ -96,7 +125,7 @@ class TransformerConnectionHandler(ConnectionHandler):
 
															         self,
														
 
															         requests: AsyncIterator[runtime_pb2.ExpertRequest],
														
 
															         context: P2PContext,
														
 
															-    ) -> AsyncIterator[runtime_pb2.ExpertRequest]:
														
 
															+    ) -> AsyncIterator[runtime_pb2.ExpertResponse]:
														
 
															         """Compute a single step of inference using attention cache; update attention cache accordingly."""
														
 
															         async with timeout(self.session_timeout):
														
@@ -113,6 +142,7 @@ class TransformerConnectionHandler(ConnectionHandler):
 
															                 requested_backends = tuple(self.module_backends[uid] for uid in requested_uids)
														
 
															                 max_length = metadata.get("max_length")
														
 
															                 points = metadata.get("points", 0)
														
 
															+                session_id = metadata.get("session_id")
														
 
															                 if not requested_uids:
														
 
															                     raise ValueError("User must specify at least one block for inference, but got none")
														
@@ -133,7 +163,11 @@ class TransformerConnectionHandler(ConnectionHandler):
 
															                 async with self._allocate_cache(requested_backends, batch_size, max_length) as cache_handles:
														
 
															                     assert len(cache_handles) == len(requested_backends)
														
 
															-                    while request.tensors:  # iterate while user is willing to supply tensors
														
 
															+                    first_request = request
														
 
															+                    background_tasks = set()
														
 
															+                    async for request, metadata in self._iterate_inference_steps(
														
 
															+                        first_request, requests, session_id, requested_uids, context
														
 
															+                    ):
														
 
															                         hidden_states, prompts, hypo_ids = map(deserialize_torch_tensor, request.tensors)
														
 
															                         # Cast inputs to backend dtype
														
@@ -141,7 +175,8 @@ class TransformerConnectionHandler(ConnectionHandler):
 
															                         assert hypo_ids.dtype == torch.int64, f"hypo ids must be int64, got {hypo_ids.dtype}"
														
 
															                         # parse deep prompts (optional argument)
														
 
															-                        if prompts is None or is_dummy(prompts):
														
 
															+                        has_prompts = prompts is not None and not is_dummy(prompts)
														
 
															+                        if not has_prompts:
														
 
															                             prompts = [None] * len(requested_backends)
														
 
															                         else:
														
 
															                             prompts = [p.squeeze(0) for p in prompts.to(requested_backends[0].dtype).split(1, dim=0)]
														
@@ -180,25 +215,136 @@ class TransformerConnectionHandler(ConnectionHandler):
 
															                             )
														
 
															                         # serialize and send last layer outputs
														
 
															-                        yield runtime_pb2.ExpertResponse(
														
 
															-                            tensors=[
														
 
															-                                serialize_torch_tensor(result.to(proto.dtype), proto.compression, allow_inplace=True)
														
 
															-                                for result, proto in zip(
														
 
															-                                    (hidden_states,), nested_flatten(requested_backends[-1].outputs_schema)
														
 
															-                                )
														
 
															-                            ]
														
 
															-                        )
														
 
															+                        output_tensors = [
														
 
															+                            serialize_torch_tensor(result.to(proto.dtype), proto.compression, allow_inplace=True)
														
 
															+                            for result, proto in zip(
														
 
															+                                (hidden_states,), nested_flatten(requested_backends[-1].outputs_schema)
														
 
															+                            )
														
 
															+                        ]
														
 
															+                        if not has_prompts:
														
 
															+                            task = asyncio.create_task(self._push_outputs(request, output_tensors[0], metadata))
														
 
															+                            background_tasks.add(task)  # Keep reference until it is done to save it from GC
														
 
															+                            task.add_done_callback(background_tasks.discard)
														
 
															+                        yield runtime_pb2.ExpertResponse(tensors=output_tensors)
														
 
															                         # prepare for next step
														
 
															-                        prefix_length += hidden_states.shape[1]
														
 
															-                        try:
														
 
															-                            request = await asyncio.wait_for(anext(requests), self.step_timeout)
														
 
															-                        except asyncio.TimeoutError:
														
 
															-                            self._log_request("rpc_inference.step", requested_uids, context, warning="timed out")
														
 
															-                            return
														
 
															+                        prefix_length += length_increment
														
 
															             finally:
														
 
															                 self._log_request("rpc_inference.close", requested_uids, context)
														
 
															+    async def _iterate_inference_steps(
														
 
															+        self,
														
 
															+        first_request: runtime_pb2.ExpertRequest,
														
 
															+        requests: AsyncIterator[runtime_pb2.ExpertRequest],
														
 
															+        session_id: Optional[str],
														
 
															+        requested_uids: Sequence[str],
														
 
															+        context: P2PContext,
														
 
															+    ) -> AsyncIterator[Tuple[runtime_pb2.ExpertRequest, dict]]:
														
 
															+        loop = asyncio.get_event_loop()
														
 
															+        if session_id is not None:
														
 
															+            push_queue = self._push_manager.Queue()
														
 
															+            self._session_queues[session_id] = push_queue
														
 
															+
														
 
															+        processed_step_ids = set()
														
 
															+        n_pushes = n_late_pushes = 0
														
 
															+        request = first_request
														
 
															+        anext_task = get_push_task = None
														
 
															+        try:
														
 
															+            while request.tensors:  # iterate while user is willing to supply tensors
														
 
															+                metadata = MSGPackSerializer.loads(request.metadata) if request.metadata else {}
														
 
															+                step_id = metadata.get("step_id")
														
 
															+
														
 
															+                pushed = metadata.get("pushed")
														
 
															+                if pushed:
														
 
															+                    n_pushes += 1
														
 
															+
														
 
															+                if step_id is None or step_id not in processed_step_ids:
														
 
															+                    yield request, metadata
														
 
															+                    if step_id is not None:
														
 
															+                        processed_step_ids.add(step_id)
														
 
															+                elif pushed:
														
 
															+                    n_late_pushes += 1
														
 
															+                    self._log_request(
														
 
															+                        "rpc_inference.push",
														
 
															+                        requested_uids,
														
 
															+                        context,
														
 
															+                        warning=f"arrived late {n_late_pushes / n_pushes * 100:.1f}% of the time",
														
 
															+                    )
														
 
															+
														
 
															+                # Wait for the next request, coming either from the `requests` iterator or `push_queue`
														
 
															+                if anext_task is None:
														
 
															+                    anext_task = asyncio.create_task(anext(requests))
														
 
															+                if get_push_task is None:
														
 
															+                    if session_id is not None:
														
 
															+                        get_push_task = loop.run_in_executor(self._executor, push_queue.get)
														
 
															+                    else:
														
 
															+                        get_push_task = asyncio.create_task(asyncio.Event().wait())  # Dummy never-ending task
														
 
															+                done, _ = await asyncio.wait(
														
 
															+                    [anext_task, get_push_task], timeout=self.step_timeout, return_when=asyncio.FIRST_COMPLETED
														
 
															+                )
														
 
															+
														
 
															+                if anext_task in done:
														
 
															+                    request = await anext_task
														
 
															+                    anext_task = None
														
 
															+                elif get_push_task in done:
														
 
															+                    request = await get_push_task
														
 
															+                    get_push_task = None
														
 
															+                else:
														
 
															+                    self._log_request("rpc_inference.step", requested_uids, context, warning="timed out")
														
 
															+                    anext_task.cancel()
														
 
															+                    get_push_task.cancel()
														
 
															+                    return
														
 
															+        except:
														
 
															+            logger.warning("rpc_inference._iterate_inference_steps() exception:", exc_info=True)
														
 
															+            raise
														
 
															+        finally:
														
 
															+            if session_id is not None:
														
 
															+                push_queue.put(None)  # Stop thread for get_push_task
														
 
															+                del self._session_queues[session_id]
														
 
															+
														
 
															+    async def rpc_push(self, request: runtime_pb2.ExpertRequest, context: P2PContext) -> runtime_pb2.ExpertResponse:
														
 
															+        """Directly push activation tensors from one server to another"""
														
 
															+
														
 
															+        requested_uids = self._check_uids(request.uid)
														
 
															+        self._log_request("rpc_push", requested_uids, context)
														
 
															+
														
 
															+        metadata = MSGPackSerializer.loads(request.metadata)
														
 
															+        session_id = metadata["session_id"]
														
 
															+        self._session_queues[session_id].put(request)
														
 
															+        return runtime_pb2.ExpertResponse()
														
 
															+
														
 
															+    async def _push_outputs(
														
 
															+        self, request: runtime_pb2.ExpertRequest, serialized_outputs: runtime_pb2.Tensor, metadata: dict
														
 
															+    ) -> None:
														
 
															+        try:
														
 
															+            next_servers = metadata.get("next_servers")
														
 
															+            if not next_servers:
														
 
															+                return
														
 
															+
														
 
															+            next_peer_id, next_session_id, next_start, next_end = next_servers[0]
														
 
															+            next_peer_id = PeerID.from_base58(next_peer_id)
														
 
															+            next_uid = CHAIN_DELIMITER.join(f"{self.dht_prefix}{UID_DELIMITER}{i}" for i in range(next_start, next_end))
														
 
															+
														
 
															+            # Sending hidden states serialized with output_schema to avoid double serialization
														
 
															+            next_tensors = [serialized_outputs] + request.tensors[1:]
														
 
															+            next_metadata = metadata.copy()
														
 
															+            next_metadata.update(session_id=next_session_id, next_servers=next_servers[1:], pushed=True)
														
 
															+
														
 
															+            stub = self.get_stub(self._p2p, next_peer_id)
														
 
															+            await stub.rpc_push(
														
 
															+                runtime_pb2.ExpertRequest(
														
 
															+                    uid=next_uid,
														
 
															+                    tensors=next_tensors,
														
 
															+                    metadata=MSGPackSerializer.dumps(next_metadata),
														
 
															+                ),
														
 
															+                timeout=self.request_timeout,
														
 
															+            )
														
 
															+        except Exception:
														
 
															+            logger.debug(
														
 
															+                f"Failed to push outputs to peer_id={next_peer_id}, session_id={next_session_id}, blocks={next_start}:{next_end}:",
														
 
															+                exc_info=True,
														
 
															+            )
														
 
															+
														
 
															     async def rpc_forward(self, request: runtime_pb2.ExpertRequest, context: P2PContext) -> runtime_pb2.ExpertResponse:
														
 
															         async with timeout(self.request_timeout):
														
 
															             # Parse request and prepare backends
														
@@ -348,7 +494,7 @@ class TransformerConnectionHandler(ConnectionHandler):
 
															     @contextlib.asynccontextmanager
														
 
															     async def _allocate_cache(
														
 
															         self, backends: Sequence[TransformerBackend], batch_size: int, max_length: int
														
 
															-    ) -> Sequence[Sequence[Handle, ...]]:
														
 
															+    ) -> Sequence[Sequence[Handle]]:
														
 
															         """
														
 
															         Allocate memory cache for all transformer blocks, return cache handle
														
 
															         :returns: a list of {len(backends)} elements, where i-th element is a tuple of cache handles for i-th backend
														
@@ -358,7 +504,13 @@ class TransformerConnectionHandler(ConnectionHandler):
 
															             yield nested_pack(handles, descriptors)
														
 
															     def _log_request(
														
 
															-        self, method: str, uids: Optional[Sequence[ModuleUID]], context: P2PContext, *, warning: Optional[str] = None
														
 
															+        self,
														
 
															+        method: str,
														
 
															+        uids: Optional[Sequence[ModuleUID]],
														
 
															+        context: P2PContext,
														
 
															+        *,
														
 
															+        debug: Optional[str] = None,
														
 
															+        warning: Optional[str] = None,
														
 
															     ) -> None:
														
 
															         if uids is not None:
														
 
															             friendly_uids = [uid.split(".")[-1] for uid in uids if "." in uid]
														
@@ -370,10 +522,12 @@ class TransformerConnectionHandler(ConnectionHandler):
 
															         friendly_remote_id = "..." + str(context.remote_id)[-6:]
														
 
															         message = f"{method}(blocks={friendly_uids}, remote_peer={friendly_remote_id})"
														
 
															-        if warning is None:
														
 
															-            logger.info(message)
														
 
															-        else:
														
 
															+        if warning is not None:
														
 
															             logger.warning(f"{message}: {warning}")
														
 
															+        elif debug is not None:
														
 
															+            logger.debug(f"{message}: {debug}")
														
 
															+        else:
														
 
															+            logger.info(message)
														
 
															     async def rpc_info(self, request: runtime_pb2.ExpertUID, context: P2PContext) -> runtime_pb2.ExpertInfo:
														
 
															         """Return metadata about stored block uids and current load"""
														
--- a/src/petals/server/server.py
+++ b/src/petals/server/server.py
@@ -45,7 +45,7 @@ class Server:
 
															         self,
														
 
															         *,
														
 
															         initial_peers: List[str],
														
 
															-        prefix: Optional[str],
														
 
															+        dht_prefix: Optional[str],
														
 
															         converted_model_name_or_path: str,
														
 
															         throughput: Union[float, str],
														
 
															         num_blocks: Optional[int] = None,
														
@@ -105,13 +105,13 @@ class Server:
 
															             revision=revision,
														
 
															         )
														
 
															-        if prefix is None:
														
 
															-            prefix = self.block_config.dht_prefix
														
 
															-        assert UID_DELIMITER not in prefix and CHAIN_DELIMITER not in prefix, (
														
 
															+        if dht_prefix is None:
														
 
															+            dht_prefix = self.block_config.dht_prefix
														
 
															+        assert UID_DELIMITER not in dht_prefix and CHAIN_DELIMITER not in dht_prefix, (
														
 
															             f"DHT prefix should not contain '{UID_DELIMITER}' or '{CHAIN_DELIMITER}'. "
														
 
															-            f"Please specify another --prefix manually when starting a server"
														
 
															+            f"Please specify another --dht_prefix manually when starting a server"
														
 
															         )
														
 
															-        self.prefix = prefix
														
 
															+        self.dht_prefix = dht_prefix
														
 
															         if expiration is None:
														
 
															             expiration = max(2 * update_period, MAX_DHT_TIME_DISCREPANCY_SECONDS)
														
@@ -121,7 +121,8 @@ class Server:
 
															         self.session_timeout, self.step_timeout = session_timeout, step_timeout
														
 
															         self.module_uids = [
														
 
															-            f"{self.prefix}.{block_index}" for block_index in range(self.block_config.num_hidden_layers)
														
 
															+            f"{self.dht_prefix}{UID_DELIMITER}{block_index}"
														
 
															+            for block_index in range(self.block_config.num_hidden_layers)
														
 
															         ]
														
 
															         if dht_client_mode is None:
														
@@ -258,7 +259,7 @@ class Server:
 
															             block_indices = self._choose_blocks()
														
 
															             self.module_container = ModuleContainer.create(
														
 
															                 dht=self.dht,
														
 
															-                prefix=self.prefix,
														
 
															+                dht_prefix=self.dht_prefix,
														
 
															                 converted_model_name_or_path=self.converted_model_name_or_path,
														
 
															                 block_config=self.block_config,
														
 
															                 attn_cache_bytes=self.attn_cache_bytes,
														
@@ -359,7 +360,7 @@ class ModuleContainer(threading.Thread):
 
															         cls,
														
 
															         *,
														
 
															         dht: DHT,
														
 
															-        prefix: str,
														
 
															+        dht_prefix: str,
														
 
															         converted_model_name_or_path: str,
														
 
															         block_config: PretrainedConfig,
														
 
															         attn_cache_bytes: int,
														
@@ -382,7 +383,7 @@ class ModuleContainer(threading.Thread):
 
															         should_validate_reachability: bool,
														
 
															         **kwargs,
														
 
															     ) -> ModuleContainer:
														
 
															-        module_uids = [f"{prefix}.{block_index}" for block_index in block_indices]
														
 
															+        module_uids = [f"{dht_prefix}{UID_DELIMITER}{block_index}" for block_index in block_indices]
														
 
															         joining_announcer = ModuleAnnouncerThread(
														
 
															             module_uids,
														
 
															             dht,
														
@@ -459,6 +460,7 @@ class ModuleContainer(threading.Thread):
 
															         return cls(
														
 
															             dht,
														
 
															+            dht_prefix,
														
 
															             blocks,
														
 
															             throughput=throughput,
														
 
															             update_period=update_period,
														
@@ -469,6 +471,7 @@ class ModuleContainer(threading.Thread):
 
															     def __init__(
														
 
															         self,
														
 
															         dht: DHT,
														
 
															+        dht_prefix: str,
														
 
															         module_backends: Dict[str, TransformerBackend],
														
 
															         *,
														
 
															         inference_max_length: int,
														
@@ -486,10 +489,17 @@ class ModuleContainer(threading.Thread):
 
															         self.dht, self.module_backends = dht, module_backends
														
 
															         self.throughput, self.update_period, self.expiration = throughput, update_period, expiration
														
 
															+
														
 
															+        self.push_manager = mp.Manager()
														
 
															+        self.push_manager.__enter__()
														
 
															+        session_queues = self.push_manager.dict()
														
 
															         self.conn_handlers = [
														
 
															             TransformerConnectionHandler(
														
 
															                 dht,
														
 
															                 self.module_backends,
														
 
															+                dht_prefix=dht_prefix,
														
 
															+                push_manager=self.push_manager,
														
 
															+                session_queues=session_queues,
														
 
															                 inference_max_length=inference_max_length,
														
 
															                 request_timeout=request_timeout,
														
 
															                 session_timeout=session_timeout,
														
@@ -497,6 +507,7 @@ class ModuleContainer(threading.Thread):
 
															             )
														
 
															             for _ in range(num_handlers)
														
 
															         ]
														
 
															+
														
 
															         self.runtime = RuntimeWithDeduplicatedPools(self.module_backends, device=None, **kwargs)
														
 
															         # note: We set device=None in runtime to avoid moving all modules to device 0 in runtime.run(). tensor_parallel has already moved it as needed.
														
 
															         self.online_announcer = ModuleAnnouncerThread(
														
@@ -577,6 +588,7 @@ class ModuleContainer(threading.Thread):
 
															         logger.debug("Shutting down connection handlers")
														
 
															         for handler in self.conn_handlers:
														
 
															             handler.shutdown()
														
 
															+        self.push_manager.__exit__(None, None, None)
														
 
															         logger.debug(f"Shutting down pools")
														
 
															         for pool in self.runtime.pools: