2 years ago · 8f6342a861
--- a/README.md
+++ b/README.md
@@ -111,6 +111,8 @@ See the instructions for macOS and Windows, the full requirements, and troublesh
 
															 ## Benchmarks
														
 
															+The benchmarks below are for BLOOM-176B:
														
 
															+
														
 
															 <table align="center">
														
 
															   <tr>
														
 
															     <th colspan="2">Network</th>
														
--- a/src/petals/client/__init__.py
+++ b/src/petals/client/__init__.py
@@ -5,6 +5,6 @@ from petals.client.remote_model import (
 
															     DistributedBloomForSequenceClassification,
														
 
															     DistributedBloomModel,
														
 
															 )
														
 
															-from petals.client.remote_sequential import RemoteSequential, RemoteTransformerBlock
														
 
															+from petals.client.remote_sequential import RemoteSequential
														
 
															 from petals.client.routing.sequence_manager import RemoteSequenceManager
														
 
															 from petals.client.routing.spending_policy import NoSpendingPolicy, SpendingPolicyBase
														
--- a/src/petals/client/inference_session.py
+++ b/src/petals/client/inference_session.py
@@ -8,7 +8,6 @@ from typing import AsyncIterator, List, Optional
 
															 import torch
														
 
															 from hivemind import (
														
 
															-    P2P,
														
 
															     MSGPackSerializer,
														
 
															     anext,
														
 
															     deserialize_torch_tensor,
														
@@ -162,9 +161,8 @@ class InferenceSession:
 
															     An interface to a multi-step *inference* session for a sequence of remote transformer blocks
														
 
															     """
														
 
															-    def __init__(self, sequence_manager: RemoteSequenceManager, p2p: P2P, max_length: int):
														
 
															+    def __init__(self, sequence_manager: RemoteSequenceManager, max_length: int):
														
 
															         self._sequence_manager = sequence_manager
														
 
															-        self._p2p = p2p
														
 
															         self._closed = False
														
 
															         self._chosen_spans = []
														
 
															         self._server_sessions = []
														
@@ -181,7 +179,7 @@ class InferenceSession:
 
															         server_sessions = []
														
 
															         try:
														
 
															             for span in chosen_spans:
														
 
															-                stub = TransformerConnectionHandler.get_stub(self._p2p, span.peer_id)
														
 
															+                stub = TransformerConnectionHandler.get_stub(self._sequence_manager.state.p2p, span.peer_id)
														
 
															                 span_uids = CHAIN_DELIMITER.join(self._sequence_manager.block_uids[span.start : span.end])
														
 
															                 metadata = self._sequence_manager.get_request_metadata("rpc_inference", span_uids, peer_id=span.peer_id)
														
 
															                 session = RemoteExpertWorker.run_coroutine(
														
@@ -189,7 +187,7 @@ class InferenceSession:
 
															                         stub,
														
 
															                         span_uids,
														
 
															                         rpc_info=self._sequence_manager.rpc_info,
														
 
															-                        timeout=self._sequence_manager.request_timeout,
														
 
															+                        timeout=self._sequence_manager.config.request_timeout,
														
 
															                         max_length=self._max_length,
														
 
															                         **metadata,
														
 
															                     )
														
@@ -305,9 +303,8 @@ class InferenceSession:
 
															                     self._sequence_manager.on_request_success(span.peer_id)
														
 
															                     break
														
 
															                 except Exception as e:
														
 
															-                    if span is not None:
														
 
															-                        self._sequence_manager.on_request_failure(span.peer_id)
														
 
															-                    if attempt_no + 1 == self._sequence_manager.max_retries:
														
 
															+                    self._sequence_manager.on_request_failure(span.peer_id if span is not None else None)
														
 
															+                    if attempt_no + 1 == self._sequence_manager.config.max_retries:
														
 
															                         raise
														
 
															                     delay = self._sequence_manager.get_retry_delay(attempt_no)
														
 
															                     logger.warning(
														
--- a/src/petals/client/remote_model.py
+++ b/src/petals/client/remote_model.py
@@ -18,13 +18,14 @@ from transformers.models.bloom import (
 
															 from petals.bloom.modeling_utils import LMHead
														
 
															 from petals.client.remote_generation import RemoteGenerationMixin
														
 
															 from petals.client.remote_sequential import RemoteSequential
														
 
															+from petals.client.routing.sequence_manager import SequenceManagerConfig
														
 
															 from petals.constants import PUBLIC_INITIAL_PEERS
														
 
															 from petals.utils.misc import DUMMY
														
 
															 logger = get_logger(__name__)
														
 
															-class DistributedBloomConfig(BloomConfig):
														
 
															+class DistributedBloomConfig(BloomConfig, SequenceManagerConfig):
														
 
															     """
														
 
															     A bloom config that contains information about DHT peers.
														
 
															     To create a distributed model, one must provide dht_prefix and either initial_peers or dht.
														
@@ -33,15 +34,9 @@ class DistributedBloomConfig(BloomConfig):
 
															     initial_peers: List[str] = PUBLIC_INITIAL_PEERS  # a list of initial peers for hivemind DHT
														
 
															     dht_prefix: str  # a prefix for all dht keys that correspond to this model (usually equal to model name)
														
 
															     daemon_startup_timeout: int = 60  # timeout for the libp2p daemon connecting to initial peers
														
 
															-    dht: Optional[hivemind.DHT] = None  # a running DHT instance, e.g. when using the same DHT for multiple models
														
 
															-    request_timeout: int = 3 * 60  # a number of seconds for waiting result from each node
														
 
															-    max_retries: Optional[int] = None  # max number retries before the client raises an exception (default: inf)
														
 
															-    allowed_servers: Optional[
														
 
															-        Collection[Union[str, hivemind.PeerID]]
														
 
															-    ] = None  # if defined, send requests only to these servers
														
 
															     pre_seq_len: int = 0  # a number of tokens for prompt tuning.
														
 
															-    tuning_mode: Optional[str] = None  # One of the finetune options: [None, 'shallow_ptune', 'deep_ptune', 'adapters']
														
 
															+    tuning_mode: Optional[str] = None  # fine-tuning regime, one of [None, "ptune", "deep_ptune"]
														
 
															     # This settings matter for running the client with dtype bfloat16 on CPU.
														
 
															     # If the CPU doesn't support AVX512, chunked_forward() significantly speeds up computations.
														
@@ -106,30 +101,16 @@ class DistributedBloomModel(_FromPretrainedDefaultsMixin, BloomModel):
 
															     config_class = DistributedBloomConfig
														
 
															-    def __init__(self, config: DistributedBloomConfig):
														
 
															+    def __init__(self, config: DistributedBloomConfig, *, dht: Optional[hivemind.DHT] = None):
														
 
															         assert config.dht_prefix, "Could not find dht_prefix in config, please create model with dht_prefix=..."
														
 
															-        assert config.initial_peers or config.dht, "Please specify initial_peers=list(...) or dht=hivemind.DHT(...)"
														
 
															+        assert config.initial_peers or dht is not None, "Please specify `config.initial_peers` or `dht`"
														
 
															         n_layer, config.n_layer = config.n_layer, 0  # temporarily set n_layer to 0 to prevent layer initialization
														
 
															         super().__init__(config)
														
 
															         assert len(self.h) == 0
														
 
															         config.n_layer = n_layer
														
 
															-        dht = config.dht
														
 
															-        if dht is None:
														
 
															-            dht = hivemind.DHT(
														
 
															-                initial_peers=config.initial_peers,
														
 
															-                client_mode=True,
														
 
															-                num_workers=n_layer,
														
 
															-                startup_timeout=config.daemon_startup_timeout,
														
 
															-                start=True,
														
 
															-            )
														
 
															-        assert isinstance(dht, hivemind.DHT) and dht.is_alive(), "dht must be a running hivemind.DHT instance"
														
 
															-        self.h = RemoteSequential(
														
 
															-            config,
														
 
															-            dht,
														
 
															-            config.dht_prefix,
														
 
															-        )
														
 
															+        self.h = RemoteSequential(config, dht=dht)
														
 
															         # Forbid accumulate grads for embeddings and layernorm
														
 
															         self.set_requires_grad(False)
														
--- a/src/petals/client/remote_sequential.py
+++ b/src/petals/client/remote_sequential.py
@@ -3,7 +3,7 @@ from __future__ import annotations
 
															 from typing import Optional, Union
														
 
															 import torch
														
 
															-from hivemind import DHT, P2P, get_logger
														
 
															+from hivemind import DHT, get_logger
														
 
															 from hivemind.moe.client.remote_expert_worker import RemoteExpertWorker
														
 
															 from torch import nn
														
@@ -25,39 +25,26 @@ class RemoteSequential(nn.Module):
 
															     def __init__(
														
 
															         self,
														
 
															         config: petals.client.DistributedBloomConfig,
														
 
															-        dht: DHT,
														
 
															-        dht_prefix: Optional[str] = None,
														
 
															-        p2p: Optional[P2P] = None,
														
 
															+        *,
														
 
															         sequence_manager: Optional[RemoteSequenceManager] = None,
														
 
															-        **kwargs,
														
 
															+        dht: Optional[DHT] = None,
														
 
															+        start_block: Optional[int] = None,
														
 
															+        end_block: Optional[int] = None,
														
 
															     ):
														
 
															         super().__init__()
														
 
															         self.config = config
														
 
															-        self.dht = dht
														
 
															-        self.dht_prefix = dht_prefix or config.dht_prefix
														
 
															-        self.p2p = RemoteExpertWorker.run_coroutine(dht.replicate_p2p()) if p2p is None else p2p
														
 
															-        num_blocks = self.config.n_layer if sequence_manager is None else len(sequence_manager)
														
 
															-        block_uids = tuple(f"{config.dht_prefix}{UID_DELIMITER}{i}" for i in range(num_blocks))
														
 
															+        assert sequence_manager is None or (
														
 
															+            dht is None and start_block is None and end_block is None
														
 
															+        ), "`dht`, `start_block`, and `end_block` have no effect when you provide a custom `sequence_manager`"
														
 
															         if sequence_manager is None:
														
 
															-            logger.debug(f"Creating new sequence manager for block uids: {block_uids}")
														
 
															-            self.sequence_manager = RemoteSequenceManager(
														
 
															-                dht,
														
 
															-                block_uids,
														
 
															-                self.p2p,
														
 
															-                request_timeout=config.request_timeout,
														
 
															-                max_retries=config.max_retries,
														
 
															-                allowed_servers=config.allowed_servers,
														
 
															-                **kwargs,
														
 
															-            )
														
 
															-            self.is_subsequence = False
														
 
															-        else:
														
 
															-            logger.debug(f"Reusing sequence manager with {len(sequence_manager)} modules")
														
 
															-            if kwargs:
														
 
															-                logger.warning(f"Parameters {kwargs} are ignored because sequence_manager is explicitly provided")
														
 
															-            self.sequence_manager = sequence_manager
														
 
															-            assert isinstance(sequence_manager.sequence_info.block_uids, tuple)
														
 
															-            self.is_subsequence = self.sequence_manager.sequence_info.block_uids != block_uids
														
 
															+            if start_block is None:
														
 
															+                start_block = 0
														
 
															+            if end_block is None:
														
 
															+                end_block = self.config.n_layer
														
 
															+            block_uids = tuple(f"{config.dht_prefix}{UID_DELIMITER}{i}" for i in range(start_block, end_block))
														
 
															+            sequence_manager = RemoteSequenceManager(config, block_uids, dht=dht)
														
 
															+        self.sequence_manager = sequence_manager
														
 
															     def forward(self, inputs: torch.Tensor, prompts: torch.Tensor = DUMMY):
														
 
															         assert inputs.ndim == 3, "inputs must be a tensor of shape [batch_size, seq_length, hidden_size]"
														
@@ -66,23 +53,10 @@ class RemoteSequential(nn.Module):
 
															         return outputs
														
 
															     def __getitem__(self, ix: Union[int, slice]) -> RemoteSequential:
														
 
															-        assert isinstance(ix, (int, slice))
														
 
															-        if isinstance(ix, int):
														
 
															-            return RemoteTransformerBlock(
														
 
															-                self.config,
														
 
															-                self.dht,
														
 
															-                dht_prefix=self.dht_prefix,
														
 
															-                p2p=self.p2p,
														
 
															-                sequence_manager=self.sequence_manager[ix],
														
 
															-            )
														
 
															-        else:
														
 
															-            return RemoteSequential(
														
 
															-                self.config,
														
 
															-                self.dht,
														
 
															-                dht_prefix=self.dht_prefix,
														
 
															-                p2p=self.p2p,
														
 
															-                sequence_manager=self.sequence_manager[ix],
														
 
															-            )
														
 
															+        return RemoteSequential(
														
 
															+            self.config,
														
 
															+            sequence_manager=self.sequence_manager[ix],
														
 
															+        )
														
 
															     def __iter__(self):
														
 
															         for block_index in range(len(self)):
														
@@ -92,22 +66,7 @@ class RemoteSequential(nn.Module):
 
															         return len(self.sequence_manager)
														
 
															     def inference_session(self, **kwargs) -> InferenceSession:
														
 
															-        return InferenceSession(self.sequence_manager, self.p2p, **kwargs)
														
 
															+        return InferenceSession(self.sequence_manager, **kwargs)
														
 
															     def extra_repr(self) -> str:
														
 
															         return f"modules={self.sequence_manager.block_uids[0]}..{self.sequence_manager.block_uids[-1]}"
														
 
															-
														
 
															-
														
 
															-class RemoteTransformerBlock(RemoteSequential):
														
 
															-    """Single transformer block hosted by swarm
														
 
															-
														
 
															-    This class is deprecated and kept for backward compatibility.
														
 
															-    It will be removed soon in favor of using ``RemoteSequential`` directly.
														
 
															-    """
														
 
															-
														
 
															-    def __init__(self, *args, **kwargs):
														
 
															-        super().__init__(*args, **kwargs)
														
 
															-        assert len(self) == 1, "Remote Block is a sequence size 1"
														
 
															-
														
 
															-    def extra_repr(self):
														
 
															-        return f"{self.sequence_manager.block_uids[0]}"
														
--- a/src/petals/client/routing/sequence_info.py
+++ b/src/petals/client/routing/sequence_info.py
@@ -27,14 +27,14 @@ class RemoteSequenceInfo:
 
															     block_infos: Tuple[RemoteModuleInfo, ...]  # note: the contents of RemoteModuleInfo can and will be updated
														
 
															     spans_by_priority: List[RemoteSpanInfo]
														
 
															     spans_containing_block: Tuple[List[RemoteSpanInfo], ...]
														
 
															-    last_updated_time: float
														
 
															+    last_updated_time: Optional[float]
														
 
															     @classmethod
														
 
															     def make_empty(cls: Type[T], block_uids: Iterable[ModuleUID]) -> T:
														
 
															         block_uids = tuple(block_uids)
														
 
															         empty_block_infos = tuple(RemoteModuleInfo(uid, {}) for uid in block_uids)
														
 
															         empty_spans = tuple([] for _ in range(len(block_uids)))
														
 
															-        return cls(block_uids, empty_block_infos, [], empty_spans, last_updated_time=-float("inf"))
														
 
															+        return cls(block_uids, empty_block_infos, [], empty_spans, last_updated_time=None)
														
 
															     def __getitem__(self, ix: slice):
														
 
															         assert isinstance(ix, slice)
														
--- a/src/petals/client/routing/sequence_manager.py
+++ b/src/petals/client/routing/sequence_manager.py
@@ -1,6 +1,7 @@
 
															 from __future__ import annotations
														
 
															 import asyncio
														
 
															+import dataclasses
														
 
															 import itertools
														
 
															 import logging
														
 
															 import random
														
@@ -13,7 +14,6 @@ import numpy as np
 
															 from hivemind import DHT, P2P, MSGPackSerializer, PeerID, get_dht_time
														
 
															 from hivemind.dht.node import Blacklist
														
 
															 from hivemind.moe.client.remote_expert_worker import RemoteExpertWorker
														
 
															-from hivemind.p2p import P2PHandlerError
														
 
															 from hivemind.proto import runtime_pb2
														
 
															 from hivemind.utils.logging import get_logger
														
@@ -26,6 +26,33 @@ from petals.server.handler import TransformerConnectionHandler
 
															 logger = get_logger(__name__)
														
 
															+@dataclasses.dataclass
														
 
															+class SequenceManagerConfig:
														
 
															+    allowed_servers: Optional[Collection[Union[PeerID, str]]] = None  # if defined, send requests only to these servers
														
 
															+
														
 
															+    request_timeout: float = 3 * 60  # timeout for forward/backward/inference requests
														
 
															+    update_period: float = 60  # refresh DHT information once in this many seconds
														
 
															+
														
 
															+    max_retries: Optional[int] = None  # max number retries before the client raises an exception (default: inf)
														
 
															+    min_backoff: float = 1  # after a repeated failure, sleep for this many seconds times 2 ** (num_failures - 1)
														
 
															+    max_backoff: float = 60  # limit maximal sleep time between retries to this value
														
 
															+    ban_timeout: float = 15  # when a remote peer fails to respond, prevent routing to that peer for this many seconds
														
 
															+
														
 
															+
														
 
															+@dataclasses.dataclass
														
 
															+class SequenceManagerState:
														
 
															+    p2p: P2P = None
														
 
															+    sequence_info: Optional[RemoteSequenceInfo] = None
														
 
															+    rpc_info: Optional[dict] = None
														
 
															+    banned_peers: Optional[Blacklist] = None
														
 
															+
														
 
															+    def __getitem__(self, ix: Union[int, slice]) -> SequenceManagerState:
														
 
															+        return dataclasses.replace(self, sequence_info=self.sequence_info[ix])
														
 
															+
														
 
															+    def __len__(self) -> int:
														
 
															+        return len(self.sequence_info)
														
 
															+
														
 
															+
														
 
															 class RemoteSequenceManager:
														
 
															     """
														
 
															     Sequence manager is a thread that keeps track of remote servers that hold the specified sequence of blocks.
														
@@ -34,67 +61,56 @@ class RemoteSequenceManager:
 
															     Using this information, sequence manager can form sequences of servers that collectively have the full sequence.
														
 
															     To form such a sequence, call .make_sequence with the appropriate optimization policy (see make_sequence docstr).
														
 
															-    :param dht: a running hivemind.DHT instance, connected to peers that serve the corresponding blocks
														
 
															-    :param block_uids: a sequence of DHT keys (strings) corresponding to remote layers
														
 
															-    :param p2p: an optional P2P replica (if not specified, create one via dht.replicate_p2p())
														
 
															-    :param update_period: by default, refresh DHT information once in this many seconds
														
 
															-    :param request_timeout: float, in seconds, default timeout for RPC forward/backward/inference requests
														
 
															-    :param min_backoff: after a repeated failure, sleep for this many seconds times 2 ^ (num_failures - 1)
														
 
															-    :param max_backoff: limit maximal sleep time between retries to this value
														
 
															-    :param ban_timeout: when a remote peer fails to respond, prevent routing to that peer for this many seconds
														
 
															-    :param sequence_info: optionally, specify pre-generated sequence info. by default, create a new one using dht
														
 
															-    :param rpc_info: optionally, specify rpc info (communicated tensor shapes and compression) to save time
														
 
															-    :param allowed_servers: if defined, send requests only to these servers
														
 
															-    :param start: start the background thread (see the note below). If false, you will need to start it manually.
														
 
															     :note: RemoteSequenceManager takes up some CPU and network I/O to operate in background. It is recommended to avoid
														
 
															       running redundant sequence managers for the same set of layers.
														
 
															-
														
 
															     """
														
 
															     def __init__(
														
 
															         self,
														
 
															-        dht: DHT,
														
 
															+        config: SequenceManagerConfig,
														
 
															         block_uids: Sequence[ModuleUID],
														
 
															-        p2p: P2P,
														
 
															-        update_period: float = 30,
														
 
															-        request_timeout: float = 30,
														
 
															-        max_retries: Optional[int] = None,
														
 
															-        min_backoff: float = 1,
														
 
															-        max_backoff: float = 15 * 60,
														
 
															-        ban_timeout: float = 15,
														
 
															-        sequence_info: Optional[RemoteSequenceInfo] = None,
														
 
															-        rpc_info: Optional[dict] = None,
														
 
															-        allowed_servers: Optional[Collection[Union[str, hivemind.PeerID]]] = None,
														
 
															-        banned_peers: Optional[Blacklist] = None,
														
 
															-        # dear dev, if you add more parameters to this class, please make sure to handle them in __getitem__ (below)
														
 
															+        *,
														
 
															+        dht: Optional[DHT] = None,
														
 
															+        state: Optional[SequenceManagerState] = None,
														
 
															     ):
														
 
															         assert len(block_uids) > 0, "Sequences must contain at least one block"
														
 
															-        self.dht, self.p2p = dht, p2p
														
 
															-        self.request_timeout, self.max_retries = request_timeout, max_retries
														
 
															-        self.ban_timeout, self.min_backoff, self.max_backoff = ban_timeout, min_backoff, max_backoff
														
 
															+
														
 
															+        self.config = config
														
 
															+        if state is None:
														
 
															+            state = SequenceManagerState()
														
 
															+        self.state = state
														
 
															+
														
 
															+        if dht is None:
														
 
															+            dht = DHT(
														
 
															+                initial_peers=config.initial_peers,
														
 
															+                client_mode=True,
														
 
															+                num_workers=config.n_layer,
														
 
															+                startup_timeout=config.daemon_startup_timeout,
														
 
															+                start=True,
														
 
															+            )
														
 
															+        assert isinstance(dht, DHT) and dht.is_alive(), "`dht` must be a running hivemind.DHT instance"
														
 
															+        self.dht = dht
														
 
															+
														
 
															+        if state.p2p is None:
														
 
															+            state.p2p = RemoteExpertWorker.run_coroutine(dht.replicate_p2p())
														
 
															+
														
 
															         self.lock_changes = threading.Lock()
														
 
															-        self._thread = _SequenceManagerUpdateThread(update_period, WeakMethod(self._update))
														
 
															+        self._thread = _SequenceManagerUpdateThread(config.update_period, WeakMethod(self._update))
														
 
															         self._thread_start_lock = threading.Lock()
														
 
															         self.policy = NoSpendingPolicy()
														
 
															-        self._rpc_info = rpc_info
														
 
															-        if allowed_servers is not None:
														
 
															-            allowed_servers = {
														
 
															-                PeerID.from_base58(peer_id) if isinstance(peer_id, str) else peer_id for peer_id in allowed_servers
														
 
															-            }
														
 
															-        self.allowed_servers = allowed_servers
														
 
															-        self.banned_peers = Blacklist(base_time=ban_timeout, backoff_rate=2.0) if banned_peers is None else banned_peers
														
 
															-
														
 
															-        if sequence_info is None:
														
 
															-            self.sequence_info = RemoteSequenceInfo.make_empty(block_uids)
														
 
															+        if state.banned_peers is None:
														
 
															+            state.banned_peers = Blacklist(base_time=config.ban_timeout, backoff_rate=2.0)
														
 
															+        if state.sequence_info is None:
														
 
															+            state.sequence_info = RemoteSequenceInfo.make_empty(block_uids)
														
 
															+        if state.sequence_info.last_updated_time is None:
														
 
															             # Pre-fetch module infos in DHT in parallel with .from_pretrained(), then use cached records
														
 
															             # in the first _update() instead of the latest ones. This makes the first .update() faster.
														
 
															             petals.dht_utils.get_remote_module_infos(self.dht, self.block_uids, latest=True, return_future=True)
														
 
															             self._need_latest_infos = False
														
 
															         else:
														
 
															-            self.sequence_info = sequence_info
														
 
															-            assert block_uids == sequence_info.block_uids
														
 
															+            assert block_uids == state.sequence_info.block_uids
														
 
															             self._thread.ready.set()  # no need to await the first dht fetch
														
 
															             self._need_latest_infos = True
														
@@ -118,7 +134,7 @@ class RemoteSequenceManager:
 
															         span_sequence = []
														
 
															         current_index = start_index
														
 
															         while current_index < end_index:
														
 
															-            candidate_spans = self.sequence_info.spans_containing_block[current_index]
														
 
															+            candidate_spans = self.state.sequence_info.spans_containing_block[current_index]
														
 
															             if not candidate_spans:
														
 
															                 raise MissingBlocksError(current_index)
														
 
															             if mode == "random":
														
@@ -143,86 +159,62 @@ class RemoteSequenceManager:
 
															         assert isinstance(ix, (int, slice))
														
 
															         if not isinstance(ix, slice):
														
 
															             ix = slice(int(ix), int(ix) + 1, 1)
														
 
															-        return type(self)(
														
 
															-            self.dht,
														
 
															-            self.block_uids[ix],
														
 
															-            self.p2p,
														
 
															-            update_period=self._thread.update_period,
														
 
															-            request_timeout=self.request_timeout,
														
 
															-            ban_timeout=self.ban_timeout,
														
 
															-            min_backoff=self.min_backoff,
														
 
															-            max_backoff=self.max_backoff,
														
 
															-            sequence_info=self.sequence_info[ix],
														
 
															-            rpc_info=self._rpc_info,
														
 
															-            allowed_servers=self.allowed_servers,
														
 
															-            banned_peers=self.banned_peers,
														
 
															-        )
														
 
															+        return type(self)(self.config, self.block_uids[ix], dht=self.dht, state=self.state[ix])
														
 
															     def update(self, *, wait: bool):
														
 
															         """Run an asynchronous update in background as soon as possible"""
														
 
															-        self.ready.clear()  # TODO this should be a separate event
														
 
															+        self.ready.clear()
														
 
															         self._thread.trigger.set()
														
 
															         if wait:
														
 
															             self.ready.wait()
														
 
															     def _update(self):
														
 
															         """Perform an immediate and synchronous refresh, may take time"""
														
 
															-        for attempt_no in itertools.count():
														
 
															-            try:
														
 
															-                new_block_infos = petals.dht_utils.get_remote_module_infos(
														
 
															-                    self.dht, self.block_uids, latest=self._need_latest_infos
														
 
															-                )
														
 
															-                self._need_latest_infos = True  # All future _update() should use latest infos
														
 
															-
														
 
															-                for block_info in new_block_infos:
														
 
															-                    if not block_info:
														
 
															-                        continue
														
 
															-
														
 
															-                    # Apply whitelist, if defined
														
 
															-                    if self.allowed_servers is not None:
														
 
															-                        block_info.servers = {
														
 
															-                            peer_id: server_info
														
 
															-                            for peer_id, server_info in block_info.servers.items()
														
 
															-                            if peer_id in self.allowed_servers
														
 
															-                        }
														
 
															-
														
 
															-                    # Remove temporarily banned peers, unless there are no peers left
														
 
															-                    valid_servers = {
														
 
															-                        peer_id: server_info
														
 
															-                        for peer_id, server_info in block_info.servers.items()
														
 
															-                        if peer_id not in self.banned_peers
														
 
															-                    }
														
 
															-                    if len(valid_servers) < len(block_info.servers):
														
 
															-                        if valid_servers:
														
 
															-                            logger.debug(
														
 
															-                                f"Kept {len(valid_servers)} out of {len(block_info.servers)} servers holding {block_info.uid}"
														
 
															-                            )
														
 
															-                            block_info.servers = valid_servers
														
 
															-                        else:
														
 
															-                            # If we blacklisted all servers, the error may actually be client-caused
														
 
															-                            logger.debug(f"All servers holding {block_info.uid} are blacklisted, ignoring blacklist")
														
 
															-
														
 
															-                with self.lock_changes:
														
 
															-                    self.sequence_info.update_(new_block_infos)
														
 
															-                missing_blocks = [i for i in range(len(self)) if not self.sequence_info.spans_containing_block[i]]
														
 
															-                if missing_blocks:
														
 
															-                    raise MissingBlocksError(missing_blocks)
														
 
															-                self.ready.set()  # if there is an active server for every block, we may begin running
														
 
															-                break
														
 
															+        new_block_infos = petals.dht_utils.get_remote_module_infos(
														
 
															+            self.dht, self.block_uids, latest=self._need_latest_infos
														
 
															+        )
														
 
															+        self._need_latest_infos = True  # All future _update() should use latest infos
														
 
															+
														
 
															+        for block_info in new_block_infos:
														
 
															+            if not block_info:
														
 
															+                continue
														
 
															+
														
 
															+            # Apply whitelist, if defined
														
 
															+            if self.config.allowed_servers is not None:
														
 
															+                block_info.servers = {
														
 
															+                    peer_id: server_info
														
 
															+                    for peer_id, server_info in block_info.servers.items()
														
 
															+                    if peer_id in self.config.allowed_servers or str(peer_id) in self.config.allowed_servers
														
 
															+                }
														
 
															+
														
 
															+            # Remove temporarily banned peers, unless there are no peers left
														
 
															+            valid_servers = {
														
 
															+                peer_id: server_info
														
 
															+                for peer_id, server_info in block_info.servers.items()
														
 
															+                if peer_id not in self.state.banned_peers
														
 
															+            }
														
 
															+            if len(valid_servers) < len(block_info.servers):
														
 
															+                if valid_servers:
														
 
															+                    logger.debug(
														
 
															+                        f"Kept {len(valid_servers)} out of {len(block_info.servers)} servers holding {block_info.uid}"
														
 
															+                    )
														
 
															+                    block_info.servers = valid_servers
														
 
															+                else:
														
 
															+                    # If we blacklisted all servers, the error may actually be client-caused
														
 
															+                    logger.debug(f"All servers holding {block_info.uid} are blacklisted, ignoring blacklist")
														
 
															-            except Exception as e:
														
 
															-                delay = self.get_retry_delay(attempt_no)
														
 
															-                logger.warning(f"Could not find route through the model: {repr(e)} (retry in {delay:.0f} sec)")
														
 
															-                maybe_log_traceback(e)
														
 
															-                time.sleep(delay)
														
 
															+        with self.lock_changes:
														
 
															+            self.state.sequence_info.update_(new_block_infos)
														
 
															+        self.ready.set()
														
 
															-    def on_request_failure(self, peer_id: PeerID):
														
 
															+    def on_request_failure(self, peer_id: Optional[PeerID]):
														
 
															         """remove a given peer from the routing table. If the routing is no longer possible, trigger an update"""
														
 
															-        logger.info(f"Peer {peer_id} did not respond, banning it temporarily")
														
 
															-        self.banned_peers.register_failure(peer_id)
														
 
															+        if peer_id is not None:
														
 
															+            logger.debug(f"Peer {peer_id} did not respond, banning it temporarily")
														
 
															+            self.state.banned_peers.register_failure(peer_id)
														
 
															         with self.lock_changes:
														
 
															             should_update = False
														
 
															-            for info in self.sequence_info.block_infos:
														
 
															+            for info in self.state.sequence_info.block_infos:
														
 
															                 info.servers.pop(peer_id, None)
														
 
															                 if not info.servers:
														
 
															                     should_update = True
														
@@ -232,7 +224,7 @@ class RemoteSequenceManager:
 
															     def on_request_success(self, peer_id: PeerID):
														
 
															         """if peer has a failure streak, clear that streak"""
														
 
															-        self.banned_peers.register_success(peer_id)
														
 
															+        self.state.banned_peers.register_success(peer_id)
														
 
															     def __len__(self):
														
 
															         return len(self.block_uids)
														
@@ -247,57 +239,58 @@ class RemoteSequenceManager:
 
															     @property
														
 
															     def block_uids(self):
														
 
															-        return self.sequence_info.block_uids
														
 
															+        return self.state.sequence_info.block_uids
														
 
															     @property
														
 
															     def rpc_info(self):
														
 
															         """Return the rpc_info queried from one of the servers that hold the first block"""
														
 
															-        if self._rpc_info is None:
														
 
															-            with self._thread_start_lock:
														
 
															-                if not self.is_alive():
														
 
															-                    self._thread.start()
														
 
															-
														
 
															-            for attempt_no in itertools.count():
														
 
															-                peer_id = None
														
 
															-                try:
														
 
															-                    if not self.ready.is_set():
														
 
															-                        self.update(wait=True)
														
 
															-
														
 
															-                    active_servers = [
														
 
															-                        peer_id
														
 
															-                        for peer_id, server in self.sequence_info.block_infos[0].servers.items()
														
 
															-                        if server.state == ServerState.ONLINE
														
 
															-                    ]
														
 
															-                    if not active_servers:
														
 
															-                        raise MissingBlocksError(0)
														
 
															-                    peer_id = random.choice(active_servers)
														
 
															-
														
 
															-                    stub = TransformerConnectionHandler.get_stub(self.p2p, peer_id)
														
 
															-                    outputs = RemoteExpertWorker.run_coroutine(
														
 
															-                        stub.rpc_info(runtime_pb2.ExpertUID(uid=self.block_uids[0]))
														
 
															-                    )
														
 
															-                    self._rpc_info = MSGPackSerializer.loads(outputs.serialized_info)
														
 
															-                    self.on_request_success(peer_id)
														
 
															-                    break
														
 
															-                except Exception as e:
														
 
															-                    if peer_id is not None and not isinstance(e, P2PHandlerError):
														
 
															-                        self.on_request_failure(peer_id)
														
 
															-                    if attempt_no + 1 == self.max_retries:
														
 
															-                        raise
														
 
															-                    delay = self.get_retry_delay(attempt_no)
														
 
															-                    logger.warning(
														
 
															-                        f"Caught exception when gathering information from peer {peer_id} "
														
 
															-                        f"(retry in {delay:.0f} sec): {repr(e)}"
														
 
															-                    )
														
 
															-                    maybe_log_traceback(e)
														
 
															-                    time.sleep(delay)
														
 
															+        if self.state.rpc_info is not None:
														
 
															+            return self.state.rpc_info
														
 
															+
														
 
															+        with self._thread_start_lock:
														
 
															+            if not self.is_alive():
														
 
															+                self._thread.start()
														
 
															+
														
 
															+        for attempt_no in itertools.count():
														
 
															+            peer_id = None
														
 
															+            try:
														
 
															+                if not self.ready.is_set():
														
 
															+                    self.update(wait=True)
														
 
															+
														
 
															+                active_servers = [
														
 
															+                    peer_id
														
 
															+                    for peer_id, server in self.state.sequence_info.block_infos[0].servers.items()
														
 
															+                    if server.state == ServerState.ONLINE
														
 
															+                ]
														
 
															+                if not active_servers:
														
 
															+                    raise MissingBlocksError(0)
														
 
															+                peer_id = random.choice(active_servers)
														
 
															+
														
 
															+                stub = TransformerConnectionHandler.get_stub(self.state.p2p, peer_id)
														
 
															+                outputs = RemoteExpertWorker.run_coroutine(
														
 
															+                    stub.rpc_info(runtime_pb2.ExpertUID(uid=self.block_uids[0]), timeout=self.config.request_timeout)
														
 
															+                )
														
 
															+                self.state.rpc_info = MSGPackSerializer.loads(outputs.serialized_info)
														
 
															+                self.on_request_success(peer_id)
														
 
															+                break
														
 
															+            except Exception as e:
														
 
															+                self.on_request_failure(peer_id)
														
 
															+                if attempt_no + 1 == self.config.max_retries:
														
 
															+                    raise
														
 
															+                delay = self.get_retry_delay(attempt_no)
														
 
															+                logger.warning(
														
 
															+                    f"Caught exception when gathering information from peer {peer_id} "
														
 
															+                    f"(retry in {delay:.0f} sec): {repr(e)}"
														
 
															+                )
														
 
															+                maybe_log_traceback(e)
														
 
															+                time.sleep(delay)
														
 
															-        return self._rpc_info
														
 
															+        return self.state.rpc_info
														
 
															     def get_retry_delay(self, attempt_no: int) -> float:
														
 
															         if attempt_no == 0:
														
 
															             return 0
														
 
															-        return min(self.min_backoff * 2 ** (attempt_no - 1), self.max_backoff)
														
 
															+        return min(self.config.min_backoff * 2 ** (attempt_no - 1), self.config.max_backoff)
														
 
															     def get_request_metadata(self, protocol: str, *args, **kwargs) -> Optional[Dict[str, Any]]:
														
 
															         """
														
--- a/src/petals/client/sequential_autograd.py
+++ b/src/petals/client/sequential_autograd.py
@@ -67,7 +67,7 @@ async def sequential_forward(
 
															                 span = sequences.popleft()
														
 
															-                stub = TransformerConnectionHandler.get_stub(sequence_manager.p2p, span.peer_id)
														
 
															+                stub = TransformerConnectionHandler.get_stub(sequence_manager.state.p2p, span.peer_id)
														
 
															                 inputs_and_prompts = [inputs, prompts[span.start : span.end]]
														
 
															                 span_uids = CHAIN_DELIMITER.join(sequence_manager.block_uids[span.start : span.end])
														
@@ -77,7 +77,7 @@ async def sequential_forward(
 
															                     stub,
														
 
															                     sequence_manager.rpc_info,
														
 
															                     *inputs_and_prompts,
														
 
															-                    timeout=sequence_manager.request_timeout,
														
 
															+                    timeout=sequence_manager.config.request_timeout,
														
 
															                     metadata=MSGPackSerializer.dumps(metadata),
														
 
															                 )
														
@@ -93,9 +93,8 @@ async def sequential_forward(
 
															                 sequence_manager.on_request_success(span.peer_id)
														
 
															                 break
														
 
															             except Exception as e:
														
 
															-                if span is not None:
														
 
															-                    sequence_manager.on_request_failure(span.peer_id)
														
 
															-                if attempt_no + 1 == sequence_manager.max_retries:
														
 
															+                sequence_manager.on_request_failure(span.peer_id if span is not None else None)
														
 
															+                if attempt_no + 1 == sequence_manager.config.max_retries:
														
 
															                     raise
														
 
															                 delay = sequence_manager.get_retry_delay(attempt_no)
														
 
															                 logger.warning(
														
@@ -152,7 +151,7 @@ async def sequential_backward(
 
															                     span = forward_sequences.pop()
														
 
															                 span_uids = CHAIN_DELIMITER.join(sequence_manager.block_uids[span.start : span.end])
														
 
															-                stub = TransformerConnectionHandler.get_stub(sequence_manager.p2p, span.peer_id)
														
 
															+                stub = TransformerConnectionHandler.get_stub(sequence_manager.state.p2p, span.peer_id)
														
 
															                 metadata = sequence_manager.get_request_metadata(
														
 
															                     "rpc_backward", span_uids, *inputs, *grad_outputs, peer_id=span.peer_id
														
 
															                 )
														
@@ -163,7 +162,7 @@ async def sequential_backward(
 
															                     inputs,
														
 
															                     grad_outputs,
														
 
															                     prompts[span.start : span.end],
														
 
															-                    timeout=sequence_manager.request_timeout,
														
 
															+                    timeout=sequence_manager.config.request_timeout,
														
 
															                     metadata=MSGPackSerializer.dumps(metadata),
														
 
															                 )
														
 
															                 grad_outputs = [grad_outputs]
														
@@ -171,9 +170,8 @@ async def sequential_backward(
 
															                 sequence_manager.on_request_success(span.peer_id)
														
 
															                 break
														
 
															             except Exception as e:
														
 
															-                if span is not None:
														
 
															-                    sequence_manager.on_request_failure(span.peer_id)
														
 
															-                if attempt_no + 1 == sequence_manager.max_retries:
														
 
															+                sequence_manager.on_request_failure(span.peer_id if span is not None else None)
														
 
															+                if attempt_no + 1 == sequence_manager.config.max_retries:
														
 
															                     raise
														
 
															                 delay = sequence_manager.get_retry_delay(attempt_no)
														
 
															                 logger.warning(
														
--- a/src/petals/dht_utils.py
+++ b/src/petals/dht_utils.py
@@ -71,67 +71,6 @@ async def _declare_active_modules(
 
															     )
														
 
															-def get_remote_sequence(
														
 
															-    dht: DHT,
														
 
															-    start: int,
														
 
															-    stop: int,
														
 
															-    config: petals.client.DistributedBloomConfig,
														
 
															-    dht_prefix: Optional[str] = None,
														
 
															-    return_future: bool = False,
														
 
															-) -> Union[petals.client.RemoteSequential, MPFuture]:
														
 
															-    return RemoteExpertWorker.run_coroutine(
														
 
															-        _get_remote_sequence(dht, start, stop, config, dht_prefix), return_future=return_future
														
 
															-    )
														
 
															-
														
 
															-
														
 
															-async def _get_remote_sequence(
														
 
															-    dht: DHT,
														
 
															-    start: int,
														
 
															-    stop: int,
														
 
															-    config: petals.client.DistributedBloomConfig,
														
 
															-    dht_prefix: Optional[str] = None,
														
 
															-) -> petals.client.RemoteSequential:
														
 
															-    uids = [f"{config.dht_prefix}{UID_DELIMITER}{i}" for i in range(start, stop)]
														
 
															-    p2p = await dht.replicate_p2p()
														
 
															-    manager = petals.client.RemoteSequenceManager(dht, uids, p2p)
														
 
															-    return petals.client.RemoteSequential(config, dht, dht_prefix, p2p, manager)
														
 
															-
														
 
															-
														
 
															-def get_remote_module(
														
 
															-    dht: DHT,
														
 
															-    uid_or_uids: Union[ModuleUID, List[ModuleUID]],
														
 
															-    config: petals.client.DistributedBloomConfig,
														
 
															-    dht_prefix: Optional[str] = None,
														
 
															-    return_future: bool = False,
														
 
															-) -> Union[Union[petals.client.RemoteTransformerBlock, List[petals.client.RemoteTransformerBlock]], MPFuture]:
														
 
															-    """
														
 
															-    :param uid_or_uids: find one or more modules with these ids from across the DHT
														
 
															-    :param config: model config, usually taken by .from_pretrained(MODEL_NAME)
														
 
															-    :param return_future: if False (default), return when finished. Otherwise return MPFuture and run in background.
														
 
															-    :returns: a list of [RemoteTransformerBlock]
														
 
															-    """
														
 
															-    return RemoteExpertWorker.run_coroutine(
														
 
															-        _get_remote_module(dht, uid_or_uids, config, dht_prefix), return_future=return_future
														
 
															-    )
														
 
															-
														
 
															-
														
 
															-async def _get_remote_module(
														
 
															-    dht: DHT,
														
 
															-    uid_or_uids: Union[ModuleUID, List[ModuleUID]],
														
 
															-    config: petals.client.DistributedBloomConfig,
														
 
															-    dht_prefix: Optional[str] = None,
														
 
															-) -> Union[petals.client.RemoteTransformerBlock, List[petals.client.RemoteTransformerBlock]]:
														
 
															-    single_uid = isinstance(uid_or_uids, ModuleUID)
														
 
															-    uids = [uid_or_uids] if single_uid else uid_or_uids
														
 
															-    p2p = await dht.replicate_p2p()
														
 
															-    managers = (petals.client.RemoteSequenceManager(dht, [uid], p2p) for uid in uids)
														
 
															-    modules = [
														
 
															-        petals.client.RemoteTransformerBlock(config, dht, dht_prefix=dht_prefix, p2p=p2p, sequence_manager=m)
														
 
															-        for m in managers
														
 
															-    ]
														
 
															-    return modules[0] if single_uid else modules
														
 
															-
														
 
															-
														
 
															 def get_remote_module_infos(
														
 
															     dht: DHT,
														
 
															     uids: Sequence[ModuleUID],
														
--- a/tests/test_block_exact_match.py
+++ b/tests/test_block_exact_match.py
@@ -1,28 +1,24 @@
 
															 import random
														
 
															 from typing import Union
														
 
															-import hivemind
														
 
															 import pytest
														
 
															 import torch
														
 
															 from transformers.models.bloom.configuration_bloom import BloomConfig
														
 
															 from petals.bloom.block import WrappedBloomBlock
														
 
															 from petals.bloom.from_pretrained import DTYPE_MAP, _load_state_dict, load_pretrained_block
														
 
															-from petals.client import DistributedBloomConfig
														
 
															-from petals.client.remote_sequential import RemoteTransformerBlock
														
 
															+from petals.client import DistributedBloomConfig, RemoteSequential
														
 
															 from petals.data_structures import UID_DELIMITER
														
 
															-from petals.dht_utils import get_remote_module
														
 
															 from test_utils import *
														
 
															 @pytest.mark.forked
														
 
															 def test_remote_block_exact_match(atol_forward=1e-4, atol_inference=1e-3):
														
 
															-    dht = hivemind.DHT(initial_peers=INITIAL_PEERS, client_mode=True, start=True)
														
 
															-    config = DistributedBloomConfig.from_pretrained(MODEL_NAME)
														
 
															+    config = DistributedBloomConfig.from_pretrained(MODEL_NAME, initial_peers=INITIAL_PEERS)
														
 
															+    remote_sequential = RemoteSequential(config)
														
 
															     for block_index in random.sample(range(config.n_layer), 3):
														
 
															-        remote_block = get_remote_module(dht, f"{MODEL_NAME}{UID_DELIMITER}{block_index}", config)
														
 
															-        assert isinstance(remote_block, RemoteTransformerBlock)
														
 
															+        remote_block = remote_sequential[block_index]
														
 
															         inputs = torch.randn(1, 8, config.hidden_size)
														
 
															         outputs_forward = remote_block(inputs)
														
@@ -36,7 +32,6 @@ def test_remote_block_exact_match(atol_forward=1e-4, atol_inference=1e-3):
 
															             with pytest.raises(ValueError, match=r"Maximum length exceeded") as exc_info:
														
 
															                 sess.step(inputs[:, -1:, :])
														
 
															             assert "Maximum length exceeded" in repr(exc_info.value)
														
 
															-
														
 
															         outputs_inference = torch.cat(outputs_inference, dim=1)
														
 
															         ref_block = load_pretrained_block(MODEL_NAME, block_index, torch_dtype=torch.float32)
														
--- a/tests/test_chained_calls.py
+++ b/tests/test_chained_calls.py
@@ -4,22 +4,19 @@
 
															 # - if you want to figure out chained inference, ask yozh
														
 
															-import hivemind
														
 
															 import pytest
														
 
															 import torch
														
 
															 from petals.bloom.from_pretrained import load_pretrained_block
														
 
															 from petals.client import DistributedBloomConfig
														
 
															 from petals.client.remote_sequential import RemoteSequential
														
 
															-from petals.dht_utils import get_remote_sequence
														
 
															 from test_utils import *
														
 
															 @pytest.mark.forked
														
 
															 def test_forward_backward_exact_match(atol_forward=1e-4, atol_backward=1e-4, seq_length=1):
														
 
															-    dht = hivemind.DHT(initial_peers=INITIAL_PEERS, client_mode=True, start=True)
														
 
															-    config = DistributedBloomConfig.from_pretrained(MODEL_NAME)
														
 
															-    remote_blocks = get_remote_sequence(dht, 3, 6, config)
														
 
															+    config = DistributedBloomConfig.from_pretrained(MODEL_NAME, initial_peers=INITIAL_PEERS)
														
 
															+    remote_blocks = RemoteSequential(config, start_block=3, end_block=6)
														
 
															     assert isinstance(remote_blocks, RemoteSequential)
														
 
															     ref_blocks = [
														
@@ -46,10 +43,8 @@ def test_forward_backward_exact_match(atol_forward=1e-4, atol_backward=1e-4, seq
 
															 @pytest.mark.forked
														
 
															 def test_chained_inference_exact_match(atol_inference=1e-4):
														
 
															-    dht = hivemind.DHT(initial_peers=INITIAL_PEERS, client_mode=True, start=True)
														
 
															-    config = DistributedBloomConfig.from_pretrained(MODEL_NAME)
														
 
															-    remote_blocks = get_remote_sequence(dht, 3, 5, config)
														
 
															-    assert isinstance(remote_blocks, RemoteSequential)
														
 
															+    config = DistributedBloomConfig.from_pretrained(MODEL_NAME, initial_peers=INITIAL_PEERS)
														
 
															+    remote_blocks = RemoteSequential(config, start_block=3, end_block=5)
														
 
															     inputs = torch.randn(1, 8, config.hidden_size)
														
--- a/tests/test_remote_sequential.py
+++ b/tests/test_remote_sequential.py
@@ -20,7 +20,7 @@ def test_remote_sequential():
 
															     test_inputs = torch.randn(1, 5, config.hidden_size, requires_grad=True)
														
 
															     grad_proj = torch.randn(1, 5, config.hidden_size)
														
 
															-    sequential = RemoteSequential(config, dht)
														
 
															+    sequential = RemoteSequential(config, dht=dht)
														
 
															     full_outputs = sequential(test_inputs)
														
 
															     (full_outputs * grad_proj).sum().backward()
														
@@ -48,7 +48,7 @@ def test_remote_sequential():
 
															     # test RemoteSequential with lossy compression
														
 
															     block_uids = [f"{config.dht_prefix}{UID_DELIMITER}{i}" for i in range(config.n_layer)]
														
 
															     lossy_sequential = RemoteSequential(
														
 
															-        config, dht, sequence_manager=DummyCustomSequenceManager(dht, block_uids, sequential.p2p)
														
 
															+        config, sequence_manager=DummyCustomSequenceManager(config, block_uids, dht=dht)
														
 
															     )
														
 
															     test_inputs.grad = None
														
@@ -85,8 +85,7 @@ class DummyCustomSequenceManager(RemoteSequenceManager):
 
															 @pytest.mark.forked
														
 
															 def test_remote_sequential_prompts(batch_size=2, seq_len=5, pre_seq_len=3):
														
 
															     config = DistributedBloomConfig.from_pretrained(MODEL_NAME, initial_peers=INITIAL_PEERS)
														
 
															-    dht = DHT(initial_peers=config.initial_peers, client_mode=True, start=True)
														
 
															-    remote_sequential = RemoteSequential(config, dht)
														
 
															+    remote_sequential = RemoteSequential(config)
														
 
															     inputs = F.normalize(torch.randn(batch_size, seq_len, config.hidden_size), dim=-1)
														
 
															     output_proj = F.normalize(torch.randn(batch_size, seq_len + pre_seq_len, config.hidden_size), dim=-1)
														
--- a/tests/test_sequence_manager.py
+++ b/tests/test_sequence_manager.py
@@ -18,15 +18,14 @@ logger = get_logger(__name__)
 
															 def test_sequence_manager_basics(mode: str):
														
 
															     config = DistributedBloomConfig.from_pretrained(MODEL_NAME, initial_peers=INITIAL_PEERS)
														
 
															     dht = DHT(initial_peers=config.initial_peers, client_mode=True, start=True)
														
 
															-    sequential = RemoteSequential(config, dht)
														
 
															+    sequential = RemoteSequential(config, dht=dht)
														
 
															     shutdown_evt = threading.Event()
														
 
															     # test RemoteSequential with lossy compression
														
 
															     block_uids = [f"{config.dht_prefix}{UID_DELIMITER}{i}" for i in range(config.n_layer)]
														
 
															     sequential = RemoteSequential(
														
 
															         config,
														
 
															-        dht,
														
 
															-        sequence_manager=TestSequenceManager(dht, block_uids, sequential.p2p, _was_shut_down=shutdown_evt),
														
 
															+        sequence_manager=TestSequenceManager(config, block_uids, dht=dht, _was_shut_down=shutdown_evt),
														
 
															     )
														
 
															     sequence = sequential.sequence_manager.make_sequence(mode=mode)
														
--- a/tests/test_server_stats.py
+++ b/tests/test_server_stats.py
@@ -4,34 +4,33 @@ import hivemind
 
															 import pytest
														
 
															 import torch
														
 
															-from petals.client import DistributedBloomConfig
														
 
															+from petals.client import DistributedBloomConfig, RemoteSequential
														
 
															 from petals.data_structures import UID_DELIMITER
														
 
															-from petals.dht_utils import get_remote_sequence
														
 
															 from petals.server.handler import CACHE_TOKENS_AVAILABLE
														
 
															 from test_utils import *
														
 
															 @pytest.mark.forked
														
 
															 def test_server_info(block_from: int = 22, block_to: int = 24, max_length: int = 100, max_length2: int = 50):
														
 
															-    dht = hivemind.DHT(initial_peers=INITIAL_PEERS, client_mode=True, start=True)
														
 
															     config = DistributedBloomConfig.from_pretrained(MODEL_NAME)
														
 
															+    dht = hivemind.DHT(initial_peers=INITIAL_PEERS, client_mode=True, start=True)
														
 
															+    blocks1 = RemoteSequential(config, dht=dht, start_block=block_from, end_block=block_to)
														
 
															+    blocks2 = RemoteSequential(config, dht=dht, start_block=block_to - 1, end_block=block_to)
														
 
															-    blocks1 = get_remote_sequence(dht, block_from, block_to, config, f"{MODEL_NAME}{UID_DELIMITER}")
														
 
															-    blocks2 = get_remote_sequence(dht, block_to - 1, block_to, config, f"{MODEL_NAME}{UID_DELIMITER}")
														
 
															     info_before = blocks1.sequence_manager.rpc_info
														
 
															     with blocks1.inference_session(max_length=max_length) as sess:
														
 
															         sess.step(torch.randn(1, 1, config.hidden_size))
														
 
															-        blocks1.sequence_manager._rpc_info = None  # invalidate cache
														
 
															+        blocks1.sequence_manager.state.rpc_info = None  # invalidate cache
														
 
															         info_inside = blocks1.sequence_manager.rpc_info
														
 
															         with blocks2.inference_session(max_length=max_length2) as sess2:
														
 
															             sess2.step(torch.randn(1, 1, config.hidden_size))
														
 
															-            blocks2.sequence_manager._rpc_info = None  # invalidate cache
														
 
															+            blocks2.sequence_manager.state.rpc_info = None  # invalidate cache
														
 
															             info_inside2 = blocks2.sequence_manager.rpc_info
														
 
															     time.sleep(0.1)
														
 
															-    blocks1.sequence_manager._rpc_info = None  # invalidate cache
														
 
															+    blocks1.sequence_manager.state.rpc_info = None  # invalidate cache
														
 
															     info_after = blocks1.sequence_manager.rpc_info
														
 
															     assert info_before[CACHE_TOKENS_AVAILABLE] == info_after[CACHE_TOKENS_AVAILABLE]