3 anos atrás · 5ba4f72dba
--- a/hivemind/compression/base.py
+++ b/hivemind/compression/base.py
@@ -80,7 +80,7 @@ class NoCompression(CompressionBase):
 
				     compression_type = runtime_pb2.CompressionType.NONE
			
 
				 
			
 
				     def compress(self, tensor: torch.Tensor, info: CompressionInfo, allow_inplace: bool = False) -> runtime_pb2.Tensor:
			
 
				-        array = tensor.numpy()
			
 
				+        array = tensor.detach().numpy()
			
 
				         return runtime_pb2.Tensor(
			
 
				             compression=self.compression_type,
			
 
				             buffer=array.tobytes(),
			
--- a/hivemind/dht/dht.py
+++ b/hivemind/dht/dht.py
@@ -310,7 +310,6 @@ class DHT(mp.Process):
 
				         Get a replica of a P2P instance used in the DHT process internally.
			
 
				         The replica uses the same P2P daemon as the DHT and only works while DHT is alive.
			
 
				         """
			
 
				-
			
 
				         if self._p2p_replica is None or self._origin_pid != os.getpid():
			
 
				             self._origin_pid = os.getpid()
			
 
				             daemon_listen_maddr = self.run_coroutine(DHT._get_p2p_daemon_listen_maddr)
			
--- a/hivemind/moe/client/beam_search.py
+++ b/hivemind/moe/client/beam_search.py
@@ -385,7 +385,7 @@ class MoEBeamSearcher:
 
				             ),
			
 
				             return_future,
			
 
				         )
			
 
				-
			
 
				+        print(result)
			
 
				         if return_future:
			
 
				             return RemoteExpertWorker.spawn_experts_bulk_future(result, self.dht)
			
 
				         return RemoteExpertWorker.spawn_experts_bulk(result, self.dht)
			
--- a/hivemind/moe/client/expert.py
+++ b/hivemind/moe/client/expert.py
@@ -3,7 +3,7 @@ from concurrent.futures import Future
 
				 from dataclasses import dataclass
			
 
				 from queue import Queue
			
 
				 from threading import Thread
			
 
				-from typing import Any, AsyncIterator, Awaitable, Dict, Iterable, List, Optional, Sequence, Tuple
			
 
				+from typing import Any, Awaitable, Dict, Iterable, List, Optional, Sequence, Tuple
			
 
				 
			
 
				 import torch
			
 
				 import torch.nn as nn
			
@@ -99,7 +99,7 @@ class RemoteExpertWorker:
 
				 
			
 
				     _task_queue: Queue = Queue()
			
 
				     _event_thread: Optional[Thread] = None
			
 
				-    _pid: int = 0
			
 
				+    _pid: int = -1
			
 
				 
			
 
				     @classmethod
			
 
				     def _run(cls):
			
@@ -113,7 +113,8 @@ class RemoteExpertWorker:
 
				                 except Exception as e:
			
 
				                     future.set_exception(e)
			
 
				                     continue
			
 
				-                future.set_result(result)
			
 
				+                if not future.cancelled():
			
 
				+                    future.set_result(result)
			
 
				 
			
 
				         loop.run_until_complete(receive_tasks())
			
 
				 
			
@@ -151,7 +152,7 @@ class RemoteExpertWorker:
 
				     @classmethod
			
 
				     def spawn_experts_future(
			
 
				         cls, infos: MPFuture[Sequence[Optional[RemoteExpertInfo]]], dht: DHT
			
 
				-    ) -> MPFuture[List[Optional[RemoteExpert]]]:
			
 
				+    ) -> Future[List[Optional[RemoteExpert]]]:
			
 
				         async def _unpack():
			
 
				             p2p = cls.run_coroutine(dht.replicate_p2p(), True)
			
 
				             return cls.spawn_experts(await infos, await p2p)
			
@@ -166,7 +167,7 @@ class RemoteExpertWorker:
 
				 
			
 
				     @classmethod
			
 
				     def spawn_experts_bulk_future(
			
 
				-        cls, infos: MPFuture[Sequence[Sequence[Optional[RemoteExpertInfo]]]], dht: DHT
			
 
				+        cls, infos: Future[Sequence[Sequence[Optional[RemoteExpertInfo]]]], dht: DHT
			
 
				     ) -> MPFuture[List[List[Optional[RemoteExpert]]]]:
			
 
				         async def _unpack():
			
 
				             return cls.spawn_experts_bulk(await infos, dht)
			
@@ -174,6 +175,75 @@ class RemoteExpertWorker:
 
				         return cls.run_coroutine(_unpack, True)
			
 
				 
			
 
				 
			
 
				+async def _backward_stream(uid: str, serialized_tensors: Iterable[runtime_pb2.Tensor], stub) -> List[torch.Tensor]:
			
 
				+    split = tuple(p for t in serialized_tensors for p in split_for_streaming(t, DEFAULT_MAX_MSG_SIZE // 2))
			
 
				+
			
 
				+    grad_inputs = await stub.rpc_backward_stream(
			
 
				+        amap_in_executor(
			
 
				+            lambda t: runtime_pb2.ExpertRequest(uid=uid, tensors=[t]),
			
 
				+            as_aiter(*split),
			
 
				+        ),
			
 
				+    )
			
 
				+
			
 
				+    return await gather_from_rpc(grad_inputs, lambda r: r.tensors, deserialize_torch_tensor)
			
 
				+
			
 
				+
			
 
				+async def _backward(uid: str, serialized_tensors: Iterable[runtime_pb2.Tensor], stub) -> List[torch.Tensor]:
			
 
				+    grad_inputs: runtime_pb2.ExpertResponse = await stub.rpc_backward(
			
 
				+        runtime_pb2.ExpertRequest(uid=uid, tensors=list(serialized_tensors))
			
 
				+    )
			
 
				+    return [deserialize_torch_tensor(t) for t in grad_inputs.tensors]
			
 
				+
			
 
				+
			
 
				+async def expert_backward(
			
 
				+    uid: str, inputs_and_grads: Sequence[torch.Tensor], compressions: Iterable, stub
			
 
				+) -> List[torch.Tensor]:
			
 
				+    serialized_tensors = (
			
 
				+        serialize_torch_tensor(tensor, compression) for tensor, compression in zip(inputs_and_grads, compressions)
			
 
				+    )
			
 
				+
			
 
				+    size = 0
			
 
				+    for t in inputs_and_grads:
			
 
				+        size += t.element_size() * t.nelement()
			
 
				+        if size >= DEFAULT_MAX_MSG_SIZE:
			
 
				+            return await _backward_stream(uid, serialized_tensors, stub)
			
 
				+    else:
			
 
				+        return await _backward(uid, serialized_tensors, stub)
			
 
				+
			
 
				+
			
 
				+async def _forward_stream(uid: str, serialized_tensors: Iterable[runtime_pb2.Tensor], stub) -> List[torch.Tensor]:
			
 
				+    split = tuple(p for t in serialized_tensors for p in split_for_streaming(t, DEFAULT_MAX_MSG_SIZE // 2))
			
 
				+
			
 
				+    outputs = await stub.rpc_forward_stream(
			
 
				+        amap_in_executor(
			
 
				+            lambda t: runtime_pb2.ExpertRequest(uid=uid, tensors=[t]),
			
 
				+            as_aiter(*split),
			
 
				+        ),
			
 
				+    )
			
 
				+
			
 
				+    return await gather_from_rpc(outputs, lambda r: r.tensors, deserialize_torch_tensor)
			
 
				+
			
 
				+
			
 
				+async def _forward(uid: str, serialized_tensors: Iterable[runtime_pb2.Tensor], stub) -> List[torch.Tensor]:
			
 
				+    outputs: runtime_pb2.ExpertResponse = await stub.rpc_forward(
			
 
				+        runtime_pb2.ExpertRequest(uid=uid, tensors=list(serialized_tensors))
			
 
				+    )
			
 
				+    return [deserialize_torch_tensor(t) for t in outputs.tensors]
			
 
				+
			
 
				+
			
 
				+async def expert_forward(uid: str, inputs: Sequence[torch.Tensor], compressions: Iterable, stub) -> List[torch.Tensor]:
			
 
				+    serialized_tensors = (
			
 
				+        serialize_torch_tensor(tensor, compression) for tensor, compression in zip(inputs, compressions)
			
 
				+    )
			
 
				+    size = 0
			
 
				+    for t in inputs:
			
 
				+        size += t.element_size() * t.nelement()
			
 
				+        if size >= DEFAULT_MAX_MSG_SIZE:
			
 
				+            return await _forward_stream(uid, serialized_tensors, stub)
			
 
				+    else:
			
 
				+        return await _forward(uid, serialized_tensors, stub)
			
 
				+
			
 
				+
			
 
				 class _RemoteModuleCall(torch.autograd.Function):
			
 
				     """Internal autograd-friendly call of a remote module. For applications, use RemoteExpert instead."""
			
 
				 
			
@@ -193,93 +263,21 @@ class _RemoteModuleCall(torch.autograd.Function):
 
				         ctx.uid, ctx.stub, ctx.info = uid, stub, info
			
 
				         ctx.save_for_backward(*inputs)
			
 
				 
			
 
				-        serialized_tensors = (
			
 
				-            serialize_torch_tensor(inp, proto.compression)
			
 
				-            for inp, proto in zip(inputs, nested_flatten(info["forward_schema"]))
			
 
				+        deserialized_outputs = RemoteExpertWorker.run_coroutine(
			
 
				+            expert_forward(uid, inputs, (p.compression for p in nested_flatten(info["forward_schema"])), stub)
			
 
				         )
			
 
				 
			
 
				-        size = 0
			
 
				-        for t in inputs:
			
 
				-            size += t.element_size() * t.nelement()
			
 
				-            if size >= DEFAULT_MAX_MSG_SIZE:
			
 
				-                deserialized_outputs = cls.forward_stream(serialized_tensors, ctx, stub)
			
 
				-                break
			
 
				-        else:
			
 
				-            deserialized_outputs = cls.forward_oneshot(serialized_tensors, ctx, stub)
			
 
				-
			
 
				         return tuple(deserialized_outputs)
			
 
				 
			
 
				-    @classmethod
			
 
				-    def forward_stream(cls, serialized_tensors: Iterable[runtime_pb2.Tensor], ctx, stub) -> List[torch.Tensor]:
			
 
				-        split = tuple(p for t in serialized_tensors for p in split_for_streaming(t, DEFAULT_MAX_MSG_SIZE // 2))
			
 
				-
			
 
				-        outputs = RemoteExpertWorker.run_coroutine(
			
 
				-            stub.rpc_forward_stream(
			
 
				-                amap_in_executor(
			
 
				-                    lambda t: runtime_pb2.ExpertRequest(uid=ctx.uid, tensors=[t]),
			
 
				-                    as_aiter(*split),
			
 
				-                ),
			
 
				-            )
			
 
				-        )
			
 
				-
			
 
				-        return RemoteExpertWorker.run_coroutine(
			
 
				-            gather_from_rpc(outputs, lambda r: r.tensors, deserialize_torch_tensor)
			
 
				-        )
			
 
				-
			
 
				-    @classmethod
			
 
				-    def forward_oneshot(cls, serialized_tensors: Iterable[runtime_pb2.Tensor], ctx, stub) -> List[torch.Tensor]:
			
 
				-
			
 
				-        outputs = RemoteExpertWorker.run_coroutine(
			
 
				-            stub.rpc_forward(runtime_pb2.ExpertRequest(uid=ctx.uid, tensors=list(serialized_tensors)))
			
 
				-        )
			
 
				-
			
 
				-        return [deserialize_torch_tensor(t) for t in outputs.tensors]
			
 
				-
			
 
				     @classmethod
			
 
				     @once_differentiable
			
 
				     def backward(cls, ctx, *grad_outputs) -> Tuple[Optional[torch.Tensor], ...]:
			
 
				         grad_outputs_cpu = tuple(tensor.cpu() for tensor in grad_outputs)
			
 
				         inputs_and_grad_outputs = tuple(nested_flatten((ctx.saved_tensors, grad_outputs_cpu)))
			
 
				         backward_schema = tuple(nested_flatten((ctx.info["forward_schema"], ctx.info["outputs_schema"])))
			
 
				-        serialized_tensors = (
			
 
				-            serialize_torch_tensor(tensor, proto.compression)
			
 
				-            for tensor, proto in zip(inputs_and_grad_outputs, backward_schema)
			
 
				-        )
			
 
				-
			
 
				-        size = 0
			
 
				-        for t in inputs_and_grad_outputs:
			
 
				-            size += t.element_size() * t.nelement()
			
 
				-            if size >= DEFAULT_MAX_MSG_SIZE:
			
 
				-                deserialized_grad_inputs = cls.backward_stream(serialized_tensors, ctx)
			
 
				-                break
			
 
				-        else:
			
 
				-            deserialized_grad_inputs = cls.backward_oneshot(serialized_tensors, ctx)
			
 
				-
			
 
				-        return (DUMMY, None, None, None, *deserialized_grad_inputs)
			
 
				-
			
 
				-    @classmethod
			
 
				-    @once_differentiable
			
 
				-    def backward_stream(cls, serialized_tensors: Iterable[runtime_pb2.Tensor], ctx) -> List[torch.Tensor]:
			
 
				-        split = tuple(p for t in serialized_tensors for p in split_for_streaming(t, DEFAULT_MAX_MSG_SIZE // 2))
			
 
				-
			
 
				-        grad_inputs = RemoteExpertWorker.run_coroutine(
			
 
				-            ctx.stub.rpc_backward_stream(
			
 
				-                amap_in_executor(
			
 
				-                    lambda t: runtime_pb2.ExpertRequest(uid=ctx.uid, tensors=[t]),
			
 
				-                    as_aiter(*split),
			
 
				-                ),
			
 
				-            )
			
 
				-        )
			
 
				 
			
 
				-        return RemoteExpertWorker.run_coroutine(
			
 
				-            gather_from_rpc(grad_inputs, lambda r: r.tensors, deserialize_torch_tensor)
			
 
				+        deserialized_grad_inputs = RemoteExpertWorker.run_coroutine(
			
 
				+            expert_backward(ctx.uid, inputs_and_grad_outputs, (p.compression for p in backward_schema), ctx.stub)
			
 
				         )
			
 
				 
			
 
				-    @classmethod
			
 
				-    @once_differentiable
			
 
				-    def backward_oneshot(cls, serialized_tensors: Iterable[runtime_pb2.Tensor], ctx) -> List[torch.Tensor]:
			
 
				-        grad_inputs = RemoteExpertWorker.run_coroutine(
			
 
				-            ctx.stub.rpc_backward(runtime_pb2.ExpertRequest(uid=ctx.uid, tensors=list(serialized_tensors)))
			
 
				-        )
			
 
				-
			
 
				-        return [deserialize_torch_tensor(t) for t in grad_inputs.tensors]
			
 
				+        return (DUMMY, None, None, None, *deserialized_grad_inputs)
			
--- a/hivemind/moe/client/moe.py
+++ b/hivemind/moe/client/moe.py
@@ -1,20 +1,26 @@
 
				 from __future__ import annotations
			
 
				 
			
 
				 import time
			
 
				+from concurrent.futures import Future
			
 
				 from queue import Empty, Queue
			
 
				 from typing import Any, Dict, List, Optional, Tuple
			
 
				 
			
 
				-import grpc
			
 
				 import torch
			
 
				 import torch.nn as nn
			
 
				 from torch.autograd.function import once_differentiable
			
 
				 
			
 
				-from hivemind.compression import deserialize_torch_tensor, serialize_torch_tensor
			
 
				 from hivemind.dht import DHT
			
 
				 from hivemind.moe.client.beam_search import MoEBeamSearcher
			
 
				-from hivemind.moe.client.expert import DUMMY, RemoteExpert, _get_expert_stub
			
 
				+from hivemind.moe.client.expert import (
			
 
				+    DUMMY,
			
 
				+    RemoteExpert,
			
 
				+    RemoteExpertWorker,
			
 
				+    _get_expert_stub,
			
 
				+    expert_backward,
			
 
				+    expert_forward,
			
 
				+)
			
 
				 from hivemind.moe.server.expert_uid import UID_DELIMITER
			
 
				-from hivemind.proto import runtime_pb2, runtime_pb2_grpc as runtime_grpc
			
 
				+from hivemind.p2p.p2p_daemon_bindings.control import P2PDaemonError
			
 
				 from hivemind.utils import nested_flatten, nested_map, nested_pack
			
 
				 from hivemind.utils.logging import get_logger
			
 
				 
			
@@ -95,7 +101,7 @@ class RemoteMixtureOfExperts(nn.Module):
 
				         chosen_experts: List[List[RemoteExpert]] = self.beam_search.batch_find_best_experts(
			
 
				             [scores.detach().cpu().numpy() for scores in grid_scores], self.k_best
			
 
				         )
			
 
				-
			
 
				+        print(chosen_experts)
			
 
				         if self._expert_info is None:
			
 
				             try:
			
 
				                 self._expert_info = next((expert.info for experts_i in chosen_experts for expert in experts_i))
			
@@ -104,7 +110,7 @@ class RemoteMixtureOfExperts(nn.Module):
 
				                     "No responding experts found during beam search. Check that UID prefixes and "
			
 
				                     "the grid size are consistent with running Server instances."
			
 
				                 )
			
 
				-            except grpc.RpcError as e:
			
 
				+            except P2PDaemonError as e:
			
 
				                 logger.warning(f"Failed to get RemoteMixtureOfExperts.output_shape: {e}")
			
 
				 
			
 
				         expert_mask, *expert_outputs = _RemoteCallMany.apply(
			
@@ -177,8 +183,8 @@ class RemoteMixtureOfExperts(nn.Module):
 
				         if self._expert_info is None:
			
 
				             # grab some expert to set ensemble output shape
			
 
				             proj_device = self.proj.weight.device
			
 
				-            dummy_scores_concat = self.proj(torch.randn(1, self.proj.in_features, device=proj_device))
			
 
				-            dummy_scores = dummy_scores_concat.cpu().split_with_sizes(self.beam_search.grid_size, dim=-1)
			
 
				+            dummy_scores_concat: torch.Tensor = self.proj(torch.randn(1, self.proj.in_features, device=proj_device))
			
 
				+            dummy_scores = dummy_scores_concat.cpu().detach().split_with_sizes(self.beam_search.grid_size, dim=-1)
			
 
				             dummy_experts = self.beam_search.find_best_experts(dummy_scores, beam_size=1)
			
 
				             self._expert_info = dummy_experts[0].info
			
 
				         return self._expert_info
			
@@ -223,15 +229,15 @@ class _RemoteCallMany(torch.autograd.Function):
 
				         assert len(experts_per_sample) == len(flat_inputs_per_sample) == num_samples
			
 
				 
			
 
				         # dispatch tasks to all remote experts collect responses
			
 
				-        pending_tasks: Dict[grpc.Future, Tuple[int, int]] = {}
			
 
				+        pending_tasks: Dict[Future, Tuple[int, int]] = {}
			
 
				         for i in range(num_samples):
			
 
				             for j, expert in enumerate(experts_per_sample[i]):
			
 
				-                input_tensors = [
			
 
				-                    serialize_torch_tensor(tensor, proto.compression)
			
 
				-                    for tensor, proto in zip(flat_inputs_per_sample[i], nested_flatten(info["forward_schema"]))
			
 
				-                ]
			
 
				-                stub: runtime_grpc.ConnectionHandlerStub = _get_expert_stub(expert.p2p, expert.server_peer_info)
			
 
				-                new_task = stub.forward.future(runtime_pb2.ExpertRequest(uid=expert.uid, tensors=input_tensors))
			
 
				+                compressions = (p.compression for p in nested_flatten(info["forward_schema"]))
			
 
				+                stub = _get_expert_stub(expert.p2p, expert.server_peer_info)
			
 
				+                new_task = RemoteExpertWorker.run_coroutine(
			
 
				+                    expert_forward(expert.uid, flat_inputs_per_sample[i], compressions, stub),
			
 
				+                    return_future=True,
			
 
				+                )
			
 
				                 pending_tasks[new_task] = (i, j)
			
 
				 
			
 
				         responded_inds, alive_flat_outputs = cls._collect_responses(
			
@@ -316,14 +322,13 @@ class _RemoteCallMany(torch.autograd.Function):
 
				         for i, j, inputs_ij, grad_outputs_ij in zip(
			
 
				             alive_ii.cpu().numpy(), alive_jj.cpu().numpy(), inputs_per_expert, grad_outputs_per_expert
			
 
				         ):
			
 
				-            expert = expert_per_sample[i.item()][j.item()]
			
 
				-            stub = _get_expert_stub(expert.endpoint)
			
 
				+            expert: RemoteExpert = expert_per_sample[i.item()][j.item()]
			
 
				+            stub = _get_expert_stub(expert.p2p, expert.server_peer_info)
			
 
				             inputs_and_grad_outputs = tuple(nested_flatten((inputs_ij, grad_outputs_ij)))
			
 
				-            tensors_serialized = [
			
 
				-                serialize_torch_tensor(tensor, proto.compression)
			
 
				-                for tensor, proto in zip(inputs_and_grad_outputs, backward_schema)
			
 
				-            ]
			
 
				-            new_task = stub.backward.future(runtime_pb2.ExpertRequest(uid=expert.uid, tensors=tensors_serialized))
			
 
				+            compressions = (p.compression for p in backward_schema)
			
 
				+            new_task = RemoteExpertWorker.run_coroutine(
			
 
				+                expert_backward(expert.uid, inputs_and_grad_outputs, compressions, stub), return_future=True
			
 
				+            )
			
 
				             pending_tasks[new_task] = (i, j)
			
 
				 
			
 
				         survivor_inds, survivor_grad_inputs = cls._collect_responses(
			
@@ -358,7 +363,7 @@ class _RemoteCallMany(torch.autograd.Function):
 
				 
			
 
				     @staticmethod
			
 
				     def _collect_responses(
			
 
				-        task_to_indices: Dict[grpc.Future, Tuple[int, int]],
			
 
				+        task_to_indices: Dict[Future, Tuple[int, int]],
			
 
				         num_samples: int,
			
 
				         k_min: int,
			
 
				         timeout_total: Optional[float],
			
@@ -408,17 +413,15 @@ class _RemoteCallMany(torch.autograd.Function):
 
				         return finished_indices, finished_outputs
			
 
				 
			
 
				 
			
 
				-def _process_dispatched_task(task: grpc.Future, detect_anomalies: bool) -> Optional[Tuple[torch.Tensor]]:
			
 
				+def _process_dispatched_task(task: Future, detect_anomalies: bool) -> Optional[Tuple[torch.Tensor]]:
			
 
				     if task.exception() or task.cancelled():
			
 
				         logger.warning(f"Task {task} failed: {type(task.exception())}")
			
 
				         return None
			
 
				 
			
 
				-    deserialized_outputs = []
			
 
				-    for tensor in task.result().tensors:
			
 
				-        deserialized_tensor = deserialize_torch_tensor(tensor)
			
 
				-        if detect_anomalies and not deserialized_tensor.isfinite().all():
			
 
				+    outputs = tuple(task.result())
			
 
				+    for tensor in outputs:
			
 
				+        if detect_anomalies and not tensor.isfinite().all():
			
 
				             logger.error(f"Task {task} failed: output tensor contains nan/inf values")
			
 
				             return None
			
 
				-        deserialized_outputs.append(deserialized_tensor)
			
 
				 
			
 
				-    return tuple(deserialized_outputs)
			
 
				+    return outputs
			
--- a/hivemind/moe/client/switch_moe.py
+++ b/hivemind/moe/client/switch_moe.py
@@ -2,12 +2,12 @@ from __future__ import annotations
 
				 
			
 
				 from typing import List, Tuple
			
 
				 
			
 
				-import grpc
			
 
				 import torch
			
 
				 
			
 
				 from hivemind.moe.client.expert import DUMMY, RemoteExpert
			
 
				 from hivemind.moe.client.moe import RemoteMixtureOfExperts, _RemoteCallMany
			
 
				 from hivemind.moe.server.expert_uid import UID_DELIMITER
			
 
				+from hivemind.p2p.p2p_daemon_bindings.control import P2PDaemonError
			
 
				 from hivemind.utils import nested_flatten, nested_pack
			
 
				 from hivemind.utils.logging import get_logger
			
 
				 
			
@@ -80,7 +80,6 @@ class RemoteSwitchMixtureOfExperts(RemoteMixtureOfExperts):
 
				 
			
 
				         # Compute scores, find most appropriate experts with beam search
			
 
				         grid_scores = self.proj(input_for_gating).split_with_sizes(self.beam_search.grid_size, dim=-1)
			
 
				-
			
 
				         grid_dropout_masks = (
			
 
				             (
			
 
				                 torch.rand(size=(dim_size,), dtype=input_for_gating.dtype, device=input_for_gating.device)
			
@@ -96,12 +95,10 @@ class RemoteSwitchMixtureOfExperts(RemoteMixtureOfExperts):
 
				             )
			
 
				             for grid_score, dropout_mask in zip(grid_scores, grid_dropout_masks)
			
 
				         ]
			
 
				-
			
 
				         grid_softmax = [torch.softmax(grid_score, dim=-1) for grid_score in grid_scores_dropout]
			
 
				         chosen_experts: List[List[RemoteExpert]] = self.beam_search.batch_find_best_experts(
			
 
				             [scores.detach().cpu() for scores in grid_scores_dropout], self.k_best
			
 
				         )
			
 
				-
			
 
				         if self._expert_info is None:
			
 
				             try:
			
 
				                 self._expert_info = next((expert.info for experts_i in chosen_experts for expert in experts_i))
			
@@ -110,9 +107,8 @@ class RemoteSwitchMixtureOfExperts(RemoteMixtureOfExperts):
 
				                     "No responding experts found during beam search. Check that UID prefixes and "
			
 
				                     "the grid size are consistent with running Server instances."
			
 
				                 )
			
 
				-            except grpc.RpcError as e:
			
 
				+            except P2PDaemonError as e:
			
 
				                 logger.warning(f"Failed to get RemoteSwitchMixtureOfExperts.output_shape: {e}")
			
 
				-
			
 
				         expert_mask, *expert_outputs = _RemoteCallMany.apply(
			
 
				             DUMMY,
			
 
				             chosen_experts,
			
--- a/hivemind/moe/server/server.py
+++ b/hivemind/moe/server/server.py
@@ -24,7 +24,7 @@ from hivemind.moe.server.layers import (
 
				     schedule_name_to_scheduler,
			
 
				 )
			
 
				 from hivemind.moe.server.runtime import Runtime
			
 
				-from hivemind.proto.p2pd_pb2 import PeerInfo
			
 
				+from hivemind.p2p import PeerInfo
			
 
				 from hivemind.proto.runtime_pb2 import CompressionType
			
 
				 from hivemind.utils.logging import get_logger
			
 
				 from hivemind.utils.tensor_descr import BatchTensorDescriptor
			
@@ -309,7 +309,7 @@ def background_server(*args, shutdown_timeout=5, **kwargs) -> PeerInfo:
 
				     try:
			
 
				         runner.start()
			
 
				         # once the server is ready, runner will send us
			
 
				-        # either (False, exception) or (True, (dht_peer_id, dht_maddrs))
			
 
				+        # either (False, exception) or (True, PeerInfo(dht_peer_id, dht_maddrs))
			
 
				         start_ok, data = pipe.recv()
			
 
				         if start_ok:
			
 
				             yield data
			
--- a/tests/test_custom_experts.py
+++ b/tests/test_custom_experts.py
@@ -4,6 +4,8 @@ import pytest
 
				 import torch
			
 
				 
			
 
				 from hivemind import RemoteExpert
			
 
				+from hivemind.dht import DHT
			
 
				+from hivemind.moe.client.expert import RemoteExpertInfo, RemoteExpertWorker
			
 
				 from hivemind.moe.server import background_server
			
 
				 
			
 
				 CUSTOM_EXPERTS_PATH = os.path.join(os.path.dirname(__file__), "test_utils", "custom_networks.py")
			
@@ -17,11 +19,16 @@ def test_custom_expert(hid_dim=16):
 
				         device="cpu",
			
 
				         hidden_dim=hid_dim,
			
 
				         num_handlers=2,
			
 
				-        no_dht=True,
			
 
				         custom_module_path=CUSTOM_EXPERTS_PATH,
			
 
				-    ) as (server_endpoint, _):
			
 
				-        expert0 = RemoteExpert("expert.0", server_endpoint)
			
 
				-        expert1 = RemoteExpert("expert.1", server_endpoint)
			
 
				+    ) as server_peer_info:
			
 
				+        dht = DHT(initial_peers=server_peer_info.addrs, start=True)
			
 
				+        expert0, expert1 = RemoteExpertWorker.spawn_experts(
			
 
				+            [
			
 
				+                RemoteExpertInfo(uid="expert.0", peer_info=server_peer_info),
			
 
				+                RemoteExpertInfo(uid="expert.1", peer_info=server_peer_info),
			
 
				+            ],
			
 
				+            dht=dht,
			
 
				+        )
			
 
				 
			
 
				         for batch_size in (1, 4):
			
 
				             batch = torch.randn(batch_size, hid_dim)
			
@@ -43,11 +50,16 @@ def test_multihead_expert(hid_dim=16):
 
				         device="cpu",
			
 
				         hidden_dim=hid_dim,
			
 
				         num_handlers=2,
			
 
				-        no_dht=True,
			
 
				         custom_module_path=CUSTOM_EXPERTS_PATH,
			
 
				-    ) as (server_endpoint, _):
			
 
				-        expert0 = RemoteExpert("expert.0", server_endpoint)
			
 
				-        expert1 = RemoteExpert("expert.1", server_endpoint)
			
 
				+    ) as server_peer_info:
			
 
				+        dht = DHT(initial_peers=server_peer_info.addrs, start=True)
			
 
				+        expert0, expert1 = RemoteExpertWorker.spawn_experts(
			
 
				+            [
			
 
				+                RemoteExpertInfo(uid="expert.0", peer_info=server_peer_info),
			
 
				+                RemoteExpertInfo(uid="expert.1", peer_info=server_peer_info),
			
 
				+            ],
			
 
				+            dht=dht,
			
 
				+        )
			
 
				 
			
 
				         for batch_size in (1, 4):
			
 
				             batch = (
			
--- a/tests/test_moe.py
+++ b/tests/test_moe.py
@@ -1,13 +1,16 @@
 
				-import grpc
			
 
				+import time
			
 
				+
			
 
				 import numpy as np
			
 
				 import pytest
			
 
				 import torch
			
 
				 
			
 
				 from hivemind.dht import DHT
			
 
				-from hivemind.moe.client import RemoteExpert, RemoteMixtureOfExperts, RemoteSwitchMixtureOfExperts
			
 
				-from hivemind.moe.client.moe import DUMMY, _RemoteCallMany
			
 
				+from hivemind.moe.client.expert import RemoteExpert, RemoteExpertInfo, RemoteExpertWorker
			
 
				+from hivemind.moe.client.moe import DUMMY, RemoteMixtureOfExperts, _RemoteCallMany
			
 
				+from hivemind.moe.client.switch_moe import RemoteSwitchMixtureOfExperts
			
 
				 from hivemind.moe.server import ExpertBackend, Server, background_server, declare_experts
			
 
				 from hivemind.moe.server.layers import name_to_block
			
 
				+from hivemind.p2p.p2p_daemon_bindings.control import P2PDaemonError
			
 
				 from hivemind.utils.tensor_descr import BatchTensorDescriptor
			
 
				 
			
 
				 
			
@@ -18,8 +21,8 @@ def test_moe():
 
				     ]
			
 
				     with background_server(
			
 
				         expert_uids=all_expert_uids, device="cpu", expert_cls="ffn", num_handlers=1, hidden_dim=16
			
 
				-    ) as (server_endpoint, dht_maddrs):
			
 
				-        dht = DHT(start=True, initial_peers=dht_maddrs)
			
 
				+    ) as server_peer_info:
			
 
				+        dht = DHT(start=True, initial_peers=server_peer_info.addrs)
			
 
				 
			
 
				         dmoe = RemoteMixtureOfExperts(in_features=16, grid_size=(4, 4, 4), dht=dht, k_best=3, uid_prefix="ffn.")
			
 
				 
			
@@ -35,9 +38,8 @@ def test_no_experts():
 
				     ]
			
 
				     with background_server(
			
 
				         expert_uids=all_expert_uids, device="cpu", expert_cls="nop_delay", num_handlers=1, hidden_dim=16
			
 
				-    ) as (server_endpoint, dht_maddrs):
			
 
				-        dht = DHT(start=True, initial_peers=dht_maddrs)
			
 
				-
			
 
				+    ) as server_peer_info:
			
 
				+        dht = DHT(start=True, initial_peers=server_peer_info.addrs)
			
 
				         dmoe = RemoteSwitchMixtureOfExperts(
			
 
				             in_features=16,
			
 
				             grid_size=(4, 4, 4),
			
@@ -71,12 +73,16 @@ def test_call_many(hidden_dim=16):
 
				         num_handlers=1,
			
 
				         hidden_dim=hidden_dim,
			
 
				         optim_cls=None,
			
 
				-        no_dht=True,
			
 
				-    ) as (server_endpoint, _):
			
 
				+    ) as server_peer_info:
			
 
				         inputs = torch.randn(4, hidden_dim, requires_grad=True)
			
 
				         inputs_clone = inputs.clone().detach().requires_grad_(True)
			
 
				-        e0, e1, e2, e3, e4 = [RemoteExpert(f"expert.{i}", server_endpoint) for i in range(5)]
			
 
				-        e5 = RemoteExpert(f"thisshouldnotexist", "127.0.0.1:80")
			
 
				+
			
 
				+        dht = DHT(initial_peers=server_peer_info.addrs, start=True)
			
 
				+        e0, e1, e2, e3, e4 = RemoteExpertWorker.spawn_experts(
			
 
				+            [RemoteExpertInfo(uid=f"expert.{i}", peer_info=server_peer_info) for i in range(5)],
			
 
				+            dht,
			
 
				+        )
			
 
				+        e5 = RemoteExpert(RemoteExpertInfo(f"thisshouldnotexist", server_peer_info), None)
			
 
				 
			
 
				         mask, expert_outputs = _RemoteCallMany.apply(
			
 
				             DUMMY,
			
@@ -129,11 +135,15 @@ def test_remote_module_call(hidden_dim=16):
 
				         num_handlers=1,
			
 
				         hidden_dim=hidden_dim,
			
 
				         optim_cls=None,
			
 
				-        no_dht=True,
			
 
				-    ) as (server_endpoint, _):
			
 
				-        real_expert = RemoteExpert("expert.0", server_endpoint)
			
 
				-        fake_expert = RemoteExpert("oiasfjiasjf", server_endpoint)
			
 
				-
			
 
				+    ) as server_peer_info:
			
 
				+        dht = DHT(initial_peers=server_peer_info.addrs, start=True)
			
 
				+        real_expert, fake_expert = RemoteExpertWorker.spawn_experts(
			
 
				+            [
			
 
				+                RemoteExpertInfo(uid="expert.0", peer_info=server_peer_info),
			
 
				+                RemoteExpertInfo(uid="oiasfjiasjf", peer_info=server_peer_info),
			
 
				+            ],
			
 
				+            dht=dht,
			
 
				+        )
			
 
				         out1 = real_expert(torch.randn(1, hidden_dim))
			
 
				         assert out1.shape == (1, hidden_dim)
			
 
				         dummy_x = torch.randn(3, hidden_dim, requires_grad=True)
			
@@ -144,9 +154,9 @@ def test_remote_module_call(hidden_dim=16):
 
				         out3_again.norm().backward()
			
 
				         assert dummy_x.grad is not None and dummy_x.grad.norm() > 0
			
 
				 
			
 
				-        with pytest.raises(grpc.RpcError):
			
 
				+        with pytest.raises(P2PDaemonError):
			
 
				             real_expert(torch.randn(3, 11))
			
 
				-        with pytest.raises(grpc.RpcError):
			
 
				+        with pytest.raises(P2PDaemonError):
			
 
				             fake_expert(dummy_x)
			
 
				 
			
 
				 
			
@@ -154,11 +164,11 @@ def test_remote_module_call(hidden_dim=16):
 
				 def test_beam_search_correctness():
			
 
				     all_expert_uids = [f"ffn.{5 + i}.{10 + j}.{15 + k}" for i in range(10) for j in range(10) for k in range(10)]
			
 
				     dht = DHT(start=True)
			
 
				-    assert all(declare_experts(dht, all_expert_uids, endpoint="fake-endpoint"))
			
 
				+    assert all(declare_experts(dht, all_expert_uids, dht.peer_id))
			
 
				 
			
 
				     dmoe = RemoteMixtureOfExperts(in_features=32, grid_size=(32, 32, 32), dht=dht, k_best=4, uid_prefix="ffn.")
			
 
				 
			
 
				-    for i in range(25):
			
 
				+    for _ in range(25):
			
 
				         input = torch.randn(32)
			
 
				         grid_scores = dmoe.proj(input).split_with_sizes(dmoe.beam_search.grid_size, dim=-1)
			
 
				 
			
@@ -173,7 +183,7 @@ def test_beam_search_correctness():
 
				         # reference: independently find :beam_size: best experts with exhaustive search
			
 
				         all_scores = dmoe.compute_expert_scores(
			
 
				             [dim_scores.unsqueeze(0) for dim_scores in grid_scores],
			
 
				-            [[RemoteExpert(uid, "") for uid in all_expert_uids]],
			
 
				+            [[RemoteExpert(RemoteExpertInfo(uid, None), None) for uid in all_expert_uids]],
			
 
				         )[0]
			
 
				         true_best_scores = sorted(all_scores.cpu().detach().numpy(), reverse=True)[: len(chosen_experts)]
			
 
				 
			
@@ -194,9 +204,12 @@ def test_determinism(hidden_dim=16):
 
				         num_handlers=1,
			
 
				         hidden_dim=hidden_dim,
			
 
				         optim_cls=None,
			
 
				-        no_dht=True,
			
 
				-    ) as (server_endpoint, _):
			
 
				-        expert = RemoteExpert(uid=f"expert.0", endpoint=server_endpoint)
			
 
				+    ) as server_peer_info:
			
 
				+        dht = DHT(initial_peers=server_peer_info.addrs, start=True)
			
 
				+        expert = RemoteExpertWorker.spawn_experts(
			
 
				+            [RemoteExpertInfo(uid="expert.0", peer_info=server_peer_info)],
			
 
				+            dht=dht,
			
 
				+        )[0]
			
 
				 
			
 
				         out = expert(xx, mask)
			
 
				         out_rerun = expert(xx, mask)
			
@@ -220,7 +233,7 @@ def test_compute_expert_scores():
 
				         jj = [[2, 2, 1], [0, 1, 2, 0, 1], [0], [1, 2]]
			
 
				         batch_experts = [
			
 
				             [
			
 
				-                RemoteExpert(uid=f"expert.{ii[batch_i][expert_i]}.{jj[batch_i][expert_i]}", endpoint="[::]:1337")
			
 
				+                RemoteExpert(RemoteExpertInfo(f"expert.{ii[batch_i][expert_i]}.{jj[batch_i][expert_i]}", None), None)
			
 
				                 for expert_i in range(len(ii[batch_i]))
			
 
				             ]
			
 
				             for batch_i in range(len(ii))
			
@@ -261,9 +274,10 @@ def test_client_anomaly_detection():
 
				     server.start()
			
 
				     try:
			
 
				         server.ready.wait()
			
 
				+        dht_experts = DHT(initial_peers=dht.get_visible_maddrs(), start=True)
			
 
				 
			
 
				         dmoe = RemoteMixtureOfExperts(
			
 
				-            in_features=16, grid_size=(3,), dht=dht, k_best=3, uid_prefix="expert.", detect_anomalies=True
			
 
				+            in_features=16, grid_size=(3,), dht=dht_experts, k_best=3, uid_prefix="expert.", detect_anomalies=True
			
 
				         )
			
 
				 
			
 
				         input = torch.randn(1, 16)
			
@@ -280,7 +294,7 @@ def test_client_anomaly_detection():
 
				             inf_loss.backward()
			
 
				 
			
 
				         dmoe = RemoteMixtureOfExperts(
			
 
				-            in_features=16, grid_size=(4,), dht=dht, k_best=4, uid_prefix="expert.", detect_anomalies=True
			
 
				+            in_features=16, grid_size=(4,), dht=dht_experts, k_best=4, uid_prefix="expert.", detect_anomalies=True
			
 
				         )
			
 
				         output = dmoe(input)
			
 
				         assert output.isfinite().all()
			
--- a/tests/test_training.py
+++ b/tests/test_training.py
@@ -8,7 +8,8 @@ import torch.nn.functional as F
 
				 from sklearn.datasets import load_digits
			
 
				 
			
 
				 from hivemind import DHT
			
 
				-from hivemind.moe.client import RemoteExpert, RemoteMixtureOfExperts, RemoteSwitchMixtureOfExperts
			
 
				+from hivemind.moe.client import RemoteMixtureOfExperts, RemoteSwitchMixtureOfExperts
			
 
				+from hivemind.moe.client.expert import RemoteExpertInfo, RemoteExpertWorker
			
 
				 from hivemind.moe.server import background_server
			
 
				 from hivemind.optim import DecentralizedAdam, DecentralizedSGD
			
 
				 
			
@@ -19,12 +20,17 @@ def test_training(max_steps: int = 100, threshold: float = 0.9):
 
				     X_train, y_train = torch.tensor(dataset["data"], dtype=torch.float), torch.tensor(dataset["target"])
			
 
				     SGD = partial(torch.optim.SGD, lr=0.05)
			
 
				 
			
 
				-    with background_server(num_experts=2, device="cpu", optim_cls=SGD, hidden_dim=64, num_handlers=1, no_dht=True) as (
			
 
				-        server_endpoint,
			
 
				-        _,
			
 
				-    ):
			
 
				-        expert1 = RemoteExpert("expert.0", server_endpoint)
			
 
				-        expert2 = RemoteExpert("expert.1", server_endpoint)
			
 
				+    with background_server(
			
 
				+        num_experts=2, device="cpu", optim_cls=SGD, hidden_dim=64, num_handlers=1
			
 
				+    ) as server_peer_info:
			
 
				+        dht = DHT(initial_peers=server_peer_info.addrs, start=True)
			
 
				+        expert1, expert2 = RemoteExpertWorker.spawn_experts(
			
 
				+            [
			
 
				+                RemoteExpertInfo(uid="expert.0", peer_info=server_peer_info),
			
 
				+                RemoteExpertInfo(uid="expert.1", peer_info=server_peer_info),
			
 
				+            ],
			
 
				+            dht=dht,
			
 
				+        )
			
 
				         model = nn.Sequential(expert2, nn.ReLU(), expert1, nn.Linear(64, 2))
			
 
				 
			
 
				         opt = SGD(model.parameters(), lr=0.05)
			
@@ -54,8 +60,8 @@ def test_moe_training(max_steps: int = 100, threshold: float = 0.9, num_experts=
 
				     all_expert_uids = [f"expert.{i}" for i in range(num_experts)]
			
 
				     with background_server(
			
 
				         expert_uids=all_expert_uids, device="cpu", optim_cls=SGD, hidden_dim=64, num_handlers=1
			
 
				-    ) as (server_endpoint, dht_maddrs):
			
 
				-        dht = DHT(start=True, initial_peers=dht_maddrs)
			
 
				+    ) as server_peer_info:
			
 
				+        dht = DHT(start=True, initial_peers=server_peer_info.addrs)
			
 
				 
			
 
				         moe = RemoteMixtureOfExperts(in_features=64, grid_size=(num_experts,), dht=dht, uid_prefix="expert.", k_best=2)
			
 
				         model = nn.Sequential(moe, nn.Linear(64, 2))
			
@@ -107,8 +113,8 @@ def test_switch_training(max_steps: int = 10, threshold: float = 0.9, num_expert
 
				     all_expert_uids = [f"expert.{i}" for i in range(num_experts)]
			
 
				     with background_server(
			
 
				         expert_uids=all_expert_uids, device="cpu", optim_cls=SGD, hidden_dim=64, num_handlers=1
			
 
				-    ) as (server_endpoint, dht_maddrs):
			
 
				-        dht = DHT(start=True, initial_peers=dht_maddrs)
			
 
				+    ) as server_peer_info:
			
 
				+        dht = DHT(start=True, initial_peers=server_peer_info.addrs)
			
 
				 
			
 
				         model = SwitchNetwork(dht, 64, 2, num_experts)
			
 
				         opt = SGD(model.parameters(), lr=0.05)