3 lat temu · 5e057df59f
--- a/benchmarks/benchmark_throughput.py
+++ b/benchmarks/benchmark_throughput.py
@@ -3,16 +3,17 @@ import multiprocessing as mp
 
															 import random
														
 
															 import sys
														
 
															 import time
														
 
															+from grpc import server
														
 
															 import torch
														
 
															-from hivemind.moe.client import RemoteExpert
														
 
															-from hivemind.moe.server import ExpertBackend, Server
														
 
															-from hivemind.moe.server.layers import name_to_block
														
 
															+import hivemind
														
 
															+from hivemind import P2P
														
 
															+from hivemind.dht import DHT
														
 
															+from hivemind.moe.client.expert import RemoteExpertWorker
														
 
															+from hivemind.moe.server import layers
														
 
															 from hivemind.utils.limits import increase_file_limit
														
 
															 from hivemind.utils.logging import get_logger, use_hivemind_log_handler
														
 
															-from hivemind.utils.networking import LOCALHOST, get_free_port
														
 
															-from hivemind.utils.tensor_descr import BatchTensorDescriptor
														
 
															 use_hivemind_log_handler("in_root_logger")
														
 
															 logger = get_logger(__name__)
														
@@ -31,10 +32,24 @@ def print_device_info(device=None):
 
															         logger.info(f"Cached:   {round(torch.cuda.memory_cached(0) / 1024 ** 3, 1)} GB")
														
 
															-def client_process(can_start, benchmarking_failed, port, num_experts, batch_size, hid_dim, num_batches, backprop=True):
														
 
															+def client_process(
														
 
															+    can_start,
														
 
															+    benchmarking_failed,
														
 
															+    server_peer_info,
														
 
															+    num_experts,
														
 
															+    batch_size,
														
 
															+    hid_dim,
														
 
															+    num_batches,
														
 
															+    backprop=True,
														
 
															+) -> None:
														
 
															     torch.set_num_threads(1)
														
 
															     can_start.wait()
														
 
															-    experts = [RemoteExpert(f"expert{i}", endpoint=f"{LOCALHOST}:{port}") for i in range(num_experts)]
														
 
															+
														
 
															+    p2p = RemoteExpertWorker.run_coroutine(P2P.create())
														
 
															+    RemoteExpertWorker.run_coroutine(p2p._client.connect(server_peer_info.peer_id, server_peer_info.addrs))
														
 
															+    experts = [
														
 
															+        hivemind.RemoteExpert(f"expert.{i}", server_peer_info=server_peer_info, p2p=p2p) for i in range(num_experts)
														
 
															+    ]
														
 
															     try:
														
 
															         dummy_batch = torch.randn(batch_size, hid_dim)
														
@@ -59,15 +74,13 @@ def benchmark_throughput(
 
															     max_batch_size=None,
														
 
															     backprop=True,
														
 
															     device=None,
														
 
															-    port=None,
														
 
															 ):
														
 
															     assert (
														
 
															         not hasattr(torch.cuda, "is_initialized")
														
 
															         or not torch.cuda.is_initialized()
														
 
															         or torch.device(device) == torch.device("cpu")
														
 
															     )
														
 
															-    assert expert_cls in name_to_block
														
 
															-    port = port or get_free_port()
														
 
															+    assert expert_cls in layers.name_to_block
														
 
															     max_batch_size = max_batch_size or batch_size * 4
														
 
															     num_handlers = max(1, num_handlers or num_clients // 2)
														
 
															     benchmarking_failed = mp.Event()
														
@@ -75,8 +88,12 @@ def benchmark_throughput(
 
															     timestamps = dict(started=time.perf_counter())
														
 
															     try:
														
 
															-        # start clients and await server
														
 
															-        # Note: client processes must be launched BEFORE touching gpu, even torch.cuda.is_available can cause trouble
														
 
															+        server_dht = DHT(start=True)
														
 
															+        server_dht_peer_info = hivemind.PeerInfo(
														
 
															+            peer_id=server_dht.peer_id,
														
 
															+            addrs=[addr.decapsulate("/p2p/" + addr.get("p2p")) for addr in server_dht.get_visible_maddrs()],
														
 
															+        )
														
 
															+
														
 
															         clients = [
														
 
															             mp.Process(
														
 
															                 target=client_process,
														
@@ -84,52 +101,54 @@ def benchmark_throughput(
 
															                 args=(
														
 
															                     can_start,
														
 
															                     benchmarking_failed,
														
 
															-                    port,
														
 
															+                    server_dht_peer_info,
														
 
															                     num_experts,
														
 
															                     batch_size,
														
 
															                     hid_dim,
														
 
															                     num_batches_per_client,
														
 
															                     backprop,
														
 
															                 ),
														
 
															+                daemon=True,
														
 
															             )
														
 
															             for i in range(num_clients)
														
 
															         ]
														
 
															         for client in clients:
														
 
															-            client.daemon = True
														
 
															             client.start()
														
 
															         timestamps["launched_clients"] = timestamps["began_launching_server"] = time.perf_counter()
														
 
															-        # start server
														
 
															         device = device or ("cuda" if torch.cuda.is_available() else "cpu")
														
 
															         experts = {}
														
 
															         for i in range(num_experts):
														
 
															-            expert = torch.jit.script(name_to_block[expert_cls](hid_dim))
														
 
															-            experts[f"expert{i}"] = ExpertBackend(
														
 
															-                name=f"expert{i}",
														
 
															+            expert = torch.jit.script(layers.name_to_block[expert_cls](hid_dim))
														
 
															+            experts[f"expert.{i}"] = hivemind.ExpertBackend(
														
 
															+                name=f"expert.{i}",
														
 
															                 expert=expert,
														
 
															                 optimizer=torch.optim.Adam(expert.parameters()),
														
 
															-                args_schema=(BatchTensorDescriptor(hid_dim),),
														
 
															-                outputs_schema=BatchTensorDescriptor(hid_dim),
														
 
															+                args_schema=(hivemind.BatchTensorDescriptor(hid_dim),),
														
 
															+                outputs_schema=hivemind.BatchTensorDescriptor(hid_dim),
														
 
															                 max_batch_size=max_batch_size,
														
 
															             )
														
 
															         timestamps["created_experts"] = time.perf_counter()
														
 
															-        server = Server(
														
 
															-            None,
														
 
															-            experts,
														
 
															-            listen_on=f"{LOCALHOST}:{port}",
														
 
															+
														
 
															+        server = hivemind.moe.Server(
														
 
															+            dht=server_dht,
														
 
															+            expert_backends=experts,
														
 
															             num_connection_handlers=num_handlers,
														
 
															             device=device,
														
 
															         )
														
 
															         server.start()
														
 
															         server.ready.wait()
														
 
															+
														
 
															         timestamps["server_ready"] = time.perf_counter()
														
 
															         can_start.set()
														
 
															         for client in clients:
														
 
															             client.join()
														
 
															+
														
 
															         timestamps["clients_finished"] = time.perf_counter()
														
 
															+
														
 
															     except BaseException as e:
														
 
															         benchmarking_failed.set()
														
 
															         raise e
														
@@ -229,7 +248,11 @@ if __name__ == "__main__":
 
															         )
														
 
															     elif args.preset == "minimalistic":
														
 
															         benchmark_throughput(
														
 
															-            num_experts=1, num_clients=1, num_handlers=1, num_batches_per_client=args.num_batches_per_client
														
 
															+            num_experts=1,
														
 
															+            num_clients=1,
														
 
															+            num_handlers=1,
														
 
															+            num_batches_per_client=args.num_batches_per_client,
														
 
															+            batch_size=1024,
														
 
															         )
														
 
															     elif args.preset == "nop":
														
 
															         benchmark_throughput(expert_cls="nop", backprop=False, num_batches_per_client=args.num_batches_per_client)
														
--- a/benchmarks/benchmark_throughput_p2p.py
+++ b/benchmarks/benchmark_throughput_p2p.py
@@ -1,257 +0,0 @@
 
															-import argparse
														
 
															-import multiprocessing as mp
														
 
															-import random
														
 
															-import sys
														
 
															-import time
														
 
															-
														
 
															-import torch
														
 
															-
														
 
															-import hivemind
														
 
															-from hivemind import P2P
														
 
															-from hivemind.dht import DHT
														
 
															-from hivemind.moe.server import layers
														
 
															-from hivemind.utils.limits import increase_file_limit
														
 
															-from hivemind.utils.logging import get_logger, use_hivemind_log_handler
														
 
															-
														
 
															-use_hivemind_log_handler("in_root_logger")
														
 
															-logger = get_logger(__name__)
														
 
															-
														
 
															-
														
 
															-def print_device_info(device=None):
														
 
															-    """Prints device stats. Code from https://stackoverflow.com/a/53374933/12891528"""
														
 
															-    device = torch.device(device or ("cuda" if torch.cuda.is_available() else "cpu"))
														
 
															-    logger.info(f"Using device: {device}")
														
 
															-
														
 
															-    # Additional Info when using cuda
														
 
															-    if device.type == "cuda":
														
 
															-        logger.info(torch.cuda.get_device_name(0))
														
 
															-        logger.info(f"Memory Usage:")
														
 
															-        logger.info(f"Allocated: {round(torch.cuda.memory_allocated(0) / 1024 ** 3, 1)} GB")
														
 
															-        logger.info(f"Cached:   {round(torch.cuda.memory_cached(0) / 1024 ** 3, 1)} GB")
														
 
															-
														
 
															-
														
 
															-def client_process(
														
 
															-    can_start,
														
 
															-    benchmarking_failed,
														
 
															-    server_peer_info,
														
 
															-    num_experts,
														
 
															-    batch_size,
														
 
															-    hid_dim,
														
 
															-    num_batches,
														
 
															-    backprop=True,
														
 
															-) -> None:
														
 
															-    torch.set_num_threads(1)
														
 
															-    can_start.wait()
														
 
															-
														
 
															-    p2p = hivemind.moe.client.expert._RemoteModuleCall.run_coroutine(P2P.create())
														
 
															-    experts = [
														
 
															-        hivemind.RemoteExpert(f"expert.{i}", server_peer_info=server_peer_info, p2p=p2p) for i in range(num_experts)
														
 
															-    ]
														
 
															-
														
 
															-    try:
														
 
															-        dummy_batch = torch.randn(batch_size, hid_dim)
														
 
															-        for batch_i in range(num_batches):
														
 
															-            expert = random.choice(experts)
														
 
															-            out = expert(dummy_batch)
														
 
															-            if backprop:
														
 
															-                out.sum().backward()
														
 
															-    except BaseException as e:
														
 
															-        benchmarking_failed.set()
														
 
															-        raise e
														
 
															-
														
 
															-
														
 
															-def benchmark_throughput(
														
 
															-    num_experts=16,
														
 
															-    num_handlers=None,
														
 
															-    num_clients=128,
														
 
															-    num_batches_per_client=16,
														
 
															-    expert_cls="ffn",
														
 
															-    hid_dim=1024,
														
 
															-    batch_size=2048,
														
 
															-    max_batch_size=None,
														
 
															-    backprop=True,
														
 
															-    device=None,
														
 
															-):
														
 
															-    assert (
														
 
															-        not hasattr(torch.cuda, "is_initialized")
														
 
															-        or not torch.cuda.is_initialized()
														
 
															-        or torch.device(device) == torch.device("cpu")
														
 
															-    )
														
 
															-    assert expert_cls in layers.name_to_block
														
 
															-    max_batch_size = max_batch_size or batch_size * 4
														
 
															-    num_handlers = max(1, num_handlers or num_clients // 2)
														
 
															-    benchmarking_failed = mp.Event()
														
 
															-    can_start = mp.Event()
														
 
															-    timestamps = dict(started=time.perf_counter())
														
 
															-
														
 
															-    try:
														
 
															-        server_dht = DHT(start=True)
														
 
															-        server_dht_peer_info = hivemind.PeerInfo(
														
 
															-            peer_id=server_dht.peer_id,
														
 
															-            addrs=[addr.decapsulate("/p2p/" + addr.get("p2p")) for addr in server_dht.get_visible_maddrs()],
														
 
															-        )
														
 
															-
														
 
															-        clients = [
														
 
															-            mp.Process(
														
 
															-                target=client_process,
														
 
															-                name=f"client_process-{i}",
														
 
															-                args=(
														
 
															-                    can_start,
														
 
															-                    benchmarking_failed,
														
 
															-                    server_dht_peer_info,
														
 
															-                    num_experts,
														
 
															-                    batch_size,
														
 
															-                    hid_dim,
														
 
															-                    num_batches_per_client,
														
 
															-                    backprop,
														
 
															-                ),
														
 
															-                daemon=True,
														
 
															-            )
														
 
															-            for i in range(num_clients)
														
 
															-        ]
														
 
															-
														
 
															-        for client in clients:
														
 
															-            client.start()
														
 
															-
														
 
															-        timestamps["launched_clients"] = timestamps["began_launching_server"] = time.perf_counter()
														
 
															-
														
 
															-        device = device or ("cuda" if torch.cuda.is_available() else "cpu")
														
 
															-        experts = {}
														
 
															-        for i in range(num_experts):
														
 
															-            expert = torch.jit.script(layers.name_to_block[expert_cls](hid_dim))
														
 
															-            experts[f"expert.{i}"] = hivemind.ExpertBackend(
														
 
															-                name=f"expert.{i}",
														
 
															-                expert=expert,
														
 
															-                optimizer=torch.optim.Adam(expert.parameters()),
														
 
															-                args_schema=(hivemind.BatchTensorDescriptor(hid_dim),),
														
 
															-                outputs_schema=hivemind.BatchTensorDescriptor(hid_dim),
														
 
															-                max_batch_size=max_batch_size,
														
 
															-            )
														
 
															-        timestamps["created_experts"] = time.perf_counter()
														
 
															-
														
 
															-        server = hivemind.moe.Server(
														
 
															-            dht=server_dht,
														
 
															-            expert_backends=experts,
														
 
															-            num_connection_handlers=num_handlers,
														
 
															-            device=device,
														
 
															-        )
														
 
															-        server.start()
														
 
															-        server.ready.wait()
														
 
															-
														
 
															-        timestamps["server_ready"] = time.perf_counter()
														
 
															-        can_start.set()
														
 
															-
														
 
															-        for client in clients:
														
 
															-            client.join()
														
 
															-
														
 
															-        timestamps["clients_finished"] = time.perf_counter()
														
 
															-
														
 
															-    except BaseException as e:
														
 
															-        benchmarking_failed.set()
														
 
															-        raise e
														
 
															-    finally:
														
 
															-        for client in clients:
														
 
															-            if client.is_alive():
														
 
															-                client.terminate()
														
 
															-        server.shutdown()
														
 
															-        timestamps["server_shutdown_finished"] = time.perf_counter()
														
 
															-        server.join()
														
 
															-
														
 
															-    sys.stdout.flush()
														
 
															-    sys.stderr.flush()
														
 
															-    time_between = (
														
 
															-        lambda key1, key2: abs(timestamps[key2] - timestamps[key1])
														
 
															-        if (key1 in timestamps and key2 in timestamps)
														
 
															-        else float("nan")
														
 
															-    )
														
 
															-    total_examples = batch_size * num_clients * num_batches_per_client
														
 
															-
														
 
															-    logger.info("Benchmark finished, status:" + ["Success", "Failure"][benchmarking_failed.is_set()])
														
 
															-    logger.info(
														
 
															-        f"Server parameters: num_experts={num_experts}, num_handlers={num_handlers}, "
														
 
															-        f"max_batch_size={max_batch_size}, expert_cls={expert_cls}, hid_dim={hid_dim}, device={device}"
														
 
															-    )
														
 
															-    logger.info(
														
 
															-        f"Client parameters: num_clients={num_clients}, num_batches_per_client={num_batches_per_client}, "
														
 
															-        f"batch_size={batch_size}, backprop={backprop}"
														
 
															-    )
														
 
															-
														
 
															-    logger.info("Results: ")
														
 
															-    logger.info(
														
 
															-        f"\tServer startup took {time_between('began_launching_server', 'server_ready') :.3f} s. "
														
 
															-        f"({time_between('began_launching_server', 'created_experts') :.3f} s. experts + "
														
 
															-        f"{time_between('created_experts', 'server_ready') :.3f} s. networking)"
														
 
															-    )
														
 
															-    logger.info(f"\tProcessed {total_examples} examples in {time_between('server_ready', 'clients_finished') :.3f}")
														
 
															-    logger.info(
														
 
															-        f"\tThroughput for {'forward + backward' if backprop else 'forward'} passes: "
														
 
															-        f"{total_examples / time_between('server_ready', 'clients_finished') :.3f} samples / s."
														
 
															-    )
														
 
															-    logger.info(f"\tBenchmarking took {time_between('started', 'server_shutdown_finished') :.3f} s.")
														
 
															-    if benchmarking_failed.is_set():
														
 
															-        logger.info("Note: benchmark code failed, timing/memory results only indicate time till failure!")
														
 
															-    print_device_info(device)
														
 
															-    sys.stdout.flush()
														
 
															-    sys.stderr.flush()
														
 
															-
														
 
															-    assert not benchmarking_failed.is_set()
														
 
															-
														
 
															-
														
 
															-if __name__ == "__main__":
														
 
															-    parser = argparse.ArgumentParser()
														
 
															-    parser.add_argument("--preset", type=str, default="default", required=False)
														
 
															-    parser.add_argument("--num_batches_per_client", type=int, default=16, required=False)
														
 
															-    args = parser.parse_args()
														
 
															-
														
 
															-    if args.preset in ("default", "ffn_forward_backward"):
														
 
															-        benchmark_throughput()
														
 
															-    elif args.preset == "ffn_forward":
														
 
															-        benchmark_throughput(backprop=False, num_batches_per_client=args.num_batches_per_client)
														
 
															-    elif args.preset == "ffn_small_batch":
														
 
															-        benchmark_throughput(
														
 
															-            backprop=False,
														
 
															-            num_experts=4,
														
 
															-            batch_size=32,
														
 
															-            max_batch_size=8192,
														
 
															-            num_batches_per_client=args.num_batches_per_client,
														
 
															-        )
														
 
															-    elif args.preset == "ffn_small_batch_512clients":
														
 
															-        benchmark_throughput(
														
 
															-            backprop=True,
														
 
															-            num_experts=1,
														
 
															-            batch_size=1,
														
 
															-            max_batch_size=8192,
														
 
															-            num_clients=512,
														
 
															-            num_batches_per_client=args.num_batches_per_client,
														
 
															-        )
														
 
															-    elif args.preset == "ffn_small_batch_512clients_32handlers":
														
 
															-        benchmark_throughput(
														
 
															-            backprop=True,
														
 
															-            num_experts=1,
														
 
															-            batch_size=1,
														
 
															-            max_batch_size=8192,
														
 
															-            num_handlers=32,
														
 
															-            num_clients=512,
														
 
															-            num_batches_per_client=args.num_batches_per_client,
														
 
															-        )
														
 
															-    elif args.preset == "ffn_massive":
														
 
															-        increase_file_limit()
														
 
															-        benchmark_throughput(
														
 
															-            backprop=False,
														
 
															-            num_clients=512,
														
 
															-            batch_size=512,
														
 
															-            max_batch_size=8192,
														
 
															-            num_batches_per_client=args.num_batches_per_client,
														
 
															-        )
														
 
															-    elif args.preset == "minimalistic":
														
 
															-        benchmark_throughput(
														
 
															-            num_experts=1,
														
 
															-            num_clients=1,
														
 
															-            num_handlers=1,
														
 
															-            num_batches_per_client=args.num_batches_per_client,
														
 
															-            batch_size=1024,
														
 
															-        )
														
 
															-    elif args.preset == "nop":
														
 
															-        benchmark_throughput(expert_cls="nop", backprop=False, num_batches_per_client=args.num_batches_per_client)
														
 
															-    else:
														
 
															-        raise ValueError(f"No such benchmark preset: {args.preset}")
														
--- a/hivemind/dht/dht.py
+++ b/hivemind/dht/dht.py
@@ -55,6 +55,7 @@ class DHT(mp.Process):
 
															         **kwargs,
														
 
															     ):
														
 
															         self._parent_pid = os.getpid()
														
 
															+        self._my_pid = os.getpid()
														
 
															         super().__init__()
														
 
															         if not (
														
@@ -310,7 +311,8 @@ class DHT(mp.Process):
 
															         The replica uses the same P2P daemon as the DHT and only works while DHT is alive.
														
 
															         """
														
 
															-        if self._p2p_replica is None:
														
 
															+        if self._p2p_replica is None or self._my_pid != os.getpid():
														
 
															+            self._my_pid = os.getpid()
														
 
															             daemon_listen_maddr = self.run_coroutine(DHT._get_p2p_daemon_listen_maddr)
														
 
															             self._p2p_replica = await P2P.replicate(daemon_listen_maddr)
														
 
															         return self._p2p_replica
														
--- a/hivemind/hivemind_cli/p2pd_old
+++ b/hivemind/hivemind_cli/p2pd_old
--- a/hivemind/hivemind_cli/p2pd_old2
+++ b/hivemind/hivemind_cli/p2pd_old2
--- a/hivemind/hivemind_cli/run_server.py
+++ b/hivemind/hivemind_cli/run_server.py
@@ -48,7 +48,6 @@ def main():
 
															     parser.add_argument('--num_total_steps', type=int, required=False, help='The total number of steps for LR schedule')
														
 
															     parser.add_argument('--clip_grad_norm', type=float, required=False, help='Maximum gradient norm used for clipping')
														
 
															-    parser.add_argument('--no_dht', action='store_true', help='if specified, the server will not be attached to a dht')
														
 
															     parser.add_argument('--initial_peers', type=str, nargs='*', required=False, default=[],
														
 
															                         help='multiaddrs of one or more active DHT peers (if you want to join an existing DHT)')
														
 
															     parser.add_argument('--increase_file_limit', action='store_true',
														
--- a/hivemind/moe/client/expert.py
+++ b/hivemind/moe/client/expert.py
@@ -1,16 +1,22 @@
 
															+from dataclasses import dataclass
														
 
															 from concurrent.futures import Future
														
 
															+from lib2to3.pgen2.token import OP
														
 
															+from multiaddr import Multiaddr
														
 
															+import os
														
 
															 from queue import Queue
														
 
															 from threading import Thread
														
 
															-from typing import Any, Awaitable, Dict, List, Optional, Tuple
														
 
															+from typing import Any, Awaitable, Dict, List, Optional, Sequence, Tuple, Union
														
 
															 import torch
														
 
															 import torch.nn as nn
														
 
															 from torch.autograd.function import once_differentiable
														
 
															 import hivemind
														
 
															+from hivemind.dht import DHT
														
 
															 from hivemind.compression import deserialize_torch_tensor, serialize_torch_tensor
														
 
															 from hivemind.p2p import P2P, PeerInfo, StubBase
														
 
															 from hivemind.p2p.p2p_daemon import DEFAULT_MAX_MSG_SIZE
														
 
															+from hivemind.p2p.p2p_daemon_bindings.datastructures import PeerID
														
 
															 from hivemind.proto import runtime_pb2
														
 
															 from hivemind.utils import (
														
 
															     MSGPackSerializer,
														
@@ -22,6 +28,7 @@ from hivemind.utils import (
 
															     switch_to_uvloop,
														
 
															 )
														
 
															 from hivemind.utils.grpc import gather_from_grpc, split_for_streaming
														
 
															+from hivemind.utils.mpfuture import MPFuture
														
 
															 DUMMY = torch.empty(0, requires_grad=True)  # dummy tensor that triggers autograd in RemoteExpert
														
@@ -29,6 +36,19 @@ DUMMY = torch.empty(0, requires_grad=True)  # dummy tensor that triggers autogra
 
															 def _get_expert_stub(p2p: P2P, server_peer_info: PeerInfo):  # -> ConnectionHandlerStub:
														
 
															     return hivemind.moe.server.connection_handler.ConnectionHandler.get_stub(p2p, server_peer_info.peer_id)
														
 
															+@dataclass(frozen=True)
														
 
															+class RemoteExpertInfo:
														
 
															+    uid: str
														
 
															+    peer_id: str
														
 
															+    addrs: Sequence[str]
														
 
															+
														
 
															+    @property
														
 
															+    def as_peer_info(self) -> Tuple[str, PeerInfo]:
														
 
															+        return self.uid, PeerInfo(
														
 
															+            peer_id=PeerID.from_base58(self.peer_id),
														
 
															+            addrs=tuple(Multiaddr(a) for a in self.addrs)
														
 
															+        )
														
 
															+
														
 
															 class RemoteExpert(nn.Module):
														
 
															     """
														
@@ -39,17 +59,11 @@ class RemoteExpert(nn.Module):
 
															     :param uid: unique expert identifier
														
 
															     """
														
 
															-    def __init__(self, uid, server_peer_info: PeerInfo, p2p: Optional[P2P] = None, connect: bool = True):
														
 
															+    def __init__(self, uid, server_peer_info: PeerInfo, p2p: P2P):
														
 
															         super().__init__()
														
 
															-        self.uid, self.server_peer_info = uid, server_peer_info
														
 
															+        self.uid, self.server_peer_info, self.p2p = uid, server_peer_info, p2p
														
 
															         self._info = None
														
 
															-        if p2p is None:
														
 
															-            self.p2p = _RemoteModuleCall.run_coroutine(P2P.create())
														
 
															-            _RemoteModuleCall.run_coroutine(self.p2p._client.connect(server_peer_info.peer_id, server_peer_info.addrs))
														
 
															-        else:
														
 
															-            self.p2p = p2p
														
 
															-
														
 
															     @property
														
 
															     def stub(self) -> StubBase:
														
 
															         return _get_expert_stub(self.p2p, self.server_peer_info)
														
@@ -74,7 +88,7 @@ class RemoteExpert(nn.Module):
 
															     @property
														
 
															     def info(self):
														
 
															         if self._info is None:
														
 
															-            outputs = _RemoteModuleCall.run_coroutine(self.stub.rpc_info(runtime_pb2.ExpertUID(uid=self.uid)))
														
 
															+            outputs = RemoteExpertWorker.run_coroutine(self.stub.rpc_info(runtime_pb2.ExpertUID(uid=self.uid)))
														
 
															             self._info = MSGPackSerializer.loads(outputs.serialized_info)
														
 
															         return self._info
														
@@ -82,11 +96,13 @@ class RemoteExpert(nn.Module):
 
															         return f"uid={self.uid}, server_peer_info={self.server_peer_info}"
														
 
															-class _RemoteModuleCall(torch.autograd.Function):
														
 
															-    """Internal autograd-friendly call of a remote module. For applications, use RemoteExpert instead."""
														
 
															+class RemoteExpertWorker:
														
 
															+    """Local thread for managing async tasks related to RemoteExpert"""
														
 
															     _task_queue: Queue = Queue()
														
 
															     _event_thread: Optional[Thread] = None
														
 
															+    _pid: int = 0
														
 
															+
														
 
															     @classmethod
														
 
															     def _run(cls):
														
@@ -106,7 +122,8 @@ class _RemoteModuleCall(torch.autograd.Function):
 
															     @classmethod
														
 
															     def run_coroutine(cls, coro: Awaitable, return_future: bool = False):
														
 
															-        if cls._event_thread is None:
														
 
															+        if cls._event_thread is None or cls._pid != os.getpid():
														
 
															+            cls._pid = os.getpid()
														
 
															             cls._event_thread = Thread(target=cls._run, daemon=True)
														
 
															             cls._event_thread.start()
														
@@ -119,6 +136,29 @@ class _RemoteModuleCall(torch.autograd.Function):
 
															         result = future.result()
														
 
															         return result
														
 
															+    @classmethod
														
 
															+    def spawn_experts_future(cls, infos: MPFuture[Sequence[Optional[RemoteExpertInfo]]], dht: DHT) -> MPFuture[List[Optional[RemoteExpert]]]:
														
 
															+        async def _unpack():
														
 
															+            return cls.spawn_experts(await infos, dht)
														
 
															+        return cls.run_coroutine(_unpack, True)
														
 
															+
														
 
															+    @classmethod
														
 
															+    def spawn_experts(cls, infos: Sequence[Optional[RemoteExpertInfo]], dht: DHT) -> List[Optional[RemoteExpert]]:
														
 
															+        p2p = cls.run_coroutine(dht.replicate_p2p())
														
 
															+        experts: List[Optional[RemoteExpert]] = []
														
 
															+        for i in infos:
														
 
															+            if i is not None:
														
 
															+                uid, peer_info = i.as_peer_info
														
 
															+                experts.append(RemoteExpert(uid, peer_info, p2p))
														
 
															+            else:
														
 
															+                experts.append(None)
														
 
															+        return experts
														
 
															+
														
 
															+
														
 
															+
														
 
															+class _RemoteModuleCall(torch.autograd.Function):
														
 
															+    """Internal autograd-friendly call of a remote module. For applications, use RemoteExpert instead."""
														
 
															+
														
 
															     @classmethod
														
 
															     def forward(
														
 
															         cls,
														
@@ -155,7 +195,7 @@ class _RemoteModuleCall(torch.autograd.Function):
 
															     def forward_partial(cls, serialized_tensors: List[runtime_pb2.Tensor], ctx, stub) -> List[torch.Tensor]:
														
 
															         split = [p for t in serialized_tensors for p in split_for_streaming(t, DEFAULT_MAX_MSG_SIZE // 2)]
														
 
															-        outputs = cls.run_coroutine(
														
 
															+        outputs = RemoteExpertWorker.run_coroutine(
														
 
															             stub.rpc_forward_partial(
														
 
															                 amap_in_executor(
														
 
															                     lambda t: runtime_pb2.ExpertRequest(
														
@@ -169,12 +209,12 @@ class _RemoteModuleCall(torch.autograd.Function):
 
															             )
														
 
															         )
														
 
															-        return cls.run_coroutine(gather_from_grpc(outputs, lambda r: r.tensors, deserialize_torch_tensor))
														
 
															+        return RemoteExpertWorker.run_coroutine(gather_from_grpc(outputs, lambda r: r.tensors, deserialize_torch_tensor))
														
 
															     @classmethod
														
 
															     def forward_oneshot(cls, serialized_tensors: List[runtime_pb2.Tensor], ctx, stub) -> List[torch.Tensor]:
														
 
															-        outputs = cls.run_coroutine(
														
 
															+        outputs = RemoteExpertWorker.run_coroutine(
														
 
															             stub.rpc_forward(runtime_pb2.ExpertRequest(uid=ctx.uid, tensors=serialized_tensors))
														
 
															         )
														
@@ -207,7 +247,7 @@ class _RemoteModuleCall(torch.autograd.Function):
 
															     def backward_partial(cls, serialized_tensors: List[runtime_pb2.Tensor], ctx) -> List[torch.Tensor]:
														
 
															         split = tuple(p for t in serialized_tensors for p in split_for_streaming(t, DEFAULT_MAX_MSG_SIZE // 2))
														
 
															-        grad_inputs = cls.run_coroutine(
														
 
															+        grad_inputs = RemoteExpertWorker.run_coroutine(
														
 
															             ctx.stub.rpc_backward_partial(
														
 
															                 amap_in_executor(
														
 
															                     lambda t: runtime_pb2.ExpertRequest(
														
@@ -221,12 +261,12 @@ class _RemoteModuleCall(torch.autograd.Function):
 
															             )
														
 
															         )
														
 
															-        return cls.run_coroutine(gather_from_grpc(grad_inputs, lambda r: r.tensors, deserialize_torch_tensor))
														
 
															+        return RemoteExpertWorker.run_coroutine(gather_from_grpc(grad_inputs, lambda r: r.tensors, deserialize_torch_tensor))
														
 
															     @classmethod
														
 
															     @once_differentiable
														
 
															     def backward_oneshot(cls, serialized_tensors: List[runtime_pb2.Tensor], ctx) -> List[torch.Tensor]:
														
 
															-        grad_inputs = cls.run_coroutine(
														
 
															+        grad_inputs = RemoteExpertWorker.run_coroutine(
														
 
															             ctx.stub.rpc_backward(runtime_pb2.ExpertRequest(uid=ctx.uid, tensors=serialized_tensors))
														
 
															         )
														
--- a/hivemind/moe/server/dht_handler.py
+++ b/hivemind/moe/server/dht_handler.py
@@ -5,7 +5,7 @@ from typing import Dict, List, Optional, Sequence, Tuple, Union
 
															 from multiaddr import Multiaddr
														
 
															 from hivemind.dht import DHT, DHTExpiration, DHTNode, DHTValue
														
 
															-from hivemind.moe.client.expert import RemoteExpert, _RemoteModuleCall
														
 
															+from hivemind.moe.client.expert import RemoteExpert, RemoteExpertInfo, RemoteExpertWorker
														
 
															 from hivemind.moe.server.expert_uid import (
														
 
															     FLAT_EXPERT,
														
 
															     UID_DELIMITER,
														
@@ -85,20 +85,15 @@ def get_experts(
 
															     :returns: a list of [RemoteExpert if found else None]
														
 
															     """
														
 
															     assert not isinstance(uids, str), "Please send a list / tuple of expert uids."
														
 
															-    p2p = _RemoteModuleCall.run_coroutine(dht.replicate_p2p())
														
 
															     result = dht.run_coroutine(partial(_get_experts, uids=list(uids), expiration_time=expiration_time), return_future)
														
 
															-
														
 
															-    def _unwrap_experts(vals: List[Optional[LazyValue[RemoteExpert]]]) -> List[Optional[RemoteExpert]]:
														
 
															-        return [val.get(p2p=p2p) if val is not None else None for val in vals]
														
 
															-
														
 
															     if return_future:
														
 
															-        return LazyFutureCaller(result, _unwrap_experts)
														
 
															-    return _unwrap_experts(result)
														
 
															+        return RemoteExpertWorker.spawn_experts_future(result, dht)
														
 
															+    return RemoteExpertWorker.spawn_experts(result, dht)
														
 
															 async def _get_experts(
														
 
															     dht: DHT, node: DHTNode, uids: List[ExpertUID], expiration_time: Optional[DHTExpiration]
														
 
															-) -> List[Optional[LazyValue[RemoteExpert]]]:
														
 
															+) -> List[Optional[RemoteExpertInfo]]:
														
 
															     if expiration_time is None:
														
 
															         expiration_time = get_dht_time()
														
 
															     num_workers = len(uids) if dht.num_workers is None else min(len(uids), dht.num_workers)
														
@@ -109,6 +104,5 @@ async def _get_experts(
 
															         elem = found[uid]
														
 
															         if elem is not None and isinstance(elem.value, tuple):
														
 
															             peer_id, addrs = elem.value
														
 
															-            peer_info = PeerInfo(peer_id=PeerID.from_base58(peer_id), addrs=tuple(Multiaddr(a) for a in addrs))
														
 
															-            experts[i] = LazyValue(init=partial(RemoteExpert, uid=uid, server_peer_info=peer_info))
														
 
															+            experts[i] = RemoteExpertInfo(uid, peer_id, addrs)
														
 
															     return experts
														
--- a/hivemind/moe/server/server.py
+++ b/hivemind/moe/server/server.py
@@ -42,8 +42,7 @@ class Server(threading.Thread):
 
															      - publishes updates to expert status every :update_period: seconds
														
 
															      - follows orders from HivemindController - if it exists
														
 
															-    :type dht: DHT or None. Server with dht=None will NOT be visible from DHT,
														
 
															-     but it will still support accessing experts directly with RemoteExpert(uid=UID, endpoint="IPADDR:PORT").
														
 
															+    :type dht: DHT.
														
 
															     :param expert_backends: dict{expert uid (str) : ExpertBackend} for all expert hosted by this server.
														
 
															     :param listen_on: server's dht address that determines how it can be accessed. Address and (optional) port
														
 
															     :param num_connection_handlers: maximum number of simultaneous requests. Please note that the default value of 1
														
@@ -56,7 +55,7 @@ class Server(threading.Thread):
 
															     def __init__(
														
 
															         self,
														
 
															-        dht: Optional[DHT],
														
 
															+        dht: DHT,
														
 
															         expert_backends: Dict[str, ExpertBackend],
														
 
															         num_connection_handlers: int = 1,
														
 
															         update_period: int = 30,
														
@@ -74,7 +73,7 @@ class Server(threading.Thread):
 
															             self.checkpoint_saver = None
														
 
															         self.runtime = Runtime(self.experts, **kwargs)
														
 
															-        if self.dht and self.experts:
														
 
															+        if self.experts:
														
 
															             self.dht_handler_thread = DHTHandlerThread(
														
 
															                 experts=self.experts,
														
 
															                 dht=self.dht,
														
@@ -103,7 +102,6 @@ class Server(threading.Thread):
 
															         min_batch_size=1,
														
 
															         max_batch_size=4096,
														
 
															         device=None,
														
 
															-        no_dht=False,
														
 
															         initial_peers=(),
														
 
															         checkpoint_dir: Optional[Path] = None,
														
 
															         compression=CompressionType.NONE,
														
@@ -132,7 +130,6 @@ class Server(threading.Thread):
 
															         :param num_total_steps: the total number of steps for LR schedule
														
 
															         :param clip_grad_norm: maximum gradient norm used for clipping
														
 
															-        :param no_dht: if specified, the server will not be attached to a dht
														
 
															         :param initial_peers: multiaddrs of one or more active DHT peers (if you want to join an existing DHT)
														
 
															         :param checkpoint_dir: directory to save and load expert checkpoints
														
@@ -148,12 +145,9 @@ class Server(threading.Thread):
 
															             add_custom_models_from_file(custom_module_path)
														
 
															         assert expert_cls in name_to_block
														
 
															-        if no_dht:
														
 
															-            dht = None
														
 
															-        else:
														
 
															-            dht = DHT(initial_peers=initial_peers, start=True)
														
 
															-            visible_maddrs_str = [str(a) for a in dht.get_visible_maddrs()]
														
 
															-            logger.info(f"Running DHT node on {visible_maddrs_str}, initial peers = {initial_peers}")
														
 
															+        dht = DHT(initial_peers=initial_peers, start=True)
														
 
															+        visible_maddrs_str = [str(a) for a in dht.get_visible_maddrs()]
														
 
															+        logger.info(f"Running DHT node on {visible_maddrs_str}, initial peers = {initial_peers}")
														
 
															         assert (expert_pattern is None and num_experts is None and expert_uids is not None) or (
														
 
															             num_experts is not None and expert_uids is None
														
@@ -234,12 +228,12 @@ class Server(threading.Thread):
 
															             num_parameters = sum(p.numel() for p in backend.expert.parameters() if p.requires_grad)
														
 
															             logger.info(f"{expert_name}: {backend.expert.__class__.__name__}, {num_parameters} parameters")
														
 
															-        if self.dht:
														
 
															-            if not self.dht.is_alive():
														
 
															-                self.dht.run_in_background(await_ready=True)
														
 
															+        if not self.dht.is_alive():
														
 
															+            self.dht.run_in_background(await_ready=True)
														
 
															+
														
 
															+        if self.experts:
														
 
															+            self.dht_handler_thread.start()
														
 
															-            if self.experts:
														
 
															-                self.dht_handler_thread.start()
														
 
															         if self.checkpoint_saver is not None:
														
 
															             self.checkpoint_saver.start()
														
@@ -288,7 +282,7 @@ class Server(threading.Thread):
 
															             process.join()
														
 
															         logger.debug("Connection handlers terminated")
														
 
															-        if self.dht and self.experts:
														
 
															+        if self.experts:
														
 
															             self.dht_handler_thread.stop.set()
														
 
															             self.dht_handler_thread.join()
														
@@ -296,9 +290,8 @@ class Server(threading.Thread):
 
															             self.checkpoint_saver.stop.set()
														
 
															             self.checkpoint_saver.join()
														
 
															-        if self.dht is not None:
														
 
															-            self.dht.shutdown()
														
 
															-            self.dht.join()
														
 
															+        self.dht.shutdown()
														
 
															+        self.dht.join()
														
 
															         logger.debug(f"Shutting down runtime")
														
@@ -314,7 +307,7 @@ def background_server(*args, shutdown_timeout=5, **kwargs) -> Tuple[Endpoint, Li
 
															     try:
														
 
															         runner.start()
														
 
															         # once the server is ready, runner will send us
														
 
															-        # either (False, exception) or (True, (server.listen_on, dht_maddrs))
														
 
															+        # either (False, exception) or (True, (dht_peer_id, dht_maddrs))
														
 
															         start_ok, data = pipe.recv()
														
 
															         if start_ok:
														
 
															             yield data
														
@@ -338,8 +331,8 @@ def _server_runner(pipe, *args, **kwargs):
 
															         return
														
 
															     try:
														
 
															-        dht_maddrs = server.dht.get_visible_maddrs() if server.dht is not None else None
														
 
															-        pipe.send((True, (server.listen_on, dht_maddrs)))
														
 
															+        dht_maddrs = server.dht.get_visible_maddrs()
														
 
															+        pipe.send((True, (server.dht.peer_id, dht_maddrs)))
														
 
															         pipe.recv()  # wait for shutdown signal
														
 
															     finally: