4 vuotta sitten · e9956b84f6
--- a/CONTRIBUTING.md
+++ b/CONTRIBUTING.md
@@ -102,6 +102,10 @@ a new test to make sure it's not reintroduced by future changes.
 
				 To run tests, you need to install hivemind in development mode with additional dependencies: `pip install -e .[dev]`.
			
 
				 You can run all tests with `pytest tests/` or choose a specific subset, e.g., `pytest tests/test_dht.py`.
			
 
				 
			
 
				+When investigating test behavior, please note that pytest automatically wraps all hivemind tests with fixtures defined
			
 
				+in a global configuration file [`tests/conftest.py`](./tests/conftest.py), some of which will run automatically. 
			
 
				+For more informantion, refer to the [pytest documentation on fixtures](https://docs.pytest.org/en/6.2.x/fixture.html).
			
 
				+
			
 
				 ## Building documentation
			
 
				 
			
 
				 Any function exposed to a user must have a docstring compatible
			
@@ -140,4 +144,4 @@ This guide was inspired by several influential Python open source projects liste
 
				 
			
 
				 * [PyTorch](https://github.com/pytorch/pytorch/blob/master/CONTRIBUTING.md)
			
 
				 * [Scikit-learn](https://scikit-learn.org/dev/developers/contributing.html)
			
 
				-* [transformers](https://github.com/huggingface/transformers/blob/master/CONTRIBUTING.md)
			
 
				+* [transformers](https://github.com/huggingface/transformers/blob/master/CONTRIBUTING.md)
			
--- a/hivemind/client/averaging/__init__.py
+++ b/hivemind/client/averaging/__init__.py
@@ -75,6 +75,7 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
				           local tensors for averaging
			
 
				     :param allow_state_sharing: if set to True, other peers can download this peer's state. Can be overwritten
			
 
				       with averager.allow_state_sharing = True / False
			
 
				+    :param shutdown_timeout: when calling .shutdown, wait for up to this many seconds before terminating
			
 
				 
			
 
				     Example:
			
 
				 
			
@@ -90,6 +91,7 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
				     """
			
 
				     _matchmaking: Matchmaking
			
 
				     _pending_group_assembled: asyncio.Event
			
 
				+    _server: grpc.aio.Server
			
 
				     serializer = MSGPackSerializer
			
 
				 
			
 
				     def __init__(self, averaged_tensors: Sequence[torch.Tensor], dht: DHT, *, start: bool,
			
@@ -100,7 +102,8 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
				                  throughput: Optional[float] = None, min_vector_size: int = 0,
			
 
				                  auxiliary: bool = False, allow_state_sharing: Optional[bool] = None,
			
 
				                  listen: bool = True, listen_on: Endpoint = '0.0.0.0:*', daemon: bool = True,
			
 
				-                 channel_options: Optional[Sequence[Tuple[str, Any]]] = None, **kwargs):
			
 
				+                 channel_options: Optional[Sequence[Tuple[str, Any]]] = None,
			
 
				+                 shutdown_timeout: float = 5, **kwargs):
			
 
				         assert '.' not in prefix, "group prefix must be a string without trailing '.'"
			
 
				         assert throughput is None or (throughput >= 0 and np.isfinite(np.float32(throughput))), \
			
 
				             "throughput must be a non-negative float32"
			
@@ -130,7 +133,8 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
				             tensor.share_memory_()
			
 
				         self.total_size = sum(map(torch.Tensor.numel, self._averaged_tensors))
			
 
				         self.schema_hash = compute_schema_hash(self._averaged_tensors)
			
 
				-        self._throughput = throughput
			
 
				+        self.shutdown_timeout = shutdown_timeout
			
 
				+        self.throughput = throughput
			
 
				 
			
 
				         self.matchmaking_kwargs = dict(
			
 
				             prefix=prefix, initial_group_bits=initial_group_bits, target_group_size=target_group_size,
			
@@ -140,7 +144,7 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
				         self._averaging_alpha, self._allreduce_timeout = averaging_alpha, allreduce_timeout
			
 
				         self._running_groups: Dict[GroupID, AllReduceRunner] = {}  # one or more assembled groups that run all-reduce
			
 
				 
			
 
				-        self._pipe, self.pipe = mp.Pipe(duplex=True)  # a control pipe used to communicate with a background process
			
 
				+        self._inner_pipe, self._outer_pipe = mp.Pipe(duplex=True)  # a control pipe used to communicate with daemon
			
 
				         self._port = mp.Value(ctypes.c_uint32, 0)  # assigned when averager starts, accessible via self.port
			
 
				 
			
 
				         self._allow_state_sharing = mp.Value(ctypes.c_bool, 0)
			
@@ -154,7 +158,7 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
				         # note: we create a background thread weakref and with daemon=True to ensure garbage collection
			
 
				         background_fetcher = threading.Thread(
			
 
				             daemon=True, target=_background_thread_fetch_current_state,
			
 
				-            args=[self.serializer, self.pipe, weakref.WeakMethod(self.get_current_state)])
			
 
				+            args=[self.serializer, self._outer_pipe, weakref.WeakMethod(self.get_current_state)])
			
 
				         background_fetcher.start()
			
 
				         if start:
			
 
				             self.run_in_background(await_ready=True)
			
@@ -205,12 +209,12 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
				                 grpc.aio.init_grpc_aio()
			
 
				 
			
 
				                 if self.listen:
			
 
				-                    server = grpc.aio.server(**self.kwargs, options=GRPC_KEEPALIVE_OPTIONS)
			
 
				-                    averaging_pb2_grpc.add_DecentralizedAveragingServicer_to_server(self, server)
			
 
				-                    found_port = server.add_insecure_port(self.listen_on)
			
 
				+                    self._server = grpc.aio.server(**self.kwargs, options=GRPC_KEEPALIVE_OPTIONS)
			
 
				+                    averaging_pb2_grpc.add_DecentralizedAveragingServicer_to_server(self, self._server)
			
 
				+                    found_port = self._server.add_insecure_port(self.listen_on)
			
 
				                     assert found_port != 0, f"Failed to listen to {self.listen_on}"
			
 
				                     self._port.value = found_port
			
 
				-                    await server.start()
			
 
				+                    await self._server.start()
			
 
				                 else:
			
 
				                     logger.debug(f"The averager is running in client mode.")
			
 
				 
			
@@ -224,8 +228,11 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
				                 self.ready.set()
			
 
				 
			
 
				                 while True:
			
 
				-                    method, args, kwargs = await loop.run_in_executor(pipe_awaiter, self._pipe.recv)
			
 
				-                    asyncio.create_task(getattr(self, method)(*args, **kwargs))
			
 
				+                    method, args, kwargs = await loop.run_in_executor(pipe_awaiter, self._inner_pipe.recv)
			
 
				+                    task = asyncio.create_task(getattr(self, method)(*args, **kwargs))
			
 
				+                    if method == '_shutdown':
			
 
				+                        await task
			
 
				+                        break
			
 
				 
			
 
				             loop.run_until_complete(_run())
			
 
				 
			
@@ -240,15 +247,26 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
				 
			
 
				     def shutdown(self) -> None:
			
 
				         """ Shut down the averager process """
			
 
				-        # TODO notify peers before terminating
			
 
				-        if self._parent_pid != os.getpid() or self.is_alive():
			
 
				-            self._pipe.send(('_SHUTDOWN', None))
			
 
				-            self.terminate()
			
 
				+        if self.is_alive():
			
 
				+            self._outer_pipe.send(('_shutdown', [None], {}))  # shut down the daemon process
			
 
				+            self._inner_pipe.send(('_SHUTDOWN', None))  # shut down background thread in master
			
 
				+            self.join(self.shutdown_timeout)
			
 
				+            if self.is_alive():
			
 
				+                logger.warning("Averager did not shut down within the grace period; terminating it the hard way.")
			
 
				+                self.terminate()
			
 
				         else:
			
 
				-            logger.warning("DHT shutdown has no effect: the process is not alive")
			
 
				+            logger.exception("Averager shutdown has no effect: the process is already not alive")
			
 
				+
			
 
				+    async def _shutdown(self, timeout: Optional[float] = None) -> None:
			
 
				+        remaining_tasks = set()
			
 
				+        for group in self._running_groups.values():
			
 
				+            remaining_tasks.update(group.finalize(cancel=True))
			
 
				+        if self.listen:
			
 
				+            remaining_tasks.add(self._server.stop(timeout))
			
 
				+        await asyncio.gather(*remaining_tasks)
			
 
				 
			
 
				     def __del__(self):
			
 
				-        if self._parent_pid != os.getpid() or self.is_alive():
			
 
				+        if self._parent_pid == os.getpid() and self.is_alive():
			
 
				             self.shutdown()
			
 
				 
			
 
				     def step(self, gather: Optional[GatheredData] = None, weight: Optional[float] = None,
			
@@ -274,8 +292,8 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
				 
			
 
				         future, _future = MPFuture.make_pair()
			
 
				         gather_binary = self.serializer.dumps(gather)  # serialize here to avoid loading modules in the averager process
			
 
				-        self.pipe.send(('_step', [], dict(future=_future, gather_binary=gather_binary, weight=weight,
			
 
				-                                          allow_retries=allow_retries, timeout=timeout)))
			
 
				+        self._outer_pipe.send(('_step', [], dict(future=_future, gather_binary=gather_binary, weight=weight,
			
 
				+                                                 allow_retries=allow_retries, timeout=timeout)))
			
 
				         return future.result() if wait else future
			
 
				 
			
 
				     async def _step(self, *, future: MPFuture, gather_binary: bytes, weight: float,
			
@@ -286,7 +304,7 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
				             while not future.done():
			
 
				                 try:
			
 
				                     self._pending_group_assembled.clear()
			
 
				-                    data_for_gather = self.serializer.dumps([weight, self._throughput, self.mode.value, gather_binary]) 
			
 
				+                    data_for_gather = self.serializer.dumps([weight, self.throughput, self.mode.value, gather_binary])
			
 
				                     group_info = await self._matchmaking.look_for_group(timeout=timeout,
			
 
				                                                                         data_for_gather=data_for_gather)
			
 
				                     if group_info is None:
			
@@ -446,7 +464,7 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
				     async def _get_current_state_from_host_process(self):
			
 
				         """ Executed in the averager process inside rpc_download_state """
			
 
				         future, _future = MPFuture.make_pair()
			
 
				-        self._pipe.send(('_TRIGGER_GET_CURRENT_STATE', _future))
			
 
				+        self._inner_pipe.send(('_TRIGGER_GET_CURRENT_STATE', _future))
			
 
				         return await future
			
 
				 
			
 
				     def load_state_from_peers(self, wait=True) -> Optional[Tuple[Any, Sequence[torch.Tensor]]]:
			
@@ -460,7 +478,7 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
				         The exact contents of both metadata and tensors are determined by get_current_state method
			
 
				         """
			
 
				         future, _future = MPFuture.make_pair()
			
 
				-        self.pipe.send(('_load_state_from_peers', [], dict(future=_future)))
			
 
				+        self._outer_pipe.send(('_load_state_from_peers', [], dict(future=_future)))
			
 
				         return future.result() if wait else future
			
 
				 
			
 
				     async def _load_state_from_peers(self, future: MPFuture):
			
@@ -520,7 +538,7 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
				         :returns: averager's current group key bits (without prefix)
			
 
				         """
			
 
				         future, _future = MPFuture.make_pair()
			
 
				-        self.pipe.send(('_get_group_bits', [], dict(future=_future)))
			
 
				+        self._outer_pipe.send(('_get_group_bits', [], dict(future=_future)))
			
 
				         return future.result() if wait else future
			
 
				 
			
 
				     async def _get_group_bits(self, future: MPFuture):
			
@@ -533,7 +551,7 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
				         """
			
 
				         future, _future = MPFuture.make_pair()
			
 
				         assert all(bit in '01' for bit in group_bits)
			
 
				-        self.pipe.send(('_set_group_bits', [], dict(group_bits=group_bits, future=_future)))
			
 
				+        self._outer_pipe.send(('_set_group_bits', [], dict(group_bits=group_bits, future=_future)))
			
 
				         return future.result() if wait else future
			
 
				 
			
 
				     async def _set_group_bits(self, group_bits: str, future: MPFuture):
			
--- a/hivemind/client/averaging/allreduce.py
+++ b/hivemind/client/averaging/allreduce.py
@@ -112,11 +112,6 @@ class AllReduceRunner(averaging_pb2_grpc.DecentralizedAveragingServicer):
 
				             self.finalize(exception=e)
			
 
				             for task in pending_tasks:
			
 
				                 task.cancel()
			
 
				-            code = averaging_pb2.CANCELLED if isinstance(e, asyncio.CancelledError) else averaging_pb2.INTERNAL_ERROR
			
 
				-            logger.debug(f"{self} - notifying peers about {averaging_pb2.MessageCode.Name(code)}")
			
 
				-            for peer_endpoint, mode in zip(self.ordered_group_endpoints, self.modes):
			
 
				-                if peer_endpoint != self.endpoint and mode != AveragingMode.CLIENT:
			
 
				-                    asyncio.create_task(self._send_error_to_peer(peer_endpoint, code))
			
 
				             raise
			
 
				 
			
 
				     async def _communicate_with_peer(self, peer_endpoint: Endpoint):
			
@@ -210,7 +205,20 @@ class AllReduceRunner(averaging_pb2_grpc.DecentralizedAveragingServicer):
 
				         await stream.done_writing()
			
 
				 
			
 
				     def finalize(self, *, cancel: bool = False, exception: Optional[BaseException] = None):
			
 
				+        """ finish or terminate AllReduceRunner, propagate any errors / cancellations to peers. """
			
 
				         assert not cancel or not exception, "finalize accepts either exception or cancel, but not both"
			
 
				+        pending_tasks = set()
			
 
				+        if cancel or exception:
			
 
				+            # propagate error to peers
			
 
				+            if cancel or isinstance(exception, asyncio.CancelledError):
			
 
				+                code = averaging_pb2.CANCELLED
			
 
				+            else:
			
 
				+                code = averaging_pb2.INTERNAL_ERROR
			
 
				+            logger.debug(f"{self} - notifying peers about {averaging_pb2.MessageCode.Name(code)}")
			
 
				+            for peer_endpoint, mode in zip(self.ordered_group_endpoints, self.modes):
			
 
				+                if peer_endpoint != self.endpoint and mode != AveragingMode.CLIENT:
			
 
				+                    pending_tasks.add(asyncio.create_task(self._send_error_to_peer(peer_endpoint, code)))
			
 
				+
			
 
				         if not self._future.done():
			
 
				             if cancel:
			
 
				                 logger.debug(f"{self} - cancelled")
			
@@ -223,7 +231,7 @@ class AllReduceRunner(averaging_pb2_grpc.DecentralizedAveragingServicer):
 
				                 self._future.set_result(None)
			
 
				             self.tensor_part_container.finalize()
			
 
				             self.tensor_part_reducer.finalize()
			
 
				-            return True
			
 
				+            return pending_tasks
			
 
				         else:
			
 
				             logger.debug(f"{self} - could not finish: allreduce is already finished: {self._future}")
			
 
				-            return False
			
 
				+            return pending_tasks
			
--- a/hivemind/dht/__init__.py
+++ b/hivemind/dht/__init__.py
@@ -16,12 +16,11 @@ from __future__ import annotations
 
				 import asyncio
			
 
				 import ctypes
			
 
				 import multiprocessing as mp
			
 
				+import os
			
 
				 from concurrent.futures import ThreadPoolExecutor
			
 
				 from functools import partial
			
 
				-from typing import Iterable, List, Optional, Sequence, Union, Callable, Awaitable, TypeVar
			
 
				+from typing import Iterable, Optional, Sequence, Union, Callable, Awaitable, TypeVar
			
 
				 
			
 
				-import hivemind
			
 
				-from hivemind.client import RemoteExpert
			
 
				 from hivemind.dht.node import DHTNode, DHTID, DHTExpiration
			
 
				 from hivemind.dht.routing import DHTValue, DHTKey, Subkey
			
 
				 from hivemind.dht.validation import CompositeValidator, RecordValidatorBase
			
@@ -46,19 +45,22 @@ class DHT(mp.Process):
 
				     :param max_workers: declare_experts and get_experts will use up to this many parallel workers
			
 
				         (but no more than one per key)
			
 
				     :param expiration: experts declared from this node expire after this many seconds (default = 5 minutes)
			
 
				+    :param shutdown_timeout: when calling .shutdown, wait for up to this many seconds before terminating
			
 
				     :param kwargs: any other params will be forwarded to DHTNode upon creation
			
 
				     """
			
 
				+    _node: DHTNode
			
 
				 
			
 
				     def __init__(self, listen_on: Endpoint = "0.0.0.0:*", initial_peers: Sequence[Endpoint] = (), *, start: bool,
			
 
				                  daemon: bool = True, max_workers: Optional[int] = None, parallel_rpc: Optional[int] = None,
			
 
				-                 record_validators: Iterable[RecordValidatorBase] = (), **kwargs):
			
 
				+                 record_validators: Iterable[RecordValidatorBase] = (), shutdown_timeout: float = 3, **kwargs):
			
 
				         super().__init__()
			
 
				         assert not isinstance(initial_peers, str), "please specify a list/tuple of initial peers (even if there's one)"
			
 
				         self.listen_on, self.initial_peers, self.kwargs = listen_on, initial_peers, kwargs
			
 
				         self.max_workers, self.parallel_rpc = max_workers, parallel_rpc
			
 
				         self._record_validator = CompositeValidator(record_validators)
			
 
				         self._port = mp.Value(ctypes.c_int32, 0)  # initialized after dht starts
			
 
				-        self._pipe, self.pipe = mp.Pipe(duplex=True)
			
 
				+        self._inner_pipe, self._outer_pipe = mp.Pipe(duplex=True)
			
 
				+        self.shutdown_timeout = shutdown_timeout
			
 
				         self.ready = mp.Event()
			
 
				         self.daemon = daemon
			
 
				         if start:
			
@@ -70,17 +72,20 @@ class DHT(mp.Process):
 
				 
			
 
				         with ThreadPoolExecutor(max_workers=1) as pipe_awaiter:
			
 
				             async def _run():
			
 
				-                node = await DHTNode.create(
			
 
				+                self._node = await DHTNode.create(
			
 
				                     initial_peers=list(self.initial_peers), listen_on=self.listen_on, parallel_rpc=self.parallel_rpc,
			
 
				                     num_workers=self.max_workers or 1, record_validator=self._record_validator,
			
 
				                     **self.kwargs)
			
 
				-                if node.port is not None:
			
 
				-                    self._port.value = node.port
			
 
				+                if self._node.port is not None:
			
 
				+                    self._port.value = self._node.port
			
 
				                 self.ready.set()
			
 
				 
			
 
				                 while True:
			
 
				-                    method, args, kwargs = await loop.run_in_executor(pipe_awaiter, self._pipe.recv)
			
 
				-                    asyncio.create_task(getattr(self, method)(node, *args, **kwargs))
			
 
				+                    method, args, kwargs = await loop.run_in_executor(pipe_awaiter, self._inner_pipe.recv)
			
 
				+                    task = asyncio.create_task(getattr(self, method)(*args, **kwargs))
			
 
				+                    if method == '_shutdown':
			
 
				+                        await task
			
 
				+                        break
			
 
				 
			
 
				             coro = _run()
			
 
				             loop.run_until_complete(coro)
			
@@ -97,10 +102,17 @@ class DHT(mp.Process):
 
				     def shutdown(self) -> None:
			
 
				         """ Shut down a running dht process """
			
 
				         if self.is_alive():
			
 
				-            self.terminate()
			
 
				+            self._outer_pipe.send(('_shutdown', [], {}))
			
 
				+            self.join(self.shutdown_timeout)
			
 
				+            if self.is_alive():
			
 
				+                logger.warning("DHT did not shut down within the grace period; terminating it the hard way.")
			
 
				+                self.terminate()
			
 
				         else:
			
 
				             logger.warning("DHT shutdown has no effect: dht process is already not alive")
			
 
				 
			
 
				+    async def _shutdown(self):
			
 
				+        await self._node.shutdown()
			
 
				+
			
 
				     @property
			
 
				     def port(self) -> Optional[int]:
			
 
				         return self._port.value if self._port.value != 0 else None
			
@@ -116,12 +128,12 @@ class DHT(mp.Process):
 
				         :returns: (value, expiration time); if value was not found, returns None
			
 
				         """
			
 
				         future, _future = MPFuture.make_pair()
			
 
				-        self.pipe.send(('_get', [], dict(key=key, latest=latest, future=_future, **kwargs)))
			
 
				+        self._outer_pipe.send(('_get', [], dict(key=key, latest=latest, future=_future, **kwargs)))
			
 
				         return future if return_future else future.result()
			
 
				 
			
 
				-    async def _get(self, node: DHTNode, key: DHTKey, latest: bool, future: MPFuture, **kwargs):
			
 
				+    async def _get(self, key: DHTKey, latest: bool, future: MPFuture, **kwargs):
			
 
				         try:
			
 
				-            result = await node.get(key, latest=latest, **kwargs)
			
 
				+            result = await self._node.get(key, latest=latest, **kwargs)
			
 
				             if not future.done():
			
 
				                 future.set_result(result)
			
 
				         except BaseException as e:
			
@@ -142,14 +154,14 @@ class DHT(mp.Process):
 
				         :returns: True if store succeeds, False if it fails (due to no response or newer value)
			
 
				         """
			
 
				         future, _future = MPFuture.make_pair()
			
 
				-        self.pipe.send(('_store', [], dict(key=key, value=value, expiration_time=expiration_time, subkey=subkey,
			
 
				-                                           future=_future, **kwargs)))
			
 
				+        self._outer_pipe.send(('_store', [], dict(key=key, value=value, expiration_time=expiration_time, subkey=subkey,
			
 
				+                                                  future=_future, **kwargs)))
			
 
				         return future if return_future else future.result()
			
 
				 
			
 
				-    async def _store(self, node: DHTNode, key: DHTKey, value: DHTValue, expiration_time: DHTExpiration,
			
 
				+    async def _store(self, key: DHTKey, value: DHTValue, expiration_time: DHTExpiration,
			
 
				                      subkey: Optional[Subkey], future: MPFuture, **kwargs):
			
 
				         try:
			
 
				-            result = await node.store(key, value, expiration_time, subkey=subkey, **kwargs)
			
 
				+            result = await self._node.store(key, value, expiration_time, subkey=subkey, **kwargs)
			
 
				             if not future.done():
			
 
				                 future.set_result(result)
			
 
				         except BaseException as e:
			
@@ -173,12 +185,12 @@ class DHT(mp.Process):
 
				         :note: when run_coroutine is called with wait=False, MPFuture can be cancelled to interrupt the task.
			
 
				         """
			
 
				         future, _future = MPFuture.make_pair()
			
 
				-        self.pipe.send(('_run_coroutine', [], dict(coro=coro, future=_future)))
			
 
				+        self._outer_pipe.send(('_run_coroutine', [], dict(coro=coro, future=_future)))
			
 
				         return future if return_future else future.result()
			
 
				 
			
 
				-    async def _run_coroutine(self, node: DHTNode, coro: Callable[[DHT, DHTNode], Awaitable[ReturnType]],
			
 
				+    async def _run_coroutine(self, coro: Callable[[DHT, DHTNode], Awaitable[ReturnType]],
			
 
				                              future: MPFuture[ReturnType]):
			
 
				-        main_task = asyncio.create_task(coro(self, node))
			
 
				+        main_task = asyncio.create_task(coro(self, self._node))
			
 
				         cancel_task = asyncio.create_task(await_cancelled(future))
			
 
				         try:
			
 
				             await asyncio.wait({main_task, cancel_task}, return_when=asyncio.FIRST_COMPLETED)
			
@@ -215,21 +227,21 @@ class DHT(mp.Process):
 
				         assert num_peers is None or peers == (), "please specify either a num_peers or the list of peers, not both"
			
 
				         assert not isinstance(peers, str) and isinstance(peers, Sequence), "Please send a list / tuple of endpoints"
			
 
				         future, _future = MPFuture.make_pair()
			
 
				-        self.pipe.send(('_get_visible_address', [], dict(num_peers=num_peers, peers=peers, future=_future)))
			
 
				+        self._outer_pipe.send(('_get_visible_address', [], dict(num_peers=num_peers, peers=peers, future=_future)))
			
 
				         return future.result()
			
 
				 
			
 
				-    async def _get_visible_address(self, node: DHTNode, num_peers: Optional[int], peers: Sequence[Endpoint],
			
 
				+    async def _get_visible_address(self, num_peers: Optional[int], peers: Sequence[Endpoint],
			
 
				                                    future: Optional[MPFuture]):
			
 
				-        if not peers and (num_peers or not node.protocol.node_info.endpoint):
			
 
				+        if not peers and (num_peers or not self._node.protocol.node_info.endpoint):
			
 
				             # if we can't resolve the endpoint locally, ask one random peer
			
 
				-            peers_and_endpoints = node.protocol.routing_table.get_nearest_neighbors(
			
 
				-                DHTID.generate(), num_peers or 1, exclude=node.node_id)
			
 
				+            peers_and_endpoints = self._node.protocol.routing_table.get_nearest_neighbors(
			
 
				+                DHTID.generate(), num_peers or 1, exclude=self._node.node_id)
			
 
				             peers = tuple(endpoint for node_id, endpoint in peers_and_endpoints)
			
 
				 
			
 
				         chosen_address = None
			
 
				         if peers:
			
 
				             possible_endpoints: Sequence[Optional[Endpoint]] = await asyncio.gather(*(
			
 
				-                node.protocol.get_outgoing_request_endpoint(peer) for peer in peers))
			
 
				+                self._node.protocol.get_outgoing_request_endpoint(peer) for peer in peers))
			
 
				 
			
 
				             for endpoint in possible_endpoints:
			
 
				                 if endpoint is None:
			
@@ -244,8 +256,8 @@ class DHT(mp.Process):
 
				             if chosen_address is None:
			
 
				                 logger.warning(f"None of the selected peers responded with an address ({peers})")
			
 
				 
			
 
				-        if node.protocol.node_info.endpoint:
			
 
				-            address = strip_port(node.protocol.node_info.endpoint)
			
 
				+        if self._node.protocol.node_info.endpoint:
			
 
				+            address = strip_port(self._node.protocol.node_info.endpoint)
			
 
				             if chosen_address is not None and address != chosen_address:
			
 
				                 logger.warning(f"Node was manually given endpoint {address} , but other peers report {chosen_address}")
			
 
				             chosen_address = chosen_address or address
			
@@ -255,3 +267,7 @@ class DHT(mp.Process):
 
				         else:
			
 
				             future.set_exception(ValueError(f"Can't get address: DHT node has no peers and no public endpoint."
			
 
				                                             f" Please ensure the node is connected or specify peers=... manually."))
			
 
				+
			
 
				+    def __del__(self):
			
 
				+        if self._parent_pid == os.getpid() and self.is_alive():
			
 
				+            self.shutdown()
			
--- a/requirements-dev.txt
+++ b/requirements-dev.txt
@@ -4,4 +4,5 @@ pytest-asyncio
 
				 pytest-cov
			
 
				 codecov
			
 
				 tqdm
			
 
				-scikit-learn
			
 
				+scikit-learn
			
 
				+psutil
			
--- a/tests/conftest.py
+++ b/tests/conftest.py
@@ -0,0 +1,9 @@
 
				+import pytest
			
 
				+import psutil
			
 
				+
			
 
				+
			
 
				+@pytest.fixture(autouse=True, scope='session')
			
 
				+def cleanup_children():
			
 
				+    yield
			
 
				+    for child in psutil.Process().children(recursive=True):
			
 
				+        child.terminate()
			
--- a/tests/test_averaging.py
+++ b/tests/test_averaging.py
@@ -3,6 +3,7 @@ import random
 
				 import numpy as np
			
 
				 import torch
			
 
				 import pytest
			
 
				+
			
 
				 import hivemind
			
 
				 from hivemind.client.averaging.allreduce import AveragingMode
			
 
				 from hivemind.client.averaging.load_balancing import load_balance_peers
			
--- a/tests/test_dht.py
+++ b/tests/test_dht.py
@@ -8,6 +8,7 @@ import hivemind
 
				 from hivemind import LOCALHOST, strip_port
			
 
				 
			
 
				 
			
 
				+
			
 
				 @pytest.mark.forked
			
 
				 def test_get_store():
			
 
				     peers = []
			
--- a/tests/test_dht_experts.py
+++ b/tests/test_dht_experts.py
@@ -1,5 +1,6 @@
 
				 import asyncio
			
 
				 import random
			
 
				+import time
			
 
				 
			
 
				 import numpy as np
			
 
				 import pytest
			
@@ -36,8 +37,14 @@ def test_store_get_experts():
 
				     assert isinstance(first_found, hivemind.RemoteExpert)
			
 
				     assert first_found.endpoint == f'that_host:{other_port}'
			
 
				 
			
 
				-    for peer in peers:
			
 
				-        peer.shutdown()
			
 
				+    # test graceful shutdown
			
 
				+    first_peer.shutdown()
			
 
				+    other_peer.shutdown()
			
 
				+    time.sleep(1.0)
			
 
				+    remaining_peer1 = random.choice([peer for peer in peers if peer.is_alive()])
			
 
				+    remaining_peer2 = random.choice([peer for peer in peers if peer.is_alive()])
			
 
				+    assert all(hivemind.declare_experts(remaining_peer1, ['new_expert.1'], 'dummy'))
			
 
				+    assert hivemind.get_experts(remaining_peer2, ['new_expert.1'])[0].endpoint == 'dummy'
			
 
				 
			
 
				 
			
 
				 @pytest.mark.forked
			
@@ -156,3 +163,8 @@ async def test_negative_caching():
 
				         assert fetched[i] is not None, f"node should have cached ffn.{i}."
			
 
				     for i in range(6, len(fetched)):
			
 
				         assert fetched[i] is None, f"node shouldn't have cached ffn.{i}."
			
 
				+
			
 
				+    await node.shutdown()
			
 
				+    neg_caching_peer.shutdown()
			
 
				+    for peer in peers:
			
 
				+        peer.shutdown()