4 years ago · e159605143
--- a/.circleci/config.yml
+++ b/.circleci/config.yml
@@ -21,12 +21,6 @@ jobs:
 
															       - run:
														
 
															           command: pytest ./tests
														
 
															           name: tests
														
 
															-      - run:
														
 
															-          command: python tests/benchmark_throughput.py --preset minimalistic
														
 
															-          name: benchmark_throughput
														
 
															-      - run:
														
 
															-          command: python tests/benchmark_dht.py
														
 
															-          name: benchmark_dht
														
 
															       - run:
														
 
															           command: codecov
														
 
															           name: codecov
														
--- a/hivemind/client/averaging/__init__.py
+++ b/hivemind/client/averaging/__init__.py
@@ -2,22 +2,23 @@
 
															 from __future__ import annotations
														
 
															-import random
														
 
															+import asyncio
														
 
															+import contextlib
														
 
															 import ctypes
														
 
															-from typing import Sequence, Optional, Tuple, Any, Union, Dict, AsyncIterator
														
 
															-from concurrent.futures.thread import ThreadPoolExecutor
														
 
															 import multiprocessing as mp
														
 
															-import asyncio
														
 
															+import random
														
 
															+from concurrent.futures.thread import ThreadPoolExecutor
														
 
															+from typing import Sequence, Optional, Tuple, Any, Union, Dict, AsyncIterator
														
 
															-import torch
														
 
															-import uvloop
														
 
															 import grpc
														
 
															+import torch
														
 
															 import hivemind
														
 
															 from hivemind.client.averaging.allreduce import AllReduceRunner, AllreduceException, GroupID
														
 
															 from hivemind.client.averaging.matchmaking import Matchmaking
														
 
															-from hivemind.utils import get_logger, Endpoint, Port, MPFuture, replace_port, GRPC_KEEPALIVE_OPTIONS
														
 
															 from hivemind.proto import averaging_pb2, averaging_pb2_grpc, runtime_pb2
														
 
															+from hivemind.utils import get_logger, Endpoint, Port, MPFuture, replace_port, GRPC_KEEPALIVE_OPTIONS, get_dht_time
														
 
															+from hivemind.utils.asyncio import anext, achain, aiter, switch_to_uvloop
														
 
															 # flavour types
														
 
															 StreamCallToLeader = grpc.aio.UnaryStreamCall[averaging_pb2.JoinRequest, averaging_pb2.MessageFromLeader]
														
@@ -46,7 +47,9 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
															       note - this expiration time only applies to looking for group, passing tensors in allreduce may take more time
														
 
															     :param compression_type: optionally compress tensors with this compression algorithm before sending them to peers
														
 
															     :param allreduce_timeout: spend at most this many seconds for allreduce (after group is formed)
														
 
															-
														
 
															+    :param request_timeout: when looking for group, wait for a response from leader for at most this many seconds.
														
 
															+    :note: request_timeout must be smaller than averaging_expiration to avoid potential deadlocks.
														
 
															+    :param chunk_size_bytes: tensors for AllReduce will be divided into chunks of this size (to improve gRPC throughput)
														
 
															     :param listen: if True (default), this averager will accept incoming requests from other peers and perform allreduce
														
 
															             if False, the averager will register as a freeloader and attempt to fetch vectors from other averagers
														
 
															     :param listen_on: network interface, e.g. "0.0.0.0:1337" or "localhost:*" (* means pick any port) or "[::]:7654"
														
@@ -62,13 +65,14 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
															     _pending_group_assembled: asyncio.Event
														
 
															     def __init__(self, averaged_tensors: Sequence[torch.Tensor], dht: hivemind.dht.DHT, *, start: bool,
														
 
															-                 prefix: str, target_group_size: int, min_group_size: int = 1, initial_group_bits: Optional[str] = None,
														
 
															+                 prefix: str, target_group_size: int, min_group_size: int = 2, initial_group_bits: Optional[str] = None,
														
 
															                  averaging_expiration: float = 15, allreduce_timeout: Optional[float] = None,
														
 
															+                 request_timeout: float = 3, chunk_size_bytes: int = 2 ** 16,
														
 
															                  compression_type: runtime_pb2.CompressionType = runtime_pb2.CompressionType.NONE,
														
 
															-                 listen_on: Endpoint = '0.0.0.0:*', receiver_threads: int = 1,
														
 
															+                 listen_on: Endpoint = '0.0.0.0:*', receiver_threads: int = 1, daemon: bool = True,
														
 
															                  channel_options: Optional[Sequence[Tuple[str, Any]]] = None, **kwargs):
														
 
															-        assert '.' not in prefix, "group prefix must be a string without ."
														
 
															-        if is_power_of_two(target_group_size):
														
 
															+        assert '.' not in prefix, "group prefix must be a string without trailing '.'"
														
 
															+        if not is_power_of_two(target_group_size):
														
 
															             logger.warning("It is recommended to set target_group_size to a power of 2.")
														
 
															         if initial_group_bits is None:
														
 
															             initial_group_bits = ''.join(random.choices('01', k=INITIAL_GROUP_NBITS))
														
@@ -79,16 +83,19 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
															         self.dht = dht
														
 
															         self.listen_on, self.receiver_threads, self.kwargs = listen_on, receiver_threads, kwargs
														
 
															         self.channel_options = channel_options
														
 
															-        self.averaged_tensors = tuple(averaged_tensors)
														
 
															-        # TODO use mp.Lock to prevent someone from modifying tensors before we copy them! maybe.
														
 
															-        for tensor in self.averaged_tensors:
														
 
															+        self.daemon = daemon
														
 
															+
														
 
															+        self._averaged_tensors = tuple(averaged_tensors)
														
 
															+        self.lock_averaged_tensors = mp.Lock()
														
 
															+        for tensor in self._averaged_tensors:
														
 
															             assert tensor.grad_fn is None, "averaged_tensors must be either parameters or leaf tensors"
														
 
															             tensor.share_memory_()
														
 
															-        self.matchmaking_kwargs = dict(prefix=prefix, initial_group_bits=initial_group_bits,
														
 
															-                                       target_group_size=target_group_size, min_group_size=min_group_size,
														
 
															-                                       averaging_expiration=averaging_expiration)
														
 
															-        self.allreduce_timeout, self.compression_type = allreduce_timeout, compression_type
														
 
															+        self.matchmaking_kwargs = dict(
														
 
															+            prefix=prefix, initial_group_bits=initial_group_bits, target_group_size=target_group_size,
														
 
															+            min_group_size=min_group_size, averaging_expiration=averaging_expiration, request_timeout=request_timeout,
														
 
															+            chunk_size_bytes=chunk_size_bytes, compression_type=compression_type)
														
 
															+        self.allreduce_timeout = allreduce_timeout
														
 
															         self._running_groups: Dict[GroupID, AllReduceRunner] = {}  # one or more assembled groups that run all-reduce
														
 
															         self._pipe, self.pipe = mp.Pipe(duplex=True)  # a control pipe used to communicate with a background process
														
@@ -115,13 +122,7 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
															     def run(self):
														
 
															         """ Serve DecentralizedAverager forever. This function will not return until the averager is shut down """
														
 
															-        if asyncio.get_event_loop().is_running():
														
 
															-            asyncio.get_event_loop().stop()  # if we're in jupyter, get rid of its built-in event loop
														
 
															-
														
 
															-        uvloop.install()
														
 
															-        loop = asyncio.new_event_loop()
														
 
															-        asyncio.set_event_loop(loop)
														
 
															-
														
 
															+        loop = switch_to_uvloop()
														
 
															         # initialize asyncio synchronization primitives in this event loop
														
 
															         pipe_awaiter = ThreadPoolExecutor(self.receiver_threads)
														
@@ -132,7 +133,8 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
															             found_port = server.add_insecure_port(self.listen_on)
														
 
															             assert found_port != 0, f"Failed to listen to {self.listen_on}"
														
 
															             self._port.value = found_port
														
 
															-            self._matchmaking = Matchmaking(self.endpoint, self.averaged_tensors, self.dht, **self.matchmaking_kwargs)
														
 
															+            self._matchmaking = Matchmaking(self.endpoint, self._averaged_tensors, self.dht, **self.matchmaking_kwargs,
														
 
															+                                            return_deltas=True)  # note: we need deltas to make allreduce lock-free
														
 
															             self._pending_group_assembled = asyncio.Event()
														
 
															             self._pending_group_assembled.set()
														
 
															             await server.start()
														
@@ -161,37 +163,88 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
															         else:
														
 
															             logger.warning("DHT shutdown has no effect: the process is not alive")
														
 
															-    def step(self, timeout: Optional[float] = None, return_future=False) -> Union[Sequence[torch.Tensor], MPFuture]:
														
 
															+    def step(self, allow_retries: bool = True, timeout: Optional[float] = None, wait=True
														
 
															+             ) -> Union[bool, MPFuture]:
														
 
															         """
														
 
															-        Set up the averager to look for a group and run one round of averaging, then return the averaged tensors
														
 
															-
														
 
															+        Set up the averager to look for a group and run one round of averaging, return True on success, False on failure
														
 
															+        :param allow_retries: if averager fails to run one round of allreduce, this option will allow it to try again
														
 
															+          within the specified timeout
														
 
															         :param timeout: if averager was unable to *find* a group in this many seconds, consider allreduce failedK
														
 
															-        :param return_future: if False (default), return when finished. Otherwise return MPFuture and run in background.
														
 
															+        :param wait: if True (default), return when finished. Otherwise return MPFuture and run in background.
														
 
															         """
														
 
															         future, _future = MPFuture.make_pair()
														
 
															-        self.pipe.send(('_step', [], dict(future=_future, timeout=timeout)))
														
 
															-        return future if return_future else future.result()
														
 
															+        self.pipe.send(('_step', [], dict(future=_future, allow_retries=allow_retries, timeout=timeout)))
														
 
															+        return future.result() if wait else future
														
 
															+
														
 
															+    async def _step(self, *, future: MPFuture, allow_retries: bool, timeout: Optional[float]):
														
 
															+        loop = asyncio.get_event_loop()
														
 
															+        start_time = get_dht_time()
														
 
															-    async def _step(self, *, future: MPFuture, timeout: Optional[float]):
														
 
															+        try_averaging = True
														
 
															         group_id = None
														
 
															-        try:
														
 
															-            self._pending_group_assembled.clear()
														
 
															-            allreduce_group = await self._matchmaking.look_for_group(timeout=timeout)
														
 
															-            group_id = allreduce_group.group_id
														
 
															-            if allreduce_group is not None:
														
 
															+
														
 
															+        while try_averaging:
														
 
															+            try:
														
 
															+                self._pending_group_assembled.clear()
														
 
															+                allreduce_group = await self._matchmaking.look_for_group(timeout=timeout)
														
 
															+                if allreduce_group is None:
														
 
															+                    raise AllreduceException("Averaging step failed: could not find a group.")
														
 
															+
														
 
															+                group_id = allreduce_group.group_id
														
 
															                 self._running_groups[group_id] = allreduce_group
														
 
															                 self._pending_group_assembled.set()
														
 
															-                future.set_result(await asyncio.wait_for(allreduce_group.run(), self.allreduce_timeout))
														
 
															-            else:
														
 
															-                raise AllreduceException(f"{self} - group_allreduce failed, unable to find a group")
														
 
															-
														
 
															-        except Exception as e:
														
 
															-            future.set_exception(e)
														
 
															-            raise
														
 
															-        finally:
														
 
															-            self._pending_group_assembled.set()
														
 
															-            if group_id is not None:
														
 
															+                averaging_deltas = await asyncio.wait_for(allreduce_group.run(), self.allreduce_timeout)
														
 
															+                update_ok = await loop.run_in_executor(None, lambda: self.update_tensors(averaging_deltas, add=True))
														
 
															+
														
 
															+                # averaging is finished, exit the loop
														
 
															+                future.set_result(update_ok)
														
 
															+                try_averaging = False
														
 
															+
														
 
															+            except AllreduceException:
														
 
															+                time_elapsed = get_dht_time() - start_time
														
 
															+                if not allow_retries or (timeout is not None and timeout < time_elapsed):
														
 
															+                    future.set_result(False)
														
 
															+                    try_averaging = False
														
 
															+
														
 
															+            except Exception as e:
														
 
															+                future.set_exception(e)
														
 
															+                raise
														
 
															+            finally:
														
 
															                 _ = self._running_groups.pop(group_id, None)
														
 
															+                self._pending_group_assembled.set()
														
 
															+
														
 
															+    def update_tensors(self, tensors: Sequence[torch.Tensor], *, add: bool = False) -> bool:
														
 
															+        """
														
 
															+        Set or change the values of self.averaged_tensors.
														
 
															+
														
 
															+        :param tensors: list/tuple of tensors of same shape as self.averaged_tensors
														
 
															+        :param add: if True, add tensors to self.averaged_tensors in-place
														
 
															+          by default, simply write the values of :tensors: to self.averaged_tensors
														
 
															+        :note: if there may be updates running in background, it is recommended to use add=True
														
 
															+        """
														
 
															+        assert len(tensors) == len(self._averaged_tensors)
														
 
															+        with torch.no_grad(), self.lock_averaged_tensors:
														
 
															+            for tensor, update in zip(self._averaged_tensors, tensors):
														
 
															+                if add:
														
 
															+                    tensor += update
														
 
															+                else:
														
 
															+                    tensor[...] = update
														
 
															+        return True
														
 
															+
														
 
															+    @contextlib.contextmanager
														
 
															+    def get_tensors(self) -> Sequence[torch.Tensor]:
														
 
															+        """
														
 
															+        A contextmanager that gives user access to averaged tensors.
														
 
															+        It is guaranteed that the averager will not modify tensors while this context is active.
														
 
															+
														
 
															+        Example:
														
 
															+              >>> with averager.get_tensors() as tensors:
														
 
															+              >>>     update_model(tensors)
														
 
															+              >>>     tensors[0] += 1
														
 
															+              >>> # do not use tensors after the lock is acquired
														
 
															+        """
														
 
															+        with self.lock_averaged_tensors:
														
 
															+            yield self._averaged_tensors
														
 
															     async def rpc_join_group(self, request: averaging_pb2.JoinRequest, context: grpc.ServicerContext
														
 
															                              ) -> AsyncIterator[averaging_pb2.MessageFromLeader]:
														
@@ -199,16 +252,22 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
															         async for response in self._matchmaking.rpc_join_group(request, context):
														
 
															             yield response
														
 
															-    async def rpc_aggregate_part(self, request: averaging_pb2.AveragingData, context: grpc.ServicerContext):
														
 
															+    async def rpc_aggregate_part(self, stream: AsyncIterator[averaging_pb2.AveragingData], context: grpc.ServicerContext
														
 
															+                                 ) -> AsyncIterator[averaging_pb2.AveragingData]:
														
 
															         """ a groupmate sends us a part of his tensor; we should average it with other peers and return the result """
														
 
															-        if request.group_id not in self._running_groups and not self._pending_group_assembled.is_set():
														
 
															+        request = await anext(stream)
														
 
															+        if request.group_id not in self._running_groups:
														
 
															             # this handles a special case when leader accepted us to group AND began allreduce right away,
														
 
															             # but his response with group_id was delayed and other peers got to us first
														
 
															             await self._pending_group_assembled.wait()
														
 
															-        if request.group_id not in self._running_groups:
														
 
															-            return averaging_pb2.AveragingData(code=averaging_pb2.BAD_GROUP_ID)
														
 
															-        else:
														
 
															-            return await self._running_groups[request.group_id].rpc_aggregate_part(request, context)
														
 
															+
														
 
															+        group = self._running_groups.get(request.group_id)
														
 
															+        if group is None:
														
 
															+            yield averaging_pb2.AveragingData(code=averaging_pb2.BAD_GROUP_ID)
														
 
															+            return
														
 
															+
														
 
															+        async for message in group.rpc_aggregate_part(achain(aiter(request), stream), context):
														
 
															+            yield message
														
 
															 def is_power_of_two(n):
														
--- a/hivemind/client/averaging/allreduce.py
+++ b/hivemind/client/averaging/allreduce.py
@@ -1,10 +1,11 @@
 
															 import asyncio
														
 
															-from typing import Sequence, Set, Dict, Tuple
														
 
															+from typing import Sequence, Set, Dict, Tuple, Iterable, AsyncIterator, Iterator
														
 
															 import grpc
														
 
															 import torch
														
 
															-from hivemind.utils import Endpoint, get_logger, serialize_torch_tensor, deserialize_torch_tensor, ChannelCache
														
 
															+from hivemind.utils import Endpoint, get_logger, ChannelCache, anext
														
 
															+from hivemind.utils import serialize_torch_tensor, deserialize_torch_tensor, split_for_streaming, combine_from_streaming
														
 
															 from hivemind.proto import averaging_pb2_grpc, runtime_pb2, averaging_pb2
														
 
															 # flavour types
														
@@ -19,25 +20,32 @@ class AllReduceProtocol:
 
															     :param tensors: local tensors that should be averaged with groupmates
														
 
															     :param endpoint: your endpoint, must be included in ordered_group_endpoints
														
 
															     :param ordered_group_endpoints: group endpoints ordered s.t. i-th endpoint is responsible for averaging i-th part
														
 
															+    :param return_deltas: if True, returns the element-wise differences (averaged_tensors - original_tensors)
														
 
															+           default (False) - return averaged_tensors by themselves
														
 
															     """
														
 
															+
														
 
															     def __init__(self, *, group_id: GroupID, tensors: Sequence[torch.Tensor], endpoint: Endpoint,
														
 
															-                 ordered_group_endpoints: Sequence[Endpoint]):
														
 
															+                 ordered_group_endpoints: Sequence[Endpoint], return_deltas: bool = False):
														
 
															         assert endpoint in ordered_group_endpoints, "endpoint is not a part of the group"
														
 
															         self.group_id, self.endpoint, self.ordered_group_endpoints = group_id, endpoint, ordered_group_endpoints
														
 
															         self.local_tensor_parts = dict(zip(ordered_group_endpoints, split_into_parts(tensors, self.group_size)))
														
 
															         self.tensor_shapes = tuple(tensor.shape for tensor in tensors)
														
 
															+        self.return_deltas = return_deltas
														
 
															         self.accumulator = self.local_tensor_parts[self.endpoint].clone()  # sum inputs from peers to this tensor
														
 
															         self.accumulated_from: Set[Endpoint] = {self.endpoint}  # peers that we have accumulated our part from
														
 
															         self.averaged_part: asyncio.Future[torch.Tensor] = asyncio.Future()  # will be set to [accumulator / group size]
														
 
															         self.averaged_tensor_parts: Dict[Endpoint, torch.Tensor] = {}  # averaged chunks from all peers will be put here
														
 
															-        self.averaged_tensors: asyncio.Future[Sequence[torch.Tensor]] = asyncio.Future()  # final result or exception
														
 
															+        self.future: asyncio.Future[Sequence[torch.Tensor]] = asyncio.Future()  # final result or exception
														
 
															     def __repr__(self):
														
 
															         return f"{self.__class__.__name__}({self.endpoint}, group_size={self.group_size})"
														
 
															     def __await__(self):
														
 
															-        return self.averaged_tensors.__await__()
														
 
															+        return self.future.__await__()
														
 
															+
														
 
															+    def __contains__(self, endpoint: Endpoint):
														
 
															+        return endpoint in self.local_tensor_parts
														
 
															     @property
														
 
															     def group_size(self):
														
@@ -46,7 +54,7 @@ class AllReduceProtocol:
 
															     async def accumulate_part(self, source: Endpoint, remote_part: torch.Tensor) -> torch.Tensor:
														
 
															         """ Add vector part to accumulator, wait for all other vectors to be added, then return the average part """
														
 
															         assert not self.averaged_part.done(), f"already finished averaging part: {self.averaged_part}"
														
 
															-        assert not self.averaged_tensors.done(), f"already finished allreduce: {self.averaged_tensors}"
														
 
															+        assert not self.future.done(), f"already finished allreduce: {self.future}"
														
 
															         assert source in self.local_tensor_parts, "unexpected source, not a part of current group"
														
 
															         assert source not in self.accumulated_from, "duplicate source, already received that part"
														
 
															         logger.debug(f"{self} - accumulating tensor part from {source}")
														
@@ -63,7 +71,7 @@ class AllReduceProtocol:
 
															         return await self.averaged_part
														
 
															     def register_averaged_part(self, source: Endpoint, averaged_part: torch.Tensor):
														
 
															-        assert not self.averaged_tensors.done(), f"already finished allreduce: {self.averaged_tensors}"
														
 
															+        assert not self.future.done(), f"already finished allreduce: {self.future}"
														
 
															         assert source in self.local_tensor_parts, "the provider of averaged part is not from my group"
														
 
															         assert source not in self.averaged_tensor_parts, "already registered the average from this peer"
														
 
															         assert averaged_part.shape == self.local_tensor_parts[source].shape, "averaged part shape mismatch"
														
@@ -72,28 +80,37 @@ class AllReduceProtocol:
 
															         self.averaged_tensor_parts[source] = averaged_part
														
 
															         if len(self.averaged_tensor_parts) == len(self.local_tensor_parts):
														
 
															             ordered_averaged_parts = [self.averaged_tensor_parts[endpoint] for endpoint in self.ordered_group_endpoints]
														
 
															-            self.averaged_tensors.set_result(restore_from_parts(ordered_averaged_parts, self.tensor_shapes))
														
 
															+            outputs = restore_from_parts(ordered_averaged_parts, self.tensor_shapes)
														
 
															+
														
 
															+            if self.return_deltas:
														
 
															+                local_parts = [self.local_tensor_parts[peer] for peer in self.ordered_group_endpoints]
														
 
															+                with torch.no_grad():
														
 
															+                    original_tensors = restore_from_parts(local_parts, self.tensor_shapes)
														
 
															+                    for averaged_tensor, original_tensor in zip(outputs, original_tensors):
														
 
															+                        averaged_tensor -= original_tensor
														
 
															+
														
 
															+            self.future.set_result(outputs)
														
 
															     def cancel(self) -> bool:
														
 
															-        if not self.averaged_tensors.done():
														
 
															+        if not self.future.done():
														
 
															             logger.debug(f"{self} - cancelled")
														
 
															-            self.averaged_tensors.cancel()
														
 
															+            self.future.cancel()
														
 
															             if not self.averaged_part.done():
														
 
															                 self.averaged_part.cancel()
														
 
															             return True
														
 
															         else:
														
 
															-            logger.debug(f"{self} - failed to cancel, allreduce is already finished: {self.averaged_tensors}")
														
 
															+            logger.debug(f"{self} - failed to cancel, allreduce is already finished: {self.future}")
														
 
															             return False
														
 
															     def set_exception(self, exception: Exception) -> bool:
														
 
															-        if not self.averaged_tensors.done():
														
 
															+        if not self.future.done():
														
 
															             logger.debug(f"{self} - {exception}")
														
 
															-            self.averaged_tensors.set_exception(exception)
														
 
															+            self.future.set_exception(exception)
														
 
															             if not self.averaged_part.done():
														
 
															                 self.averaged_part.cancel()
														
 
															             return True
														
 
															         else:
														
 
															-            logger.debug(f"{self} - failed to set {exception}, allreduce already finished: {self.averaged_tensors}")
														
 
															+            logger.debug(f"{self} - failed to set {exception}, allreduce already finished: {self.future}")
														
 
															             return False
														
@@ -101,11 +118,14 @@ class AllReduceRunner(AllReduceProtocol, averaging_pb2_grpc.DecentralizedAveragi
 
															     """
														
 
															     A class that implements ButterflyAllReduceProtocol on top of a gRPC servicer
														
 
															     """
														
 
															+
														
 
															     def __init__(self, *, group_id: GroupID, tensors: Sequence[torch.Tensor], endpoint: Endpoint,
														
 
															-                 ordered_group_endpoints: Sequence[Endpoint], compression_type: runtime_pb2.CompressionType):
														
 
															+                 ordered_group_endpoints: Sequence[Endpoint], compression_type: runtime_pb2.CompressionType,
														
 
															+                 chunk_size_bytes: int, return_deltas: bool = False):
														
 
															         super().__init__(group_id=group_id, tensors=tensors, endpoint=endpoint,
														
 
															-                         ordered_group_endpoints=ordered_group_endpoints)
														
 
															-        self.compression_type = compression_type
														
 
															+                         ordered_group_endpoints=ordered_group_endpoints, return_deltas=return_deltas)
														
 
															+        self.compression_type, self.chunk_size_bytes = compression_type, chunk_size_bytes
														
 
															+        self.averaged_part_stream: asyncio.Future[Tuple[runtime_pb2.Tensor, ...]] = asyncio.Future()
														
 
															     def _get_peer_stub(self, peer: Endpoint) -> averaging_pb2_grpc.DecentralizedAveragingStub:
														
 
															         return ChannelCache.get_stub(peer, averaging_pb2_grpc.DecentralizedAveragingStub, aio=True)
														
@@ -113,55 +133,84 @@ class AllReduceRunner(AllReduceProtocol, averaging_pb2_grpc.DecentralizedAveragi
 
															     async def _average_one_part(self, peer_endpoint: Endpoint, local_part: torch.Tensor) -> torch.Tensor:
														
 
															         """ Send one part of local tensors to one groupmate and collect the average for this part """
														
 
															         serialized_tensor_part = serialize_torch_tensor(local_part, self.compression_type, allow_inplace=False)
														
 
															-        response = await self._get_peer_stub(peer_endpoint).rpc_aggregate_part(
														
 
															-            averaging_pb2.AveragingData(code=averaging_pb2.PART_FOR_AVERAGING, group_id=self.group_id,
														
 
															-                                        endpoint=self.endpoint, tensor_part=serialized_tensor_part))
														
 
															-        if response.code == averaging_pb2.AVERAGED_PART:
														
 
															-            averaged_part = deserialize_torch_tensor(response.tensor_part)
														
 
															-            self.register_averaged_part(peer_endpoint, averaged_part)
														
 
															-            return averaged_part
														
 
															-        else:
														
 
															-            raise AllreduceException(f"peer {peer_endpoint} returned {averaging_pb2.MessageCode.Name(response.code)}"
														
 
															+        chunks = split_for_streaming(serialized_tensor_part, self.chunk_size_bytes)
														
 
															+
														
 
															+        stream = self._get_peer_stub(peer_endpoint).rpc_aggregate_part()
														
 
															+        await stream.write(averaging_pb2.AveragingData(code=averaging_pb2.PART_FOR_AVERAGING, group_id=self.group_id,
														
 
															+                                                       endpoint=self.endpoint, tensor_part=next(chunks)))
														
 
															+        for chunk in chunks:
														
 
															+            await stream.write(averaging_pb2.AveragingData(tensor_part=chunk))
														
 
															+        await stream.done_writing()
														
 
															+
														
 
															+        outputs: Sequence[averaging_pb2.AveragingData] = [message async for message in stream]
														
 
															+        code = outputs[0].code if outputs else averaging_pb2.INTERNAL_ERROR
														
 
															+        if code != averaging_pb2.AVERAGED_PART:
														
 
															+            raise AllreduceException(f"peer {peer_endpoint} returned {averaging_pb2.MessageCode.Name(code)}"
														
 
															                                      f" instead of {averaging_pb2.MessageCode.Name(averaging_pb2.AVERAGED_PART)},"
														
 
															                                      f" allreduce failed")
														
 
															+        averaged_part = deserialize_torch_tensor(combine_from_streaming([message.tensor_part for message in outputs]))
														
 
															+        self.register_averaged_part(peer_endpoint, averaged_part)
														
 
															+        return averaged_part
														
 
															+
														
 
															     async def _send_error_to_peer(self, peer_endpoint: Endpoint, code: averaging_pb2.MessageCode):
														
 
															-        await self._get_peer_stub(peer_endpoint).rpc_aggregate_part(averaging_pb2.AveragingData(
														
 
															-            group_id=self.group_id, endpoint=self.endpoint, code=code))
														
 
															+        stream = self._get_peer_stub(peer_endpoint).rpc_aggregate_part()
														
 
															+        await stream.write(averaging_pb2.AveragingData(group_id=self.group_id, endpoint=self.endpoint, code=code))
														
 
															+        await stream.done_writing()
														
 
															     async def run(self) -> Sequence[torch.Tensor]:
														
 
															-        """ send allreduce requests to all peers and collect results, return the averaged tensor """
														
 
															+        """
														
 
															+        send allreduce requests to all peers and collect results, return the averaged tensor (or deltas)
														
 
															+        """
														
 
															         try:
														
 
															             await asyncio.gather(self, *(self._average_one_part(peer, part)
														
 
															                                          for peer, part in self.local_tensor_parts.items() if peer != self.endpoint))
														
 
															             return await self
														
 
															-        except Exception as e:
														
 
															+        except BaseException as e:
														
 
															             code = averaging_pb2.CANCELLED if isinstance(e, asyncio.CancelledError) else averaging_pb2.INTERNAL_ERROR
														
 
															             logger.debug(f"{self} - notifying peers about {averaging_pb2.MessageCode.Name(code)}")
														
 
															             self.set_exception(e)
														
 
															             for peer_endpoint in self.ordered_group_endpoints:
														
 
															-                asyncio.create_task(self._send_error_to_peer(peer_endpoint, code))
														
 
															+                if peer_endpoint != self.endpoint:
														
 
															+                    asyncio.create_task(self._send_error_to_peer(peer_endpoint, code))
														
 
															             raise
														
 
															-    async def rpc_aggregate_part(self, request: averaging_pb2.AveragingData, context: grpc.ServicerContext):
														
 
															+    async def accumulate_part_streaming(self, source: Endpoint, stream_messages: Iterable[runtime_pb2.Tensor]
														
 
															+                                        ) -> Iterable[runtime_pb2.Tensor]:
														
 
															+        """ accumulate_part using streams of serialized tensors. Used to prevent duplicate work in serialization """
														
 
															+        tensor_part: torch.Tensor = deserialize_torch_tensor(combine_from_streaming(stream_messages))
														
 
															+        averaged_part = await self.accumulate_part(source, tensor_part)
														
 
															+        if not self.averaged_part_stream.done():
														
 
															+            serialized_tensor = serialize_torch_tensor(averaged_part, self.compression_type, allow_inplace=False)
														
 
															+            stream_chunks = tuple(split_for_streaming(serialized_tensor, self.chunk_size_bytes))
														
 
															+            self.averaged_part_stream.set_result(stream_chunks)
														
 
															+            return stream_chunks
														
 
															+        else:
														
 
															+            return self.averaged_part_stream.result()
														
 
															+
														
 
															+    async def rpc_aggregate_part(self, stream: AsyncIterator[averaging_pb2.AveragingData], context: grpc.ServicerContext
														
 
															+                                 ) -> AsyncIterator[averaging_pb2.AveragingData]:
														
 
															         """ a groupmate sends us a part of his tensor; we should average it with other peers and return the result """
														
 
															+        request: averaging_pb2.AveragingData = await anext(stream)
														
 
															+
														
 
															         if request.group_id != self.group_id:
														
 
															-            return averaging_pb2.AveragingData(code=averaging_pb2.BAD_GROUP_ID)
														
 
															+            yield averaging_pb2.AveragingData(code=averaging_pb2.BAD_GROUP_ID)
														
 
															-        if request.code == averaging_pb2.PART_FOR_AVERAGING:
														
 
															+        elif request.code == averaging_pb2.PART_FOR_AVERAGING:
														
 
															             try:
														
 
															-                tensor_part = deserialize_torch_tensor(request.tensor_part)
														
 
															-                averaged_part = await self.accumulate_part(request.endpoint, tensor_part)
														
 
															-                serialized = serialize_torch_tensor(averaged_part, request.tensor_part.compression, allow_inplace=False)
														
 
															-                return averaging_pb2.AveragingData(code=averaging_pb2.AVERAGED_PART, tensor_part=serialized)
														
 
															+                tensor_chunks = (request.tensor_part, *[msg.tensor_part async for msg in stream])
														
 
															+                averaged_chunks = iter(await self.accumulate_part_streaming(request.endpoint, tensor_chunks))
														
 
															+                yield averaging_pb2.AveragingData(code=averaging_pb2.AVERAGED_PART, tensor_part=next(averaged_chunks))
														
 
															+                for averaged_chunk in averaged_chunks:
														
 
															+                    yield averaging_pb2.AveragingData(tensor_part=averaged_chunk)
														
 
															             except Exception as e:
														
 
															                 self.set_exception(e)
														
 
															-                return averaging_pb2.AveragingData(code=averaging_pb2.INTERNAL_ERROR)
														
 
															+                yield averaging_pb2.AveragingData(code=averaging_pb2.INTERNAL_ERROR)
														
 
															         else:
														
 
															             error_code = averaging_pb2.MessageCode.Name(request.code)
														
 
															             logger.debug(f"{self} - peer {request.endpoint} sent {error_code}, allreduce cannot continue")
														
 
															             self.set_exception(AllreduceException(f"peer {request.endpoint} sent {error_code}."))
														
 
															-            return averaging_pb2.AveragingData(code=averaging_pb2.INTERNAL_ERROR)
														
 
															+            yield averaging_pb2.AveragingData(code=averaging_pb2.INTERNAL_ERROR)
														
 
															 def split_into_parts(tensors: Sequence[torch.Tensor], group_size: int) -> Tuple[torch.Tensor, ...]:
														
--- a/hivemind/client/averaging/matchmaking.py
+++ b/hivemind/client/averaging/matchmaking.py
@@ -6,7 +6,7 @@ import contextlib
 
															 import random
														
 
															 from dataclasses import asdict
														
 
															 from math import isfinite
														
 
															-from typing import Sequence, Optional, AsyncIterator, Set
														
 
															+from typing import Sequence, Optional, AsyncIterator, Set, Tuple
														
 
															 import asyncio
														
 
															 import torch
														
@@ -27,29 +27,41 @@ class Matchmaking(averaging_pb2_grpc.DecentralizedAveragingServicer):
 
															     f"""
														
 
															     An internal class that is used to form groups of averages for running allreduce
														
 
															     See DecentralizedAverager docstring for the detailed description of all parameters
														
 
															+    
														
 
															+    :note: on implementation: the current matchmaker protocol can encounter one type of (temporary) deadlock;
														
 
															+      This deadlock occurs when averager A requests averager B at the same time as averager B requests averager A.
														
 
															+      In that case, neither averager can process the other one's request because it is awaiting lock_request_join_group.
														
 
															+      This deadlock only happens if averagers have outdated information on expirations (due to network delays). 
														
 
															+      While A->B->A deadlock is easy to fix, it gets much harder with more peers (e.g. A -> B -> C -> D -> A).
														
 
															+      Hence, instead of accounting for such deadlocks, we simply break them with request_timeout.
														
 
															+    
														
 
															     """
														
 
															     def __init__(self, endpoint: Endpoint, averaged_tensors: Sequence[torch.Tensor], dht: hivemind.dht.DHT, *,
														
 
															                  prefix: str, target_group_size: int, min_group_size: int, initial_group_bits: Optional[str] = None,
														
 
															-                 averaging_expiration: float = 15, compression_type: runtime_pb2.CompressionType = runtime_pb2.NONE):
														
 
															+                 averaging_expiration: float = 15, request_timeout: float, **allreduce_kwargs):
														
 
															         assert '.' not in prefix, "group prefix must be a string without ."
														
 
															+        if request_timeout is None or request_timeout >= averaging_expiration:
														
 
															+            logger.warning("It is recommended to use request_timeout smaller than averaging_expiration. Otherwise,"
														
 
															+                           "matchmaking can cause deadlocks in some rare cases. Please see Matchmaking docstring.")
														
 
															         super().__init__()
														
 
															         self.dht, self.endpoint, self.averaged_tensors = dht, endpoint, tuple(averaged_tensors)
														
 
															         self.prefix, self.group_bits = prefix, initial_group_bits
														
 
															         self.target_group_size, self.min_group_size = target_group_size, min_group_size
														
 
															-        self.averaging_expiration, self.compression_type = averaging_expiration, compression_type
														
 
															-
														
 
															+        self.averaging_expiration, self.request_timeout = averaging_expiration, request_timeout
														
 
															+        self.allreduce_kwargs = allreduce_kwargs
														
 
															         self.schema_hash = compute_schema_hash(self.averaged_tensors)
														
 
															         self.lock_looking_for_group = asyncio.Lock()
														
 
															         self.lock_request_join_group = asyncio.Lock()
														
 
															-        self.cond_notify_followers = asyncio.Condition()
														
 
															+        self.follower_was_discarded = asyncio.Event()
														
 
															+        self.was_accepted_to_group = asyncio.Event()
														
 
															         self.assembled_group = asyncio.Future()
														
 
															         self.current_leader: Optional[Endpoint] = None  # iff i am a follower, this is a link to my current leader
														
 
															         self.current_followers: Set[Endpoint] = set()  # iff i am a leader, this contains my followers excluding myself
														
 
															-        self.potential_leaders = PotentialLeaders(self.endpoint, self.dht, self.averaging_expiration)
														
 
															+        self.potential_leaders = PotentialLeaders(endpoint, dht, averaging_expiration, target_group_size)
														
 
															     @property
														
 
															     def is_looking_for_group(self):
														
@@ -70,7 +82,7 @@ class Matchmaking(averaging_pb2_grpc.DecentralizedAveragingServicer):
 
															         return f"{self.__class__.__name__}(endpoint={self.endpoint}, schema={schema_hash_repr}, {lfg_status}" \
														
 
															                f" current key = {self.current_group_key})"
														
 
															-    async def look_for_group(self, *, timeout: Optional[float] = None) -> AllReduceRunner:
														
 
															+    async def look_for_group(self, *, timeout: Optional[float] = None) -> Optional[AllReduceRunner]:
														
 
															         """
														
 
															         :returns: an assembled group if successful, None if failed; does NOT perform the actual averaging
														
 
															         Iterate over the averagers from a given group_identifier that have higher leadership priority than yourself.
														
@@ -82,48 +94,58 @@ class Matchmaking(averaging_pb2_grpc.DecentralizedAveragingServicer):
 
															             request_leaders_task = asyncio.create_task(self._request_join_potential_leaders(timeout))
														
 
															             try:
														
 
															                 return await asyncio.wait_for(self.assembled_group, timeout=timeout)
														
 
															-            except Exception as e:
														
 
															+            except asyncio.TimeoutError:
														
 
															+                return None
														
 
															+
														
 
															+            except BaseException as e:
														
 
															                 if len(self.current_followers) > 0:
														
 
															                     async with self.lock_request_join_group:
														
 
															                         await self.leader_disband_group()
														
 
															-                self.assembled_group.set_exception(e)
														
 
															+                if not self.assembled_group.done():
														
 
															+                    self.assembled_group.set_exception(e)
														
 
															                 raise
														
 
															             finally:
														
 
															                 if not request_leaders_task.done():
														
 
															                     request_leaders_task.cancel()
														
 
															-                if self.assembled_group.done():
														
 
															-                    self.assembled_group = asyncio.Future()
														
 
															+                if not self.assembled_group.done():
														
 
															+                    self.assembled_group.cancel()
														
 
															+                while len(self.current_followers) > 0:
														
 
															+                    await self.follower_was_discarded.wait()
														
 
															+                    self.follower_was_discarded.clear()
														
 
															+                # note: the code above ensures that we send all followers away before creating new future
														
 
															+                self.assembled_group = asyncio.Future()
														
 
															+                self.was_accepted_to_group.clear()
														
 
															     async def _request_join_potential_leaders(self, timeout: Optional[float]) -> AllReduceRunner:
														
 
															         """ Request leaders from queue until we find the first runner. This coroutine is meant to run in background. """
														
 
															-        end_time = get_dht_time() + timeout if timeout is not None else float('inf')
														
 
															         async with self.potential_leaders.begin_search(self.current_group_key, timeout):
														
 
															             # TODO update group_bits on success! reduce number of bits on not enough peers.
														
 
															             # TODO after allreduce finishes, we may need to ask leader to notify lower keys about this
														
 
															             # (so as to fix possible network partitioning if some peers operate on a much smaller nbits)
														
 
															             while True:
														
 
															                 try:
														
 
															-                    time_to_expiration = self.potential_leaders.declared_expiration_time - get_dht_time()
														
 
															-                    next_best_leader = await asyncio.wait_for(
														
 
															-                        self.potential_leaders.pop_next_leader(),
														
 
															-                        timeout=time_to_expiration if isfinite(time_to_expiration) else None)
														
 
															-
														
 
															-                    request_expiration_time = min(self.potential_leaders.declared_expiration_time,
														
 
															-                                                  end_time, get_dht_time() + self.averaging_expiration)
														
 
															-                    group = await self.request_join_group(next_best_leader, request_expiration_time)
														
 
															+                    next_leader = await self.potential_leaders.pop_next_leader()  # throws TimeoutError on expiration
														
 
															+
														
 
															+                    group = await self.request_join_group(next_leader, self.potential_leaders.request_expiration_time)
														
 
															                     if group is not None:
														
 
															                         return group
														
 
															                 except asyncio.TimeoutError:
														
 
															                     async with self.lock_request_join_group:
														
 
															-                        if len(self.current_followers) >= self.min_group_size:
														
 
															+                        if self.assembled_group.done():
														
 
															+                            return self.assembled_group.result()
														
 
															+                        elif len(self.current_followers) + 1 >= self.min_group_size:
														
 
															                             # the time is up, we have a *good enough* group. run allreduce as is.
														
 
															                             return await self.leader_assemble_group()
														
 
															-                        else:
														
 
															+                        elif len(self.current_followers) > 0:
														
 
															                             await self.leader_disband_group()
														
 
															                             # TODO maybe adjust grid size
														
 
															-                            continue
														
 
															+                        continue
														
 
															+                except Exception as e:
														
 
															+                    if not self.assembled_group.done():
														
 
															+                        self.assembled_group.set_exception(e)
														
 
															+                    raise e
														
 
															     async def request_join_group(self, leader: Endpoint, expiration_time: DHTExpiration) -> Optional[AllReduceRunner]:
														
 
															         """
														
@@ -134,87 +156,101 @@ class Matchmaking(averaging_pb2_grpc.DecentralizedAveragingServicer):
 
															           The originally specified leader can disband group and redirect us to a different leader
														
 
															         """
														
 
															         assert self.is_looking_for_group and self.current_leader is None
														
 
															-        call: Optional[grpc.aio.UnaryStreamCall[averaging_pb2.JoinRequest, averaging_pb2.MessageFromLeader]] = None
														
 
															+        call: Optional[grpc.aio.UnaryStreamCall] = None
														
 
															         try:
														
 
															             async with self.lock_request_join_group:
														
 
															                 leader_stub = ChannelCache.get_stub(leader, averaging_pb2_grpc.DecentralizedAveragingStub, aio=True)
														
 
															                 call = leader_stub.rpc_join_group(averaging_pb2.JoinRequest(
														
 
															                     endpoint=self.endpoint, schema_hash=self.schema_hash, expiration=expiration_time))
														
 
															+                message = await asyncio.wait_for(call.read(), timeout=self.request_timeout)
														
 
															-                message = await call.read()
														
 
															-                if message.code != averaging_pb2.ACCEPTED:
														
 
															-                    code = averaging_pb2.MessageCode.Name(message.code)
														
 
															-                    logger.debug(f"{self.endpoint} - requested {leader} to be my leader, but got rejected with {code}")
														
 
															-                    return None
														
 
															+                if message.code == averaging_pb2.ACCEPTED:
														
 
															+                    logger.debug(f"{self.endpoint} - joining the group of {leader}; waiting for peers")
														
 
															+                    self.current_leader = leader
														
 
															+                    self.was_accepted_to_group.set()
														
 
															+                    if len(self.current_followers) > 0:
														
 
															+                        await self.leader_disband_group()
														
 
															-                # else: we were accepted
														
 
															-                logger.debug(f"{self.endpoint} - joining the group of {leader}; waiting for peers")
														
 
															-                self.current_leader = leader
														
 
															-                if len(self.current_followers) > 0:
														
 
															-                    await self.leader_disband_group()
														
 
															+            if message.code != averaging_pb2.ACCEPTED:
														
 
															+                code = averaging_pb2.MessageCode.Name(message.code)
														
 
															+                logger.debug(f"{self.endpoint} - requested {leader} to be my leader, but got rejected with {code}")
														
 
															+                return None
														
 
															             async with self.potential_leaders.pause_search():
														
 
															-                message = await call.read()
														
 
															+                time_to_expiration = max(expiration_time - get_dht_time(), 0.0)
														
 
															+                message = await asyncio.wait_for(call.read(), time_to_expiration + self.request_timeout)
														
 
															-            if message.code == averaging_pb2.BEGIN_ALLREDUCE:
														
 
															-                async with self.lock_request_join_group:
														
 
															-                    return await self.follower_assemble_group(leader, message.group_id, message.ordered_group_endpoints)
														
 
															-            elif message.code == averaging_pb2.GROUP_DISBANDED and bool(message.suggested_leader):
														
 
															-                logger.debug(f"{self} - leader disbanded group and redirected us to {message.suggested_leader}")
														
 
															-                return await self.request_join_group(message.suggested_leader, expiration_time)
														
 
															+                if message.code == averaging_pb2.BEGIN_ALLREDUCE:
														
 
															+                    async with self.lock_request_join_group:
														
 
															+                        return await self.follower_assemble_group(
														
 
															+                            leader, message.group_id, message.ordered_group_endpoints)
														
 
															+
														
 
															+            if message.code in (averaging_pb2.GROUP_DISBANDED, averaging_pb2.CANCELLED):
														
 
															+                if message.suggested_leader and message.suggested_leader != self.endpoint:
														
 
															+                    logger.debug(f"{self} - leader disbanded group and redirected us to {message.suggested_leader}")
														
 
															+                    self.current_leader = None
														
 
															+                    call.cancel()
														
 
															+                    return await self.request_join_group(message.suggested_leader, expiration_time)
														
 
															+                else:
														
 
															+                    logger.debug(f"{self} - leader disbanded group")
														
 
															+                    return None
														
 
															-            else:
														
 
															-                logger.debug(f"{self} - leader sent {averaging_pb2.MessageCode.Name(message.code)}, leaving group")
														
 
															-                return None
														
 
															+            logger.debug(f"{self} - unexpected message from leader: {averaging_pb2.MessageCode.Name(message.code)}")
														
 
															+            return None
														
 
															+        except asyncio.TimeoutError:
														
 
															+            logger.debug(f"{self} - potential leader {leader} did not respond within {self.request_timeout}")
														
 
															+            if call is not None:
														
 
															+                call.cancel()
														
 
															+            return None
														
 
															         finally:
														
 
															+            self.was_accepted_to_group.clear()
														
 
															             self.current_leader = None
														
 
															             if call is not None:
														
 
															-                call.cancel()
														
 
															+                await call.code()
														
 
															     async def rpc_join_group(self, request: averaging_pb2.JoinRequest, context: grpc.ServicerContext
														
 
															                              ) -> AsyncIterator[averaging_pb2.MessageFromLeader]:
														
 
															         """ accept or reject a join request from another averager; if accepted, run him through allreduce steps """
														
 
															         try:
														
 
															-            reason_to_reject = self._check_reasons_to_reject(request)
														
 
															-            if reason_to_reject is not None:
														
 
															-                yield reason_to_reject
														
 
															-                return
														
 
															-
														
 
															-            current_group = self.assembled_group  # copy current assembled_group to avoid overwriting
														
 
															             async with self.lock_request_join_group:
														
 
															+                reason_to_reject = self._check_reasons_to_reject(request)
														
 
															+                if reason_to_reject is not None:
														
 
															+                    yield reason_to_reject
														
 
															+                    return
														
 
															+
														
 
															                 self.current_followers.add(request.endpoint)
														
 
															                 yield averaging_pb2.MessageFromLeader(code=averaging_pb2.ACCEPTED)
														
 
															-                if len(self.current_followers) + 1 >= self.target_group_size:
														
 
															+                if len(self.current_followers) + 1 >= self.target_group_size and not self.assembled_group.done():
														
 
															                     # outcome 1: we have assembled a full group and are ready for allreduce
														
 
															                     await self.leader_assemble_group()
														
 
															-            if not current_group.done():
														
 
															-                try:
														
 
															-                    async with self.cond_notify_followers:
														
 
															-                        # wait for the group to be assembled or disbanded
														
 
															-                        timeout = max(0.0, self.potential_leaders.declared_expiration_time - get_dht_time())
														
 
															-                        await asyncio.wait_for(self.cond_notify_followers.wait(), timeout=timeout)
														
 
															-                except asyncio.TimeoutError:
														
 
															-                    async with self.lock_request_join_group:
														
 
															+            # wait for the group to be assembled or disbanded
														
 
															+            timeout = max(0.0, self.potential_leaders.declared_expiration_time - get_dht_time())
														
 
															+            await asyncio.wait({self.assembled_group, self.was_accepted_to_group.wait()},
														
 
															+                               return_when=asyncio.FIRST_COMPLETED, timeout=timeout)
														
 
															+            if not self.assembled_group.done() and not self.was_accepted_to_group.is_set():
														
 
															+                async with self.lock_request_join_group:
														
 
															+                    if self.assembled_group.done():
														
 
															+                        pass  # this covers a rare case when the group is assembled while the event loop was busy.
														
 
															+                    elif len(self.current_followers) + 1 >= self.min_group_size and self.is_looking_for_group:
														
 
															                         # outcome 2: the time is up, run allreduce with what we have or disband
														
 
															-                        if len(self.current_followers) + 1 >= self.min_group_size and self.is_looking_for_group:
														
 
															-                            await self.leader_assemble_group()
														
 
															-                        else:
														
 
															-                            await self.leader_disband_group()
														
 
															-
														
 
															-            if self.current_leader is not None:
														
 
															-                # outcome 3: found by a leader with higher priority, send our followers to him
														
 
															-                yield averaging_pb2.MessageFromLeader(code=averaging_pb2.GROUP_DISBANDED,
														
 
															-                                                      suggested_leader=self.current_leader)
														
 
															-                return
														
 
															+                        await self.leader_assemble_group()
														
 
															+                    else:
														
 
															+                        await self.leader_disband_group()
														
 
															-            if request.endpoint not in self.current_followers:
														
 
															-                yield averaging_pb2.MessageFromLeader(code=averaging_pb2.GROUP_DISBANDED)
														
 
															-                return
														
 
															+            if self.was_accepted_to_group.is_set() or not self.assembled_group.done() \
														
 
															+                    or self.assembled_group.cancelled() or request.endpoint not in self.assembled_group.result():
														
 
															+                if self.current_leader is not None:
														
 
															+                    # outcome 3: found by a leader with higher priority, send our followers to him
														
 
															+                    yield averaging_pb2.MessageFromLeader(code=averaging_pb2.GROUP_DISBANDED,
														
 
															+                                                          suggested_leader=self.current_leader)
														
 
															+                    return
														
 
															+                else:
														
 
															+                    yield averaging_pb2.MessageFromLeader(code=averaging_pb2.GROUP_DISBANDED)
														
 
															+                    return
														
 
															-            # finally, run allreduce
														
 
															-            allreduce_group = current_group.result()
														
 
															+            allreduce_group = self.assembled_group.result()
														
 
															             yield averaging_pb2.MessageFromLeader(
														
 
															                 code=averaging_pb2.BEGIN_ALLREDUCE, group_id=allreduce_group.group_id,
														
 
															                 ordered_group_endpoints=allreduce_group.ordered_group_endpoints)
														
@@ -225,10 +261,11 @@ class Matchmaking(averaging_pb2_grpc.DecentralizedAveragingServicer):
 
															         finally:  # note: this code is guaranteed to run even if the coroutine is destroyed prematurely
														
 
															             self.current_followers.discard(request.endpoint)
														
 
															+            self.follower_was_discarded.set()
														
 
															-    def _check_reasons_to_reject(self, request: averaging_pb2.JoinRequest) -> averaging_pb2.MessageFromLeader:
														
 
															+    def _check_reasons_to_reject(self, request: averaging_pb2.JoinRequest) -> Optional[averaging_pb2.MessageFromLeader]:
														
 
															         """ :returns: if accepted, return None, otherwise return a reason for rejection """
														
 
															-        if not self.is_looking_for_group:
														
 
															+        if not self.is_looking_for_group or self.assembled_group.done():
														
 
															             return averaging_pb2.MessageFromLeader(code=averaging_pb2.NOT_LOOKING_FOR_GROUP)
														
 
															         if request.ListFields() == 3 and not isinstance(request.schema_hash, bytes) or len(request.schema_hash) == 0 \
														
@@ -243,8 +280,8 @@ class Matchmaking(averaging_pb2_grpc.DecentralizedAveragingServicer):
 
															         elif self.potential_leaders.declared_expiration_time > (request.expiration or float('inf')):
														
 
															             return averaging_pb2.MessageFromLeader(code=averaging_pb2.BAD_EXPIRATION_TIME)
														
 
															         elif self.current_leader is not None:
														
 
															-            return averaging_pb2.MessageFromLeader(code=averaging_pb2.NOT_A_LEADER,
														
 
															-                                                   suggested_leader=self.current_leader)
														
 
															+            return averaging_pb2.MessageFromLeader(code=averaging_pb2.NOT_A_LEADER, suggested_leader=self.current_leader
														
 
															+                                                   )  # note: this suggested leader is currently ignored
														
 
															         elif request.endpoint == self.endpoint or request.endpoint in self.current_followers:
														
 
															             return averaging_pb2.MessageFromLeader(code=averaging_pb2.DUPLICATE_ENDPOINT)
														
 
															         elif len(self.current_followers) + 1 >= self.target_group_size:
														
@@ -255,68 +292,71 @@ class Matchmaking(averaging_pb2_grpc.DecentralizedAveragingServicer):
 
															     async def leader_assemble_group(self) -> AllReduceRunner:
														
 
															         """ Form up all current followers into a group and prepare to _run_allreduce """
														
 
															         assert self.lock_looking_for_group.locked() and self.lock_request_join_group.locked()
														
 
															+        assert not self.assembled_group.done()
														
 
															         group_id = DHTID.generate().to_bytes()
														
 
															         ordered_group_endpoints = list(self.current_followers)
														
 
															         ordered_group_endpoints.append(self.endpoint)
														
 
															         random.shuffle(ordered_group_endpoints)
														
 
															-        logger.debug(f"{self.endpoint} - leader started allreduce with {len(ordered_group_endpoints)} followers.")
														
 
															-        allreduce_group = AllReduceRunner(
														
 
															-            group_id=group_id, tensors=self.averaged_tensors, endpoint=self.endpoint,
														
 
															-            ordered_group_endpoints=ordered_group_endpoints, compression_type=self.compression_type)
														
 
															+        logger.debug(f"{self.endpoint} - leader started allreduce for {len(ordered_group_endpoints)} peers.")
														
 
															+        allreduce_group = AllReduceRunner(group_id=group_id, tensors=self.averaged_tensors, endpoint=self.endpoint,
														
 
															+                                          ordered_group_endpoints=ordered_group_endpoints, **self.allreduce_kwargs)
														
 
															         self.assembled_group.set_result(allreduce_group)
														
 
															-        async with self.cond_notify_followers:
														
 
															-            self.cond_notify_followers.notify_all()
														
 
															         return allreduce_group
														
 
															     async def follower_assemble_group(self, leader: Endpoint, group_id: GroupID,
														
 
															                                       ordered_group_endpoints: Sequence[Endpoint]) -> AllReduceRunner:
														
 
															         """ Prepare to run allreduce using a list of peers provided by our leader """
														
 
															         assert self.lock_looking_for_group.locked() and self.lock_request_join_group.locked()
														
 
															+        assert not self.assembled_group.done()
														
 
															         logger.debug(f"{self.endpoint} - follower started allreduce after being prompted by leader {leader}.")
														
 
															         assert self.current_leader == leader, f"averager does not follow {leader} (actual: {self.current_leader})"
														
 
															         assert self.endpoint in ordered_group_endpoints, "Leader sent us group_endpoints that does not contain us!"
														
 
															-        allreduce_group = AllReduceRunner(
														
 
															-            group_id=group_id, tensors=self.averaged_tensors, endpoint=self.endpoint,
														
 
															-            ordered_group_endpoints=ordered_group_endpoints, compression_type=self.compression_type)
														
 
															+        allreduce_group = AllReduceRunner(group_id=group_id, tensors=self.averaged_tensors, endpoint=self.endpoint,
														
 
															+                                          ordered_group_endpoints=ordered_group_endpoints, **self.allreduce_kwargs)
														
 
															         self.assembled_group.set_result(allreduce_group)
														
 
															-        async with self.cond_notify_followers:
														
 
															-            self.cond_notify_followers.notify_all()
														
 
															         return allreduce_group
														
 
															     async def leader_disband_group(self):
														
 
															         """ Kick out all followers immediately, optionally direct them to our new leader (if we found one) """
														
 
															         assert self.lock_request_join_group.locked()
														
 
															         self.current_followers.clear()  # this will cause rpc_join_group to kick all followers out
														
 
															-        async with self.cond_notify_followers:
														
 
															-            self.cond_notify_followers.notify_all()
														
 
															 class PotentialLeaders:
														
 
															     """ An utility class that searches for averagers that could become our leaders """
														
 
															-    def __init__(self, endpoint: Endpoint, dht: hivemind.DHT, averaging_expiration: DHTExpiration):
														
 
															+
														
 
															+    def __init__(self, endpoint: Endpoint, dht: hivemind.DHT, averaging_expiration: DHTExpiration,
														
 
															+                 target_group_size: Optional[int]):
														
 
															         self.endpoint, self.dht, self.averaging_expiration = endpoint, dht, averaging_expiration
														
 
															+        self.target_group_size = target_group_size
														
 
															         self.running, self.update_triggered, self.update_finished = asyncio.Event(), asyncio.Event(), asyncio.Event()
														
 
															+        self.declared_expiration, self.lock_search, self.lock_declare = asyncio.Event(), asyncio.Lock(), asyncio.Lock()
														
 
															         self.leader_queue = TimedStorage[Endpoint, DHTExpiration]()
														
 
															-        self.max_assured_time = float('-inf')
														
 
															+        self.past_attempts: Set[Tuple[Endpoint, DHTExpiration]] = set()
														
 
															         self.declared_expiration_time = float('inf')
														
 
															         self.declared_group_key: Optional[GroupKey] = None
														
 
															+        self.max_assured_time = float('-inf')
														
 
															         self.search_end_time = float('inf')
														
 
															     @contextlib.asynccontextmanager
														
 
															     async def begin_search(self, group_key: GroupKey, timeout: Optional[float]):
														
 
															-        assert not self.running.is_set(), "already running"
														
 
															-        self.running.set()
														
 
															-        self.search_end_time = get_dht_time() + timeout if timeout is not None else float('inf')
														
 
															-        update_queue_task = asyncio.create_task(self._update_queue_periodically(group_key))
														
 
															-        declare_averager_task = asyncio.create_task(self._declare_averager_periodically(group_key))
														
 
															-        try:
														
 
															-            yield self
														
 
															-        finally:
														
 
															-            update_queue_task.cancel()
														
 
															-            declare_averager_task.cancel()
														
 
															-            self.running.clear()
														
 
															-            self.update_triggered.clear()
														
 
															-            self.update_finished.clear()
														
 
															+        async with self.lock_search:
														
 
															+            self.running.set()
														
 
															+            self.search_end_time = get_dht_time() + timeout if timeout is not None else float('inf')
														
 
															+            update_queue_task = asyncio.create_task(self._update_queue_periodically(group_key))
														
 
															+            declare_averager_task = asyncio.create_task(self._declare_averager_periodically(group_key))
														
 
															+            try:
														
 
															+                yield self
														
 
															+            finally:
														
 
															+                if not update_queue_task.done():
														
 
															+                    update_queue_task.cancel()
														
 
															+                if not declare_averager_task.done():
														
 
															+                    declare_averager_task.cancel()
														
 
															+                for field in (self.past_attempts, self.leader_queue, self.running,
														
 
															+                              self.update_finished, self.update_triggered, self.declared_expiration):
														
 
															+                    field.clear()
														
 
															+                self.max_assured_time = float('-inf')
														
 
															+                self.search_end_time = float('inf')
														
 
															     @contextlib.asynccontextmanager
														
 
															     async def pause_search(self):
														
@@ -332,19 +372,34 @@ class PotentialLeaders:
 
															     async def pop_next_leader(self) -> Endpoint:
														
 
															         """ Remove and return the next most suitable leader or throw an exception if reached timeout """
														
 
															-        assert self.running, "Not running search at the moment"
														
 
															-        maybe_next_leader, entry = self.leader_queue.top()
														
 
															-
														
 
															-        next_entry_time = entry.expiration_time if maybe_next_leader is not None else get_dht_time()
														
 
															-        if self.max_assured_time < next_entry_time < self.search_end_time:
														
 
															-            self.update_triggered.set()
														
 
															+        assert self.running.is_set(), "Not running search at the moment"
														
 
															+        while True:
														
 
															+            maybe_next_leader, entry = self.leader_queue.top()
														
 
															+
														
 
															+            if maybe_next_leader is None or self.max_assured_time <= entry.expiration_time <= self.search_end_time:
														
 
															+                self.update_triggered.set()
														
 
															+
														
 
															+            if maybe_next_leader is None or entry.expiration_time >= self.declared_expiration_time:
														
 
															+                await asyncio.wait({self.update_finished.wait(), self.declared_expiration.wait()},
														
 
															+                                   return_when=asyncio.FIRST_COMPLETED)
														
 
															+                self.declared_expiration.clear()
														
 
															+                if self.update_finished.is_set():
														
 
															+                    self.update_finished.clear()
														
 
															+                    continue
														
 
															+                else:
														
 
															+                    raise asyncio.TimeoutError("pop_next_leader was invalidated: re-declared averager in background")
														
 
															-        if maybe_next_leader is None:
														
 
															-            await self.update_finished.wait()
														
 
															-            return await self.pop_next_leader()
														
 
															+            del self.leader_queue[maybe_next_leader]
														
 
															+            self.past_attempts.add((maybe_next_leader, entry.expiration_time))
														
 
															+            return maybe_next_leader
														
 
															-        del self.leader_queue[maybe_next_leader]
														
 
															-        return maybe_next_leader
														
 
															+    @property
														
 
															+    def request_expiration_time(self) -> float:
														
 
															+        """ this averager's current expiration time - used to send join requests to leaders """
														
 
															+        if isfinite(self.declared_expiration_time):
														
 
															+            return self.declared_expiration_time
														
 
															+        else:
														
 
															+            return min(get_dht_time() + self.averaging_expiration, self.search_end_time)
														
 
															     async def _update_queue_periodically(self, group_key: GroupKey):
														
 
															         DISCREPANCY = hivemind.utils.timed_storage.MAX_DHT_TIME_DISCREPANCY_SECONDS
														
@@ -352,14 +407,14 @@ class PotentialLeaders:
 
															             new_peers = await self.dht.get_averagers(group_key, only_active=True, return_future=True)
														
 
															             self.max_assured_time = max(self.max_assured_time, get_dht_time() + self.averaging_expiration - DISCREPANCY)
														
 
															+            self.leader_queue.clear()
														
 
															             for peer, peer_expiration_time in new_peers:
														
 
															-                if peer == self.endpoint:
														
 
															+                if peer == self.endpoint or (peer, peer_expiration_time) in self.past_attempts:
														
 
															                     continue
														
 
															                 self.leader_queue.store(peer, peer_expiration_time, peer_expiration_time)
														
 
															                 self.max_assured_time = max(self.max_assured_time, peer_expiration_time - DISCREPANCY)
														
 
															-            if len(self.leader_queue) > 0:
														
 
															-                self.update_finished.set()
														
 
															+            self.update_finished.set()
														
 
															             await asyncio.wait(
														
 
															                 {self.running.wait(), self.update_triggered.wait()}, return_when=asyncio.ALL_COMPLETED,
														
@@ -367,28 +422,31 @@ class PotentialLeaders:
 
															             self.update_triggered.clear()
														
 
															     async def _declare_averager_periodically(self, group_key: GroupKey):
														
 
															-        try:
														
 
															-            while True:
														
 
															-                new_expiration_time = min(get_dht_time() + self.averaging_expiration, self.search_end_time)
														
 
															-                self.declared_group_key, self.declared_expiration_time = group_key, new_expiration_time
														
 
															-                stored_ok = await self.dht.declare_averager(group_key, self.endpoint, new_expiration_time,
														
 
															-                                                            looking_for_group=True, return_future=True)
														
 
															-                if stored_ok:
														
 
															+        async with self.lock_declare:
														
 
															+            try:
														
 
															+                while True:
														
 
															+                    await self.running.wait()
														
 
															+
														
 
															+                    new_expiration_time = min(get_dht_time() + self.averaging_expiration, self.search_end_time)
														
 
															+                    self.declared_group_key, self.declared_expiration_time = group_key, new_expiration_time
														
 
															+                    self.declared_expiration.set()
														
 
															+                    await self.dht.declare_averager(group_key, self.endpoint, new_expiration_time,
														
 
															+                                                    looking_for_group=True, return_future=True)
														
 
															                     await asyncio.sleep(self.declared_expiration_time - get_dht_time())
														
 
															-                else:
														
 
															-                    logger.warning(f"Failed to subscribe to group {group_key} : store rejected by DHT peers")
														
 
															-        finally:
														
 
															-            if self.declared_group_key is not None:
														
 
															-                previous_declared_key, previous_expiration_time = self.declared_group_key, self.declared_expiration_time
														
 
															-                self.declared_group_key, self.declared_expiration_time = None, float('inf')
														
 
															-                self.leader_queue, self.max_assured_time = TimedStorage[Endpoint, DHTExpiration](), float('-inf')
														
 
															-                await self.dht.declare_averager(previous_declared_key, self.endpoint, previous_expiration_time,
														
 
															-                                                looking_for_group=False, return_future=True)
														
 
															+            except Exception as e:  # note: we catch exceptions here because otherwise they are never printed
														
 
															+                logger.error(f"{self.endpoint} - caught {type(e)}: {e}")
														
 
															+            finally:
														
 
															+                if self.declared_group_key is not None:
														
 
															+                    prev_declared_key, prev_expiration_time = self.declared_group_key, self.declared_expiration_time
														
 
															+                    self.declared_group_key, self.declared_expiration_time = None, float('inf')
														
 
															+                    self.leader_queue, self.max_assured_time = TimedStorage[Endpoint, DHTExpiration](), float('-inf')
														
 
															+                    await self.dht.declare_averager(prev_declared_key, self.endpoint, prev_expiration_time,
														
 
															+                                                    looking_for_group=False, return_future=True)
														
 
															 def compute_schema_hash(tensors: Sequence[torch.Tensor]) -> bytes:
														
 
															     """ A hash that describes follower's tensor shapes, dtypes, devices, but not the actual values """
														
 
															     schema_dicts = [{field_name: str(field_value)
														
 
															-                    for field_name, field_value in asdict(TensorDescriptor.from_tensor(tensor)).items()}
														
 
															+                     for field_name, field_value in asdict(TensorDescriptor.from_tensor(tensor)).items()}
														
 
															                     for tensor in tensors]
														
 
															     return DHTID.generate(source=MSGPackSerializer.dumps(schema_dicts)).to_bytes()
														
--- a/hivemind/dht/__init__.py
+++ b/hivemind/dht/__init__.py
@@ -27,7 +27,7 @@ from numpy import nextafter
 
															 from hivemind.client import RemoteExpert
														
 
															 from hivemind.dht.node import DHTNode, DHTID, DHTExpiration
														
 
															 from hivemind.dht.routing import get_dht_time, DHTValue
														
 
															-from hivemind.utils import MPFuture, Endpoint, get_logger
														
 
															+from hivemind.utils import MPFuture, Endpoint, get_logger, switch_to_uvloop
														
 
															 logger = get_logger(__name__)
														
@@ -141,11 +141,7 @@ class DHT(mp.Process):
 
															     def run(self) -> None:
														
 
															         """ Serve DHT forever. This function will not return until DHT node is shut down """
														
 
															-        if asyncio.get_event_loop().is_running():
														
 
															-            asyncio.get_event_loop().stop()  # if we're in jupyter, get rid of its built-in event loop
														
 
															-        uvloop.install()
														
 
															-        loop = asyncio.new_event_loop()
														
 
															-        asyncio.set_event_loop(loop)
														
 
															+        loop = switch_to_uvloop()
														
 
															         pipe_awaiter = ThreadPoolExecutor(self.receiver_threads)
														
 
															         async def _run():
														
@@ -497,13 +493,14 @@ class DHT(mp.Process):
 
															     async def _declare_averager(self, node: DHTNode, *, group_key: str, endpoint: Endpoint,
														
 
															                                 expiration_time: DHTExpiration, looking_for_group: bool, future: MPFuture):
														
 
															         try:
														
 
															-            expiration_time = expiration_time if looking_for_group else nextafter(expiration_time, float('inf'))
														
 
															+            expiration_time = expiration_time if looking_for_group else float(nextafter(expiration_time, float('inf')))
														
 
															             # ^-- when declaring averager inactive, we increment expiration time to overwrite the pre-existing entry
														
 
															             store_ok = await node.store(
														
 
															                 key=group_key, subkey=endpoint, value=looking_for_group, expiration_time=expiration_time)
														
 
															             future.set_result(store_ok)
														
 
															         except Exception as e:
														
 
															-            future.set_exception(e)
														
 
															+            if not future.done():
														
 
															+                future.set_exception(e)
														
 
															     def get_averagers(self, group_key: GroupKey, *, only_active: bool = True, return_future: bool = False
														
 
															                       ) -> Union[List[Tuple[Endpoint, DHTExpiration]], MPFuture]:
														
@@ -534,4 +531,5 @@ class DHT(mp.Process):
 
															                          if not only_active or entry.value is True]
														
 
															             future.set_result(averagers)
														
 
															         except Exception as e:
														
 
															-            future.set_exception(e)
														
 
															+            if not future.done():
														
 
															+                future.set_exception(e)
														
--- a/hivemind/dht/node.py
+++ b/hivemind/dht/node.py
@@ -357,7 +357,7 @@ class DHTNode:
 
															         """
														
 
															         if latest:
														
 
															             kwargs["sufficient_expiration_time"] = float('inf')
														
 
															-        result = await self.get_many([key])
														
 
															+        result = await self.get_many([key], **kwargs)
														
 
															         return result[key]
														
 
															     async def get_many(self, keys: Collection[DHTKey], sufficient_expiration_time: Optional[DHTExpiration] = None,
														
@@ -579,10 +579,20 @@ class _SearchState:
 
															     future: asyncio.Future[Optional[ValueWithExpiration[DHTValue]]] = field(default_factory=asyncio.Future)
														
 
															     serializer: type(SerializerBase) = MSGPackSerializer
														
 
															-    def add_candidate(self, candidate: Optional[ValueWithExpiration[BinaryDHTValue]], source_node_id: Optional[DHTID]):
														
 
															-        binary_value, expiration_time = candidate or (None, -float('inf'))
														
 
															-        if not self.finished and expiration_time > (self.expiration_time or -float('inf')):
														
 
															-            self.binary_value, self.expiration_time, self.source_node_id = binary_value, expiration_time, source_node_id
														
 
															+    def add_candidate(self, candidate: Optional[ValueWithExpiration[Union[BinaryDHTValue, DictionaryDHTValue]]],
														
 
															+                      source_node_id: Optional[DHTID]):
														
 
															+        if self.finished or candidate is None:
														
 
															+            return
														
 
															+        elif isinstance(candidate.value, DictionaryDHTValue) and isinstance(self.binary_value, DictionaryDHTValue):
														
 
															+            self.binary_value.maxsize = max(self.binary_value.maxsize, candidate.value.maxsize)
														
 
															+            for subkey, subentry in candidate.value.items():
														
 
															+                self.binary_value.store(subkey, subentry.value, subentry.expiration_time)
														
 
															+        elif candidate.expiration_time > (self.expiration_time or float('-inf')):
														
 
															+            self.binary_value = candidate.value
														
 
															+
														
 
															+        if candidate.expiration_time > (self.expiration_time or float('-inf')):
														
 
															+            self.expiration_time = candidate.expiration_time
														
 
															+            self.source_node_id = source_node_id
														
 
															             if self.expiration_time >= self.sufficient_expiration_time:
														
 
															                 self.finish_search()
														
--- a/hivemind/dht/protocol.py
+++ b/hivemind/dht/protocol.py
@@ -44,7 +44,7 @@ class DHTProtocol(dht_grpc.DHTServicer):
 
															         """
														
 
															         self = cls(_initialized_with_create=True)
														
 
															         self.node_id, self.bucket_size, self.num_replicas = node_id, bucket_size, num_replicas
														
 
															-        self.wait_timeout, self.channel_options = wait_timeout, channel_options
														
 
															+        self.wait_timeout, self.channel_options = wait_timeout, tuple(channel_options)
														
 
															         self.storage, self.cache = DHTLocalStorage(), DHTLocalStorage(maxsize=cache_size)
														
 
															         self.routing_table = RoutingTable(node_id, bucket_size, depth_modulo)
														
 
															         self.rpc_semaphore = asyncio.Semaphore(parallel_rpc if parallel_rpc is not None else float('inf'))
														
--- a/hivemind/proto/averaging.proto
+++ b/hivemind/proto/averaging.proto
@@ -5,7 +5,7 @@ import "runtime.proto";
 
															 // Runs alongside each trainer to perform gating function averaging every now and then. Read more: client/averaging.py
														
 
															 service DecentralizedAveraging {
														
 
															   rpc rpc_join_group(JoinRequest) returns (stream MessageFromLeader);  // assemble a group for allreduce
														
 
															-  rpc rpc_aggregate_part(AveragingData) returns (AveragingData);  // send my local shard => get aggregated shard
														
 
															+  rpc rpc_aggregate_part(stream AveragingData) returns (stream AveragingData);  // send local part => get average part
														
 
															 }
														
 
															 enum MessageCode {
														
--- a/hivemind/proto/runtime.proto
+++ b/hivemind/proto/runtime.proto
@@ -38,5 +38,6 @@ message Tensor {
 
															   bool requires_grad = 3;
														
 
															   string dtype = 4;
														
 
															   CompressionType compression = 5;
														
 
															+  int32 chunks = 6;
														
 
															 }
														
--- a/hivemind/utils/__init__.py
+++ b/hivemind/utils/__init__.py
@@ -7,3 +7,4 @@ from hivemind.utils.threading import *
 
															 from hivemind.utils.grpc import *
														
 
															 from hivemind.utils.timed_storage import *
														
 
															 from hivemind.utils.logging import get_logger
														
 
															+from hivemind.utils.asyncio import *
														
--- a/hivemind/utils/asyncio.py
+++ b/hivemind/utils/asyncio.py
@@ -0,0 +1,34 @@
 
															+from typing import TypeVar, AsyncIterator, Union, AsyncIterable
														
 
															+import asyncio
														
 
															+import uvloop
														
 
															+T = TypeVar('T')
														
 
															+
														
 
															+
														
 
															+def switch_to_uvloop() -> asyncio.AbstractEventLoop:
														
 
															+    """ stop any running event loops; install uvloop; then create, set and return a new event loop """
														
 
															+    try:
														
 
															+        asyncio.get_event_loop().stop()  # if we're in jupyter, get rid of its built-in event loop
														
 
															+    except RuntimeError as error_no_event_loop:
														
 
															+        pass  # this allows running DHT from background threads with no event loop
														
 
															+    uvloop.install()
														
 
															+    loop = asyncio.new_event_loop()
														
 
															+    asyncio.set_event_loop(loop)
														
 
															+    return loop
														
 
															+
														
 
															+
														
 
															+async def anext(aiter: AsyncIterator[T]) -> Union[T, StopAsyncIteration]:
														
 
															+    """ equivalent to next(iter) for asynchronous iterators. Modifies aiter in-place! """
														
 
															+    return await aiter.__anext__()
														
 
															+
														
 
															+
														
 
															+async def aiter(*args: T) -> AsyncIterator[T]:
														
 
															+    """ create an asynchronous iterator from a sequence of values """
														
 
															+    for arg in args:
														
 
															+        yield arg
														
 
															+
														
 
															+
														
 
															+async def achain(*async_iters: AsyncIterable[T]) -> AsyncIterator[T]:
														
 
															+    """ equivalent to chain(iter1, iter2, ...) for asynchronous iterators. """
														
 
															+    for aiter in async_iters:
														
 
															+        async for elem in aiter:
														
 
															+            yield elem
														
--- a/hivemind/utils/grpc.py
+++ b/hivemind/utils/grpc.py
@@ -2,19 +2,20 @@
 
															 Utilities for running GRPC services: compile protobuf, patch legacy versions, etc
														
 
															 """
														
 
															 from __future__ import annotations
														
 
															+
														
 
															 import os
														
 
															 import threading
														
 
															-from typing import NamedTuple, Tuple, Optional, Union, Any, Dict, TypeVar, Type
														
 
															+from typing import NamedTuple, Tuple, Optional, Union, Any, Dict, TypeVar, Type, Iterator, Iterable
														
 
															 import grpc
														
 
															 import numpy as np
														
 
															 import torch
														
 
															+from hivemind.proto.runtime_pb2 import CompressionType
														
 
															 from hivemind.proto import runtime_pb2
														
 
															-from hivemind.proto.runtime_pb2 import CompressionType
														
 
															-from hivemind.utils.timed_storage import TimedStorage, get_dht_time, ValueWithExpiration
														
 
															-from hivemind.utils.networking import Endpoint
														
 
															 from hivemind.utils.logging import get_logger
														
 
															+from hivemind.utils.networking import Endpoint
														
 
															+from hivemind.utils.timed_storage import TimedStorage, get_dht_time, ValueWithExpiration
														
 
															 logger = get_logger(__name__)
														
@@ -235,3 +236,27 @@ def deserialize_torch_tensor(serialized_tensor: runtime_pb2.Tensor) -> torch.Ten
 
															     tensor.requires_grad_(serialized_tensor.requires_grad)
														
 
															     return tensor
														
 
															+
														
 
															+
														
 
															+def split_for_streaming(serialized_tensor: runtime_pb2.Tensor, chunk_size_bytes: int) -> Iterator[runtime_pb2.Tensor]:
														
 
															+    """ Split serialized_tensor into multiple chunks for gRPC streaming """
														
 
															+    buffer = memoryview(serialized_tensor.buffer)
														
 
															+    num_chunks = len(range(0, len(buffer), chunk_size_bytes))
														
 
															+    yield runtime_pb2.Tensor(
														
 
															+        compression=serialized_tensor.compression, buffer=buffer[:chunk_size_bytes].tobytes(), chunks=num_chunks,
														
 
															+        size=serialized_tensor.size, dtype=serialized_tensor.dtype, requires_grad=serialized_tensor.requires_grad)
														
 
															+    for chunk_start in range(chunk_size_bytes, len(buffer), chunk_size_bytes):
														
 
															+        yield runtime_pb2.Tensor(buffer=buffer[chunk_start: chunk_start + chunk_size_bytes].tobytes())
														
 
															+
														
 
															+
														
 
															+def combine_from_streaming(stream: Iterable[runtime_pb2.Tensor]) -> runtime_pb2.Tensor:
														
 
															+    """ Restore a result of split_into_chunks into a single serialized tensor """
														
 
															+    stream = iter(stream)
														
 
															+    first_chunk = next(stream)
														
 
															+    serialized_tensor = runtime_pb2.Tensor()
														
 
															+    serialized_tensor.CopyFrom(first_chunk)
														
 
															+    buffer_chunks = [first_chunk.buffer]
														
 
															+    for tensor_part in stream:
														
 
															+        buffer_chunks.append(tensor_part.buffer)
														
 
															+    serialized_tensor.buffer = b''.join(buffer_chunks)
														
 
															+    return serialized_tensor
														
--- a/hivemind/utils/mpfuture.py
+++ b/hivemind/utils/mpfuture.py
@@ -54,7 +54,7 @@ class MPFuture(base.Future):
 
															                 self.connection.close()
														
 
															         except TimeoutError as e:
														
 
															             raise e
														
 
															-        except (BrokenPipeError, OSError) as e:
														
 
															+        except (BrokenPipeError, OSError, EOFError) as e:
														
 
															             if self._state in (base.PENDING, base.RUNNING):
														
 
															                 self._state, self._exception = base.FINISHED, e
														
--- a/hivemind/utils/tensor_descr.py
+++ b/hivemind/utils/tensor_descr.py
@@ -1,3 +1,4 @@
 
															+import warnings
														
 
															 from dataclasses import dataclass, asdict
														
 
															 import torch
														
@@ -6,6 +7,9 @@ from hivemind.proto.runtime_pb2 import CompressionType
 
															 DUMMY_BATCH_SIZE = 3  # used for dummy runs only
														
 
															+warnings.filterwarnings("ignore", "CUDA initialization*", category=UserWarning)
														
 
															+# ^-- cures https://github.com/pytorch/pytorch/issues/47038
														
 
															+
														
 
															 @dataclass(init=True, repr=True, frozen=True)
														
 
															 class DescriptorBase:
														
--- a/hivemind/utils/timed_storage.py
+++ b/hivemind/utils/timed_storage.py
@@ -81,6 +81,11 @@ class TimedStorage(Generic[KeyType, ValueType]):
 
															             return top_key, self.data[top_key]
														
 
															         return None, None
														
 
															+    def clear(self):
														
 
															+        self.data.clear()
														
 
															+        self.key_to_heap.clear()
														
 
															+        self.expiration_heap.clear()
														
 
															+
														
 
															     def __contains__(self, key: KeyType):
														
 
															         self._remove_outdated()
														
 
															         return key in self.data
														
--- a/tests/benchmark_averaging.py
+++ b/tests/benchmark_averaging.py
@@ -0,0 +1,88 @@
 
															+import time
														
 
															+import threading
														
 
															+import argparse
														
 
															+
														
 
															+import torch
														
 
															+import hivemind
														
 
															+from hivemind.utils import LOCALHOST, increase_file_limit
														
 
															+from hivemind.proto import runtime_pb2
														
 
															+
														
 
															+
														
 
															+def sample_tensors(hid_size, num_layers):
														
 
															+    tensors = []
														
 
															+    for i in range(num_layers):
														
 
															+        tensors.append(torch.randn(hid_size, 3 * hid_size))
														
 
															+        tensors.append(torch.randn(3 * hid_size))
														
 
															+        tensors.append(torch.randn(3 * hid_size))
														
 
															+        tensors.append(torch.randn(hid_size, hid_size))
														
 
															+        tensors.append(torch.ones(hid_size))
														
 
															+        tensors.append(torch.zeros(hid_size))
														
 
															+        tensors.append(torch.randn(hid_size, 4 * hid_size))
														
 
															+        tensors.append(torch.randn(4 * hid_size))
														
 
															+        tensors.append(torch.ones(4 * hid_size))
														
 
															+        tensors.append(torch.randn(2, hid_size, hid_size, 2))
														
 
															+        tensors.append(torch.randn(hid_size))
														
 
															+        tensors.append(torch.randn(hid_size))
														
 
															+        tensors.append(torch.randn(hid_size))
														
 
															+    return tuple(tensors)
														
 
															+
														
 
															+
														
 
															+def benchmark_averaging(num_peers: int, target_group_size: int, num_rounds: int,
														
 
															+                        averaging_expiration: float, request_timeout: float, round_timeout: float,
														
 
															+                        hid_size: int, num_layers: int, spawn_dtime: float):
														
 
															+    dht_root = hivemind.DHT(listen_on=f'{LOCALHOST}:*', start=True)
														
 
															+    peer_tensors = [sample_tensors(hid_size, num_layers)
														
 
															+                    for _ in range(num_peers)]
														
 
															+    processes = {dht_root}
														
 
															+
														
 
															+    def run_averager(index):
														
 
															+        dht = hivemind.DHT(listen_on=f'{LOCALHOST}:*',
														
 
															+                           initial_peers=[f"{LOCALHOST}:{dht_root.port}"],
														
 
															+                           start=True)
														
 
															+        averager = hivemind.DecentralizedAverager(
														
 
															+            peer_tensors[i], dht, prefix='my_tensor', initial_group_bits='0110', listen_on=f"{LOCALHOST}:*",
														
 
															+            compression_type=runtime_pb2.CompressionType.FLOAT16, target_group_size=target_group_size,
														
 
															+            averaging_expiration=averaging_expiration, request_timeout=request_timeout, start=True)
														
 
															+        processes.update({dht, averager})
														
 
															+
														
 
															+        print(end=f'<started {index}>\n', flush=True)
														
 
															+        for _ in range(num_rounds):
														
 
															+            success = averager.step(timeout=round_timeout)
														
 
															+            print(end=('+' if success else '-'), flush=True)
														
 
															+        print(end=f'<finished {index}>\n', flush=True)
														
 
															+
														
 
															+    threads = []
														
 
															+    for i in range(num_peers):
														
 
															+        thread = threading.Thread(target=run_averager, args=[i])
														
 
															+        threads.append(thread)
														
 
															+        thread.start()
														
 
															+        time.sleep(spawn_dtime)
														
 
															+
														
 
															+    t = time.time()
														
 
															+    for thread in threads:
														
 
															+        thread.join()
														
 
															+
														
 
															+    print(f"\ntest run took {time.time() - t:.3f} seconds")
														
 
															+
														
 
															+    for process in processes:
														
 
															+        process.terminate()
														
 
															+
														
 
															+
														
 
															+if __name__ == "__main__":
														
 
															+    parser = argparse.ArgumentParser()
														
 
															+    parser.add_argument('--num_peers', type=int, default=16, required=False)
														
 
															+    parser.add_argument('--target_group_size', type=int, default=4, required=False)
														
 
															+    parser.add_argument('--num_rounds', type=int, default=5, required=False)
														
 
															+    parser.add_argument('--hid_size', type=int, default=256, required=False)
														
 
															+    parser.add_argument('--num_layers', type=int, default=3, required=False)
														
 
															+    parser.add_argument('--averaging_expiration', type=float, default=15, required=False)
														
 
															+    parser.add_argument('--round_timeout', type=float, default=30, required=False)
														
 
															+    parser.add_argument('--request_timeout', type=float, default=3, required=False)
														
 
															+    parser.add_argument('--spawn_dtime', type=float, default=0.1, required=False)
														
 
															+    parser.add_argument('--increase_file_limit', action="store_true")
														
 
															+    args = vars(parser.parse_args())
														
 
															+
														
 
															+    if args.pop('increase_file_limit', False):
														
 
															+        increase_file_limit()
														
 
															+
														
 
															+    benchmark_averaging(**args)
														
--- a/tests/test_averaging.py
+++ b/tests/test_averaging.py
@@ -34,8 +34,7 @@ def test_getset_averagers():
 
															 @pytest.mark.forked
														
 
															-@pytest.mark.asyncio
														
 
															-async def test_allreduce_once():
														
 
															+def test_allreduce_once():
														
 
															     dht = hivemind.DHT(start=True)
														
 
															     tensors1 = [torch.randn(123), torch.zeros(3)]
														
@@ -52,12 +51,14 @@ async def test_allreduce_once():
 
															     futures = []
														
 
															     for averager in averagers:
														
 
															-        futures.append(averager.step(return_future=True))  # TODO revert to hard version
														
 
															-        time.sleep(0.5)
														
 
															-
														
 
															+        futures.append(averager.step(wait=False))
														
 
															     for future in futures:
														
 
															-        for ref, our in zip(reference, future.result()):
														
 
															-            assert torch.allclose(ref, our)
														
 
															+        assert future.result() is True
														
 
															+
														
 
															+    for averager in averagers:
														
 
															+        with averager.get_tensors() as averaged_tensors:
														
 
															+            for ref, our in zip(reference, averaged_tensors):
														
 
															+                assert torch.allclose(ref, our, atol=1e-6)
														
 
															 @pytest.mark.forked
														
@@ -90,7 +91,7 @@ async def test_allreduce_protocol():
 
															     ]
														
 
															     for peer, allreduce in zip(peers, allreduce_protocols):
														
 
															-        assert allreduce.averaged_tensors.done()
														
 
															+        assert allreduce.future.done()
														
 
															         averaged_tensors = await allreduce
														
 
															         assert len(averaged_tensors) == len(reference_tensors)
														
 
															         assert all(torch.allclose(our, ref, atol=1e-6, rtol=0)
														
@@ -98,7 +99,7 @@ async def test_allreduce_protocol():
 
															 @pytest.mark.forked
														
 
															-def test_chunks():
														
 
															+def test_partitioning():
														
 
															     for _ in range(100):
														
 
															         tensors = []
														
 
															         for _ in range(random.randint(1, 5)):
														
--- a/tests/test_util_modules.py
+++ b/tests/test_util_modules.py
@@ -166,3 +166,28 @@ async def test_channel_cache():
 
															         for j in range(i + 1, len(all_channels)):
														
 
															             ci, cj = all_channels[i], all_channels[j]
														
 
															             assert (ci is cj) == ((ci, cj) in duplicates), (i, j)
														
 
															+
														
 
															+
														
 
															+def test_serialize_tensor():
														
 
															+    tensor = torch.randn(512, 12288)
														
 
															+
														
 
															+    serialized_tensor = hivemind.serialize_torch_tensor(tensor, hivemind.CompressionType.NONE)
														
 
															+    for chunk_size in [1024, 64 * 1024, 64 * 1024 + 1, 10 ** 9]:
														
 
															+        chunks = list(hivemind.split_for_streaming(serialized_tensor, chunk_size))
														
 
															+        assert len(chunks) == (len(serialized_tensor.buffer) - 1) // chunk_size + 1
														
 
															+        restored = hivemind.combine_from_streaming(chunks)
														
 
															+        assert torch.allclose(hivemind.deserialize_torch_tensor(restored), tensor)
														
 
															+
														
 
															+    chunk_size = 30 * 1024
														
 
															+    serialized_tensor = hivemind.serialize_torch_tensor(tensor, hivemind.CompressionType.FLOAT16)
														
 
															+    chunks = list(hivemind.split_for_streaming(serialized_tensor, chunk_size))
														
 
															+    assert len(chunks) == (len(serialized_tensor.buffer) - 1) // chunk_size + 1
														
 
															+    restored = hivemind.combine_from_streaming(chunks)
														
 
															+    assert torch.allclose(hivemind.deserialize_torch_tensor(restored), tensor, rtol=0, atol=1e-2)
														
 
															+
														
 
															+    tensor = torch.randint(0, 100, (512, 1, 1))
														
 
															+    serialized_tensor = hivemind.serialize_torch_tensor(tensor, hivemind.CompressionType.NONE)
														
 
															+    chunks = list(hivemind.split_for_streaming(serialized_tensor, chunk_size))
														
 
															+    assert len(chunks) == (len(serialized_tensor.buffer) - 1) // chunk_size + 1
														
 
															+    restored = hivemind.combine_from_streaming(chunks)
														
 
															+    assert torch.allclose(hivemind.deserialize_torch_tensor(restored), tensor)