%!s(int64=4) %!d(string=hai) anos · 0a0e290ea3
--- a/docs/modules/client.rst
+++ b/docs/modules/client.rst
@@ -25,4 +25,4 @@
 
				 .. autoclass:: DecentralizedAverager
			
 
				    :members:
			
 
				    :member-order: bysource
			
 
				-   :exclude-members: get_tensors, get_tensors_async, update_tensors, rpc_join_group, rpc_aggregate_part
			
 
				+   :exclude-members: get_tensors, get_tensors_async, update_tensors, rpc_join_group, rpc_aggregate_part, register_allreduce_group
			
--- a/hivemind/client/averaging/__init__.py
+++ b/hivemind/client/averaging/__init__.py
@@ -20,6 +20,7 @@ import torch
 
				 import numpy as np
			
 
				 
			
 
				 from hivemind.dht import DHT, DHTID
			
 
				+from hivemind.client.averaging.partition import DEFAULT_PART_SIZE_BYTES
			
 
				 from hivemind.client.averaging.allreduce import AllReduceRunner, AllreduceException, GroupID, AveragingMode
			
 
				 from hivemind.client.averaging.load_balancing import load_balance_peers
			
 
				 from hivemind.client.averaging.matchmaking import Matchmaking, MatchmakingException
			
@@ -34,9 +35,8 @@ from hivemind.utils import Endpoint, Port, MPFuture, get_logger, TensorDescripto
 
				 
			
 
				 # flavour types
			
 
				 StreamCallToLeader = grpc.aio.UnaryStreamCall[averaging_pb2.JoinRequest, averaging_pb2.MessageFromLeader]
			
 
				-DataForGather = Any
			
 
				+GatheredData = Any
			
 
				 logger = get_logger(__name__)
			
 
				-DEFAULT_CHUNK_SIZE_BYTES = 2 ** 16
			
 
				 
			
 
				 
			
 
				 class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragingServicer):
			
@@ -61,7 +61,7 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
				       towards the (estimated) average by this coefficient. By default, local parameters are set equal to average.
			
 
				     :param request_timeout: when looking for group, wait for a response from leader for at most this many seconds.
			
 
				     :note: request_timeout must be smaller than averaging_expiration to avoid potential deadlocks.
			
 
				-    :param chunk_size_bytes: tensors for AllReduce will be divided into chunks of this size (to improve gRPC throughput)
			
 
				+    :param part_size_bytes: tensors for AllReduce are processed in parts of up to this size (after compression)
			
 
				     :param throughput: if specified, this value represents the network bandwidth available to averager.
			
 
				           By default, the averager is assumed to have the average bandwidth of his group.
			
 
				           If throughput == 0, averager will rely on its groupmates to do all the averaging.
			
@@ -94,8 +94,8 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
				 
			
 
				     def __init__(self, averaged_tensors: Sequence[torch.Tensor], dht: DHT, *, start: bool,
			
 
				                  prefix: str, target_group_size: int, min_group_size: int = 2, initial_group_bits: Optional[str] = None,
			
 
				-                 averaging_expiration: float = 15, request_timeout: float = 3, chunk_size_bytes: int = 2 ** 16,
			
 
				-                 allreduce_timeout: Optional[float] = None, averaging_alpha: float = 1.0,
			
 
				+                 averaging_expiration: float = 15, request_timeout: float = 3, averaging_alpha: float = 1.0,
			
 
				+                 part_size_bytes: int = DEFAULT_PART_SIZE_BYTES, allreduce_timeout: Optional[float] = None,
			
 
				                  compression_type: runtime_pb2.CompressionType = runtime_pb2.CompressionType.NONE,
			
 
				                  throughput: Optional[float] = None, min_vector_size: int = 0,
			
 
				                  auxiliary: bool = False, allow_state_sharing: Optional[bool] = None,
			
@@ -135,7 +135,7 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
				         self.matchmaking_kwargs = dict(
			
 
				             prefix=prefix, initial_group_bits=initial_group_bits, target_group_size=target_group_size,
			
 
				             min_group_size=min_group_size, averaging_expiration=averaging_expiration, request_timeout=request_timeout)
			
 
				-        self.allreduce_kwargs = dict(compression_type=compression_type, chunk_size_bytes=chunk_size_bytes,
			
 
				+        self.allreduce_kwargs = dict(compression_type=compression_type, part_size_bytes=part_size_bytes,
			
 
				                                      min_vector_size=min_vector_size)
			
 
				         self._averaging_alpha, self._allreduce_timeout = averaging_alpha, allreduce_timeout
			
 
				         self._running_groups: Dict[GroupID, AllReduceRunner] = {}  # one or more assembled groups that run all-reduce
			
@@ -251,8 +251,9 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
				         if self._parent_pid != os.getpid() or self.is_alive():
			
 
				             self.shutdown()
			
 
				 
			
 
				-    def step(self, gather: Optional[DataForGather] = None, weight: float = 1.0, timeout: Optional[float] = None,
			
 
				-             allow_retries: bool = True, wait: bool = True) -> Union[Optional[Dict[Endpoint, DataForGather]], MPFuture]:
			
 
				+    def step(self, gather: Optional[GatheredData] = None, weight: Optional[float] = None,
			
 
				+             timeout: Optional[float] = None, allow_retries: bool = True, wait: bool = True
			
 
				+             ) -> Union[Optional[Dict[Endpoint, GatheredData]], MPFuture]:
			
 
				         """
			
 
				         Set up the averager to look for a group and run one round of averaging, return True on success, False on failure
			
 
				 
			
@@ -265,10 +266,11 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
				         :param wait: if True (default), return when finished. Otherwise return MPFuture and run in background.
			
 
				         :returns: on success, update averaged_tensors and return group info; on failure, return None
			
 
				         """
			
 
				-        if self.mode == AveragingMode.AUX and weight != 1:
			
 
				+        if self.mode == AveragingMode.AUX and weight is not None:
			
 
				             logger.warning("Averager is running in auxiliary mode, weight is unused.")
			
 
				-        else:
			
 
				-            assert isinstance(weight, (int, float)) and weight > 0, f"Expected a positive int/float, got {type(weight)}"
			
 
				+        if weight is None:
			
 
				+            weight = float(self.mode != AveragingMode.AUX)
			
 
				+        assert isinstance(weight, (int, float)) and weight >= 0, f"Expected a positive int/float, got {type(weight)}"
			
 
				 
			
 
				         future, _future = MPFuture.make_pair()
			
 
				         gather_binary = self.serializer.dumps(gather)  # serialize here to avoid loading modules in the averager process
			
@@ -278,9 +280,7 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
				 
			
 
				     async def _step(self, *, future: MPFuture, gather_binary: bytes, weight: float,
			
 
				                     allow_retries: bool, timeout: Optional[float]):
			
 
				-        loop = asyncio.get_event_loop()
			
 
				         start_time = get_dht_time()
			
 
				-        group_id = None
			
 
				 
			
 
				         try:
			
 
				             while not future.done():
			
@@ -291,16 +291,10 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
				                                                                         data_for_gather=data_for_gather)
			
 
				                     if group_info is None:
			
 
				                         raise AllreduceException("Averaging step failed: could not find a group.")
			
 
				-                    group_id = group_info.group_id
			
 
				-                    allreduce_runner = await self._make_allreduce_runner(group_info, **self.allreduce_kwargs)
			
 
				-                    self._running_groups[group_id] = allreduce_runner
			
 
				-                    self._pending_group_assembled.set()
			
 
				-                    await asyncio.wait_for(allreduce_runner.run(), self._allreduce_timeout)
			
 
				-                    if self.mode != AveragingMode.AUX:
			
 
				-                        await loop.run_in_executor(None, self.update_tensors, allreduce_runner)
			
 
				 
			
 
				-                    # averaging is finished, exit the loop
			
 
				-                    future.set_result(allreduce_runner.gathered)
			
 
				+                    future.set_result(await asyncio.wait_for(
			
 
				+                        self._run_allreduce(group_info, **self.allreduce_kwargs), self._allreduce_timeout))
			
 
				+                    # averaging is finished, loop will now exit
			
 
				 
			
 
				                 except (AllreduceException, MatchmakingException, AssertionError, StopAsyncIteration, InternalError,
			
 
				                         asyncio.CancelledError, asyncio.InvalidStateError, grpc.RpcError, grpc.aio.AioRpcError) as e:
			
@@ -311,10 +305,6 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
				                     else:
			
 
				                         logger.warning(f"Averager caught {repr(e)}, retrying")
			
 
				 
			
 
				-                finally:
			
 
				-                    _ = self._running_groups.pop(group_id, None)
			
 
				-                    self._pending_group_assembled.set()
			
 
				-
			
 
				         except BaseException as e:
			
 
				             if not future.done():
			
 
				                 future.set_exception(e)
			
@@ -324,35 +314,51 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
				                 future.set_exception(RuntimeError("Internal sanity check failed: averager.step left future pending."
			
 
				                                                   " Please report this to hivemind issues."))
			
 
				 
			
 
				-    async def _make_allreduce_runner(self, group_info: GroupInfo, min_vector_size: int, **kwargs) -> AllReduceRunner:
			
 
				-        """ Use a group description found by Matchmaking to form AllreduceRunner """
			
 
				+    async def _run_allreduce(self, group_info: GroupInfo, min_vector_size: int, **kwargs) -> GatheredData:
			
 
				+        """ Run All-Reduce in a given group and update tensors in place, return gathered metadata """
			
 
				         try:
			
 
				             weights, throughputs, mode_ids, user_gathered = zip(*map(self.serializer.loads, group_info.gathered))
			
 
				             user_gathered = dict(zip(group_info.endpoints, map(self.serializer.loads, user_gathered)))
			
 
				-            # compute optimal part sizes from peer throughputs
			
 
				             modes = tuple(map(AveragingMode, mode_ids))
			
 
				-            incoming_throughputs = [thr if mode != AveragingMode.CLIENT else 0.0 for thr, mode in zip(throughputs, modes)]  # TODO: replace with proper load balancing
			
 
				-            part_sizes = await asyncio.get_event_loop().run_in_executor(
			
 
				+
			
 
				+            # compute optimal part sizes from peer throughputs; TODO: replace with proper load balancing
			
 
				+            incoming_throughputs = [thr if mode != AveragingMode.CLIENT else 0.0
			
 
				+                                    for thr, mode in zip(throughputs, modes)]
			
 
				+            peer_fractions = await asyncio.get_event_loop().run_in_executor(
			
 
				                 None, load_balance_peers, self.total_size, incoming_throughputs, min_vector_size)
			
 
				-            async with self.get_tensors_async() as averaged_tensors:
			
 
				-                return AllReduceRunner(group_id=group_info.group_id, tensors=averaged_tensors, endpoint=self.endpoint,
			
 
				-                                       ordered_group_endpoints=group_info.endpoints, part_sizes=part_sizes,
			
 
				-                                       weights=weights, gathered=user_gathered, return_deltas=True, modes=modes, **kwargs)
			
 
				-        except Exception as e:
			
 
				-            raise MatchmakingException(f"Unable to create allreduce runner ({e}), group_info: {weights, throughputs, modes, user_gathered}")
			
 
				 
			
 
				-    def update_tensors(self, allreduce_group: AllReduceRunner):
			
 
				-        """
			
 
				-        a private (extendable) method that applies changes from a finished allreduce to local tensors
			
 
				-        """
			
 
				-        assert allreduce_group.return_deltas and allreduce_group.future.done()
			
 
				-        averaging_deltas = allreduce_group.future.result()
			
 
				+            async with self.get_tensors_async() as local_tensors:
			
 
				+                allreduce = AllReduceRunner(
			
 
				+                    group_id=group_info.group_id, tensors=local_tensors, endpoint=self.endpoint,
			
 
				+                    ordered_group_endpoints=group_info.endpoints, peer_fractions=peer_fractions, weights=weights,
			
 
				+                    gathered=user_gathered, modes=modes, **kwargs)
			
 
				 
			
 
				-        with torch.no_grad(), self.get_tensors() as local_tensors:
			
 
				-            assert len(local_tensors) == len(self._averaged_tensors)
			
 
				-            for tensor, update in zip(local_tensors, averaging_deltas):
			
 
				-                tensor.add_(update, alpha=self._averaging_alpha)
			
 
				-        self.last_updated = get_dht_time()
			
 
				+                with self.register_allreduce_group(group_info.group_id, allreduce):
			
 
				+
			
 
				+                    # actually run all-reduce
			
 
				+                    averaging_outputs = [output async for output in allreduce]
			
 
				+
			
 
				+                    if modes[group_info.endpoints.index(self.endpoint)] != AveragingMode.AUX:
			
 
				+                        assert len(local_tensors) == len(self._averaged_tensors)
			
 
				+                        for tensor, update in zip(local_tensors, averaging_outputs):
			
 
				+                            tensor.add_(update, alpha=self._averaging_alpha)
			
 
				+                        self.last_updated = get_dht_time()
			
 
				+
			
 
				+                return allreduce.gathered
			
 
				+        except BaseException as e:
			
 
				+            logger.exception(e)
			
 
				+            raise MatchmakingException(f"Unable to run All-Reduce: {e}")
			
 
				+
			
 
				+    @contextlib.contextmanager
			
 
				+    def register_allreduce_group(self, group_id: GroupID, allreduce: AllReduceRunner):
			
 
				+        """ registers a given all-reduce runner to listen for incoming connections """
			
 
				+        try:
			
 
				+            self._running_groups[group_id] = allreduce
			
 
				+            self._pending_group_assembled.set()
			
 
				+            yield
			
 
				+        finally:
			
 
				+            self._running_groups.pop(group_id, None)
			
 
				+            self._pending_group_assembled.set()
			
 
				 
			
 
				     @contextlib.contextmanager
			
 
				     def get_tensors(self) -> Sequence[torch.Tensor]:
			
@@ -418,11 +424,10 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
				         """
			
 
				         if not self.allow_state_sharing:
			
 
				             return  # deny request and direct peer to the next prospective averager
			
 
				-        chunk_size_bytes = self.matchmaking_kwargs.get('chunk_size_bytes', DEFAULT_CHUNK_SIZE_BYTES)
			
 
				         metadata, tensors = await self._get_current_state_from_host_process()
			
 
				 
			
 
				         for tensor in tensors:
			
 
				-            for part in split_for_streaming(serialize_torch_tensor(tensor), chunk_size_bytes):
			
 
				+            for part in split_for_streaming(serialize_torch_tensor(tensor)):
			
 
				                 if metadata is not None:
			
 
				                     yield averaging_pb2.DownloadData(tensor_part=part, metadata=metadata)
			
 
				                     metadata = None
			
--- a/hivemind/client/averaging/allreduce.py
+++ b/hivemind/client/averaging/allreduce.py
@@ -1,14 +1,15 @@
 
				 import asyncio
			
 
				-from typing import Sequence, Set, Dict, Tuple, Iterable, AsyncIterator, Any, Optional
			
 
				+from typing import Sequence, Dict, Tuple, AsyncIterator, Any, Optional
			
 
				 from enum import Enum
			
 
				 
			
 
				 import grpc
			
 
				 import torch
			
 
				 
			
 
				-from hivemind.utils import Endpoint, get_logger, ChannelCache, anext
			
 
				-from hivemind.utils import split_for_streaming, combine_from_streaming
			
 
				+from hivemind.client.averaging.partition import TensorPartContainer, TensorPartReducer, AllreduceException
			
 
				+from hivemind.utils import Endpoint, get_logger, ChannelCache
			
 
				+from hivemind.utils.asyncio import anext, achain, aiter, aenumerate, amap_in_executor
			
 
				 from hivemind.utils.compression import serialize_torch_tensor, deserialize_torch_tensor
			
 
				-from hivemind.proto import averaging_pb2_grpc, runtime_pb2, averaging_pb2
			
 
				+from hivemind.proto import averaging_pb2_grpc, averaging_pb2
			
 
				 
			
 
				 # flavour types
			
 
				 GroupID = bytes
			
@@ -21,256 +22,208 @@ class AveragingMode(Enum):
 
				     AUX = 2
			
 
				 
			
 
				 
			
 
				-class AllReduceProtocol:
			
 
				+class AllReduceRunner(averaging_pb2_grpc.DecentralizedAveragingServicer):
			
 
				     """
			
 
				     An internal class that runs butterfly AllReduce in a predefined group of averagers
			
 
				 
			
 
				+    :note: this class returns **differences** between averaged and local tensors in order to improve numerical stability
			
 
				+    :param group_id: unique identifier of this specific all-reduce run
			
 
				+    :param tensors: local tensors that should be averaged with groupmates
			
 
				     :param tensors: local tensors that should be averaged with groupmates
			
 
				     :param endpoint: your endpoint, must be included in ordered_group_endpoints
			
 
				     :param ordered_group_endpoints: group endpoints ordered s.t. i-th endpoint is responsible for averaging i-th part
			
 
				-    :param part_sizes: for each peer, a number of vector elements that this peer is responsible for averaging
			
 
				-    :param return_deltas: if True, returns the element-wise differences (averaged_tensors - original_tensors)
			
 
				-           default (False) - return averaged_tensors by themselves
			
 
				+    :param peer_fractions: for each peer, a target fraction of vector elements that this peer should average
			
 
				+      (the actual number of values by peer will be nearly proportional, but there are no exact guarantees)
			
 
				+    :param modes: AveragingMode for each peer in ordered_group_endpoints (normal, client-only or auxiliary)
			
 
				+    :param weights: scaling coefficients for weighted averaging (default = equal weights for all non-aux peers)
			
 
				+    :param gathered: additional user-defined data collected from this group
			
 
				+    :param kwargs: additional paramters (e.g. part_size_bytes) will be passed to TensorPartContainer
			
 
				     """
			
 
				 
			
 
				-    def __init__(self, *, group_id: GroupID, tensors: Sequence[torch.Tensor], endpoint: Endpoint,
			
 
				-                 ordered_group_endpoints: Sequence[Endpoint], part_sizes: Tuple[int, ...], return_deltas: bool = False,
			
 
				-                 modes: Optional[Sequence[AveragingMode]] = None):
			
 
				+    def __init__(
			
 
				+            self, *, group_id: GroupID, tensors: Sequence[torch.Tensor], endpoint: Endpoint,
			
 
				+            ordered_group_endpoints: Sequence[Endpoint], peer_fractions: Tuple[float, ...],
			
 
				+            weights: Optional[Sequence[float]] = None, modes: Optional[Sequence[AveragingMode]] = None,
			
 
				+            gathered: Optional[Dict[Endpoint, Any]] = None, **kwargs):
			
 
				         assert endpoint in ordered_group_endpoints, "endpoint is not a part of the group"
			
 
				-        self.group_id, self.endpoint = group_id, endpoint
			
 
				-        self.ordered_group_endpoints, self.part_sizes = ordered_group_endpoints, part_sizes
			
 
				-        if modes is None:
			
 
				-            modes = [AveragingMode.CLIENT if part_size == 0 else AveragingMode.NODE for part_size in part_sizes]
			
 
				-        assert any(mode != AveragingMode.CLIENT for mode in modes), "Cannot run allreduce without reducers."
			
 
				-        self.peer_modes = dict(zip(ordered_group_endpoints, modes))
			
 
				-
			
 
				-        self.local_tensor_parts = dict(zip(ordered_group_endpoints, split_into_parts(tensors, part_sizes)))
			
 
				-        self.tensor_shapes = tuple(tensor.shape for tensor in tensors)
			
 
				-        self.return_deltas = return_deltas
			
 
				-
			
 
				-        self.accumulator = torch.zeros_like(self.local_tensor_parts[self.endpoint])
			
 
				-        self.denominator = 0.0  # number of peers added to accumulator or sum of their weights
			
 
				-        self.accumulated_from: Set[Endpoint] = set()  # peers that we have accumulated our part from
			
 
				-        self.averaged_part: asyncio.Future[torch.Tensor] = asyncio.Future()  # will be set to [accumulator / group size]
			
 
				-        self.averaged_tensor_parts: Dict[Endpoint, torch.Tensor] = {}  # averaged chunks from all peers will be put here
			
 
				-        self.future: asyncio.Future[Sequence[torch.Tensor]] = asyncio.Future()  # final result or exception
			
 
				-
			
 
				-        self.num_senders = len([mode for mode in modes if mode != AveragingMode.AUX])
			
 
				-
			
 
				-        if self.num_senders == 0:
			
 
				-            self.future.set_result(None)
			
 
				-        for endpoint, mode in self.peer_modes.items():
			
 
				-            if mode == AveragingMode.CLIENT:
			
 
				-                self.averaged_tensor_parts[endpoint] = torch.tensor([])
			
 
				+        modes = modes or tuple(AveragingMode.CLIENT if frac == 0 else AveragingMode.NODE for frac in peer_fractions)
			
 
				+        weights = weights or tuple(int(mode != AveragingMode.AUX) for mode in modes)
			
 
				+        assert len(weights) == len(modes) == len(ordered_group_endpoints), "lists have inconsistent length"
			
 
				+        assert any(mode != AveragingMode.CLIENT for mode in modes), "cannot run allreduce without reducers"
			
 
				+        for mode, frac, weight in zip(modes, peer_fractions, weights):
			
 
				+            assert mode != AveragingMode.CLIENT or frac == 0, "client-mode peer should have zero all-reduce fraction"
			
 
				+            assert mode != AveragingMode.AUX or weight == 0, "auxiliary peer should have zero averaging weight"
			
 
				+
			
 
				+        self.group_id, self.endpoint, self.ordered_group_endpoints = group_id, endpoint, ordered_group_endpoints
			
 
				+        self.modes, self.peer_fractions, self.gathered = modes, peer_fractions, gathered
			
 
				+
			
 
				+        self._future = asyncio.Future()
			
 
				+
			
 
				+        self.sender_endpoints, self.sender_weights = [], []
			
 
				+        for endpoint, weight, mode in zip(self.ordered_group_endpoints, weights, modes):
			
 
				+            if mode != AveragingMode.AUX:
			
 
				+                self.sender_endpoints.append(endpoint)
			
 
				+                self.sender_weights.append(weight)
			
 
				+
			
 
				+        endpoint_index = self.ordered_group_endpoints.index(self.endpoint)
			
 
				+        self.tensor_part_container = TensorPartContainer(tensors, peer_fractions, **kwargs)
			
 
				+        self.parts_for_local_averaging = self.tensor_part_container.get_raw_input_parts(endpoint_index)
			
 
				+        self.tensor_part_reducer = TensorPartReducer(tuple(part.shape for part in self.parts_for_local_averaging),
			
 
				+                                                     len(self.sender_endpoints), self.sender_weights)
			
 
				 
			
 
				     def __repr__(self):
			
 
				         return f"{self.__class__.__name__}({self.endpoint}, group_size={self.group_size})"
			
 
				 
			
 
				-    def __await__(self):
			
 
				-        return self.future.__await__()
			
 
				+    def __aiter__(self):
			
 
				+        return self.run()
			
 
				 
			
 
				     def __contains__(self, endpoint: Endpoint):
			
 
				-        return endpoint in self.local_tensor_parts
			
 
				+        return endpoint in self.ordered_group_endpoints
			
 
				 
			
 
				     @property
			
 
				     def group_size(self):
			
 
				         return len(self.ordered_group_endpoints)
			
 
				 
			
 
				-    async def accumulate_part(self, source: Endpoint, remote_part: torch.Tensor, weight: float = 1.0) -> torch.Tensor:
			
 
				-        """ Add vector part to accumulator, wait for all other vectors to be added, then return the average part """
			
 
				-        assert not self.averaged_part.done(), f"already finished averaging part: {self.averaged_part}"
			
 
				-        assert not self.future.done(), f"already finished allreduce: {self.future}"
			
 
				-        assert source in self.local_tensor_parts, "unexpected source, not a part of current group"
			
 
				-        assert source not in self.accumulated_from, "duplicate source, already received that part"
			
 
				-        assert self.peer_modes[self.endpoint] != AveragingMode.CLIENT, f"{self.endpoint} is in AveragingMode.client mode"
			
 
				-        assert isinstance(weight, (int, float)) and weight > 0, "averaging weights must be a non-negative int/float"
			
 
				-
			
 
				-        logger.debug(f"{self} - accumulating tensor part from {source}")
			
 
				-        self.accumulator.add_(remote_part, alpha=weight)
			
 
				-        self.denominator += weight
			
 
				-        self.accumulated_from.add(source)
			
 
				-
			
 
				-        assert len(self.accumulated_from) <= self.num_senders
			
 
				-        if len(self.accumulated_from) == self.num_senders:
			
 
				-            average_result = self.accumulator.div_(self.denominator)
			
 
				-            self.averaged_part.set_result(average_result)
			
 
				-
			
 
				-            if self.peer_modes[self.endpoint] == AveragingMode.AUX:
			
 
				-                self.future.set_result(None)  # auxiliary mode has finished averaging
			
 
				-            else:
			
 
				-                self.register_averaged_part(self.endpoint, average_result)
			
 
				-
			
 
				-        return await self.averaged_part
			
 
				-
			
 
				-    def register_averaged_part(self, source: Endpoint, averaged_part: torch.Tensor):
			
 
				-        assert not self.future.done(), f"already finished allreduce: {self.future}"
			
 
				-        assert source in self.local_tensor_parts, "the provider of averaged part is not from my group"
			
 
				-        assert source not in self.averaged_tensor_parts, "already registered the average from this peer"
			
 
				-        assert averaged_part.shape == self.local_tensor_parts[source].shape, "averaged part shape mismatch"
			
 
				-        assert averaged_part.dtype == self.local_tensor_parts[source].dtype, "averaged part dtype mismatch"
			
 
				-        assert self.peer_modes[self.endpoint] != AveragingMode.AUX, "Auxiliary peers do not have local tensors for sending"
			
 
				-        logger.debug(f"{self} - receiving averaged tensor part from {source}")
			
 
				-        self.averaged_tensor_parts[source] = averaged_part
			
 
				-        if len(self.averaged_tensor_parts) == len(self.local_tensor_parts):
			
 
				-            ordered_averaged_parts = [self.averaged_tensor_parts[endpoint] for endpoint in self.ordered_group_endpoints]
			
 
				-            outputs = restore_from_parts(ordered_averaged_parts, self.tensor_shapes)
			
 
				-
			
 
				-            if self.return_deltas:
			
 
				-                local_parts = [self.local_tensor_parts[peer] for peer in self.ordered_group_endpoints]
			
 
				-                with torch.no_grad():
			
 
				-                    original_tensors = restore_from_parts(local_parts, self.tensor_shapes)
			
 
				-                    for averaged_tensor, original_tensor in zip(outputs, original_tensors):
			
 
				-                        averaged_tensor -= original_tensor
			
 
				-
			
 
				-            self.future.set_result(outputs)
			
 
				-
			
 
				-    def cancel(self) -> bool:
			
 
				-        if not self.future.done():
			
 
				-            logger.debug(f"{self} - cancelled")
			
 
				-            self.future.cancel()
			
 
				-            if not self.averaged_part.done():
			
 
				-                self.averaged_part.cancel()
			
 
				-            return True
			
 
				-        else:
			
 
				-            logger.debug(f"{self} - failed to cancel, allreduce is already finished: {self.future}")
			
 
				-            return False
			
 
				-
			
 
				-    def set_exception(self, exception: Exception) -> bool:
			
 
				-        if not self.future.done():
			
 
				-            logger.debug(f"{self} - {exception}")
			
 
				-            self.future.set_exception(exception)
			
 
				-            if not self.averaged_part.done():
			
 
				-                self.averaged_part.cancel()
			
 
				-            return True
			
 
				-        else:
			
 
				-            logger.debug(f"{self} - failed to set {exception}, allreduce already finished: {self.future}")
			
 
				-            return False
			
 
				-
			
 
				-
			
 
				-class AllReduceRunner(AllReduceProtocol, averaging_pb2_grpc.DecentralizedAveragingServicer):
			
 
				-    """
			
 
				-    A class that implements ButterflyAllReduceProtocol on top of a gRPC servicer
			
 
				-    """
			
 
				-
			
 
				-    def __init__(self, *, group_id: GroupID, tensors: Sequence[torch.Tensor], endpoint: Endpoint,
			
 
				-                 ordered_group_endpoints: Sequence[Endpoint], compression_type: runtime_pb2.CompressionType,
			
 
				-                 chunk_size_bytes: int, part_sizes: Tuple[int, ...], weights: Tuple[float, ...],
			
 
				-                 gathered: Dict[Endpoint, Any], return_deltas: bool = False, **kwargs):
			
 
				-        super().__init__(group_id=group_id, tensors=tensors, endpoint=endpoint, part_sizes=part_sizes,
			
 
				-                         ordered_group_endpoints=ordered_group_endpoints, return_deltas=return_deltas, **kwargs)
			
 
				-        self.compression_type, self.chunk_size_bytes, self.gathered = compression_type, chunk_size_bytes, gathered
			
 
				-        self.peer_weights = dict(zip(self.ordered_group_endpoints, weights))
			
 
				-
			
 
				     def _get_peer_stub(self, peer: Endpoint) -> averaging_pb2_grpc.DecentralizedAveragingStub:
			
 
				         return ChannelCache.get_stub(peer, averaging_pb2_grpc.DecentralizedAveragingStub, aio=True)
			
 
				 
			
 
				-    async def _communicate_with_peer(self, peer_endpoint: Endpoint, local_part: torch.Tensor) -> torch.Tensor:
			
 
				-        """ Send a part of local tensors and metadata to a single peer, receive the average for that part of tensors """
			
 
				-        assert self.peer_modes[self.endpoint] != AveragingMode.AUX, "Auxiliary peers are disallowed from sending tensors"
			
 
				-        if peer_endpoint == self.endpoint:
			
 
				-            return await self.accumulate_part(self.endpoint, local_part, weight=self.peer_weights[self.endpoint])
			
 
				-        serialized_tensor_part = serialize_torch_tensor(local_part, self.compression_type, allow_inplace=False)
			
 
				-        chunks = split_for_streaming(serialized_tensor_part, self.chunk_size_bytes)
			
 
				-
			
 
				-        stream = self._get_peer_stub(peer_endpoint).rpc_aggregate_part()
			
 
				-        await stream.write(averaging_pb2.AveragingData(code=averaging_pb2.PART_FOR_AVERAGING, group_id=self.group_id,
			
 
				-                                                       endpoint=self.endpoint, tensor_part=next(chunks)))
			
 
				-        for chunk in chunks:
			
 
				-            await stream.write(averaging_pb2.AveragingData(tensor_part=chunk))
			
 
				-        await stream.done_writing()
			
 
				-
			
 
				-        outputs: Sequence[averaging_pb2.AveragingData] = [message async for message in stream]
			
 
				-        code = outputs[0].code if outputs else averaging_pb2.INTERNAL_ERROR
			
 
				-        if code != averaging_pb2.AVERAGED_PART:
			
 
				-            raise AllreduceException(f"peer {peer_endpoint} returned {averaging_pb2.MessageCode.Name(code)}"
			
 
				-                                     f" instead of {averaging_pb2.MessageCode.Name(averaging_pb2.AVERAGED_PART)},"
			
 
				-                                     f" allreduce failed")
			
 
				-
			
 
				+    async def run(self) -> AsyncIterator[torch.Tensor]:
			
 
				+        """ Run all-reduce, return differences between averaged and original tensors as they are computed """
			
 
				+        pending_tasks = set()
			
 
				         try:
			
 
				-            averaged_part = local_part + deserialize_torch_tensor(combine_from_streaming(
			
 
				-                [message.tensor_part for message in outputs]))
			
 
				-        except RuntimeError as e:
			
 
				-            raise AllreduceException(f"Could not deserialize averaged part from {peer_endpoint}: {e}")
			
 
				+            if len(self.sender_endpoints) == 0:
			
 
				+                logger.debug(f"{self} - finished all-reduce early: all peers are auxiliaries ({self.modes})")
			
 
				+                self.finalize()
			
 
				 
			
 
				-        self.register_averaged_part(peer_endpoint, averaged_part)
			
 
				-        return averaged_part
			
 
				+            elif self.endpoint in self.sender_endpoints:
			
 
				+                for endpoint, parts in zip(self.ordered_group_endpoints, self.tensor_part_container.num_parts_by_peer):
			
 
				+                    if parts != 0:
			
 
				+                        pending_tasks.add(asyncio.create_task(self._communicate_with_peer(endpoint)))
			
 
				 
			
 
				-    async def _send_error_to_peer(self, peer_endpoint: Endpoint, code: averaging_pb2.MessageCode):
			
 
				-        stream = self._get_peer_stub(peer_endpoint).rpc_aggregate_part()
			
 
				-        await stream.write(averaging_pb2.AveragingData(group_id=self.group_id, endpoint=self.endpoint, code=code))
			
 
				-        await stream.done_writing()
			
 
				+                async for averaged_tensor_delta in self.tensor_part_container.iterate_output_tensors():
			
 
				+                    yield averaged_tensor_delta  # delta = averaged_tensor - original_tensor
			
 
				+                self.finalize()
			
 
				+
			
 
				+            else:  # auxiliary peer
			
 
				+                await self.tensor_part_reducer.finished.wait()
			
 
				+                self.finalize()
			
 
				 
			
 
				-    async def run(self) -> Sequence[torch.Tensor]:
			
 
				-        """
			
 
				-        send allreduce requests to all peers and collect results, return the averaged tensor (or deltas)
			
 
				-        """
			
 
				-        try:
			
 
				-            if self.peer_modes[self.endpoint] != AveragingMode.AUX:
			
 
				-                await asyncio.gather(self, *(self._communicate_with_peer(peer, self.local_tensor_parts[peer])
			
 
				-                                            for i, peer in enumerate(self.ordered_group_endpoints)
			
 
				-                                            if self.peer_modes[peer] != AveragingMode.CLIENT))
			
 
				-            return await self
			
 
				         except BaseException as e:
			
 
				+            self.finalize(exception=e)
			
 
				+            for task in pending_tasks:
			
 
				+                task.cancel()
			
 
				             code = averaging_pb2.CANCELLED if isinstance(e, asyncio.CancelledError) else averaging_pb2.INTERNAL_ERROR
			
 
				             logger.debug(f"{self} - notifying peers about {averaging_pb2.MessageCode.Name(code)}")
			
 
				-            self.set_exception(e)
			
 
				-            for peer_endpoint, part_size in zip(self.ordered_group_endpoints, self.part_sizes):
			
 
				-                if peer_endpoint != self.endpoint and part_size > 0:
			
 
				+            for peer_endpoint, mode in zip(self.ordered_group_endpoints, self.modes):
			
 
				+                if peer_endpoint != self.endpoint and mode != AveragingMode.CLIENT:
			
 
				                     asyncio.create_task(self._send_error_to_peer(peer_endpoint, code))
			
 
				             raise
			
 
				 
			
 
				-    async def accumulate_part_streaming(self, source: Endpoint, stream_messages: Iterable[runtime_pb2.Tensor]
			
 
				-                                        ) -> Iterable[runtime_pb2.Tensor]:
			
 
				-        """ accumulate_part using streams of serialized tensors. Used to prevent duplicate work in serialization """
			
 
				-        try:
			
 
				-            tensor_part = deserialize_torch_tensor(combine_from_streaming(stream_messages))
			
 
				-        except RuntimeError as e:
			
 
				-            raise AllreduceException(f"Could not deserialize tensor part from {source} for streaming {e}")
			
 
				+    async def _communicate_with_peer(self, peer_endpoint: Endpoint):
			
 
				+        """ Send a part of local tensors and metadata to a single peer, receive the average for that part of tensors """
			
 
				+        peer_index = self.ordered_group_endpoints.index(peer_endpoint)
			
 
				+        if peer_endpoint == self.endpoint:
			
 
				+            sender_index = self.sender_endpoints.index(peer_endpoint)
			
 
				+            for part_index, tensor_part in enumerate(self.parts_for_local_averaging):
			
 
				+                averaged_part = await self.tensor_part_reducer.accumulate_part(sender_index, part_index, tensor_part)
			
 
				+                self.tensor_part_container.register_processed_part(peer_index, part_index, averaged_part - tensor_part)
			
 
				 
			
 
				-        averaged_part = await self.accumulate_part(source, tensor_part, weight=self.peer_weights[source])
			
 
				-        serialized_tensor = serialize_torch_tensor(averaged_part - tensor_part, self.compression_type, allow_inplace=False)
			
 
				-        stream_chunks = tuple(split_for_streaming(serialized_tensor, self.chunk_size_bytes))
			
 
				-        return stream_chunks
			
 
				+        else:
			
 
				+            loop = asyncio.get_event_loop()
			
 
				+            stream = self._get_peer_stub(peer_endpoint).rpc_aggregate_part()
			
 
				+            write_task = asyncio.create_task(self._write_to_peer(stream, peer_index))
			
 
				+
			
 
				+            try:
			
 
				+                code = None
			
 
				+                async for part_index, msg in aenumerate(stream):
			
 
				+                    if code is None:
			
 
				+                        code = msg.code
			
 
				+                    averaged_part_delta = await loop.run_in_executor(None, deserialize_torch_tensor, msg.tensor_part)
			
 
				+                    self.tensor_part_container.register_processed_part(peer_index, part_index, averaged_part_delta)
			
 
				+                await write_task
			
 
				+
			
 
				+                if code != averaging_pb2.AVERAGED_PART:
			
 
				+                    raise AllreduceException(f"peer {peer_endpoint} returned {averaging_pb2.MessageCode.Name(code)} "
			
 
				+                                             f"instead of {averaging_pb2.MessageCode.Name(averaging_pb2.AVERAGED_PART)}"
			
 
				+                                             f", allreduce failed")
			
 
				+            finally:
			
 
				+                if not write_task.done():
			
 
				+                    write_task.cancel()
			
 
				+
			
 
				+    async def _write_to_peer(self, stream: grpc.aio.StreamStreamCall, peer_index: int):
			
 
				+        parts_aiter = self.tensor_part_container.iterate_input_parts_for(peer_index)
			
 
				+        first_part = await anext(parts_aiter)
			
 
				+        await stream.write(averaging_pb2.AveragingData(code=averaging_pb2.PART_FOR_AVERAGING,
			
 
				+                                                       group_id=self.group_id, endpoint=self.endpoint,
			
 
				+                                                       tensor_part=first_part))
			
 
				+        async for part in parts_aiter:
			
 
				+            await stream.write(averaging_pb2.AveragingData(tensor_part=part))
			
 
				+
			
 
				+        await stream.done_writing()
			
 
				 
			
 
				     async def rpc_aggregate_part(self, stream: AsyncIterator[averaging_pb2.AveragingData], context: grpc.ServicerContext
			
 
				                                  ) -> AsyncIterator[averaging_pb2.AveragingData]:
			
 
				-        """ a groupmate sends us a part of his tensor; we should average it with other peers and return the delta"""
			
 
				+        """ a peer sends us a part of his tensor; we should average it with other peers and return the difference """
			
 
				         request: averaging_pb2.AveragingData = await anext(stream)
			
 
				-
			
 
				-        if request.group_id != self.group_id:
			
 
				-            yield averaging_pb2.AveragingData(code=averaging_pb2.BAD_GROUP_ID)
			
 
				+        reason_to_reject = self._check_reasons_to_reject(request)
			
 
				+        if reason_to_reject:
			
 
				+            yield reason_to_reject
			
 
				+            return
			
 
				 
			
 
				         elif request.code == averaging_pb2.PART_FOR_AVERAGING:
			
 
				             try:
			
 
				-                tensor_chunks = (request.tensor_part, *[msg.tensor_part async for msg in stream])
			
 
				-                averaged_chunks = iter(await self.accumulate_part_streaming(request.endpoint, tensor_chunks))
			
 
				-                yield averaging_pb2.AveragingData(code=averaging_pb2.AVERAGED_PART, tensor_part=next(averaged_chunks))
			
 
				-                for averaged_chunk in averaged_chunks:
			
 
				-                    yield averaging_pb2.AveragingData(tensor_part=averaged_chunk)
			
 
				+                sender_index = self.sender_endpoints.index(request.endpoint)
			
 
				+                async for msg in self._accumulate_parts_streaming(achain(aiter(request), stream), sender_index):
			
 
				+                    yield msg
			
 
				 
			
 
				             except Exception as e:
			
 
				-                self.set_exception(e)
			
 
				+                self.finalize(exception=e)
			
 
				                 yield averaging_pb2.AveragingData(code=averaging_pb2.INTERNAL_ERROR)
			
 
				         else:
			
 
				             error_code = averaging_pb2.MessageCode.Name(request.code)
			
 
				             logger.debug(f"{self} - peer {request.endpoint} sent {error_code}, allreduce cannot continue")
			
 
				-            self.set_exception(AllreduceException(f"peer {request.endpoint} sent {error_code}."))
			
 
				+            self.finalize(exception=AllreduceException(f"peer {request.endpoint} sent {error_code}."))
			
 
				             yield averaging_pb2.AveragingData(code=averaging_pb2.INTERNAL_ERROR)
			
 
				 
			
 
				+    def _check_reasons_to_reject(self, request: averaging_pb2.AveragingData) -> Optional[averaging_pb2.AveragingData]:
			
 
				+        if request.group_id != self.group_id:
			
 
				+            return averaging_pb2.AveragingData(code=averaging_pb2.BAD_GROUP_ID)
			
 
				+        elif self._future.cancelled():
			
 
				+            return averaging_pb2.AveragingData(code=averaging_pb2.CANCELLED)
			
 
				+        elif self._future.done():
			
 
				+            return averaging_pb2.AveragingData(code=averaging_pb2.INTERNAL_ERROR)
			
 
				+
			
 
				+    async def _accumulate_parts_streaming(self, stream: AsyncIterator[averaging_pb2.AveragingData], sender_index: int):
			
 
				+        loop = asyncio.get_event_loop()
			
 
				+        async for part_index, (tensor_part, part_compression) in aenumerate(
			
 
				+                amap_in_executor(lambda msg: (deserialize_torch_tensor(msg.tensor_part), msg.tensor_part.compression), stream,
			
 
				+                                 max_prefetch=self.tensor_part_container.prefetch)):
			
 
				+            averaged_part = await self.tensor_part_reducer.accumulate_part(sender_index, part_index, tensor_part)
			
 
				+
			
 
				+            serialized_delta = await loop.run_in_executor(
			
 
				+                None, lambda: serialize_torch_tensor(averaged_part - tensor_part, part_compression))
			
 
				+            yield averaging_pb2.AveragingData(code=averaging_pb2.AVERAGED_PART, tensor_part=serialized_delta)
			
 
				 
			
 
				-def split_into_parts(tensors: Sequence[torch.Tensor], part_sizes: Tuple[int, ...]) -> Tuple[torch.Tensor, ...]:
			
 
				-    """ combines averaged_tensors into one tensor and splits them into equal chunks of size group_size """
			
 
				-    flat_tensor = torch.cat(tuple(map(torch.Tensor.flatten, tensors)))
			
 
				-    return torch.split_with_sizes(flat_tensor, part_sizes, dim=0)
			
 
				-
			
 
				-
			
 
				-def restore_from_parts(chunks: Sequence[torch.Tensor], shapes: Sequence[torch.Size]) -> Tuple[torch.Tensor, ...]:
			
 
				-    """ restores the original tensor shapes from chunks obtained by split_into_chunks """
			
 
				-    flat_tensor = torch.cat(tuple(chunks))
			
 
				-    result_sizes = tuple(map(torch.Size.numel, shapes))
			
 
				-    flat_original_tensors = torch.split_with_sizes(flat_tensor, result_sizes)
			
 
				-    return tuple(map(torch.Tensor.reshape, flat_original_tensors, shapes))
			
 
				-
			
 
				+    async def _send_error_to_peer(self, peer_endpoint: Endpoint, code: averaging_pb2.MessageCode):
			
 
				+        stream = self._get_peer_stub(peer_endpoint).rpc_aggregate_part()
			
 
				+        await stream.write(averaging_pb2.AveragingData(group_id=self.group_id, endpoint=self.endpoint, code=code))
			
 
				+        await stream.done_writing()
			
 
				 
			
 
				-class AllreduceException(Exception):
			
 
				-    """ A special exception that is raised when allreduce can't continue normally (e.g. disbanded/bad request/etc) """
			
 
				+    def finalize(self, *, cancel: bool = False, exception: Optional[BaseException] = None):
			
 
				+        assert not cancel or not exception, "finalize accepts either exception or cancel, but not both"
			
 
				+        if not self._future.done():
			
 
				+            if cancel:
			
 
				+                logger.debug(f"{self} - cancelled")
			
 
				+                self._future.cancel()
			
 
				+            elif exception:
			
 
				+                logger.debug(f"{self} - caught {exception}")
			
 
				+                self._future.set_exception(exception)
			
 
				+            else:
			
 
				+                logger.debug(f"{self} - finished")
			
 
				+                self._future.set_result(None)
			
 
				+            self.tensor_part_container.finalize()
			
 
				+            self.tensor_part_reducer.finalize()
			
 
				+            return True
			
 
				+        else:
			
 
				+            logger.debug(f"{self} - could not finish: allreduce is already finished: {self._future}")
			
 
				+            return False
			
--- a/hivemind/client/averaging/load_balancing.py
+++ b/hivemind/client/averaging/load_balancing.py
@@ -28,6 +28,7 @@ def load_balance_peers(vector_size, throughputs: Sequence[Optional[float]], min_
 
				         assert not all(throughput == 0 for throughput in throughputs), "Must have at least one nonzero throughput"
			
 
				         scores = np.asarray([1.0 if throughput is None else 0.0 for throughput in throughputs])
			
 
				 
			
 
				+    #TODO(jheuristic) we no longer need hagenbach-bishoff with new AllReduceRunner
			
 
				     return tuple(hagenbach_bishoff(vector_size, scores))
			
 
				 
			
 
				 
			
--- a/hivemind/client/averaging/partition.py
+++ b/hivemind/client/averaging/partition.py
@@ -0,0 +1,224 @@
 
				+"""
			
 
				+Auxiliary data structures for AllReduceRunner
			
 
				+"""
			
 
				+import asyncio
			
 
				+from typing import Sequence, AsyncIterable, Tuple, Optional, TypeVar, Union, AsyncIterator
			
 
				+from collections import deque
			
 
				+
			
 
				+import torch
			
 
				+import numpy as np
			
 
				+
			
 
				+from hivemind.proto.runtime_pb2 import CompressionType, Tensor
			
 
				+from hivemind.utils.compression import serialize_torch_tensor, get_nbytes_per_value
			
 
				+from hivemind.utils.asyncio import amap_in_executor
			
 
				+
			
 
				+
			
 
				+T = TypeVar('T')
			
 
				+DEFAULT_PART_SIZE_BYTES = 2 ** 20
			
 
				+
			
 
				+
			
 
				+class TensorPartContainer:
			
 
				+    """
			
 
				+    Auxiliary data structure for averaging, responsible for splitting tensors into parts and reassembling them.
			
 
				+    The class is designed to avoid excessive memory allocation and run all heavy computation in background
			
 
				+    :param tensors: local tensors to be split and aggregated
			
 
				+    :param peer_fractions: for each peer, a target fraction of vector elements that this peer should average
			
 
				+    :param compression_type: optionally compress tensors with this compression algorithm before sending them to peers
			
 
				+    :param part_size_bytes: greedily split tensors into parts of up to this many bytes (after compression)
			
 
				+    :param prefetch: when compressing, pre-compute this many compressed tensors in background
			
 
				+    """
			
 
				+
			
 
				+    def __init__(self, tensors: Sequence[torch.Tensor], peer_fractions: Sequence[float],
			
 
				+                 compression_type: Union[type(CompressionType), Sequence[type(CompressionType)]] = CompressionType.NONE,
			
 
				+                 part_size_bytes: int = 2 ** 20, prefetch: int = 1):
			
 
				+        if not isinstance(compression_type, Sequence):
			
 
				+            compression_type = [compression_type] * len(tensors)
			
 
				+        assert len(compression_type) == len(tensors), "compression types do not match the number of tensors"
			
 
				+        self.local_tensors, self.peer_fractions, self.group_size = tensors, peer_fractions, len(peer_fractions)
			
 
				+        self.compression_type, self.part_size_bytes, self.prefetch = compression_type, part_size_bytes, prefetch
			
 
				+        self.total_size = sum(tensor.numel() for tensor in tensors)
			
 
				+        self._input_parts_by_peer = [deque() for _ in range(self.group_size)]
			
 
				+        self._output_parts_by_peer = [deque() for _ in range(self.group_size)]
			
 
				+        self._inputs_consumed_by_peer = [False for _ in range(self.group_size)]
			
 
				+        self._output_part_available = [asyncio.Event() for _ in range(self.group_size)]
			
 
				+        self._outputs_registered_by_peer = [0 for _ in range(self.group_size)]
			
 
				+        self._outputs_consumed = False
			
 
				+        self.finished = asyncio.Event()
			
 
				+        self.num_parts_by_tensor = []
			
 
				+
			
 
				+        # split tensor parts in proportion to target_size_by_peer
			
 
				+        current_length = 0
			
 
				+        current_peer_index = 0
			
 
				+        pivots = (np.cumsum(peer_fractions) / np.sum(peer_fractions) * self.total_size).astype(np.int64)
			
 
				+        pivots[-1] = self.total_size
			
 
				+
			
 
				+        for tensor, tensor_compression in zip(self.local_tensors, compression_type):
			
 
				+            part_size_values = int(part_size_bytes / get_nbytes_per_value(tensor.dtype, tensor_compression))
			
 
				+            tensor_parts = tensor.detach().view(-1).split(part_size_values)
			
 
				+            self.num_parts_by_tensor.append(len(tensor_parts))
			
 
				+            for part in tensor_parts:
			
 
				+                if current_length + len(part) > pivots[current_peer_index]:
			
 
				+                    # switch to next peer; if a part lands between parts of two or
			
 
				+                    # more peers, assign that part to the peer with highest intersection
			
 
				+                    prev_peer_index = current_peer_index
			
 
				+                    peer_intersections = [pivots[current_peer_index] - current_length]
			
 
				+                    while current_length + len(part) > pivots[current_peer_index]:
			
 
				+                        current_peer_index += 1
			
 
				+                        current_peer_part_end = min(current_length + len(part), pivots[current_peer_index])
			
 
				+                        peer_intersections.append(current_peer_part_end - pivots[current_peer_index - 1])
			
 
				+                    assigned_peer_index = prev_peer_index + np.argmax(peer_intersections)
			
 
				+                    self._input_parts_by_peer[assigned_peer_index].append((part, tensor_compression))
			
 
				+                else:
			
 
				+                    self._input_parts_by_peer[current_peer_index].append((part, tensor_compression))
			
 
				+                current_length += len(part)
			
 
				+
			
 
				+        assert current_length == self.total_size
			
 
				+        self.num_parts_by_peer = tuple(len(parts) for parts in self._input_parts_by_peer)
			
 
				+
			
 
				+    @torch.no_grad()
			
 
				+    def get_raw_input_parts(self, peer_index: int) -> Tuple[torch.Tensor, ...]:
			
 
				+        """ get non-serialized tensor parts for a peer at a given index """
			
 
				+        assert not self._inputs_consumed_by_peer[peer_index], "input parts of a given peer are already deallocated."
			
 
				+        self._inputs_consumed_by_peer[peer_index] = True
			
 
				+        input_parts = tuple(part for part, compression in self._input_parts_by_peer[peer_index])
			
 
				+        self._input_parts_by_peer[peer_index].clear()
			
 
				+        return input_parts
			
 
				+
			
 
				+    @torch.no_grad()
			
 
				+    async def iterate_input_parts_for(self, peer_index: int) -> AsyncIterator[Tensor]:
			
 
				+        """ iterate serialized tensor parts for a peer at a given index. Run serialization in background. """
			
 
				+        assert not self._inputs_consumed_by_peer[peer_index], "input parts of a given peer are already deallocated."
			
 
				+        self._inputs_consumed_by_peer[peer_index] = True
			
 
				+
			
 
				+        async def _aiterate_parts():
			
 
				+            for _ in range(self.num_parts_by_peer[peer_index]):
			
 
				+                yield self._input_parts_by_peer[peer_index].popleft()
			
 
				+
			
 
				+        async for serialized_part in amap_in_executor(lambda x_and_compr: serialize_torch_tensor(*x_and_compr),
			
 
				+                                                      _aiterate_parts(), max_prefetch=self.prefetch):
			
 
				+            yield serialized_part
			
 
				+
			
 
				+    def register_processed_part(self, peer_index: int, part_index: int, part: torch.Tensor):
			
 
				+        """
			
 
				+        register next-in-line part of results received from a given peer for use in iterate_output_tensors
			
 
				+        depending on the algorithm, processed part is an average, difference from average or another aggregation
			
 
				+        """
			
 
				+        if part_index != self._outputs_registered_by_peer[peer_index]:
			
 
				+            raise ValueError(f"Could not register part #{part_index} from peer #{peer_index}, "
			
 
				+                             f" expected part index: {self._outputs_registered_by_peer[peer_index]}")
			
 
				+        self._output_parts_by_peer[peer_index].append(part)
			
 
				+        self._outputs_registered_by_peer[peer_index] += 1
			
 
				+        self._output_part_available[peer_index].set()
			
 
				+
			
 
				+    async def iterate_output_tensors(self) -> AsyncIterable[torch.Tensor]:
			
 
				+        """ iterate over the outputs of averaging (whether they are average, delta or other aggregation result) """
			
 
				+        assert not self._outputs_consumed, "output tensors are already iterated and no longer available."
			
 
				+        self._outputs_consumed = True
			
 
				+        peer_index = num_parts_processed = 0
			
 
				+        for tensor_index in range(len(self.local_tensors)):
			
 
				+            tensor_parts = []
			
 
				+            while len(tensor_parts) < self.num_parts_by_tensor[tensor_index]:
			
 
				+                if num_parts_processed >= self.num_parts_by_peer[peer_index]:
			
 
				+                    num_parts_processed = 0
			
 
				+                    peer_index += 1
			
 
				+                    continue
			
 
				+                if not self._output_parts_by_peer[peer_index]:
			
 
				+                    self._output_part_available[peer_index].clear()
			
 
				+                    await self._output_part_available[peer_index].wait()
			
 
				+                    if self.finished.is_set():
			
 
				+                        raise AllreduceException("All-reduce was terminated during iteration.")
			
 
				+
			
 
				+                tensor_parts.append(self._output_parts_by_peer[peer_index].popleft())
			
 
				+                num_parts_processed += 1
			
 
				+            tensor = torch.cat(tensor_parts)
			
 
				+            del tensor_parts
			
 
				+            yield tensor.reshape(self.local_tensors[tensor_index].shape)
			
 
				+
			
 
				+    def __del__(self):
			
 
				+        self.finalize()
			
 
				+
			
 
				+    def finalize(self):
			
 
				+        """ terminate all iterators, delete intermediate data """
			
 
				+        if not self.finished.is_set():
			
 
				+            for peer_index in range(self.group_size):
			
 
				+                self._inputs_consumed_by_peer[peer_index] = True
			
 
				+                self._input_parts_by_peer[peer_index].clear()
			
 
				+                self._output_parts_by_peer[peer_index].clear()
			
 
				+                self._output_part_available[peer_index].set()
			
 
				+            self._outputs_consumed = True
			
 
				+            self.finished.set()
			
 
				+
			
 
				+
			
 
				+class TensorPartReducer:
			
 
				+    """
			
 
				+    Auxiliary data structure responsible for running asynchronous all-reduce
			
 
				+    :param part_shapes: a sequence of shapes of torch tensors that will be averaged by this reducer
			
 
				+    :param num_senders: total number of peers in a given all-reduce group that will send gradients
			
 
				+    :param weights: relative importance of each sender, used for weighted average (default = equal weights)
			
 
				+    :note: even if local peer is not sending data, local parts will be used for shape information
			
 
				+    """
			
 
				+
			
 
				+    def __init__(self, part_shapes: Sequence[torch.Size], num_senders: int,
			
 
				+                 weights: Optional[Sequence[float]] = None):
			
 
				+        self.part_shapes, self.num_senders, self.num_parts = part_shapes, num_senders, len(part_shapes)
			
 
				+        self.weights = tuple(weights or (1 for _ in range(num_senders)))
			
 
				+        assert len(self.weights) == self.num_senders, "The number of weights is inconsistent with num_senders"
			
 
				+        assert all(isinstance(weight, (int, float)) for weight in self.weights)
			
 
				+        self.current_part_index = -1  # index in local_parts of the part that should be loaded next
			
 
				+        self.current_part_accumulated_from = 0  # number of peers from which the current part was accumulated
			
 
				+        self.accumulator = None  # this will contain the sum of current tensor part from group peers
			
 
				+        self.denominator = 0.0  # total weight accumulated from all peers for current part
			
 
				+        self.current_part_future = asyncio.Future()
			
 
				+        self.finished = asyncio.Event()
			
 
				+        self.reset_accumulators()
			
 
				+
			
 
				+    def reset_accumulators(self):
			
 
				+        """ (re)create averaging buffers for the next part in line, prepopulate with local tensor part """
			
 
				+        assert self.current_part_accumulated_from == self.num_senders or self.current_part_index == -1
			
 
				+        if self.current_part_index >= self.num_parts - 1:
			
 
				+            self.finalize()
			
 
				+            return
			
 
				+
			
 
				+        self.current_part_index += 1
			
 
				+        self.current_part_accumulated_from = 0
			
 
				+        self.current_part_future = asyncio.Future()
			
 
				+        self.accumulator = torch.zeros(self.part_shapes[self.current_part_index])
			
 
				+        self.denominator = 0.0
			
 
				+
			
 
				+    async def accumulate_part(self, sender_index: int, part_index: int, tensor_part: torch.Tensor) -> torch.Tensor:
			
 
				+        """ Add vector part to accumulator, wait for all other vectors to be added, then return the average part """
			
 
				+        assert 0 <= sender_index < self.num_senders, "invalid sender index"
			
 
				+        assert 0 <= part_index < self.num_parts, "invalid part index"
			
 
				+
			
 
				+        while part_index > self.current_part_index:
			
 
				+            # wait for previous parts to finish processing ...
			
 
				+            await asyncio.wait({self.current_part_future, self.finished.wait()}, return_when=asyncio.FIRST_COMPLETED)
			
 
				+            if self.finished.is_set():
			
 
				+                raise AllreduceException(f"attempted to aggregate part in a finalized {self.__class__.__name__}")
			
 
				+        assert part_index == self.current_part_index
			
 
				+
			
 
				+        current_part_future = self.current_part_future
			
 
				+
			
 
				+        self.accumulator.add_(tensor_part, alpha=self.weights[sender_index])
			
 
				+        self.denominator += self.weights[sender_index]
			
 
				+        self.current_part_accumulated_from += 1
			
 
				+
			
 
				+        assert self.current_part_accumulated_from <= self.num_senders
			
 
				+        if self.current_part_accumulated_from == self.num_senders:
			
 
				+            current_part_future.set_result(self.accumulator.div_(self.denominator))
			
 
				+            self.reset_accumulators()
			
 
				+        return await current_part_future
			
 
				+
			
 
				+    def finalize(self):
			
 
				+        if not self.finished.is_set():
			
 
				+            if hasattr(self, 'current_part_future'):
			
 
				+                self.current_part_future.cancel()
			
 
				+                del self.accumulator
			
 
				+            self.finished.set()
			
 
				+
			
 
				+    def __del__(self):
			
 
				+        self.finalize()
			
 
				+
			
 
				+
			
 
				+class AllreduceException(Exception):
			
 
				+    """ A special exception that is raised when allreduce can't continue normally (e.g. disconnected/protocol error) """
			
--- a/hivemind/proto/averaging.proto
+++ b/hivemind/proto/averaging.proto
@@ -43,7 +43,7 @@ message MessageFromLeader {
 
				   bytes group_id = 2;        // a unique identifier of this group, only valid until allreduce is finished/failed
			
 
				   string suggested_leader = 3;  // if peer is already in a group, it'll provide us with an endpoint of its leader
			
 
				   repeated string ordered_group_endpoints = 4;  // a sequence of peers, each responsible for one shard during averaging
			
 
				-  repeated bytes gathered = 5;  // metadata (gather) from all groupmates in the same order as their endoints
			
 
				+  repeated bytes gathered = 5;  // metadata (gather) from all groupmates in the same order as their endpoints
			
 
				 }
			
 
				 
			
 
				 message AveragingData {
			
--- a/hivemind/utils/asyncio.py
+++ b/hivemind/utils/asyncio.py
@@ -1,7 +1,14 @@
 
				-from typing import TypeVar, AsyncIterator, Union, AsyncIterable, Awaitable
			
 
				+from concurrent.futures import ThreadPoolExecutor
			
 
				+from typing import TypeVar, AsyncIterator, Union, AsyncIterable, Awaitable, Tuple, Optional, Callable
			
 
				 import asyncio
			
 
				+
			
 
				 import uvloop
			
 
				+
			
 
				+from hivemind.utils.logging import get_logger
			
 
				+
			
 
				+
			
 
				 T = TypeVar('T')
			
 
				+logger = get_logger(__name__)
			
 
				 
			
 
				 
			
 
				 def switch_to_uvloop() -> asyncio.AbstractEventLoop:
			
@@ -27,6 +34,16 @@ async def aiter(*args: T) -> AsyncIterator[T]:
 
				         yield arg
			
 
				 
			
 
				 
			
 
				+async def azip(*iterables: AsyncIterable[T]) -> AsyncIterator[Tuple[T, ...]]:
			
 
				+    """ equivalent of zip for asynchronous iterables """
			
 
				+    iterators = [iterable.__aiter__() for iterable in iterables]
			
 
				+    while True:
			
 
				+        try:
			
 
				+            yield tuple(await asyncio.gather(*(itr.__anext__() for itr in iterators)))
			
 
				+        except StopAsyncIteration:
			
 
				+            break
			
 
				+
			
 
				+
			
 
				 async def achain(*async_iters: AsyncIterable[T]) -> AsyncIterator[T]:
			
 
				     """ equivalent to chain(iter1, iter2, ...) for asynchronous iterators. """
			
 
				     for aiter in async_iters:
			
@@ -34,6 +51,14 @@ async def achain(*async_iters: AsyncIterable[T]) -> AsyncIterator[T]:
 
				             yield elem
			
 
				 
			
 
				 
			
 
				+async def aenumerate(aiterable: AsyncIterable[T]) -> AsyncIterable[Tuple[int, T]]:
			
 
				+    """ equivalent to enumerate(iter) for asynchronous iterators. """
			
 
				+    index = 0
			
 
				+    async for elem in aiterable:
			
 
				+        yield index, elem
			
 
				+        index += 1
			
 
				+
			
 
				+
			
 
				 async def await_cancelled(awaitable: Awaitable) -> bool:
			
 
				     try:
			
 
				         await awaitable
			
@@ -42,3 +67,26 @@ async def await_cancelled(awaitable: Awaitable) -> bool:
 
				         return True
			
 
				     except BaseException:
			
 
				         return False
			
 
				+
			
 
				+
			
 
				+async def amap_in_executor(func: Callable[..., T], *iterables: AsyncIterable, max_prefetch: Optional[int] = None,
			
 
				+                           executor: Optional[ThreadPoolExecutor] = None) -> AsyncIterator[T]:
			
 
				+    """ iterate from an async iterable in a background thread, yield results to async iterable """
			
 
				+    loop = asyncio.get_event_loop()
			
 
				+    queue = asyncio.Queue(max_prefetch)
			
 
				+
			
 
				+    async def _put_items():
			
 
				+        async for args in azip(*iterables):
			
 
				+            await queue.put(loop.run_in_executor(executor, func, *args))
			
 
				+        await queue.put(None)
			
 
				+
			
 
				+    task = asyncio.create_task(_put_items())
			
 
				+    try:
			
 
				+        future = await queue.get()
			
 
				+        while future is not None:
			
 
				+            yield await future
			
 
				+            future = await queue.get()
			
 
				+        await task
			
 
				+    finally:
			
 
				+        if not task.done():
			
 
				+            task.cancel()
			
--- a/hivemind/utils/compression.py
+++ b/hivemind/utils/compression.py
@@ -188,3 +188,15 @@ def deserialize_torch_tensor(serialized_tensor: runtime_pb2.Tensor) -> torch.Ten
 
				 
			
 
				     tensor.requires_grad_(serialized_tensor.requires_grad)
			
 
				     return tensor
			
 
				+
			
 
				+
			
 
				+def get_nbytes_per_value(dtype: torch.dtype, compression: CompressionType) -> int:
			
 
				+    """ returns the number of bytes per value for a given tensor (excluding metadata) """
			
 
				+    if compression in (CompressionType.QUANTILE_8BIT, CompressionType.UNIFORM_8BIT):
			
 
				+        return 1
			
 
				+    elif compression in (CompressionType.FLOAT16, CompressionType.MEANSTD_16BIT):
			
 
				+        return 2
			
 
				+    elif compression == CompressionType.NONE:
			
 
				+        return torch.finfo(dtype).bits // 8
			
 
				+    else:
			
 
				+        raise NotImplementedError(f"Unknown compression type: {CompressionType.Name(compression)}")
			
--- a/hivemind/utils/grpc.py
+++ b/hivemind/utils/grpc.py
@@ -158,7 +158,11 @@ class ChannelCache(TimedStorage[ChannelInfo, Tuple[Union[grpc.Channel, grpc.aio.
 
				         raise ValueError(f"Please use {self.__class__.__name__}.get_stub to get or create stubs")
			
 
				 
			
 
				 
			
 
				-def split_for_streaming(serialized_tensor: runtime_pb2.Tensor, chunk_size_bytes: int) -> Iterator[runtime_pb2.Tensor]:
			
 
				+STREAMING_CHUNK_SIZE_BYTES = 2 ** 16
			
 
				+
			
 
				+
			
 
				+def split_for_streaming(serialized_tensor: runtime_pb2.Tensor, chunk_size_bytes: int = STREAMING_CHUNK_SIZE_BYTES,
			
 
				+                        ) -> Iterator[runtime_pb2.Tensor]:
			
 
				     """ Split serialized_tensor into multiple chunks for gRPC streaming """
			
 
				     buffer = memoryview(serialized_tensor.buffer)
			
 
				     num_chunks = len(range(0, len(buffer), chunk_size_bytes))
			
--- a/tests/test_allreduce.py
+++ b/tests/test_allreduce.py
@@ -0,0 +1,217 @@
 
				+import asyncio
			
 
				+import random
			
 
				+import time
			
 
				+from typing import Sequence
			
 
				+
			
 
				+import pytest
			
 
				+import torch
			
 
				+import grpc
			
 
				+
			
 
				+from hivemind import aenumerate, Endpoint
			
 
				+from hivemind.client.averaging.allreduce import AllReduceRunner, AveragingMode
			
 
				+from hivemind.client.averaging.partition import TensorPartContainer, TensorPartReducer
			
 
				+from hivemind.utils import deserialize_torch_tensor, ChannelCache
			
 
				+from hivemind.proto.runtime_pb2 import CompressionType
			
 
				+from hivemind.proto import averaging_pb2_grpc
			
 
				+
			
 
				+
			
 
				+@pytest.mark.forked
			
 
				+@pytest.mark.asyncio
			
 
				+async def test_partitioning():
			
 
				+    all_tensors = [
			
 
				+        torch.randn(30_000, 128), torch.rand(128), torch.ones(1, 1, 1, 1, 1, 1, 8),
			
 
				+        torch.ones(1, 0), torch.zeros(0), torch.zeros([]), torch.randn(65536),
			
 
				+        torch.rand(512, 2048), torch.randn(1024, 1024).add(-9), torch.zeros(1020), torch.randn(4096)
			
 
				+    ]
			
 
				+
			
 
				+    # note: this test does _not_ use parameterization to reuse sampled tensors
			
 
				+    for num_tensors in 1, 3, 5:
			
 
				+        for part_size_bytes in 31337, 2 ** 20, 10 ** 10:
			
 
				+            for weights in [(1, 1), (0.333, 0.1667, 0.5003), (1.0, 0.0), [0.0, 0.4, 0.6, 0.0]]:
			
 
				+                tensors = random.choices(all_tensors, k=num_tensors)
			
 
				+                partition = TensorPartContainer(tensors, weights, part_size_bytes=part_size_bytes)
			
 
				+
			
 
				+                async def write_tensors():
			
 
				+                    for peer_index in range(partition.group_size):
			
 
				+                        async for part_index, part in aenumerate(partition.iterate_input_parts_for(peer_index)):
			
 
				+                            output_tensor = torch.sin(deserialize_torch_tensor(part))
			
 
				+                            partition.register_processed_part(peer_index, part_index, output_tensor)
			
 
				+
			
 
				+                task = asyncio.create_task(write_tensors())
			
 
				+                tensor_index = 0
			
 
				+                async for output_tensor in partition.iterate_output_tensors():
			
 
				+                    assert torch.allclose(output_tensor, torch.sin(tensors[tensor_index]))
			
 
				+                    tensor_index += 1
			
 
				+                assert tensor_index == len(tensors)
			
 
				+                await task
			
 
				+
			
 
				+
			
 
				+@pytest.mark.parametrize("tensors", [[torch.zeros(0)], [torch.zeros(0), torch.zeros(0), torch.zeros(1)],
			
 
				+                                     [torch.zeros(0), torch.zeros(999), torch.zeros(0), torch.zeros(0)]])
			
 
				+@pytest.mark.parametrize("peer_fractions", [(0.33, 0.44, 0.23), (0.5, 0.5), (0.1, 0.0, 0.9), (1.0,), (0.1,) * 9])
			
 
				+@pytest.mark.forked
			
 
				+@pytest.mark.asyncio
			
 
				+async def test_partitioning_edge_cases(tensors: Sequence[torch.Tensor], peer_fractions: Sequence[float]):
			
 
				+    partition = TensorPartContainer(tensors, peer_fractions, part_size_bytes=16)
			
 
				+    for peer_index in range(len(peer_fractions)):
			
 
				+        async for part_index, part in aenumerate(partition.iterate_input_parts_for(peer_index)):
			
 
				+            partition.register_processed_part(peer_index, part_index, deserialize_torch_tensor(part))
			
 
				+
			
 
				+    tensor_index = 0
			
 
				+    async for output_tensor in partition.iterate_output_tensors():
			
 
				+        assert torch.allclose(output_tensor, tensors[tensor_index])
			
 
				+        tensor_index += 1
			
 
				+
			
 
				+
			
 
				+@pytest.mark.forked
			
 
				+@pytest.mark.asyncio
			
 
				+async def test_partitioning_asynchronous():
			
 
				+    """ ensure that tensor partitioning does not interfere with asynchronous code """
			
 
				+    tensors = [torch.randn(2048, 2048), torch.randn(1024, 4096),
			
 
				+               torch.randn(4096, 1024), torch.randn(30_000, 1024)]
			
 
				+    peer_fractions = [0.4, 0.3, 0.2, 0.1]
			
 
				+
			
 
				+    partition = TensorPartContainer(tensors, peer_fractions, compression_type=CompressionType.QUANTILE_8BIT)
			
 
				+    read_started, read_finished = asyncio.Event(), asyncio.Event()
			
 
				+
			
 
				+    async def write_tensors():
			
 
				+        for peer_index in range(partition.group_size):
			
 
				+            async for part_index, part in aenumerate(partition.iterate_input_parts_for(peer_index)):
			
 
				+                partition.register_processed_part(peer_index, part_index, deserialize_torch_tensor(part))
			
 
				+        assert read_started.is_set(), "partitioner should have started reading before it finished writing"
			
 
				+
			
 
				+    async def read_tensors():
			
 
				+        async for _ in partition.iterate_output_tensors():
			
 
				+            read_started.set()
			
 
				+        read_finished.set()
			
 
				+
			
 
				+    async def wait_synchronously():
			
 
				+        time_in_waiting = 0.0
			
 
				+        while not read_finished.is_set():
			
 
				+            await asyncio.sleep(0.01)
			
 
				+            time_in_waiting += 0.01
			
 
				+        return time_in_waiting
			
 
				+
			
 
				+    start_time = time.perf_counter()
			
 
				+    *_, time_in_waiting = await asyncio.gather(write_tensors(), read_tensors(), wait_synchronously())
			
 
				+    wall_time = time.perf_counter() - start_time
			
 
				+    # check that event loop had enough time to respond to incoming requests; this is over 50% most of the time
			
 
				+    # we set 33% threshold to ensure that the test will pass reliably. If we break prefetch, this drops to <10%
			
 
				+    assert time_in_waiting > wall_time / 3, f"Event loop could only run {time_in_waiting / wall_time :.5f} of the time"
			
 
				+
			
 
				+
			
 
				+@pytest.mark.parametrize("num_senders", [1, 2, 4, 10])
			
 
				+@pytest.mark.parametrize("num_parts", [0, 1, 100])
			
 
				+@pytest.mark.parametrize("synchronize_prob", [1.0, 0.1, 0.0])
			
 
				+@pytest.mark.forked
			
 
				+@pytest.mark.asyncio
			
 
				+async def test_reducer(num_senders: int, num_parts: int, synchronize_prob: float):
			
 
				+    tensor_part_shapes = [torch.Size([i]) for i in range(num_parts)]
			
 
				+    reducer = TensorPartReducer(tensor_part_shapes, num_senders)
			
 
				+
			
 
				+    local_tensors_by_sender = [[torch.randn(i) for i in range(num_parts)]
			
 
				+                               for j in range(num_senders)]
			
 
				+
			
 
				+    async def send_tensors(sender_index: int):
			
 
				+        local_tensors = local_tensors_by_sender[sender_index]
			
 
				+        averaged_parts = []
			
 
				+        pending_tasks = []
			
 
				+
			
 
				+        for part_index in range(num_parts):
			
 
				+            pending_tasks.append(asyncio.create_task(
			
 
				+                reducer.accumulate_part(sender_index, part_index, local_tensors[part_index])))
			
 
				+
			
 
				+            if random.random() < synchronize_prob or part_index == num_parts - 1:
			
 
				+                averaged_parts.extend(await asyncio.gather(*pending_tasks))
			
 
				+                pending_tasks = []
			
 
				+        return averaged_parts
			
 
				+
			
 
				+    averaged_tensors_by_peer = await asyncio.gather(*map(send_tensors, range(num_senders)))
			
 
				+
			
 
				+    reference = [sum(local_tensors_by_sender[sender_index][part_index]
			
 
				+                     for sender_index in range(num_senders)) / num_senders
			
 
				+                 for part_index in range(num_parts)]
			
 
				+
			
 
				+    for averaged_tensors in averaged_tensors_by_peer:
			
 
				+        assert len(averaged_tensors) == len(reference)
			
 
				+        for averaging_result, reference_tensor in zip(averaged_tensors, reference):
			
 
				+            assert torch.allclose(averaging_result, reference_tensor, rtol=1e-3, atol=1e-5)
			
 
				+
			
 
				+
			
 
				+class AllreduceRunnerForTesting(AllReduceRunner):
			
 
				+    """ a version of AllReduceRunner that was monkey-patched to accept custom endpoint names """
			
 
				+    def __init__(self, *args, peer_endpoints, **kwargs):
			
 
				+        self.__peer_endpoints = peer_endpoints
			
 
				+        super().__init__(*args, **kwargs)
			
 
				+
			
 
				+    def _get_peer_stub(self, peer: Endpoint) -> averaging_pb2_grpc.DecentralizedAveragingStub:
			
 
				+        return ChannelCache.get_stub(
			
 
				+            self.__peer_endpoints[peer], averaging_pb2_grpc.DecentralizedAveragingStub, aio=True)
			
 
				+
			
 
				+
			
 
				+NODE, CLIENT, AUX = AveragingMode.NODE, AveragingMode.CLIENT, AveragingMode.AUX
			
 
				+
			
 
				+
			
 
				+@pytest.mark.parametrize("peer_modes, averaging_weights, peer_fractions", [
			
 
				+    ((NODE, NODE, NODE, NODE), (1, 1, 1, 1), (1, 1, 1, 1)),
			
 
				+    ((NODE, NODE, NODE, NODE), (0.1, 0.2, 0.3, 0.4), (1, 1, 1, 1)),
			
 
				+    ((NODE, NODE, NODE, NODE), (1, 1, 1, 1), (1, 2, 3, 0)),
			
 
				+    ((NODE, NODE, NODE, CLIENT), (1, 1, 1, 1), (1, 2, 3, 0)),
			
 
				+    ((NODE, NODE, NODE, AUX), (1, 1, 1, 0), (1, 2, 3, 4)),
			
 
				+    ((NODE, NODE, NODE, NODE), (0.15, 0.0, 0.35, 0.45), (1, 1, 1, 1)),
			
 
				+    ((NODE, AUX, NODE, CLIENT), (0.15, 0.0, 0.35, 0.45), (150, 200, 67, 0)),
			
 
				+    ((AUX, AUX, AUX, AUX), (0.0, 0.0, 0.0, 0.0), (1, 2, 3, 4)),
			
 
				+])
			
 
				+@pytest.mark.parametrize("part_size_bytes", [2 ** 20, 256, 19],)
			
 
				+@pytest.mark.forked
			
 
				+@pytest.mark.asyncio
			
 
				+async def test_allreduce_protocol(peer_modes, averaging_weights, peer_fractions, part_size_bytes):
			
 
				+    """ Run group allreduce protocol manually without grpc, see if the internal logic is working as intended """
			
 
				+
			
 
				+    peers = "alice", "bob", "carol", "colab"
			
 
				+
			
 
				+    tensors_by_peer = {peer: [torch.randn(3, 128), torch.rand(32), torch.tensor(i, dtype=torch.float32)]
			
 
				+                       for i, peer in enumerate(peers)}
			
 
				+
			
 
				+    group_id = random.getrandbits(160).to_bytes(length=20, byteorder='big')
			
 
				+
			
 
				+    servers = []
			
 
				+    allreduce_protocols = []
			
 
				+    peer_endpoints = {}
			
 
				+
			
 
				+    for peer in peers:
			
 
				+        server = grpc.aio.server()
			
 
				+        allreduce_protocol = AllreduceRunnerForTesting(
			
 
				+            group_id=group_id, endpoint=peer, tensors=[x.clone() for x in tensors_by_peer[peer]],
			
 
				+            ordered_group_endpoints=peers, peer_fractions=peer_fractions, modes=peer_modes,
			
 
				+            weights=averaging_weights, peer_endpoints=peer_endpoints, part_size_bytes=part_size_bytes
			
 
				+        )
			
 
				+        averaging_pb2_grpc.add_DecentralizedAveragingServicer_to_server(allreduce_protocol, server)
			
 
				+        peer_endpoints[peer] = f"127.0.0.1:{server.add_insecure_port('127.0.0.1:*')}"
			
 
				+        allreduce_protocols.append(allreduce_protocol)
			
 
				+        servers.append(server)
			
 
				+        await server.start()
			
 
				+
			
 
				+    async def _run_allreduce_inplace(allreduce: AllReduceRunner):
			
 
				+        async for tensor_index, tensor_delta in aenumerate(allreduce):
			
 
				+            allreduce.tensor_part_container.local_tensors[tensor_index].add_(tensor_delta)
			
 
				+
			
 
				+    await asyncio.gather(*map(_run_allreduce_inplace, allreduce_protocols))
			
 
				+
			
 
				+    reference_tensors = [sum(tensors_by_peer[peer][i] * averaging_weights[peer_index]
			
 
				+                             for peer_index, peer in enumerate(peers)) / sum(averaging_weights)
			
 
				+                         for i in range(len(tensors_by_peer[peers[0]]))]
			
 
				+
			
 
				+    for peer_index, protocol in enumerate(allreduce_protocols):
			
 
				+        assert protocol._future.done()
			
 
				+        if protocol.modes[peer_index] != AveragingMode.AUX:
			
 
				+            targets_for_peer = reference_tensors
			
 
				+        else:
			
 
				+            targets_for_peer = tensors_by_peer[peers[peer_index]]
			
 
				+        output_tensors = protocol.tensor_part_container.local_tensors
			
 
				+        assert len(output_tensors) == len(targets_for_peer)
			
 
				+        assert all(torch.allclose(our, ref, atol=1e-6, rtol=0)
			
 
				+                   for our, ref in zip(output_tensors, targets_for_peer))
			
 
				+
			
 
				+    for server in servers:
			
 
				+        await server.stop(grace=1)
			
--- a/tests/test_averaging.py
+++ b/tests/test_averaging.py
@@ -1,14 +1,13 @@
 
				-import asyncio
			
 
				 import random
			
 
				 
			
 
				 import numpy as np
			
 
				 import torch
			
 
				 import pytest
			
 
				 import hivemind
			
 
				-from hivemind.client.averaging.allreduce import AllReduceProtocol, split_into_parts, restore_from_parts, AveragingMode
			
 
				+from hivemind.client.averaging.allreduce import AveragingMode
			
 
				 from hivemind.client.averaging.load_balancing import load_balance_peers
			
 
				 from hivemind.client.averaging.key_manager import GroupKeyManager
			
 
				-from hivemind.utils import Endpoint
			
 
				+from hivemind.proto.runtime_pb2 import CompressionType
			
 
				 
			
 
				 
			
 
				 @pytest.mark.forked
			
@@ -47,13 +46,13 @@ def _test_allreduce_once(n_clients, n_aux):
 
				     n_peers = 4
			
 
				     modes = [AveragingMode.CLIENT] * n_clients + [AveragingMode.AUX] * n_aux + [AveragingMode.NODE] * (n_peers - n_clients - n_aux)
			
 
				     random.shuffle(modes)
			
 
				-    
			
 
				+
			
 
				     tensors1 = [torch.randn(123), torch.zeros(3)]
			
 
				     tensors2 = [torch.rand(123), torch.ones(3)]
			
 
				     tensors3 = [-torch.rand(123), torch.arange(3).to(torch.float32)]
			
 
				     tensors4 = [torch.randn(123) ** 3, torch.arange(3).to(torch.float32) / 2]
			
 
				     peer_tensors = [tensors1, tensors2, tensors3, tensors4]
			
 
				-    
			
 
				+
			
 
				     reference = [sum(tensors[i] for tensors, mode in zip(peer_tensors, modes)
			
 
				                  if mode != AveragingMode.AUX) / max(1, n_peers - n_aux) for i in range(len(tensors1))]
			
 
				 
			
@@ -130,6 +129,47 @@ def test_allreduce_weighted(n_client_mode_peers: int = 2):
 
				     dht.shutdown()
			
 
				 
			
 
				 
			
 
				+@pytest.mark.forked
			
 
				+def test_allreduce_compression():
			
 
				+    """ this test ensures that compression works correctly when multiple tensors have different compression types """
			
 
				+    dht = hivemind.DHT(start=True, endpoint=f'{hivemind.LOCALHOST}:*')
			
 
				+
			
 
				+    tensors1 = [torch.linspace(0, 500, 1000) ** 0.5, torch.randn(1000)]
			
 
				+    tensors2 = [torch.linspace(300, 800, 1000) ** 0.5, torch.randn(1000)]
			
 
				+    results = {}
			
 
				+
			
 
				+    FLOAT16, UINT8 = CompressionType.FLOAT16, CompressionType.UNIFORM_8BIT
			
 
				+
			
 
				+    for compression_type_pair in [(FLOAT16, FLOAT16), (FLOAT16, UINT8), (UINT8, FLOAT16), (UINT8, UINT8)]:
			
 
				+        averager1 = hivemind.DecentralizedAverager([x.clone() for x in tensors1], dht=dht,
			
 
				+                                                   compression_type=compression_type_pair, listen=False,
			
 
				+                                                   target_group_size=2, prefix='mygroup', start=True)
			
 
				+        averager2 = hivemind.DecentralizedAverager([x.clone() for x in tensors2], dht=dht,
			
 
				+                                                   compression_type=compression_type_pair,
			
 
				+                                                   target_group_size=2, prefix='mygroup', start=True)
			
 
				+
			
 
				+        for future in averager1.step(wait=False), averager2.step(wait=False):
			
 
				+            future.result()
			
 
				+
			
 
				+        with averager1.get_tensors() as averaged_tensors:
			
 
				+            results[compression_type_pair] = averaged_tensors
			
 
				+
			
 
				+    assert torch.allclose(results[UINT8, FLOAT16][0], results[UINT8, UINT8][0])
			
 
				+    assert torch.allclose(results[UINT8, FLOAT16][1], results[FLOAT16, FLOAT16][1])
			
 
				+    assert torch.allclose(results[UINT8, UINT8][1], results[FLOAT16, UINT8][1])
			
 
				+    assert torch.allclose(results[FLOAT16, UINT8][0], results[FLOAT16, FLOAT16][0])
			
 
				+
			
 
				+    assert not torch.allclose(results[UINT8, FLOAT16][1], results[UINT8, UINT8][1])
			
 
				+    assert not torch.allclose(results[UINT8, FLOAT16][0], results[FLOAT16, FLOAT16][0])
			
 
				+    assert not torch.allclose(results[UINT8, UINT8][0], results[FLOAT16, UINT8][0])
			
 
				+    assert not torch.allclose(results[FLOAT16, UINT8][1], results[FLOAT16, FLOAT16][1])
			
 
				+
			
 
				+    reference = [(tensors1[i] + tensors2[i]) / 2 for i in range(len(tensors1))]
			
 
				+    for i in range(2):
			
 
				+        assert 0 < torch.mean(torch.square(results[FLOAT16, FLOAT16][i] - reference[i])).item() <= 1e-5
			
 
				+        assert 1e-5 < torch.mean(torch.square(results[UINT8, UINT8][i] - reference[i])).item() <= 1e-2
			
 
				+
			
 
				+
			
 
				 def compute_mean_std(averagers, unbiased=True):
			
 
				     results = []
			
 
				     for averager in averagers:
			
@@ -201,68 +241,6 @@ def test_allgather():
 
				     dht.shutdown()
			
 
				 
			
 
				 
			
 
				-@pytest.mark.forked
			
 
				-@pytest.mark.asyncio
			
 
				-async def test_allreduce_protocol():
			
 
				-    """ Run group allreduce protocol manually without grpc, see if the internal logic is working as intended """
			
 
				-    peers = "alice", "bob", "carol", "colab"
			
 
				-
			
 
				-    tensors_by_peer = {peer: [torch.randn(3, 128), torch.rand(32), torch.tensor(i, dtype=torch.float32)]
			
 
				-                       for i, peer in enumerate(peers)}
			
 
				-
			
 
				-    group_id = random.getrandbits(160).to_bytes(length=20, byteorder='big')
			
 
				-    allreduce_protocols = [AllReduceProtocol(
			
 
				-        group_id=group_id, endpoint=peer, tensors=tensors_by_peer[peer],
			
 
				-        ordered_group_endpoints=peers, part_sizes=(150, 200, 67, 0))
			
 
				-        for peer in peers]
			
 
				-
			
 
				-    async def _accumulate(sender: Endpoint, recipient: Endpoint):
			
 
				-        sender_allreduce = allreduce_protocols[peers.index(sender)]
			
 
				-        recipient_allreduce = allreduce_protocols[peers.index(recipient)]
			
 
				-        averaged_part = await recipient_allreduce.accumulate_part(
			
 
				-            source=sender, remote_part=sender_allreduce.local_tensor_parts[recipient])
			
 
				-        sender_allreduce.register_averaged_part(source=recipient, averaged_part=averaged_part)
			
 
				-
			
 
				-    await asyncio.wait({_accumulate(sender, recipient) for sender in peers for recipient in peers
			
 
				-                        if recipient != "colab"})
			
 
				-
			
 
				-    reference_tensors = [
			
 
				-        sum(tensors_by_peer[peer][i] for peer in peers) / len(peers)
			
 
				-        for i in range(len(tensors_by_peer[peers[0]]))
			
 
				-    ]
			
 
				-
			
 
				-    for peer, allreduce in zip(peers, allreduce_protocols):
			
 
				-        assert allreduce.future.done()
			
 
				-        averaged_tensors = await allreduce
			
 
				-        assert len(averaged_tensors) == len(reference_tensors)
			
 
				-        assert all(torch.allclose(our, ref, atol=1e-6, rtol=0)
			
 
				-                   for our, ref in zip(averaged_tensors, reference_tensors))
			
 
				-
			
 
				-
			
 
				-@pytest.mark.forked
			
 
				-def test_partitioning():
			
 
				-    for _ in range(100):
			
 
				-        tensors = []
			
 
				-        for _ in range(random.randint(1, 5)):
			
 
				-            ndim = random.randint(0, 4)
			
 
				-            shape = torch.Size([random.randint(0, 16) for _ in range(ndim)])
			
 
				-            make_tensor = random.choice([torch.rand, torch.randn, torch.zeros, torch.ones])
			
 
				-            tensors.append(make_tensor(shape))
			
 
				-
			
 
				-        total_size = sum(map(torch.Tensor.numel, tensors))
			
 
				-        if total_size == 0:
			
 
				-            continue
			
 
				-        num_chunks = random.randint(1, min(100, sum(x.numel() for x in tensors)))
			
 
				-        part_sizes = load_balance_peers(total_size, [None] * num_chunks)
			
 
				-        chunks = split_into_parts(tensors, part_sizes)
			
 
				-        assert len(chunks) == num_chunks
			
 
				-        shapes = [tensor.shape for tensor in tensors]
			
 
				-        restored = restore_from_parts(chunks, shapes)
			
 
				-        assert len(restored) == len(tensors)
			
 
				-        assert all(new.shape == old.shape for new, old in zip(restored, tensors))
			
 
				-        assert all(torch.allclose(new, old) for new, old in zip(restored, tensors))
			
 
				-
			
 
				-
			
 
				 def get_cost(vector_size, partitions, throughputs):
			
 
				     return max((vector_size - partitions[i] + (len(partitions) - 1) * partitions[i]) / max(throughputs[i], 1e-9)
			
 
				                for i in range(len(partitions)))
			
--- a/tests/test_util_modules.py
+++ b/tests/test_util_modules.py
@@ -11,6 +11,7 @@ from hivemind.proto.runtime_pb2_grpc import ConnectionHandlerStub
 
				 import hivemind
			
 
				 from hivemind.utils import MSGPackSerializer
			
 
				 from hivemind.utils.compression import serialize_torch_tensor, deserialize_torch_tensor
			
 
				+from hivemind.utils.asyncio import amap_in_executor, aiter, aenumerate, achain, anext, azip
			
 
				 from hivemind.utils.mpfuture import FutureStateError
			
 
				 
			
 
				 
			
@@ -142,6 +143,7 @@ def test_tensor_compression(size=(128, 128, 64), alpha=5e-08, beta=0.0008):
 
				     for compression_type in CompressionType.values():
			
 
				         assert deserialize_torch_tensor(serialize_torch_tensor(zeros, compression_type)).isfinite().all()
			
 
				 
			
 
				+
			
 
				 @pytest.mark.forked
			
 
				 @pytest.mark.asyncio
			
 
				 async def test_channel_cache():
			
@@ -256,7 +258,7 @@ def test_split_parts():
 
				     for combined in combined_incomplete, combined_incomplete2, combined_incomplete3:
			
 
				         with pytest.raises(RuntimeError):
			
 
				             deserialize_torch_tensor(combined)
			
 
				-            # note: we rely on this being RuntimeError in hivemind.client.averager.allreduce.AllreduceProtocol
			
 
				+            # note: we rely on this being RuntimeError in hivemind.client.averager.allreduce.AllreduceRunner
			
 
				 
			
 
				 
			
 
				 def test_generic_data_classes():
			
@@ -271,3 +273,37 @@ def test_generic_data_classes():
 
				     sorted_expirations = sorted([DHTExpiration(value) for value in range(1, 1000)])
			
 
				     sorted_heap_entries = sorted([HeapEntry(DHTExpiration(value), key="any") for value in range(1, 1000)[::-1]])
			
 
				     assert all([entry.expiration_time == value for entry, value in zip(sorted_heap_entries, sorted_expirations)])
			
 
				+
			
 
				+
			
 
				+@pytest.mark.asyncio
			
 
				+async def test_asyncio_utils():
			
 
				+    res = [i async for i, item in aenumerate(aiter('a', 'b', 'c'))]
			
 
				+    assert res == list(range(len(res)))
			
 
				+
			
 
				+    num_steps = 0
			
 
				+    async for elem in amap_in_executor(lambda x: x ** 2, aiter(*range(100)), max_prefetch=5):
			
 
				+        assert elem == num_steps ** 2
			
 
				+        num_steps += 1
			
 
				+    assert num_steps == 100
			
 
				+
			
 
				+    ours = [elem async for elem in amap_in_executor(max, aiter(*range(7)), aiter(*range(-50, 50, 10)), max_prefetch=1)]
			
 
				+    ref = list(map(max, range(7), range(-50, 50, 10)))
			
 
				+    assert ours == ref
			
 
				+
			
 
				+    ours = [row async for row in azip(aiter('a', 'b', 'c'), aiter(1, 2, 3))]
			
 
				+    ref = list(zip(['a', 'b', 'c'], [1, 2, 3]))
			
 
				+    assert ours == ref
			
 
				+
			
 
				+    async def _aiterate():
			
 
				+        yield 'foo'
			
 
				+        yield 'bar'
			
 
				+        yield 'baz'
			
 
				+
			
 
				+    iterator = _aiterate()
			
 
				+    assert (await anext(iterator)) == 'foo'
			
 
				+    tail = [item async for item in iterator]
			
 
				+    assert tail == ['bar', 'baz']
			
 
				+    with pytest.raises(StopAsyncIteration):
			
 
				+        await anext(iterator)
			
 
				+
			
 
				+    assert [item async for item in achain(_aiterate(), aiter(*range(5)))] == ['foo', 'bar', 'baz'] + list(range(5))