3 年之前 · 6da8683975
--- a/hivemind/averaging/allreduce.py
+++ b/hivemind/averaging/allreduce.py
@@ -1,6 +1,6 @@
 
				 import asyncio
			
 
				 from enum import Enum
			
 
				-from typing import Any, AsyncIterator, Dict, Optional, Sequence, Tuple, Type
			
 
				+from typing import Any, AsyncIterator, Dict, Optional, Sequence, Set, Tuple, Type
			
 
				 
			
 
				 import torch
			
 
				 
			
@@ -11,8 +11,7 @@ from hivemind.proto import averaging_pb2
 
				 from hivemind.utils import get_logger
			
 
				 from hivemind.utils.asyncio import (
			
 
				     achain,
			
 
				-    aenumerate,
			
 
				-    afirst,
			
 
				+    aiter_with_timeout,
			
 
				     amap_in_executor,
			
 
				     anext,
			
 
				     as_aiter,
			
@@ -52,6 +51,10 @@ class AllReduceRunner(ServicerBase):
 
				       (the actual number of values by peer will be nearly proportional, but there are no exact guarantees)
			
 
				     :param modes: AveragingMode for each peer in ordered_peer_ids (normal, client-only or auxiliary)
			
 
				     :param gathered: additional user-defined data collected from this group
			
 
				+    :param sender_timeout: during all_reduce, any sender that fails to send tensor chunk within this many seconds from
			
 
				+      previous chunk will be marked as failed and excluded from averaging. default: equal to next_chunk_timeout
			
 
				+    :param reducer_timeout: during all_reduce, any reducer that fails to send results chunk within this many seconds
			
 
				+      from previous chunk will be marked as failed and excluded from averaging. default: 2 x sender_timeout
			
 
				     :param kwargs: additional parameters (e.g. part_size_bytes) will be passed to TensorPartContainer
			
 
				     :note: Full-mode peers send and receive tensor parts concurrently, assuming a full-duplex TCP stream. In turn,
			
 
				       non-averaging peers receive results only after they finish sending, which helps them avoid
			
@@ -71,11 +74,18 @@ class AllReduceRunner(ServicerBase):
 
				         peer_fractions: Tuple[float, ...],
			
 
				         modes: Optional[Sequence[AveragingMode]] = None,
			
 
				         gathered: Optional[Dict[PeerID, Any]] = None,
			
 
				+        sender_timeout: Optional[float] = None,
			
 
				+        reducer_timeout: Optional[float] = None,
			
 
				         **kwargs,
			
 
				     ):
			
 
				         self._p2p = p2p
			
 
				         self.peer_id = p2p.peer_id
			
 
				         assert self.peer_id in ordered_peer_ids, "peer_id is not a part of the group"
			
 
				+        if reducer_timeout is not None and (sender_timeout is None or reducer_timeout <= sender_timeout):
			
 
				+            raise ValueError(
			
 
				+                "If reducer_timeout is enabled, sender_timeout must be shorter than reducer_timeout. "
			
 
				+                "Otherwise, there is a chance that reducers will be banned while they await senders."
			
 
				+            )
			
 
				 
			
 
				         if not issubclass(servicer_type, ServicerBase):
			
 
				             raise TypeError("`servicer_type` is expected to be a ServicerBase subclass")
			
@@ -102,8 +112,19 @@ class AllReduceRunner(ServicerBase):
 
				             if mode != AveragingMode.AUX:
			
 
				                 self.sender_peer_ids.append(peer_id)
			
 
				 
			
 
				+        self.sender_timeout, self.reducer_timeout = sender_timeout, reducer_timeout
			
 
				+        self.all_senders_started = asyncio.Event()
			
 
				+        self.banned_senders: Set[PeerID] = set()  # peers that did not send data by next_chunk_timeout
			
 
				+        self.banlock = asyncio.Lock()
			
 
				+
			
 
				+        self.active_senders: Set[PeerID] = set()  # peers that began sending data via rpc_aggregate_part
			
 
				+        if self.peer_id in self.sender_peer_ids:
			
 
				+            self.active_senders.add(self.peer_id)
			
 
				+        if len(self.active_senders) == len(self.sender_peer_ids):
			
 
				+            self.all_senders_started.set()
			
 
				+
			
 
				         peer_id_index = self.ordered_peer_ids.index(self.peer_id)
			
 
				-        self.tensor_part_container = TensorPartContainer(tensors, peer_fractions, **kwargs)
			
 
				+        self.tensor_part_container = TensorPartContainer(tensors, peer_fractions, return_deltas=True, **kwargs)
			
 
				         self.parts_for_local_averaging = self.tensor_part_container.get_raw_input_parts(peer_id_index)
			
 
				         self.tensor_part_reducer = TensorPartReducer(
			
 
				             tuple(part.shape for part in self.parts_for_local_averaging),
			
@@ -132,6 +153,10 @@ class AllReduceRunner(ServicerBase):
 
				     async def run(self) -> AsyncIterator[torch.Tensor]:
			
 
				         """Run all-reduce, return differences between averaged and original tensors as they are computed"""
			
 
				         pending_tasks = set()
			
 
				+
			
 
				+        if self.tensor_part_container.num_parts_by_peer[self.ordered_peer_ids.index(self.peer_id)] != 0:
			
 
				+            pending_tasks.add(asyncio.create_task(self._handle_missing_senders()))
			
 
				+
			
 
				         try:
			
 
				             if len(self.sender_peer_ids) == 0:
			
 
				                 logger.debug(f"{self} - finished all-reduce early: all peers are auxiliaries ({self.modes})")
			
@@ -144,6 +169,7 @@ class AllReduceRunner(ServicerBase):
 
				 
			
 
				                 async for averaged_tensor_delta in self.tensor_part_container.iterate_output_tensors():
			
 
				                     yield averaged_tensor_delta  # delta = averaged_tensor - original_tensor
			
 
				+
			
 
				                 self.finalize()
			
 
				 
			
 
				             else:  # auxiliary peer
			
@@ -156,6 +182,24 @@ class AllReduceRunner(ServicerBase):
 
				                 task.cancel()
			
 
				             raise
			
 
				 
			
 
				+        finally:
			
 
				+            for task in pending_tasks:
			
 
				+                try:
			
 
				+                    await task
			
 
				+                except asyncio.CancelledError:
			
 
				+                    pass
			
 
				+                except Exception as inner_exc:
			
 
				+                    logger.debug(f"Task {task} failed with {inner_exc}", exc_info=True)
			
 
				+
			
 
				+    async def _handle_missing_senders(self):
			
 
				+        """Detect senders that should have sent tensors for averaging, but did not send anything within timeout"""
			
 
				+        try:
			
 
				+            await asyncio.wait_for(self.all_senders_started.wait(), self.sender_timeout)
			
 
				+        except asyncio.TimeoutError:
			
 
				+            for peer_id in self.sender_peer_ids:
			
 
				+                if peer_id not in self.active_senders and peer_id not in self.banned_senders:
			
 
				+                    await self._ban_sender(peer_id)
			
 
				+
			
 
				     async def _communicate_with_peer(self, peer_id: PeerID):
			
 
				         """Send a part of local tensors and metadata to a single peer, receive the average for that part of tensors"""
			
 
				         peer_index = self.ordered_peer_ids.index(peer_id)
			
@@ -168,25 +212,39 @@ class AllReduceRunner(ServicerBase):
 
				                 self.tensor_part_container.register_processed_part(peer_index, part_index, averaged_part - tensor_part)
			
 
				 
			
 
				         else:
			
 
				-            code = None
			
 
				-            stream = await self._get_peer_stub(peer_id).rpc_aggregate_part(self._generate_input_for_peer(peer_index))
			
 
				-            async for part_index, (averaged_part_delta, msg) in aenumerate(
			
 
				-                amap_in_executor(
			
 
				-                    lambda msg: (deserialize_torch_tensor(msg.tensor_part), msg),
			
 
				-                    stream,
			
 
				+            try:
			
 
				+                done_sending = asyncio.Event()
			
 
				+                inputs_aiter = attach_event_on_finished(self._generate_input_for_peer(peer_index), done_sending)
			
 
				+                stream = await self._get_peer_stub(peer_id).rpc_aggregate_part(inputs_aiter)
			
 
				+
			
 
				+                if self.should_delay_results(self.peer_id):
			
 
				+                    await done_sending.wait()
			
 
				+
			
 
				+                part_index = 0
			
 
				+
			
 
				+                def _try_deserialize(msg):
			
 
				+                    if msg.code != averaging_pb2.AVERAGED_PART:
			
 
				+                        raise AllreduceException(f"{peer_id} sent {averaging_pb2.MessageCode.Name(msg.code)}")
			
 
				+                    return deserialize_torch_tensor(msg.tensor_part), msg
			
 
				+
			
 
				+                async for delta, msg in amap_in_executor(
			
 
				+                    _try_deserialize,
			
 
				+                    aiter_with_timeout(stream, self.reducer_timeout),
			
 
				                     max_prefetch=self.tensor_part_container.prefetch,
			
 
				-                )
			
 
				-            ):
			
 
				-                if code is None:
			
 
				-                    code = msg.code
			
 
				-                self.tensor_part_container.register_processed_part(peer_index, part_index, averaged_part_delta)
			
 
				-
			
 
				-            if code != averaging_pb2.AVERAGED_PART:
			
 
				-                raise AllreduceException(
			
 
				-                    f"peer {peer_id} returned {averaging_pb2.MessageCode.Name(code)} "
			
 
				-                    f"instead of {averaging_pb2.MessageCode.Name(averaging_pb2.AVERAGED_PART)}"
			
 
				-                    f", allreduce failed"
			
 
				-                )
			
 
				+                ):
			
 
				+                    self.tensor_part_container.register_processed_part(peer_index, part_index, delta)
			
 
				+                    part_index += 1
			
 
				+
			
 
				+                if part_index != self.tensor_part_container.num_parts_by_peer[peer_index]:
			
 
				+                    raise AllreduceException(
			
 
				+                        f"peer {peer_id} sent {part_index} parts, but we expected "
			
 
				+                        f"{self.tensor_part_container.num_parts_by_peer[peer_index]}"
			
 
				+                    )
			
 
				+            except BaseException as e:
			
 
				+                if isinstance(e, Exception):
			
 
				+                    logger.warning(f"Caught {repr(e)} when communicating to {peer_id}")
			
 
				+                self.tensor_part_container.register_failed_reducer(peer_index)
			
 
				+                raise
			
 
				 
			
 
				     async def _generate_input_for_peer(self, peer_index: int) -> AsyncIterator[averaging_pb2.AveragingData]:
			
 
				         parts_aiter = self.tensor_part_container.iterate_input_parts_for(peer_index)
			
@@ -204,18 +262,22 @@ class AllReduceRunner(ServicerBase):
 
				         self, stream: AsyncIterator[averaging_pb2.AveragingData], context: P2PContext
			
 
				     ) -> AsyncIterator[averaging_pb2.AveragingData]:
			
 
				         """a peer sends us a part of his tensor; we should average it with other peers and return the difference"""
			
 
				-        request: averaging_pb2.AveragingData = await anext(stream)
			
 
				-        reason_to_reject = self._check_reasons_to_reject(request)
			
 
				-        if reason_to_reject:
			
 
				-            yield reason_to_reject
			
 
				-            return
			
 
				-
			
 
				-        elif request.code == averaging_pb2.PART_FOR_AVERAGING:
			
 
				-            try:
			
 
				-                sender_index = self.sender_peer_ids.index(context.remote_id)
			
 
				+        sender_index = self.sender_peer_ids.index(context.remote_id)
			
 
				+        self.active_senders.add(context.remote_id)
			
 
				+        if len(self.active_senders) == len(self.sender_peer_ids):
			
 
				+            self.all_senders_started.set()
			
 
				 
			
 
				+        try:
			
 
				+            request: averaging_pb2.AveragingData = await asyncio.wait_for(anext(stream), self.sender_timeout)
			
 
				+            reason_to_reject = self._check_reasons_to_reject(request, context)
			
 
				+            if reason_to_reject:
			
 
				+                yield reason_to_reject
			
 
				+                return
			
 
				+
			
 
				+            elif request.code == averaging_pb2.PART_FOR_AVERAGING:
			
 
				+                stream = aiter_with_timeout(achain(as_aiter(request), stream), self.sender_timeout)
			
 
				                 if not self.should_delay_results(context.remote_id):
			
 
				-                    async for msg in self._accumulate_parts_streaming(achain(as_aiter(request), stream), sender_index):
			
 
				+                    async for msg in self._accumulate_parts_streaming(stream, sender_index):
			
 
				                         yield msg
			
 
				 
			
 
				                 else:
			
@@ -223,10 +285,13 @@ class AllReduceRunner(ServicerBase):
 
				                     delayed_results = asyncio.Queue()
			
 
				 
			
 
				                     async def _accumulate_parts():
			
 
				-                        inputs_aiter = attach_event_on_finished(achain(as_aiter(request), stream), done_receiving)
			
 
				-                        async for msg in self._accumulate_parts_streaming(inputs_aiter, sender_index):
			
 
				-                            delayed_results.put_nowait(msg)
			
 
				-                        delayed_results.put_nowait(None)
			
 
				+                        try:
			
 
				+                            async for msg in self._accumulate_parts_streaming(
			
 
				+                                attach_event_on_finished(stream, done_receiving), sender_index
			
 
				+                            ):
			
 
				+                                delayed_results.put_nowait(msg)
			
 
				+                        finally:
			
 
				+                            delayed_results.put_nowait(None)
			
 
				 
			
 
				                     accumulate_task = asyncio.create_task(_accumulate_parts())
			
 
				 
			
@@ -239,63 +304,61 @@ class AllReduceRunner(ServicerBase):
 
				                         yield next_result
			
 
				                     await accumulate_task
			
 
				 
			
 
				-            except Exception as e:
			
 
				-                self.finalize(exception=e)
			
 
				+            else:
			
 
				                 yield averaging_pb2.AveragingData(code=averaging_pb2.INTERNAL_ERROR)
			
 
				-        else:
			
 
				-            error_code = averaging_pb2.MessageCode.Name(request.code)
			
 
				-            logger.debug(f"{self} - peer {context.remote_id} sent {error_code}, allreduce cannot continue")
			
 
				-            self.finalize(exception=AllreduceException(f"Peer {context.remote_id} sent {error_code}"))
			
 
				-            yield averaging_pb2.AveragingData(code=averaging_pb2.INTERNAL_ERROR)
			
 
				+                raise AllreduceException(f"{context.remote_id} sent {averaging_pb2.MessageCode.Name(request.code)}")
			
 
				+
			
 
				+        except BaseException as e:
			
 
				+            await self._ban_sender(context.remote_id)
			
 
				+            if isinstance(e, Exception):
			
 
				+                logger.warning(f"Caught {repr(e)} when communicating with {context.remote_id}")
			
 
				+                yield averaging_pb2.AveragingData(code=averaging_pb2.INTERNAL_ERROR)
			
 
				+            else:
			
 
				+                raise  # CancelledError, StopIteration and similar
			
 
				+
			
 
				+    async def _ban_sender(self, peer_id: PeerID):
			
 
				+        async with self.banlock:
			
 
				+            if peer_id not in self.banned_senders:
			
 
				+                self.banned_senders.add(peer_id)
			
 
				+                self.tensor_part_reducer.on_sender_failed(self.sender_peer_ids.index(peer_id))
			
 
				 
			
 
				-    def _check_reasons_to_reject(self, request: averaging_pb2.AveragingData) -> Optional[averaging_pb2.AveragingData]:
			
 
				+    def _check_reasons_to_reject(
			
 
				+        self, request: averaging_pb2.AveragingData, context: P2PContext
			
 
				+    ) -> Optional[averaging_pb2.AveragingData]:
			
 
				         if request.group_id != self.group_id:
			
 
				             return averaging_pb2.AveragingData(code=averaging_pb2.BAD_GROUP_ID)
			
 
				         elif self._future.cancelled():
			
 
				             return averaging_pb2.AveragingData(code=averaging_pb2.CANCELLED)
			
 
				         elif self._future.done():
			
 
				             return averaging_pb2.AveragingData(code=averaging_pb2.INTERNAL_ERROR)
			
 
				+        elif context.remote_id not in self.sender_peer_ids:
			
 
				+            return averaging_pb2.AveragingData(code=averaging_pb2.PROTOCOL_VIOLATION)
			
 
				 
			
 
				     async def _accumulate_parts_streaming(self, stream: AsyncIterator[averaging_pb2.AveragingData], sender_index: int):
			
 
				-        loop = asyncio.get_event_loop()
			
 
				-        async for part_index, (tensor_part, weight, part_compression) in aenumerate(
			
 
				-            amap_in_executor(
			
 
				+        part_index = 0
			
 
				+        try:
			
 
				+            loop = asyncio.get_event_loop()
			
 
				+            async for tensor_part, weight, part_compression in amap_in_executor(
			
 
				                 lambda msg: (deserialize_torch_tensor(msg.tensor_part), msg.weight, msg.tensor_part.compression),
			
 
				                 stream,
			
 
				                 max_prefetch=self.tensor_part_container.prefetch,
			
 
				-            )
			
 
				-        ):
			
 
				-            averaged_part = await self.tensor_part_reducer.accumulate_part(
			
 
				-                sender_index, part_index, tensor_part, weight=weight
			
 
				-            )
			
 
				-
			
 
				-            serialized_delta = await loop.run_in_executor(
			
 
				-                None, lambda: serialize_torch_tensor(averaged_part - tensor_part, part_compression)
			
 
				-            )
			
 
				-            yield averaging_pb2.AveragingData(code=averaging_pb2.AVERAGED_PART, tensor_part=serialized_delta)
			
 
				+            ):
			
 
				+                averaged_part = await self.tensor_part_reducer.accumulate_part(
			
 
				+                    sender_index, part_index, tensor_part, weight=weight
			
 
				+                )
			
 
				+                part_index += 1
			
 
				 
			
 
				-    async def _send_error_to_peer(self, peer_id: PeerID, code: averaging_pb2.MessageCode):
			
 
				-        try:
			
 
				-            error = averaging_pb2.AveragingData(group_id=self.group_id, code=code)
			
 
				-            await afirst(await self._get_peer_stub(peer_id).rpc_aggregate_part(as_aiter(error)))
			
 
				-        except Exception as e:
			
 
				-            logger.debug(f"Caught {e} when sending error {averaging_pb2.MessageCode.Name(code)} to {peer_id}")
			
 
				+                serialized_delta = await loop.run_in_executor(
			
 
				+                    None, lambda: serialize_torch_tensor(averaged_part - tensor_part, part_compression)
			
 
				+                )
			
 
				+                yield averaging_pb2.AveragingData(code=averaging_pb2.AVERAGED_PART, tensor_part=serialized_delta)
			
 
				+        finally:
			
 
				+            if part_index != self.tensor_part_reducer.num_parts:
			
 
				+                await self._ban_sender(self.sender_peer_ids[sender_index])
			
 
				 
			
 
				     def finalize(self, *, cancel: bool = False, exception: Optional[BaseException] = None):
			
 
				         """finish or terminate AllReduceRunner, propagate any errors / cancellations to peers."""
			
 
				         assert not cancel or not exception, "finalize accepts either exception or cancel, but not both"
			
 
				-        pending_tasks = set()
			
 
				-        if cancel or exception:
			
 
				-            # propagate error to peers
			
 
				-            if cancel or isinstance(exception, asyncio.CancelledError):
			
 
				-                code = averaging_pb2.CANCELLED
			
 
				-            else:
			
 
				-                code = averaging_pb2.INTERNAL_ERROR
			
 
				-            logger.debug(f"{self} - notifying peers about {averaging_pb2.MessageCode.Name(code)}")
			
 
				-            for peer_id, mode in zip(self.ordered_peer_ids, self.modes):
			
 
				-                if peer_id != self.peer_id and mode != AveragingMode.CLIENT:
			
 
				-                    pending_tasks.add(asyncio.create_task(self._send_error_to_peer(peer_id, code)))
			
 
				-
			
 
				         if not self._future.done():
			
 
				             if cancel:
			
 
				                 logger.debug(f"{self} - cancelled")
			
@@ -308,7 +371,5 @@ class AllReduceRunner(ServicerBase):
 
				                 self._future.set_result(None)
			
 
				             self.tensor_part_container.finalize()
			
 
				             self.tensor_part_reducer.finalize()
			
 
				-            return pending_tasks
			
 
				         else:
			
 
				-            logger.debug(f"{self} - could not finish: allreduce is already finished: {self._future}")
			
 
				-            return pending_tasks
			
 
				+            logger.debug(f"{self} - attempted to finalize allreduce that is already finished: {self._future}")
			
--- a/hivemind/averaging/averager.py
+++ b/hivemind/averaging/averager.py
@@ -70,7 +70,6 @@ class DecentralizedAverager(mp.Process, ServicerBase):
 
				     :param compression: optionally compress tensors with this compression algorithm before running all-reduce
			
 
				     :param state_compression: a separate compression strategy for load_state_from_peers (default = no compression)
			
 
				     :param tensor_infos: CompressionInfo for each respective tensor; this determines how the tensor will be comressed
			
 
				-    :param allreduce_timeout: spend at most this many seconds for allreduce (after group is formed)
			
 
				     :param averaging_alpha: optional "learning rate" for averaging. If specified, local parameters will be shifted
			
 
				       towards the (estimated) average by this coefficient. By default, local parameters are set equal to average.
			
 
				     :param request_timeout: when looking for group, wait for a response from leader for at most this many seconds.
			
@@ -87,6 +86,13 @@ class DecentralizedAverager(mp.Process, ServicerBase):
 
				     :param allow_state_sharing: if set to True, other peers can download this peer's state. Can be overwritten
			
 
				       with averager.allow_state_sharing = True / False
			
 
				     :param declare_state_period: re-declare averager as a donor for load_state_from_peers every this many seconds
			
 
				+    :param allreduce_timeout: spend at most this many seconds for allreduce (after group is formed)
			
 
				+    :param next_chunk_timeout: during all-reduce and load_state_from_peers, if peer does not send next data chunk in
			
 
				+      this number of seconds, consider it failed and proceed with remaining peers. default: no timeout
			
 
				+    :param sender_timeout: during all_reduce, any sender that fails to send tensor chunk within this many seconds from
			
 
				+      previous chunk will be marked as failed and excluded from averaging. default: equal to next_chunk_timeout
			
 
				+    :param reducer_timeout: during all_reduce, any reducer that fails to send results chunk within this many seconds
			
 
				+      from previous chunk will be marked as failed and excluded from averaging. default: 2 * sender_timeout
			
 
				     :param shutdown_timeout: when calling .shutdown, wait for up to this many seconds before terminating
			
 
				 
			
 
				     Example:
			
@@ -124,6 +130,9 @@ class DecentralizedAverager(mp.Process, ServicerBase):
 
				         averaging_alpha: float = 1.0,
			
 
				         part_size_bytes: int = DEFAULT_PART_SIZE_BYTES,
			
 
				         allreduce_timeout: Optional[float] = None,
			
 
				+        next_chunk_timeout: Optional[float] = None,
			
 
				+        sender_timeout: Optional[float] = None,
			
 
				+        reducer_timeout: Optional[float] = None,
			
 
				         compression: CompressionBase = NoCompression(),
			
 
				         state_compression: CompressionBase = NoCompression(),
			
 
				         tensor_infos: Optional[Sequence[CompressionInfo]] = None,
			
@@ -154,6 +163,11 @@ class DecentralizedAverager(mp.Process, ServicerBase):
 
				 
			
 
				         if client_mode is None:
			
 
				             client_mode = dht.client_mode
			
 
				+        if sender_timeout is None:
			
 
				+            sender_timeout = next_chunk_timeout
			
 
				+        if reducer_timeout is None:
			
 
				+            reducer_timeout = 2 * sender_timeout if sender_timeout is not None else None
			
 
				+
			
 
				         self.client_mode = client_mode
			
 
				 
			
 
				         self._parent_pid = os.getpid()
			
@@ -173,6 +187,7 @@ class DecentralizedAverager(mp.Process, ServicerBase):
 
				         self.total_size = sum(map(torch.Tensor.numel, self._averaged_tensors))
			
 
				         self.schema_hash = compute_schema_hash(self._averaged_tensors)
			
 
				         self.shutdown_timeout = shutdown_timeout
			
 
				+        self.next_chunk_timeout = next_chunk_timeout
			
 
				         self.bandwidth = bandwidth
			
 
				 
			
 
				         self.matchmaking_kwargs = dict(
			
@@ -188,6 +203,8 @@ class DecentralizedAverager(mp.Process, ServicerBase):
 
				             compression=compression,
			
 
				             part_size_bytes=part_size_bytes,
			
 
				             min_vector_size=min_vector_size,
			
 
				+            sender_timeout=sender_timeout,
			
 
				+            reducer_timeout=reducer_timeout,
			
 
				         )
			
 
				         self._averaging_alpha, self._allreduce_timeout = averaging_alpha, allreduce_timeout
			
 
				         self._running_groups: Dict[GroupID, AllReduceRunner] = {}  # one or more assembled groups that run all-reduce
			
@@ -417,20 +434,10 @@ class DecentralizedAverager(mp.Process, ServicerBase):
 
				 
			
 
				             async def find_peers_or_notify_cancel():
			
 
				                 group_info = await self._matchmaking.look_for_group(step)
			
 
				-                try:
			
 
				-                    if not step.triggered:
			
 
				-                        step.stage = AveragingStage.AWAITING_TRIGGER
			
 
				-                        await step.wait_for_trigger()
			
 
				-                    return group_info
			
 
				-                except asyncio.CancelledError:
			
 
				-                    await asyncio.wait(
			
 
				-                        {
			
 
				-                            self._send_error_to_peer(peer_id, group_info.group_id, averaging_pb2.CANCELLED)
			
 
				-                            for peer_id in group_info.peer_ids
			
 
				-                            if peer_id != self.peer_id
			
 
				-                        }
			
 
				-                    )
			
 
				-                    raise
			
 
				+                if not step.triggered:
			
 
				+                    step.stage = AveragingStage.AWAITING_TRIGGER
			
 
				+                    await step.wait_for_trigger()
			
 
				+                return group_info
			
 
				 
			
 
				             while not step.done():
			
 
				                 try:
			
@@ -496,14 +503,6 @@ class DecentralizedAverager(mp.Process, ServicerBase):
 
				                     )
			
 
				                 )
			
 
				 
			
 
				-    async def _send_error_to_peer(self, peer_id: PeerID, group_id: GroupID, code: averaging_pb2.MessageCode):
			
 
				-        try:
			
 
				-            error = averaging_pb2.AveragingData(group_id=group_id, code=code)
			
 
				-            stub = type(self).get_stub(self._p2p, peer_id, namespace=self.prefix)
			
 
				-            await afirst(await stub.rpc_aggregate_part(as_aiter(error)))
			
 
				-        except Exception as e:
			
 
				-            logger.debug(f"Caught {e} when sending error {averaging_pb2.MessageCode.Name(code)} to {peer_id}")
			
 
				-
			
 
				     async def _run_allreduce(self, group_info: GroupInfo, min_vector_size: int, **kwargs) -> GatheredData:
			
 
				         """Run All-Reduce in a given group and update tensors in place, return gathered metadata"""
			
 
				         try:
			
@@ -535,7 +534,8 @@ class DecentralizedAverager(mp.Process, ServicerBase):
 
				 
			
 
				                 with self.register_allreduce_group(group_info.group_id, allreduce):
			
 
				                     if modes[group_info.peer_ids.index(self.peer_id)] != AveragingMode.AUX:
			
 
				-                        async for tensor, update in azip(as_aiter(*local_tensors), allreduce):
			
 
				+                        iter_results = allreduce.run()
			
 
				+                        async for tensor, update in azip(as_aiter(*local_tensors), iter_results):
			
 
				                             # all-reduce is performed asynchronously while iterating
			
 
				                             tensor.add_(update, alpha=self._averaging_alpha)
			
 
				                         self._state_updated.set()
			
@@ -546,7 +546,8 @@ class DecentralizedAverager(mp.Process, ServicerBase):
 
				 
			
 
				                 return allreduce.gathered
			
 
				         except BaseException as e:
			
 
				-            logger.exception(e)
			
 
				+            if isinstance(e, Exception):
			
 
				+                logger.exception(e)
			
 
				             raise MatchmakingException(f"Unable to run All-Reduce: {e}")
			
 
				 
			
 
				     @contextlib.contextmanager
			
@@ -680,6 +681,8 @@ class DecentralizedAverager(mp.Process, ServicerBase):
 
				         return future.result(timeout=timeout) if wait else future
			
 
				 
			
 
				     async def _load_state_from_peers(self, future: MPFuture, timeout: Optional[float] = None):
			
 
				+        if timeout is not None:
			
 
				+            timeout = self.next_chunk_timeout if self.next_chunk_timeout is not None else self.request_timeout
			
 
				         try:
			
 
				             key_manager = self._matchmaking.group_key_manager
			
 
				             peer_priority, _ = self.dht.get(f"{key_manager.prefix}.all_averagers", latest=True) or ({}, None)
			
@@ -703,7 +706,7 @@ class DecentralizedAverager(mp.Process, ServicerBase):
 
				                         stream = await stub.rpc_download_state(averaging_pb2.DownloadRequest())
			
 
				                         current_tensor_parts, tensors = [], []
			
 
				 
			
 
				-                        async for message in aiter_with_timeout(stream, timeout=timeout or self.request_timeout):
			
 
				+                        async for message in aiter_with_timeout(stream, timeout=timeout):
			
 
				                             if message.metadata:
			
 
				                                 metadata = self.serializer.loads(message.metadata)
			
 
				                             if message.tensor_part.dtype and current_tensor_parts:
			
--- a/hivemind/averaging/partition.py
+++ b/hivemind/averaging/partition.py
@@ -10,21 +10,24 @@ import torch
 
				 
			
 
				 from hivemind.compression import CompressionBase, CompressionInfo, NoCompression
			
 
				 from hivemind.proto import runtime_pb2
			
 
				-from hivemind.utils.asyncio import amap_in_executor
			
 
				+from hivemind.utils import amap_in_executor, as_aiter, get_logger
			
 
				 
			
 
				 T = TypeVar("T")
			
 
				 DEFAULT_PART_SIZE_BYTES = 2 ** 19
			
 
				+logger = get_logger(__name__)
			
 
				 
			
 
				 
			
 
				 class TensorPartContainer:
			
 
				     """
			
 
				     Auxiliary data structure for averaging, responsible for splitting tensors into parts and reassembling them.
			
 
				     The class is designed to avoid excessive memory allocation and run all heavy computation in background
			
 
				+
			
 
				     :param tensors: local tensors to be split and aggregated
			
 
				     :param peer_fractions: for each peer, a target fraction of vector elements that this peer should average
			
 
				     :param compression: optionally compress tensors with this compression algorithm before sending them to peers
			
 
				     :param part_size_bytes: greedily split tensors into parts of up to this many bytes (after compression)
			
 
				     :param tensor_infos: CompressionInfo for each respective tensor; this determines how the tensor will be comressed
			
 
				+    :param return_deltas: if True, output tensors are differences (aggregated tensor - local tensor)
			
 
				     :param prefetch: when compressing, pre-compute this many compressed tensors in background
			
 
				     """
			
 
				 
			
@@ -35,6 +38,7 @@ class TensorPartContainer:
 
				         compression: CompressionBase = NoCompression(),
			
 
				         part_size_bytes: int = DEFAULT_PART_SIZE_BYTES,
			
 
				         tensor_infos: Optional[Sequence[CompressionInfo]] = None,
			
 
				+        return_deltas: bool = True,
			
 
				         prefetch: int = 1,
			
 
				     ):
			
 
				         if tensor_infos is None:
			
@@ -43,6 +47,8 @@ class TensorPartContainer:
 
				         self.local_tensors, self.peer_fractions, self.group_size = tensors, peer_fractions, len(peer_fractions)
			
 
				         self.compression, self.part_size_bytes, self.tensor_infos = compression, part_size_bytes, tensor_infos
			
 
				         self.total_size = sum(tensor.numel() for tensor in tensors)
			
 
				+        self.failed_size = 0
			
 
				+        self.return_deltas = return_deltas
			
 
				         self.prefetch = prefetch
			
 
				 
			
 
				         self._input_parts_by_peer = [deque() for _ in range(self.group_size)]
			
@@ -91,7 +97,6 @@ class TensorPartContainer:
 
				         assert not self._inputs_consumed_by_peer[peer_index], "input parts of a given peer are already deallocated."
			
 
				         self._inputs_consumed_by_peer[peer_index] = True
			
 
				         input_parts = tuple(part for part, compression in self._input_parts_by_peer[peer_index])
			
 
				-        self._input_parts_by_peer[peer_index].clear()
			
 
				         return input_parts
			
 
				 
			
 
				     @torch.no_grad()
			
@@ -99,13 +104,9 @@ class TensorPartContainer:
 
				         """iterate serialized tensor parts for a peer at a given index. Run serialization in background."""
			
 
				         assert not self._inputs_consumed_by_peer[peer_index], "input parts of a given peer are already deallocated."
			
 
				         self._inputs_consumed_by_peer[peer_index] = True
			
 
				-
			
 
				-        async def _aiterate_parts():
			
 
				-            for _ in range(self.num_parts_by_peer[peer_index]):
			
 
				-                yield self._input_parts_by_peer[peer_index].popleft()
			
 
				-
			
 
				+        parts_aiter = as_aiter(*self._input_parts_by_peer[peer_index])
			
 
				         async for serialized_part in amap_in_executor(
			
 
				-            lambda x_and_info: self.compression.compress(*x_and_info), _aiterate_parts(), max_prefetch=self.prefetch
			
 
				+            lambda x_and_info: self.compression.compress(*x_and_info), parts_aiter, max_prefetch=self.prefetch
			
 
				         ):
			
 
				             yield serialized_part
			
 
				 
			
@@ -123,6 +124,16 @@ class TensorPartContainer:
 
				         self._outputs_registered_by_peer[peer_index] += 1
			
 
				         self._output_part_available[peer_index].set()
			
 
				 
			
 
				+    def register_failed_reducer(self, peer_index: int):
			
 
				+        """
			
 
				+        a given peer failed to aggregate a certain part, use our local part instead, keep track of failed parts
			
 
				+        """
			
 
				+        for part_index in range(self._outputs_registered_by_peer[peer_index], self.num_parts_by_peer[peer_index]):
			
 
				+            part_and_info = self._input_parts_by_peer[peer_index][part_index]
			
 
				+            part_result_or_delta = torch.zeros_like(part_and_info[0]) if self.return_deltas else part_and_info[0]
			
 
				+            self.register_processed_part(peer_index, part_index, part_result_or_delta)
			
 
				+            self.failed_size += part_result_or_delta.numel()
			
 
				+
			
 
				     async def iterate_output_tensors(self) -> AsyncIterable[torch.Tensor]:
			
 
				         """iterate over the outputs of averaging (whether they are average, delta or other aggregation result)"""
			
 
				         assert not self._outputs_consumed, "output tensors are already iterated and no longer available."
			
@@ -155,9 +166,11 @@ class TensorPartContainer:
 
				         if not self.finished.is_set():
			
 
				             for peer_index in range(self.group_size):
			
 
				                 self._inputs_consumed_by_peer[peer_index] = True
			
 
				+                self._output_part_available[peer_index].set()
			
 
				                 self._input_parts_by_peer[peer_index].clear()
			
 
				                 self._output_parts_by_peer[peer_index].clear()
			
 
				-                self._output_part_available[peer_index].set()
			
 
				+            if self.failed_size != 0:
			
 
				+                logger.warning(f"Averaging: received {(1. - self.failed_size / self.total_size) * 100:.1f}% results")
			
 
				             self._outputs_consumed = True
			
 
				             self.finished.set()
			
 
				 
			
@@ -178,11 +191,16 @@ class TensorPartReducer:
 
				         self.denominator = 0.0  # total weight accumulated from all peers for current part
			
 
				         self.current_part_future = asyncio.Future()
			
 
				         self.finished = asyncio.Event()
			
 
				+
			
 
				+        self.num_parts_received = [0 for _ in range(self.num_senders)]
			
 
				+        self.sender_failed_after = [float("inf") for _ in range(self.num_senders)]
			
 
				+        self.num_current_senders = self.num_senders
			
 
				+
			
 
				         self.reset_accumulators()
			
 
				 
			
 
				     def reset_accumulators(self):
			
 
				         """(re)create averaging buffers for the next part in line, prepopulate with local tensor part"""
			
 
				-        assert self.current_part_accumulated_from == self.num_senders or self.current_part_index == -1
			
 
				+        assert self.current_part_accumulated_from == self.num_current_senders or self.current_part_index == -1
			
 
				         if self.current_part_index >= self.num_parts - 1:
			
 
				             self.finalize()
			
 
				             return
			
@@ -190,6 +208,9 @@ class TensorPartReducer:
 
				         self.current_part_index += 1
			
 
				         self.current_part_accumulated_from = 0
			
 
				         self.current_part_future = asyncio.Future()
			
 
				+        self.num_current_senders = sum(
			
 
				+            self.current_part_index < failed_index for failed_index in self.sender_failed_after
			
 
				+        )
			
 
				         self.accumulator = torch.zeros(self.part_shapes[self.current_part_index])
			
 
				         self.denominator = 0.0
			
 
				 
			
@@ -199,6 +220,7 @@ class TensorPartReducer:
 
				         """Add vector part to accumulator, wait for all other vectors to be added, then return the average part"""
			
 
				         assert 0 <= sender_index < self.num_senders, "invalid sender index"
			
 
				         assert 0 <= part_index < self.num_parts, "invalid part index"
			
 
				+        self.num_parts_received[sender_index] += 1
			
 
				 
			
 
				         while part_index > self.current_part_index:
			
 
				             # wait for previous parts to finish processing ...
			
@@ -209,15 +231,25 @@ class TensorPartReducer:
 
				 
			
 
				         current_part_future = self.current_part_future
			
 
				 
			
 
				-        self.accumulator.add_(tensor_part, alpha=weight)
			
 
				-        self.current_part_accumulated_from += 1
			
 
				-        self.denominator += weight
			
 
				+        if part_index < self.sender_failed_after[sender_index]:
			
 
				+            self.accumulator.add_(tensor_part, alpha=weight)
			
 
				+            self.current_part_accumulated_from += 1
			
 
				+            self.denominator += weight
			
 
				+            self.check_current_part_finished()
			
 
				+        return await current_part_future
			
 
				 
			
 
				-        assert self.current_part_accumulated_from <= self.num_senders
			
 
				-        if self.current_part_accumulated_from == self.num_senders:
			
 
				-            current_part_future.set_result(self.accumulator.div_(self.denominator))
			
 
				+    def on_sender_failed(self, sender_index: int):
			
 
				+        """Exclude that sender's data for averaging any parts that it did not submit yet."""
			
 
				+        self.sender_failed_after[sender_index] = self.num_parts_received[sender_index]
			
 
				+        if self.current_part_index == self.num_parts_received[sender_index]:
			
 
				+            self.num_current_senders -= 1
			
 
				+            self.check_current_part_finished()
			
 
				+
			
 
				+    def check_current_part_finished(self):
			
 
				+        assert self.current_part_accumulated_from <= self.num_current_senders
			
 
				+        if self.current_part_accumulated_from == self.num_current_senders:
			
 
				+            self.current_part_future.set_result(self.accumulator.div_(self.denominator))
			
 
				             self.reset_accumulators()
			
 
				-        return await current_part_future
			
 
				 
			
 
				     def finalize(self):
			
 
				         if not self.finished.is_set():
			
@@ -226,6 +258,12 @@ class TensorPartReducer:
 
				                 del self.accumulator
			
 
				             self.finished.set()
			
 
				 
			
 
				+            if self.num_parts != 0 and self.num_senders != 0:
			
 
				+                parts_expected = self.num_parts * self.num_senders
			
 
				+                parts_received = sum(self.num_parts_received)
			
 
				+                if parts_expected != parts_received:
			
 
				+                    logger.info(f"Reducer: received {parts_received / parts_expected * 100:.1f}% of input tensors")
			
 
				+
			
 
				     def __del__(self):
			
 
				         self.finalize()
			
 
				 
			
--- a/hivemind/optim/experimental/optimizer.py
+++ b/hivemind/optim/experimental/optimizer.py
@@ -175,6 +175,7 @@ class Optimizer(torch.optim.Optimizer):
 
				         matchmaking_time: Optional[float] = 15.0,
			
 
				         averaging_timeout: Optional[float] = 60.0,
			
 
				         allreduce_timeout: Optional[float] = None,
			
 
				+        next_chunk_timeout: Optional[float] = None,
			
 
				         load_state_timeout: float = 600.0,
			
 
				         reuse_grad_buffers: bool = False,
			
 
				         offload_optimizer: Optional[bool] = None,
			
@@ -200,6 +201,7 @@ class Optimizer(torch.optim.Optimizer):
 
				         delay_optimizer_step = delay_optimizer_step if delay_optimizer_step is not None else delay_grad_averaging
			
 
				         offload_optimizer = offload_optimizer if offload_optimizer is not None else (params is not None)
			
 
				         allreduce_timeout = allreduce_timeout if allreduce_timeout is not None else averaging_timeout
			
 
				+        next_chunk_timeout = next_chunk_timeout if next_chunk_timeout is not None else matchmaking_time
			
 
				         assert not delay_grad_averaging or delay_optimizer_step, "delay_grad_averaging requires delay_optimizer_step"
			
 
				         assert not (client_mode and auxiliary), "Client-mode peers cannot serve as auxiliaries"
			
 
				         assert not auxiliary or batch_size_per_step is None, "Auxiliary peers should not accumulate batches"
			
@@ -230,6 +232,7 @@ class Optimizer(torch.optim.Optimizer):
 
				 
			
 
				         self.averaging_timeout, self.allreduce_timeout = averaging_timeout, allreduce_timeout
			
 
				         self.load_state_timeout, self.shutdown_timeout = load_state_timeout, shutdown_timeout
			
 
				+        self.next_chunk_timeout = next_chunk_timeout
			
 
				 
			
 
				         self.status_loglevel = logging.INFO if verbose else logging.DEBUG
			
 
				         self.scheduled_grads: Optional[StepControl] = None
			
@@ -279,6 +282,7 @@ class Optimizer(torch.optim.Optimizer):
 
				             offload_optimizer=self.offload_optimizer,
			
 
				             custom_gradients=self.offload_optimizer,
			
 
				             status_loglevel=self.status_loglevel,
			
 
				+            next_chunk_timeout=self.next_chunk_timeout,
			
 
				             client_mode=self.client_mode,
			
 
				             auxiliary=self.auxiliary,
			
 
				             start=True,
			
@@ -294,6 +298,7 @@ class Optimizer(torch.optim.Optimizer):
 
				             min_matchmaking_time=self.matchmaking_time,
			
 
				             allreduce_timeout=self.allreduce_timeout,
			
 
				             shutdown_timeout=self.shutdown_timeout,
			
 
				+            next_chunk_timeout=self.next_chunk_timeout,
			
 
				             client_mode=self.client_mode,
			
 
				             auxiliary=self.auxiliary,
			
 
				             start=True,
			
@@ -427,6 +432,9 @@ class Optimizer(torch.optim.Optimizer):
 
				 
			
 
				             if self.use_gradient_averaging:
			
 
				                 logger.log(self.status_loglevel, f"Beginning optimizer step #{self.local_epoch}")
			
 
				+                if self.delay_optimizer_step:
			
 
				+                    self.state_averager.step(wait_for_delayed_updates=True)
			
 
				+
			
 
				                 began_averaging_gradients = self._begin_averaging_gradients(grad_scaler)
			
 
				                 if not began_averaging_gradients:
			
 
				                     pass  # failed to start gradient averaging due to an internal error
			
@@ -534,10 +542,6 @@ class Optimizer(torch.optim.Optimizer):
 
				         assert self.use_gradient_averaging
			
 
				         if self.tracker.estimated_next_update_time - get_dht_time() <= self.matchmaking_time:
			
 
				             if self.scheduled_grads is None or self.scheduled_grads.triggered or self.scheduled_grads.done():
			
 
				-                if self.delay_grad_averaging:
			
 
				-                    # wait for previous averaging to finish before starting a new one
			
 
				-                    self.state_averager.step(wait_for_delayed_updates=True)
			
 
				-
			
 
				                 eta_seconds = self.tracker.estimated_next_update_time - get_dht_time()
			
 
				                 eta_seconds = max(eta_seconds, self.grad_averager.matchmaking_kwargs["min_matchmaking_time"])
			
 
				                 logger.log(self.status_loglevel, f"Pre-scheduling gradient averaging round in {eta_seconds:.2f} sec")
			
@@ -545,12 +549,13 @@ class Optimizer(torch.optim.Optimizer):
 
				 
			
 
				     def _maybe_schedule_state_averaging(self) -> None:
			
 
				         """If next epoch is coming soon, schedule the next state averaging at estimated parameter averaging start"""
			
 
				-        return
			
 
				         next_epoch = max(self.local_epoch + 1, self.tracker.global_epoch)
			
 
				         if next_epoch % self.average_state_every != 0:
			
 
				             return  # averaging is not performed at this epoch
			
 
				         if self.state_averager.averaging_in_progress:
			
 
				             return  # previous run is still in progress
			
 
				+        if self.delay_before_state_averaging.num_updates == 0:
			
 
				+            return  # not enough data to accurately pre-schedule
			
 
				 
			
 
				         estimated_time = self.tracker.estimated_next_update_time
			
 
				         estimated_time += self.delay_before_state_averaging.ema_seconds_per_sample
			
--- a/hivemind/optim/grad_scaler.py
+++ b/hivemind/optim/grad_scaler.py
@@ -60,11 +60,11 @@ class GradScaler(TorchGradScaler):
 
				                 return False
			
 
				 
			
 
				     def step(self, optimizer: TorchOptimizer, *args, **kwargs) -> bool:
			
 
				-        if self._is_running_global_step:
			
 
				+        if self._is_running_global_step and not isinstance(optimizer, hivemind.Optimizer):
			
 
				+            # ^-- invoked privately within hivemind optimizer
			
 
				             with self._lock:
			
 
				                 if self._is_ready_to_update:
			
 
				                     logger.warning("Please call grad_scaler.update() after each step")
			
 
				-                assert not isinstance(optimizer, (hivemind.Optimizer, hivemind.DecentralizedOptimizerBase))
			
 
				                 assert (
			
 
				                     self._per_optimizer_states[id(optimizer)]["stage"] == OptState.UNSCALED
			
 
				                 ), "InternalError: Optimizer should have called .unscale internally before invoking grad_scaler.step."
			
@@ -75,7 +75,6 @@ class GradScaler(TorchGradScaler):
 
				                 self._is_ready_to_update = True
			
 
				                 return True
			
 
				         else:
			
 
				-            assert isinstance(optimizer, (hivemind.Optimizer, hivemind.DecentralizedOptimizerBase))
			
 
				             super().step(optimizer)
			
 
				             self._optimizer_states_to_reset.add(id(optimizer))
			
 
				             return False
			
--- a/hivemind/utils/asyncio.py
+++ b/hivemind/utils/asyncio.py
@@ -114,9 +114,15 @@ async def amap_in_executor(
 
				     queue = asyncio.Queue(max_prefetch)
			
 
				 
			
 
				     async def _put_items():
			
 
				-        async for args in azip(*iterables):
			
 
				-            await queue.put(loop.run_in_executor(executor, func, *args))
			
 
				-        await queue.put(None)
			
 
				+        try:
			
 
				+            async for args in azip(*iterables):
			
 
				+                await queue.put(loop.run_in_executor(executor, func, *args))
			
 
				+            await queue.put(None)
			
 
				+        except BaseException as e:
			
 
				+            future = asyncio.Future()
			
 
				+            future.set_exception(e)
			
 
				+            await queue.put(future)
			
 
				+            raise
			
 
				 
			
 
				     task = asyncio.create_task(_put_items())
			
 
				     try:
			
@@ -124,13 +130,21 @@ async def amap_in_executor(
 
				         while future is not None:
			
 
				             yield await future
			
 
				             future = await queue.get()
			
 
				-        await task
			
 
				     finally:
			
 
				-        if not task.done():
			
 
				-            task.cancel()
			
 
				-
			
 
				-
			
 
				-async def aiter_with_timeout(iterable: AsyncIterable[T], timeout: float) -> AsyncIterator[T]:
			
 
				+        task.cancel()
			
 
				+        try:
			
 
				+            await task
			
 
				+        except asyncio.CancelledError:
			
 
				+            pass
			
 
				+        except Exception as e:
			
 
				+            logger.debug(f"Caught {e} while iterating over inputs", exc_info=True)
			
 
				+        while not queue.empty():
			
 
				+            future = queue.get_nowait()
			
 
				+            if future is not None:
			
 
				+                future.cancel()
			
 
				+
			
 
				+
			
 
				+async def aiter_with_timeout(iterable: AsyncIterable[T], timeout: Optional[float]) -> AsyncIterator[T]:
			
 
				     """Iterate over an async iterable, raise TimeoutError if another portion of data does not arrive within timeout"""
			
 
				     # based on https://stackoverflow.com/a/50245879
			
 
				     iterator = iterable.__aiter__()
			
--- a/tests/test_allreduce_fault_tolerance.py
+++ b/tests/test_allreduce_fault_tolerance.py
@@ -0,0 +1,213 @@
 
				+from __future__ import annotations
			
 
				+
			
 
				+import asyncio
			
 
				+from enum import Enum, auto
			
 
				+from typing import AsyncIterator
			
 
				+
			
 
				+import pytest
			
 
				+import torch
			
 
				+
			
 
				+import hivemind
			
 
				+from hivemind.averaging.allreduce import AllReduceRunner, AveragingMode
			
 
				+from hivemind.averaging.averager import *
			
 
				+from hivemind.averaging.group_info import GroupInfo
			
 
				+from hivemind.averaging.load_balancing import load_balance_peers
			
 
				+from hivemind.averaging.matchmaking import MatchmakingException
			
 
				+from hivemind.proto import averaging_pb2
			
 
				+from hivemind.utils.asyncio import aenumerate, as_aiter, azip, enter_asynchronously
			
 
				+from hivemind.utils.logging import get_logger
			
 
				+
			
 
				+logger = get_logger(__name__)
			
 
				+
			
 
				+
			
 
				+class Fault(Enum):
			
 
				+    NONE = auto()
			
 
				+    FAIL_BEFORE = auto()
			
 
				+    FAIL_SENDING = auto()
			
 
				+    SLOW_SENDING = auto()
			
 
				+    FAIL_REDUCING = auto()
			
 
				+    SLOW_REDUCING = auto()
			
 
				+    CANCEL = auto()
			
 
				+
			
 
				+
			
 
				+class FaultyAverager(hivemind.DecentralizedAverager):
			
 
				+    def __init__(self, *args, fault: Fault = Fault.NONE, **kwargs):
			
 
				+        self.fault = fault
			
 
				+        super().__init__(*args, **kwargs)
			
 
				+
			
 
				+    async def _run_allreduce(self, group_info: GroupInfo, min_vector_size: int, **kwargs) -> GatheredData:
			
 
				+        """Run All-Reduce in a given group and update tensors in place, return gathered metadata"""
			
 
				+        try:
			
 
				+            bandwidths, mode_ids, user_gathered_bytes = zip(*map(self.serializer.loads, group_info.gathered))
			
 
				+            user_gathered = dict(zip(group_info.peer_ids, map(self.serializer.loads, user_gathered_bytes)))
			
 
				+            modes = tuple(map(AveragingMode, mode_ids))
			
 
				+            download_bandwidths = [
			
 
				+                thr if mode != AveragingMode.CLIENT else 0.0 for thr, mode in zip(bandwidths, modes)
			
 
				+            ]
			
 
				+            peer_fractions = await asyncio.get_event_loop().run_in_executor(
			
 
				+                None, load_balance_peers, self.total_size, download_bandwidths, min_vector_size
			
 
				+            )
			
 
				+
			
 
				+            if self.fault == Fault.FAIL_BEFORE:
			
 
				+                raise Exception("Oops, I failed!")
			
 
				+
			
 
				+            async with enter_asynchronously(self.get_tensors()) as local_tensors:
			
 
				+                allreduce = FaultyAllReduceRunner(
			
 
				+                    p2p=self._p2p,
			
 
				+                    servicer_type=type(self),
			
 
				+                    prefix=self.prefix,
			
 
				+                    group_id=group_info.group_id,
			
 
				+                    tensors=local_tensors,
			
 
				+                    ordered_peer_ids=group_info.peer_ids,
			
 
				+                    peer_fractions=peer_fractions,
			
 
				+                    gathered=user_gathered,
			
 
				+                    modes=modes,
			
 
				+                    fault=self.fault,
			
 
				+                    **kwargs,
			
 
				+                )
			
 
				+
			
 
				+                with self.register_allreduce_group(group_info.group_id, allreduce):
			
 
				+                    if modes[group_info.peer_ids.index(self.peer_id)] != AveragingMode.AUX:
			
 
				+                        async for tensor, update in azip(as_aiter(*local_tensors), allreduce):
			
 
				+                            # all-reduce is performed asynchronously while iterating
			
 
				+                            tensor.add_(update, alpha=self._averaging_alpha)
			
 
				+                        self._state_updated.set()
			
 
				+
			
 
				+                    else:
			
 
				+                        async for _ in allreduce:  # trigger all-reduce by iterating
			
 
				+                            raise ValueError("aux peers should not receive averaged tensors")
			
 
				+
			
 
				+                return allreduce.gathered
			
 
				+        except BaseException as e:
			
 
				+            logger.exception(e)
			
 
				+            raise MatchmakingException(f"Unable to run All-Reduce: {e}")
			
 
				+
			
 
				+
			
 
				+class FaultyAllReduceRunner(AllReduceRunner):
			
 
				+    def __init__(self, *args, fault: Fault, **kwargs):
			
 
				+        self.fault = fault
			
 
				+        super().__init__(*args, **kwargs)
			
 
				+
			
 
				+    async def rpc_aggregate_part(self, stream, context) -> AsyncIterator[averaging_pb2.AveragingData]:
			
 
				+        if self.fault in (Fault.FAIL_REDUCING, Fault.SLOW_REDUCING):
			
 
				+            async for i, message in aenumerate(super().rpc_aggregate_part(stream, context)):
			
 
				+                yield message
			
 
				+                if i == 2:
			
 
				+                    if self.fault == Fault.FAIL_SENDING:
			
 
				+                        yield averaging_pb2.AveragingData(code=averaging_pb2.INTERNAL_ERROR)
			
 
				+                        break
			
 
				+                    else:
			
 
				+                        await asyncio.sleep(10)
			
 
				+
			
 
				+        elif self.fault == Fault.CANCEL:
			
 
				+            yield averaging_pb2.AveragingData(code=averaging_pb2.CANCELLED)
			
 
				+        else:
			
 
				+            async for message in super().rpc_aggregate_part(stream, context):
			
 
				+                yield message
			
 
				+
			
 
				+    async def _generate_input_for_peer(self, peer_index: int) -> AsyncIterator[averaging_pb2.AveragingData]:
			
 
				+        parts_aiter = self.tensor_part_container.iterate_input_parts_for(peer_index)
			
 
				+
			
 
				+        first_part = await anext(parts_aiter)
			
 
				+        yield averaging_pb2.AveragingData(
			
 
				+            code=averaging_pb2.PART_FOR_AVERAGING,
			
 
				+            group_id=self.group_id,
			
 
				+            tensor_part=first_part,
			
 
				+            weight=self.weight,
			
 
				+        )
			
 
				+        if self.fault in (Fault.FAIL_SENDING, Fault.SLOW_SENDING):
			
 
				+            last_reducer_index = self.group_size - 1 - (self.tensor_part_container.num_parts_by_peer[-1] == 0)
			
 
				+            if peer_index == last_reducer_index:
			
 
				+                if self.fault == Fault.FAIL_SENDING:
			
 
				+                    raise Exception("Oops, I failed!")
			
 
				+                else:
			
 
				+                    await asyncio.sleep(10)
			
 
				+        async for part in parts_aiter:
			
 
				+            yield averaging_pb2.AveragingData(tensor_part=part, weight=self.weight)
			
 
				+
			
 
				+
			
 
				+@pytest.mark.forked
			
 
				+@pytest.mark.parametrize(
			
 
				+    "fault0, fault1",
			
 
				+    [
			
 
				+        (Fault.NONE, Fault.FAIL_BEFORE),
			
 
				+        (Fault.FAIL_BEFORE, Fault.FAIL_BEFORE),
			
 
				+        (Fault.SLOW_SENDING, Fault.FAIL_SENDING),
			
 
				+        (Fault.FAIL_SENDING, Fault.FAIL_BEFORE),
			
 
				+        (Fault.SLOW_REDUCING, Fault.FAIL_SENDING),
			
 
				+        (Fault.FAIL_REDUCING, Fault.FAIL_REDUCING),
			
 
				+        (Fault.NONE, Fault.CANCEL),
			
 
				+    ],
			
 
				+)
			
 
				+def test_fault_tolerance(fault0: Fault, fault1: Fault):
			
 
				+    def _make_tensors():
			
 
				+        return [torch.rand(16, 1024), -torch.rand(3, 8192), 2 * torch.randn(4, 4, 4), torch.randn(1024, 1024)]
			
 
				+
			
 
				+    dht = hivemind.DHT(start=True)
			
 
				+
			
 
				+    averagers = []
			
 
				+    for i in range(5):
			
 
				+        averager = FaultyAverager(
			
 
				+            _make_tensors(),
			
 
				+            hivemind.DHT(initial_peers=dht.get_visible_maddrs(), start=True),
			
 
				+            prefix="test",
			
 
				+            request_timeout=0.3,
			
 
				+            min_matchmaking_time=1.0,
			
 
				+            next_chunk_timeout=0.5,
			
 
				+            allreduce_timeout=5,
			
 
				+            part_size_bytes=2 ** 16,
			
 
				+            client_mode=(i == 1),
			
 
				+            start=True,
			
 
				+            fault=fault0 if i == 0 else fault1 if i == 1 else Fault.NONE,
			
 
				+        )
			
 
				+        averagers.append(averager)
			
 
				+
			
 
				+    ref_numerators = [0, 0, 0, 0]
			
 
				+    ref_denominator = 0
			
 
				+
			
 
				+    for averager in averagers:
			
 
				+        if averager.fault not in (Fault.FAIL_BEFORE, Fault.CANCEL):
			
 
				+            with averager.get_tensors() as tensors:
			
 
				+                for i, tensor in enumerate(tensors):
			
 
				+                    ref_numerators[i] = ref_numerators[i] + tensor.clone()
			
 
				+                ref_denominator += 1
			
 
				+
			
 
				+    ref_tensors = [ref_numerator / ref_denominator for ref_numerator in ref_numerators]
			
 
				+    flat_ref = torch.cat(list(map(torch.flatten, ref_tensors)))
			
 
				+
			
 
				+    flat_local_tensors = []
			
 
				+    for averager in averagers:
			
 
				+        with averager.get_tensors() as tensors:
			
 
				+            flat_local_tensors.append(torch.cat(list(map(torch.flatten, tensors))))
			
 
				+
			
 
				+    futures = [averager.step(timeout=5, wait=False, allow_retries=False) for averager in averagers]
			
 
				+    for i, averager in enumerate(averagers):
			
 
				+        if averager.fault == Fault.CANCEL:
			
 
				+            futures[i].cancel()
			
 
				+
			
 
				+    for future in futures[2:]:
			
 
				+        assert future.result()
			
 
				+
			
 
				+    for averager, prev_local_tensors in zip(averagers[2:], flat_local_tensors[2:]):
			
 
				+        with averager.get_tensors() as tensors:
			
 
				+            flat_tensors = torch.cat(list(map(torch.flatten, tensors)))
			
 
				+
			
 
				+        diff_with_reference = abs(flat_ref - flat_tensors)
			
 
				+
			
 
				+        if all(fault == (Fault.FAIL_SENDING, Fault.SLOW_SENDING) for fault in (fault0, fault1)):
			
 
				+            assert fault0 != Fault.FAIL_REDUCING and fault1 != Fault.FAIL_REDUCING
			
 
				+            assert diff_with_reference[: len(diff_with_reference) // 2].max() < 1e-5
			
 
				+        elif all(fault in (Fault.FAIL_REDUCING, Fault.SLOW_REDUCING) for fault in (fault0, fault1)):
			
 
				+            diff_to_reference = abs(flat_ref - flat_tensors)
			
 
				+            diff_to_local = abs(prev_local_tensors - flat_tensors)
			
 
				+            assert (diff_with_reference < 1e-5).numpy().mean() > 0.5
			
 
				+            assert torch.all(torch.minimum(diff_to_reference, diff_to_local) < 1e-5).item()
			
 
				+        elif any(fault == Fault.CANCEL for fault in (fault0, fault1)):
			
 
				+            pass  # late cancel may result in an arbitrary mix of averaging results with and without the cancelled peer
			
 
				+        elif fault0 == Fault.NONE:  # only peer1 in client mode may have failed
			
 
				+            assert diff_with_reference.max() < 1e-5
			
 
				+        else:
			
 
				+            assert (diff_with_reference < 1e-5).numpy().mean() > 0.5
			
 
				+
			
 
				+    for averager in averagers:
			
 
				+        averager.shutdown()