3 роки тому · abbea26c9c
--- a/docs/_static/dht.odp
+++ b/docs/_static/dht.odp
--- a/docs/_static/dht.png
+++ b/docs/_static/dht.png
--- a/hivemind/__init__.py
+++ b/hivemind/__init__.py
@@ -1,4 +1,4 @@
 
				-from hivemind.averaging import DecentralizedAverager, TrainingAverager
			
 
				+from hivemind.averaging import DecentralizedAverager
			
 
				 from hivemind.compression import *
			
 
				 from hivemind.dht import DHT
			
 
				 from hivemind.moe import (
			
@@ -16,6 +16,7 @@ from hivemind.optim import (
 
				     DecentralizedOptimizer,
			
 
				     DecentralizedOptimizerBase,
			
 
				     DecentralizedSGD,
			
 
				+    TrainingAverager,
			
 
				 )
			
 
				 from hivemind.p2p import P2P, P2PContext, P2PHandlerError, PeerID, PeerInfo
			
 
				 from hivemind.utils import *
			
--- a/hivemind/averaging/__init__.py
+++ b/hivemind/averaging/__init__.py
@@ -1,2 +1 @@
 
				 from hivemind.averaging.averager import DecentralizedAverager
			
 
				-from hivemind.averaging.training import TrainingAverager
			
--- a/hivemind/averaging/averager.py
+++ b/hivemind/averaging/averager.py
@@ -32,7 +32,15 @@ from hivemind.dht import DHT, DHTID
 
				 from hivemind.p2p import P2P, P2PContext, P2PHandlerError, PeerID, ServicerBase
			
 
				 from hivemind.proto import averaging_pb2
			
 
				 from hivemind.utils import MPFuture, TensorDescriptor, get_logger
			
 
				-from hivemind.utils.asyncio import achain, aiter_with_timeout, anext, as_aiter, azip, switch_to_uvloop
			
 
				+from hivemind.utils.asyncio import (
			
 
				+    achain,
			
 
				+    aiter_with_timeout,
			
 
				+    anext,
			
 
				+    as_aiter,
			
 
				+    azip,
			
 
				+    enter_asynchronously,
			
 
				+    switch_to_uvloop,
			
 
				+)
			
 
				 from hivemind.utils.grpc import combine_from_streaming, split_for_streaming
			
 
				 from hivemind.utils.serializer import MSGPackSerializer, SerializerBase
			
 
				 from hivemind.utils.timed_storage import DHTExpiration, ValueWithExpiration, get_dht_time
			
@@ -453,7 +461,7 @@ class DecentralizedAverager(mp.Process, ServicerBase):
 
				                 None, load_balance_peers, self.total_size, download_bandwidths, min_vector_size
			
 
				             )
			
 
				 
			
 
				-            async with self.get_tensors_async() as local_tensors:
			
 
				+            async with enter_asynchronously(self.get_tensors()) as local_tensors:
			
 
				                 allreduce = AllReduceRunner(
			
 
				                     p2p=self._p2p,
			
 
				                     servicer_type=type(self),
			
@@ -505,15 +513,6 @@ class DecentralizedAverager(mp.Process, ServicerBase):
 
				         with self.lock_averaged_tensors:
			
 
				             yield self._averaged_tensors
			
 
				 
			
 
				-    @contextlib.asynccontextmanager
			
 
				-    async def get_tensors_async(self) -> Sequence[torch.Tensor]:
			
 
				-        """Like get_tensors, but uses an asynchronous contextmanager"""
			
 
				-        try:
			
 
				-            await asyncio.get_event_loop().run_in_executor(None, self.lock_averaged_tensors.acquire)
			
 
				-            yield self._averaged_tensors
			
 
				-        finally:
			
 
				-            self.lock_averaged_tensors.release()
			
 
				-
			
 
				     async def rpc_join_group(
			
 
				         self, request: averaging_pb2.JoinRequest, context: P2PContext
			
 
				     ) -> AsyncIterator[averaging_pb2.MessageFromLeader]:
			
--- a/hivemind/averaging/control.py
+++ b/hivemind/averaging/control.py
@@ -103,7 +103,7 @@ class StepControl(MPFuture):
 
				     @stage.setter
			
 
				     def stage(self, stage: AveragingStage):
			
 
				         if stage == AveragingStage.RUNNING_ALLREDUCE:
			
 
				-            self.can_modify = False
			
 
				+            self.began_allreduce = True
			
 
				         self._shared_buffer[StepControl._STAGE] = stage.value
			
 
				 
			
 
				     @property
			
--- a/hivemind/dht/__init__.py
+++ b/hivemind/dht/__init__.py
@@ -4,7 +4,7 @@ Hivemind DHT is based on Kademlia [1] with added support for improved bulk store
 
				 
			
 
				 The code is organized as follows:
			
 
				 
			
 
				- * **class DHT (__init__.py)** - high-level class for model training. Runs DHTNode in a background process.
			
 
				+ * **class DHT (dht.py)** - high-level class for model training. Runs DHTNode in a background process.
			
 
				  * **class DHTNode (node.py)** - an asyncio implementation of dht server, stores AND gets keys.
			
 
				  * **class DHTProtocol (protocol.py)** - an RPC protocol to request data from dht nodes.
			
 
				  * **async def traverse_dht (traverse.py)** - a search algorithm that crawls DHT peers.
			
@@ -12,327 +12,8 @@ The code is organized as follows:
 
				 - [1] Maymounkov P., Mazieres D. (2002) Kademlia: A Peer-to-Peer Information System Based on the XOR Metric.
			
 
				 - [2] https://github.com/bmuller/kademlia , Brian, if you're reading this: THANK YOU! you're awesome :)
			
 
				 """
			
 
				-from __future__ import annotations
			
 
				-
			
 
				-import asyncio
			
 
				-import multiprocessing as mp
			
 
				-import os
			
 
				-from functools import partial
			
 
				-from typing import Awaitable, Callable, Iterable, List, Optional, Sequence, TypeVar, Union
			
 
				-
			
 
				-from multiaddr import Multiaddr
			
 
				 
			
 
				+from hivemind.dht.dht import DHT
			
 
				 from hivemind.dht.node import DEFAULT_NUM_WORKERS, DHTNode
			
 
				-from hivemind.dht.routing import DHTID, DHTKey, DHTValue, Subkey
			
 
				+from hivemind.dht.routing import DHTID, DHTExpiration, DHTKey, DHTValue, Subkey
			
 
				 from hivemind.dht.validation import CompositeValidator, RecordValidatorBase
			
 
				-from hivemind.p2p import P2P, PeerID
			
 
				-from hivemind.utils import DHTExpiration, MPFuture, ValueWithExpiration, get_logger, switch_to_uvloop
			
 
				-
			
 
				-logger = get_logger(__name__)
			
 
				-
			
 
				-ReturnType = TypeVar("ReturnType")
			
 
				-
			
 
				-
			
 
				-class DHT(mp.Process):
			
 
				-    """
			
 
				-    A high-level interface to a hivemind DHT that runs a single DHT node in a background process.
			
 
				-    * hivemind servers periodically announce their experts via declare_experts (dht_handler.py)
			
 
				-    * trainers find most suitable experts via RemoteMixtureOfExperts (beam_search.py)
			
 
				-
			
 
				-    :param initial_peers: multiaddrs of one or more active DHT peers (if you want to join an existing DHT)
			
 
				-    :param start: if True, automatically starts the background process on creation. Otherwise await manual start
			
 
				-    :param daemon: if True, the background process is marked as daemon and automatically terminated after main process
			
 
				-    :param num_workers: declare_experts and get_experts will use up to this many parallel workers
			
 
				-      (but no more than one per key)
			
 
				-    :param expiration: experts declared from this node expire after this many seconds (default = 5 minutes)
			
 
				-    :param record_validators: instances of RecordValidatorBase used for signing and validating stored records.
			
 
				-      The validators will be combined using the CompositeValidator class. It merges them when possible
			
 
				-      (according to their `.merge_with()` policies) and orders them according to the `.priority` properties.
			
 
				-    :param shutdown_timeout: when calling .shutdown, wait for up to this many seconds before terminating
			
 
				-    :param await_ready: if True, the constructor waits until the DHT process is ready to process incoming requests
			
 
				-    :param kwargs: any other params will be forwarded to DHTNode and hivemind.p2p.P2P upon creation
			
 
				-    """
			
 
				-
			
 
				-    _node: DHTNode
			
 
				-
			
 
				-    def __init__(
			
 
				-        self,
			
 
				-        initial_peers: Optional[Sequence[Union[Multiaddr, str]]] = None,
			
 
				-        *,
			
 
				-        start: bool,
			
 
				-        p2p: Optional[P2P] = None,
			
 
				-        daemon: bool = True,
			
 
				-        num_workers: int = DEFAULT_NUM_WORKERS,
			
 
				-        record_validators: Iterable[RecordValidatorBase] = (),
			
 
				-        shutdown_timeout: float = 3,
			
 
				-        await_ready: bool = True,
			
 
				-        **kwargs,
			
 
				-    ):
			
 
				-        self._parent_pid = os.getpid()
			
 
				-        super().__init__()
			
 
				-
			
 
				-        if not (
			
 
				-            initial_peers is None
			
 
				-            or (
			
 
				-                isinstance(initial_peers, Sequence)
			
 
				-                and all(isinstance(item, (Multiaddr, str)) for item in initial_peers)
			
 
				-            )
			
 
				-        ):
			
 
				-            raise TypeError("initial_peers should be of type Optional[Sequence[Union[Multiaddr, str]]]")
			
 
				-        self.initial_peers = initial_peers
			
 
				-        self.kwargs = kwargs
			
 
				-        self.num_workers = num_workers
			
 
				-
			
 
				-        self._record_validator = CompositeValidator(record_validators)
			
 
				-        self._inner_pipe, self._outer_pipe = mp.Pipe(duplex=True)
			
 
				-        self.shutdown_timeout = shutdown_timeout
			
 
				-        self._ready = MPFuture()
			
 
				-        self.daemon = daemon
			
 
				-
			
 
				-        # These values will be fetched from the child process when requested
			
 
				-        self._peer_id = None
			
 
				-        self._client_mode = None
			
 
				-        self._p2p_replica = None
			
 
				-
			
 
				-        self._daemon_listen_maddr = p2p.daemon_listen_maddr if p2p is not None else None
			
 
				-
			
 
				-        if start:
			
 
				-            self.run_in_background(await_ready=await_ready)
			
 
				-
			
 
				-    def run(self) -> None:
			
 
				-        """Serve DHT forever. This function will not return until DHT node is shut down"""
			
 
				-
			
 
				-        loop = switch_to_uvloop()
			
 
				-        pipe_semaphore = asyncio.Semaphore(value=0)
			
 
				-        loop.add_reader(self._inner_pipe.fileno(), pipe_semaphore.release)
			
 
				-
			
 
				-        async def _run():
			
 
				-            try:
			
 
				-                if self._daemon_listen_maddr is not None:
			
 
				-                    replicated_p2p = await P2P.replicate(self._daemon_listen_maddr)
			
 
				-                else:
			
 
				-                    replicated_p2p = None
			
 
				-
			
 
				-                self._node = await DHTNode.create(
			
 
				-                    initial_peers=self.initial_peers,
			
 
				-                    num_workers=self.num_workers,
			
 
				-                    record_validator=self._record_validator,
			
 
				-                    p2p=replicated_p2p,
			
 
				-                    **self.kwargs,
			
 
				-                )
			
 
				-            except Exception as e:
			
 
				-                # Loglevel is DEBUG since normally the exception is propagated to the caller
			
 
				-                logger.debug(e, exc_info=True)
			
 
				-                self._ready.set_exception(e)
			
 
				-                return
			
 
				-            self._ready.set_result(None)
			
 
				-
			
 
				-            while True:
			
 
				-                try:
			
 
				-                    await asyncio.wait_for(pipe_semaphore.acquire(), timeout=self._node.protocol.wait_timeout)
			
 
				-                except asyncio.TimeoutError:
			
 
				-                    pass
			
 
				-                if not self._inner_pipe.poll():
			
 
				-                    continue
			
 
				-                try:
			
 
				-                    method, args, kwargs = self._inner_pipe.recv()
			
 
				-                except (OSError, ConnectionError, RuntimeError) as e:
			
 
				-                    logger.exception(e)
			
 
				-                    await asyncio.sleep(self._node.protocol.wait_timeout)
			
 
				-                    continue
			
 
				-                task = asyncio.create_task(getattr(self, method)(*args, **kwargs))
			
 
				-                if method == "_shutdown":
			
 
				-                    await task
			
 
				-                    break
			
 
				-
			
 
				-        loop.run_until_complete(_run())
			
 
				-
			
 
				-    def run_in_background(self, await_ready: bool = True, timeout: Optional[float] = None) -> None:
			
 
				-        """
			
 
				-        Starts DHT in a background process. if await_ready, this method will wait until background dht
			
 
				-        is ready to process incoming requests or for :timeout: seconds max.
			
 
				-        """
			
 
				-        self.start()
			
 
				-        if await_ready:
			
 
				-            self.wait_until_ready(timeout)
			
 
				-
			
 
				-    def wait_until_ready(self, timeout: Optional[float] = None) -> None:
			
 
				-        self._ready.result(timeout=timeout)
			
 
				-
			
 
				-    def shutdown(self) -> None:
			
 
				-        """Shut down a running dht process"""
			
 
				-        if self.is_alive():
			
 
				-            self._outer_pipe.send(("_shutdown", [], {}))
			
 
				-            self.join(self.shutdown_timeout)
			
 
				-            if self.is_alive():
			
 
				-                logger.warning("DHT did not shut down within the grace period; terminating it the hard way.")
			
 
				-                self.terminate()
			
 
				-
			
 
				-    async def _shutdown(self):
			
 
				-        await self._node.shutdown()
			
 
				-
			
 
				-    def get(
			
 
				-        self, key: DHTKey, latest: bool = False, return_future: bool = False, **kwargs
			
 
				-    ) -> Union[Optional[ValueWithExpiration[DHTValue]], MPFuture]:
			
 
				-        """
			
 
				-        Search for a key across DHT and return either first or latest entry (if found).
			
 
				-        :param key: same key as in node.store(...)
			
 
				-        :param latest: if True, finds the latest value, otherwise finds any non-expired value (which is much faster)
			
 
				-        :param return_future: if False (default), return when finished. Otherwise return MPFuture and run in background.
			
 
				-        :param kwargs: parameters forwarded to DHTNode.get_many_by_id
			
 
				-        :returns: (value, expiration time); if value was not found, returns None
			
 
				-        """
			
 
				-        future = MPFuture()
			
 
				-        self._outer_pipe.send(("_get", [], dict(key=key, latest=latest, future=future, **kwargs)))
			
 
				-        return future if return_future else future.result()
			
 
				-
			
 
				-    async def _get(self, key: DHTKey, latest: bool, future: MPFuture, **kwargs):
			
 
				-        try:
			
 
				-            result = await self._node.get(key, latest=latest, **kwargs)
			
 
				-            if not future.done():
			
 
				-                future.set_result(result)
			
 
				-        except BaseException as e:
			
 
				-            if not future.done():
			
 
				-                future.set_exception(e)
			
 
				-            raise
			
 
				-
			
 
				-    def store(
			
 
				-        self,
			
 
				-        key: DHTKey,
			
 
				-        value: DHTValue,
			
 
				-        expiration_time: DHTExpiration,
			
 
				-        subkey: Optional[Subkey] = None,
			
 
				-        return_future: bool = False,
			
 
				-        **kwargs,
			
 
				-    ) -> Union[bool, MPFuture]:
			
 
				-        """
			
 
				-        Find num_replicas best nodes to store (key, value) and store it there until expiration time.
			
 
				-
			
 
				-        :param key: msgpack-serializable key to be associated with value until expiration.
			
 
				-        :param value: msgpack-serializable value to be stored under a given key until expiration.
			
 
				-        :param expiration_time: absolute time when the entry should expire, based on hivemind.get_dht_time()
			
 
				-        :param subkey: if specified, add a value under that subkey instead of overwriting key (see DHTNode.store_many)
			
 
				-        :param return_future: if False (default), return when finished. Otherwise return MPFuture and run in background.
			
 
				-        :returns: True if store succeeds, False if it fails (due to no response or newer value)
			
 
				-        """
			
 
				-        future = MPFuture()
			
 
				-        self._outer_pipe.send(
			
 
				-            (
			
 
				-                "_store",
			
 
				-                [],
			
 
				-                dict(key=key, value=value, expiration_time=expiration_time, subkey=subkey, future=future, **kwargs),
			
 
				-            )
			
 
				-        )
			
 
				-        return future if return_future else future.result()
			
 
				-
			
 
				-    async def _store(
			
 
				-        self,
			
 
				-        key: DHTKey,
			
 
				-        value: DHTValue,
			
 
				-        expiration_time: DHTExpiration,
			
 
				-        subkey: Optional[Subkey],
			
 
				-        future: MPFuture,
			
 
				-        **kwargs,
			
 
				-    ):
			
 
				-        try:
			
 
				-            result = await self._node.store(key, value, expiration_time, subkey=subkey, **kwargs)
			
 
				-            if not future.done():
			
 
				-                future.set_result(result)
			
 
				-        except BaseException as e:
			
 
				-            if not future.done():
			
 
				-                future.set_exception(e)
			
 
				-            raise
			
 
				-
			
 
				-    def run_coroutine(
			
 
				-        self, coro: Callable[[DHT, DHTNode], Awaitable[ReturnType]], return_future: bool = False
			
 
				-    ) -> Union[ReturnType, MPFuture[ReturnType]]:
			
 
				-        """
			
 
				-        Execute an asynchronous function on a DHT participant and return results. This is meant as an interface
			
 
				-         for running custom functions DHT for special cases (e.g. declare experts, beam search)
			
 
				-
			
 
				-        :param coro: async function to be executed. Receives 2 arguments: this DHT daemon and a running DHTNode
			
 
				-        :param return_future: if False (default), return when finished. Otherwise return MPFuture and run in background.
			
 
				-        :returns: coroutine outputs or MPFuture for these outputs
			
 
				-        :note: the coroutine will be executed inside the DHT process. As such, any changes to global variables or
			
 
				-          DHT fields made by this coroutine will not be accessible from the host process.
			
 
				-        :note: all time-consuming operations in coro should be asynchronous (e.g. asyncio.sleep instead of time.sleep)
			
 
				-          or use asyncio.get_event_loop().run_in_executor(...) to prevent coroutine from blocking background DHT tasks
			
 
				-        :note: when run_coroutine is called with wait=False, MPFuture can be cancelled to interrupt the task.
			
 
				-        """
			
 
				-        future = MPFuture()
			
 
				-        self._outer_pipe.send(("_run_coroutine", [], dict(coro=coro, future=future)))
			
 
				-        return future if return_future else future.result()
			
 
				-
			
 
				-    async def _run_coroutine(
			
 
				-        self, coro: Callable[[DHT, DHTNode], Awaitable[ReturnType]], future: MPFuture[ReturnType]
			
 
				-    ):
			
 
				-        try:
			
 
				-            future.set_result(await coro(self, self._node))
			
 
				-        except BaseException as e:
			
 
				-            logger.exception("Caught an exception when running a coroutine:")
			
 
				-            future.set_exception(e)
			
 
				-
			
 
				-    def add_validators(self, record_validators: Iterable[RecordValidatorBase]) -> None:
			
 
				-        if not self._ready.done():
			
 
				-            raise RuntimeError(
			
 
				-                "Can't append new validators before the DHT process has started. "
			
 
				-                "Consider adding them to the initial list via DHT.__init__(record_validators=...)"
			
 
				-            )
			
 
				-
			
 
				-        self.run_coroutine(partial(DHT._add_validators, record_validators=record_validators))
			
 
				-
			
 
				-    @staticmethod
			
 
				-    async def _add_validators(_dht: DHT, node: DHTNode, record_validators: Iterable[RecordValidatorBase]) -> None:
			
 
				-        node.protocol.record_validator.extend(record_validators)
			
 
				-
			
 
				-    @property
			
 
				-    def peer_id(self) -> PeerID:
			
 
				-        if self._peer_id is None:
			
 
				-            self._peer_id = self.run_coroutine(DHT._get_peer_id)
			
 
				-        return self._peer_id
			
 
				-
			
 
				-    @staticmethod
			
 
				-    async def _get_peer_id(_dht: DHT, node: DHTNode) -> PeerID:
			
 
				-        return node.peer_id
			
 
				-
			
 
				-    @property
			
 
				-    def client_mode(self) -> bool:
			
 
				-        if self._client_mode is None:
			
 
				-            self._client_mode = self.run_coroutine(DHT._get_client_mode)
			
 
				-        return self._client_mode
			
 
				-
			
 
				-    @staticmethod
			
 
				-    async def _get_client_mode(_dht: DHT, node: DHTNode) -> bool:
			
 
				-        return node.protocol.client_mode
			
 
				-
			
 
				-    def get_visible_maddrs(self, latest: bool = False) -> List[Multiaddr]:
			
 
				-        """
			
 
				-        Get multiaddrs of the current DHT node that should be accessible by other peers.
			
 
				-
			
 
				-        :param latest: ask the P2P daemon to refresh the visible multiaddrs
			
 
				-        """
			
 
				-
			
 
				-        return self.run_coroutine(partial(DHT._get_visible_maddrs, latest=latest))
			
 
				-
			
 
				-    @staticmethod
			
 
				-    async def _get_visible_maddrs(_dht: DHT, node: DHTNode, latest: bool = False) -> List[Multiaddr]:
			
 
				-        return await node.get_visible_maddrs(latest=latest)
			
 
				-
			
 
				-    async def replicate_p2p(self) -> P2P:
			
 
				-        """
			
 
				-        Get a replica of a P2P instance used in the DHT process internally.
			
 
				-        The replica uses the same P2P daemon as the DHT and only works while DHT is alive.
			
 
				-        """
			
 
				-
			
 
				-        if self._p2p_replica is None:
			
 
				-            daemon_listen_maddr = self.run_coroutine(DHT._get_p2p_daemon_listen_maddr)
			
 
				-            self._p2p_replica = await P2P.replicate(daemon_listen_maddr)
			
 
				-        return self._p2p_replica
			
 
				-
			
 
				-    @staticmethod
			
 
				-    async def _get_p2p_daemon_listen_maddr(_dht: DHT, node: DHTNode) -> Multiaddr:
			
 
				-        return node.p2p.daemon_listen_maddr
			
 
				-
			
 
				-    def __del__(self):
			
 
				-        if self._parent_pid == os.getpid() and self.is_alive():
			
 
				-            self.shutdown()
			
--- a/hivemind/dht/dht.py
+++ b/hivemind/dht/dht.py
@@ -0,0 +1,324 @@
 
				+from __future__ import annotations
			
 
				+
			
 
				+import asyncio
			
 
				+import multiprocessing as mp
			
 
				+import os
			
 
				+from functools import partial
			
 
				+from typing import Awaitable, Callable, Iterable, List, Optional, Sequence, TypeVar, Union
			
 
				+
			
 
				+from multiaddr import Multiaddr
			
 
				+
			
 
				+from hivemind.dht.node import DEFAULT_NUM_WORKERS, DHTNode
			
 
				+from hivemind.dht.routing import DHTKey, DHTValue, Subkey
			
 
				+from hivemind.dht.validation import CompositeValidator, RecordValidatorBase
			
 
				+from hivemind.p2p import P2P, PeerID
			
 
				+from hivemind.utils import MPFuture, get_logger, switch_to_uvloop
			
 
				+from hivemind.utils.timed_storage import DHTExpiration, ValueWithExpiration
			
 
				+
			
 
				+logger = get_logger(__name__)
			
 
				+ReturnType = TypeVar("ReturnType")
			
 
				+
			
 
				+
			
 
				+class DHT(mp.Process):
			
 
				+    """
			
 
				+    A high-level interface to a hivemind DHT that runs a single DHT node in a background process.
			
 
				+    * hivemind servers periodically announce their experts via declare_experts (dht_handler.py)
			
 
				+    * trainers find most suitable experts via RemoteMixtureOfExperts (beam_search.py)
			
 
				+
			
 
				+    :param initial_peers: multiaddrs of one or more active DHT peers (if you want to join an existing DHT)
			
 
				+    :param start: if True, automatically starts the background process on creation. Otherwise await manual start
			
 
				+    :param daemon: if True, the background process is marked as daemon and automatically terminated after main process
			
 
				+    :param num_workers: declare_experts and get_experts will use up to this many parallel workers
			
 
				+      (but no more than one per key)
			
 
				+    :param expiration: experts declared from this node expire after this many seconds (default = 5 minutes)
			
 
				+    :param record_validators: instances of RecordValidatorBase used for signing and validating stored records.
			
 
				+      The validators will be combined using the CompositeValidator class. It merges them when possible
			
 
				+      (according to their `.merge_with()` policies) and orders them according to the `.priority` properties.
			
 
				+    :param shutdown_timeout: when calling .shutdown, wait for up to this many seconds before terminating
			
 
				+    :param await_ready: if True, the constructor waits until the DHT process is ready to process incoming requests
			
 
				+    :param kwargs: any other params will be forwarded to DHTNode and hivemind.p2p.P2P upon creation
			
 
				+    """
			
 
				+
			
 
				+    _node: DHTNode
			
 
				+
			
 
				+    def __init__(
			
 
				+        self,
			
 
				+        initial_peers: Optional[Sequence[Union[Multiaddr, str]]] = None,
			
 
				+        *,
			
 
				+        start: bool,
			
 
				+        p2p: Optional[P2P] = None,
			
 
				+        daemon: bool = True,
			
 
				+        num_workers: int = DEFAULT_NUM_WORKERS,
			
 
				+        record_validators: Iterable[RecordValidatorBase] = (),
			
 
				+        shutdown_timeout: float = 3,
			
 
				+        await_ready: bool = True,
			
 
				+        **kwargs,
			
 
				+    ):
			
 
				+        self._parent_pid = os.getpid()
			
 
				+        super().__init__()
			
 
				+
			
 
				+        if not (
			
 
				+            initial_peers is None
			
 
				+            or (
			
 
				+                isinstance(initial_peers, Sequence)
			
 
				+                and all(isinstance(item, (Multiaddr, str)) for item in initial_peers)
			
 
				+            )
			
 
				+        ):
			
 
				+            raise TypeError("initial_peers should be of type Optional[Sequence[Union[Multiaddr, str]]]")
			
 
				+        self.initial_peers = initial_peers
			
 
				+        self.kwargs = kwargs
			
 
				+        self.num_workers = num_workers
			
 
				+
			
 
				+        self._record_validator = CompositeValidator(record_validators)
			
 
				+        self._inner_pipe, self._outer_pipe = mp.Pipe(duplex=True)
			
 
				+        self.shutdown_timeout = shutdown_timeout
			
 
				+        self._ready = MPFuture()
			
 
				+        self.daemon = daemon
			
 
				+
			
 
				+        # These values will be fetched from the child process when requested
			
 
				+        self._peer_id = None
			
 
				+        self._client_mode = None
			
 
				+        self._p2p_replica = None
			
 
				+
			
 
				+        self._daemon_listen_maddr = p2p.daemon_listen_maddr if p2p is not None else None
			
 
				+
			
 
				+        if start:
			
 
				+            self.run_in_background(await_ready=await_ready)
			
 
				+
			
 
				+    def run(self) -> None:
			
 
				+        """Serve DHT forever. This function will not return until DHT node is shut down"""
			
 
				+
			
 
				+        loop = switch_to_uvloop()
			
 
				+        pipe_semaphore = asyncio.Semaphore(value=0)
			
 
				+        loop.add_reader(self._inner_pipe.fileno(), pipe_semaphore.release)
			
 
				+
			
 
				+        async def _run():
			
 
				+            try:
			
 
				+                if self._daemon_listen_maddr is not None:
			
 
				+                    replicated_p2p = await P2P.replicate(self._daemon_listen_maddr)
			
 
				+                else:
			
 
				+                    replicated_p2p = None
			
 
				+
			
 
				+                self._node = await DHTNode.create(
			
 
				+                    initial_peers=self.initial_peers,
			
 
				+                    num_workers=self.num_workers,
			
 
				+                    record_validator=self._record_validator,
			
 
				+                    p2p=replicated_p2p,
			
 
				+                    **self.kwargs,
			
 
				+                )
			
 
				+            except Exception as e:
			
 
				+                # Loglevel is DEBUG since normally the exception is propagated to the caller
			
 
				+                logger.debug(e, exc_info=True)
			
 
				+                self._ready.set_exception(e)
			
 
				+                return
			
 
				+            self._ready.set_result(None)
			
 
				+
			
 
				+            while True:
			
 
				+                try:
			
 
				+                    await asyncio.wait_for(pipe_semaphore.acquire(), timeout=self._node.protocol.wait_timeout)
			
 
				+                except asyncio.TimeoutError:
			
 
				+                    pass
			
 
				+                if not self._inner_pipe.poll():
			
 
				+                    continue
			
 
				+                try:
			
 
				+                    method, args, kwargs = self._inner_pipe.recv()
			
 
				+                except (OSError, ConnectionError, RuntimeError) as e:
			
 
				+                    logger.exception(e)
			
 
				+                    await asyncio.sleep(self._node.protocol.wait_timeout)
			
 
				+                    continue
			
 
				+                task = asyncio.create_task(getattr(self, method)(*args, **kwargs))
			
 
				+                if method == "_shutdown":
			
 
				+                    await task
			
 
				+                    break
			
 
				+
			
 
				+        loop.run_until_complete(_run())
			
 
				+
			
 
				+    def run_in_background(self, await_ready: bool = True, timeout: Optional[float] = None) -> None:
			
 
				+        """
			
 
				+        Starts DHT in a background process. if await_ready, this method will wait until background dht
			
 
				+        is ready to process incoming requests or for :timeout: seconds max.
			
 
				+        """
			
 
				+        self.start()
			
 
				+        if await_ready:
			
 
				+            self.wait_until_ready(timeout)
			
 
				+
			
 
				+    def wait_until_ready(self, timeout: Optional[float] = None) -> None:
			
 
				+        self._ready.result(timeout=timeout)
			
 
				+
			
 
				+    def shutdown(self) -> None:
			
 
				+        """Shut down a running dht process"""
			
 
				+        if self.is_alive():
			
 
				+            self._outer_pipe.send(("_shutdown", [], {}))
			
 
				+            self.join(self.shutdown_timeout)
			
 
				+            if self.is_alive():
			
 
				+                logger.warning("DHT did not shut down within the grace period; terminating it the hard way.")
			
 
				+                self.terminate()
			
 
				+
			
 
				+    async def _shutdown(self):
			
 
				+        await self._node.shutdown()
			
 
				+
			
 
				+    def get(
			
 
				+        self, key: DHTKey, latest: bool = False, return_future: bool = False, **kwargs
			
 
				+    ) -> Union[Optional[ValueWithExpiration[DHTValue]], MPFuture]:
			
 
				+        """
			
 
				+        Search for a key across DHT and return either first or latest entry (if found).
			
 
				+        :param key: same key as in node.store(...)
			
 
				+        :param latest: if True, finds the latest value, otherwise finds any non-expired value (which is much faster)
			
 
				+        :param return_future: if False (default), return when finished. Otherwise return MPFuture and run in background.
			
 
				+        :param kwargs: parameters forwarded to DHTNode.get_many_by_id
			
 
				+        :returns: (value, expiration time); if value was not found, returns None
			
 
				+        """
			
 
				+        future = MPFuture()
			
 
				+        self._outer_pipe.send(("_get", [], dict(key=key, latest=latest, future=future, **kwargs)))
			
 
				+        return future if return_future else future.result()
			
 
				+
			
 
				+    async def _get(self, key: DHTKey, latest: bool, future: MPFuture, **kwargs):
			
 
				+        try:
			
 
				+            result = await self._node.get(key, latest=latest, **kwargs)
			
 
				+            if not future.done():
			
 
				+                future.set_result(result)
			
 
				+        except BaseException as e:
			
 
				+            if not future.done():
			
 
				+                future.set_exception(e)
			
 
				+            raise
			
 
				+
			
 
				+    def store(
			
 
				+        self,
			
 
				+        key: DHTKey,
			
 
				+        value: DHTValue,
			
 
				+        expiration_time: DHTExpiration,
			
 
				+        subkey: Optional[Subkey] = None,
			
 
				+        return_future: bool = False,
			
 
				+        **kwargs,
			
 
				+    ) -> Union[bool, MPFuture]:
			
 
				+        """
			
 
				+        Find num_replicas best nodes to store (key, value) and store it there until expiration time.
			
 
				+
			
 
				+        :param key: msgpack-serializable key to be associated with value until expiration.
			
 
				+        :param value: msgpack-serializable value to be stored under a given key until expiration.
			
 
				+        :param expiration_time: absolute time when the entry should expire, based on hivemind.get_dht_time()
			
 
				+        :param subkey: if specified, add a value under that subkey instead of overwriting key (see DHTNode.store_many)
			
 
				+        :param return_future: if False (default), return when finished. Otherwise return MPFuture and run in background.
			
 
				+        :returns: True if store succeeds, False if it fails (due to no response or newer value)
			
 
				+        """
			
 
				+        future = MPFuture()
			
 
				+        self._outer_pipe.send(
			
 
				+            (
			
 
				+                "_store",
			
 
				+                [],
			
 
				+                dict(key=key, value=value, expiration_time=expiration_time, subkey=subkey, future=future, **kwargs),
			
 
				+            )
			
 
				+        )
			
 
				+        return future if return_future else future.result()
			
 
				+
			
 
				+    async def _store(
			
 
				+        self,
			
 
				+        key: DHTKey,
			
 
				+        value: DHTValue,
			
 
				+        expiration_time: DHTExpiration,
			
 
				+        subkey: Optional[Subkey],
			
 
				+        future: MPFuture,
			
 
				+        **kwargs,
			
 
				+    ):
			
 
				+        try:
			
 
				+            result = await self._node.store(key, value, expiration_time, subkey=subkey, **kwargs)
			
 
				+            if not future.done():
			
 
				+                future.set_result(result)
			
 
				+        except BaseException as e:
			
 
				+            if not future.done():
			
 
				+                future.set_exception(e)
			
 
				+            raise
			
 
				+
			
 
				+    def run_coroutine(
			
 
				+        self, coro: Callable[[DHT, DHTNode], Awaitable[ReturnType]], return_future: bool = False
			
 
				+    ) -> Union[ReturnType, MPFuture[ReturnType]]:
			
 
				+        """
			
 
				+        Execute an asynchronous function on a DHT participant and return results. This is meant as an interface
			
 
				+         for running custom functions DHT for special cases (e.g. declare experts, beam search)
			
 
				+
			
 
				+        :param coro: async function to be executed. Receives 2 arguments: this DHT daemon and a running DHTNode
			
 
				+        :param return_future: if False (default), return when finished. Otherwise return MPFuture and run in background.
			
 
				+        :returns: coroutine outputs or MPFuture for these outputs
			
 
				+        :note: the coroutine will be executed inside the DHT process. As such, any changes to global variables or
			
 
				+          DHT fields made by this coroutine will not be accessible from the host process.
			
 
				+        :note: all time-consuming operations in coro should be asynchronous (e.g. asyncio.sleep instead of time.sleep)
			
 
				+          or use asyncio.get_event_loop().run_in_executor(...) to prevent coroutine from blocking background DHT tasks
			
 
				+        :note: when run_coroutine is called with wait=False, MPFuture can be cancelled to interrupt the task.
			
 
				+        """
			
 
				+        future = MPFuture()
			
 
				+        self._outer_pipe.send(("_run_coroutine", [], dict(coro=coro, future=future)))
			
 
				+        return future if return_future else future.result()
			
 
				+
			
 
				+    async def _run_coroutine(
			
 
				+        self, coro: Callable[[DHT, DHTNode], Awaitable[ReturnType]], future: MPFuture[ReturnType]
			
 
				+    ):
			
 
				+        try:
			
 
				+            future.set_result(await coro(self, self._node))
			
 
				+        except BaseException as e:
			
 
				+            logger.exception("Caught an exception when running a coroutine:")
			
 
				+            future.set_exception(e)
			
 
				+
			
 
				+    def add_validators(self, record_validators: Iterable[RecordValidatorBase]) -> None:
			
 
				+        if not self._ready.done():
			
 
				+            raise RuntimeError(
			
 
				+                "Can't append new validators before the DHT process has started. "
			
 
				+                "Consider adding them to the initial list via DHT.__init__(record_validators=...)"
			
 
				+            )
			
 
				+
			
 
				+        self.run_coroutine(partial(DHT._add_validators, record_validators=record_validators))
			
 
				+
			
 
				+    @staticmethod
			
 
				+    async def _add_validators(_dht: DHT, node: DHTNode, record_validators: Iterable[RecordValidatorBase]) -> None:
			
 
				+        node.protocol.record_validator.extend(record_validators)
			
 
				+
			
 
				+    @property
			
 
				+    def peer_id(self) -> PeerID:
			
 
				+        if self._peer_id is None:
			
 
				+            self._peer_id = self.run_coroutine(DHT._get_peer_id)
			
 
				+        return self._peer_id
			
 
				+
			
 
				+    @staticmethod
			
 
				+    async def _get_peer_id(_dht: DHT, node: DHTNode) -> PeerID:
			
 
				+        return node.peer_id
			
 
				+
			
 
				+    @property
			
 
				+    def client_mode(self) -> bool:
			
 
				+        if self._client_mode is None:
			
 
				+            self._client_mode = self.run_coroutine(DHT._get_client_mode)
			
 
				+        return self._client_mode
			
 
				+
			
 
				+    @staticmethod
			
 
				+    async def _get_client_mode(_dht: DHT, node: DHTNode) -> bool:
			
 
				+        return node.protocol.client_mode
			
 
				+
			
 
				+    def get_visible_maddrs(self, latest: bool = False) -> List[Multiaddr]:
			
 
				+        """
			
 
				+        Get multiaddrs of the current DHT node that should be accessible by other peers.
			
 
				+
			
 
				+        :param latest: ask the P2P daemon to refresh the visible multiaddrs
			
 
				+        """
			
 
				+
			
 
				+        return self.run_coroutine(partial(DHT._get_visible_maddrs, latest=latest))
			
 
				+
			
 
				+    @staticmethod
			
 
				+    async def _get_visible_maddrs(_dht: DHT, node: DHTNode, latest: bool = False) -> List[Multiaddr]:
			
 
				+        return await node.get_visible_maddrs(latest=latest)
			
 
				+
			
 
				+    async def replicate_p2p(self) -> P2P:
			
 
				+        """
			
 
				+        Get a replica of a P2P instance used in the DHT process internally.
			
 
				+        The replica uses the same P2P daemon as the DHT and only works while DHT is alive.
			
 
				+        """
			
 
				+
			
 
				+        if self._p2p_replica is None:
			
 
				+            daemon_listen_maddr = self.run_coroutine(DHT._get_p2p_daemon_listen_maddr)
			
 
				+            self._p2p_replica = await P2P.replicate(daemon_listen_maddr)
			
 
				+        return self._p2p_replica
			
 
				+
			
 
				+    @staticmethod
			
 
				+    async def _get_p2p_daemon_listen_maddr(_dht: DHT, node: DHTNode) -> Multiaddr:
			
 
				+        return node.p2p.daemon_listen_maddr
			
 
				+
			
 
				+    def __del__(self):
			
 
				+        if self._parent_pid == os.getpid() and self.is_alive():
			
 
				+            self.shutdown()
			
--- a/hivemind/dht/routing.py
+++ b/hivemind/dht/routing.py
@@ -10,7 +10,7 @@ from itertools import chain
 
				 from typing import Any, Dict, List, Optional, Sequence, Set, Tuple, Union
			
 
				 
			
 
				 from hivemind.p2p import PeerID
			
 
				-from hivemind.utils import MSGPackSerializer, get_dht_time
			
 
				+from hivemind.utils import DHTExpiration, MSGPackSerializer, get_dht_time
			
 
				 
			
 
				 DHTKey = Subkey = DHTValue = Any
			
 
				 BinaryDHTID = BinaryDHTValue = bytes
			
--- a/hivemind/optim/__init__.py
+++ b/hivemind/optim/__init__.py
@@ -3,3 +3,4 @@ from hivemind.optim.base import DecentralizedOptimizerBase
 
				 from hivemind.optim.collaborative import CollaborativeOptimizer
			
 
				 from hivemind.optim.grad_scaler import HivemindGradScaler
			
 
				 from hivemind.optim.simple import DecentralizedAdam, DecentralizedOptimizer, DecentralizedSGD
			
 
				+from hivemind.optim.training_averager import TrainingAverager
			
--- a/hivemind/optim/adaptive.py
+++ b/hivemind/optim/adaptive.py
@@ -2,8 +2,8 @@ from typing import Sequence
 
				 
			
 
				 import torch.optim
			
 
				 
			
 
				-from hivemind import TrainingAverager
			
 
				 from hivemind.optim.collaborative import CollaborativeOptimizer
			
 
				+from hivemind.optim.training_averager import TrainingAverager
			
 
				 
			
 
				 
			
 
				 class CollaborativeAdaptiveOptimizer(CollaborativeOptimizer):
			
--- a/hivemind/optim/collaborative.py
+++ b/hivemind/optim/collaborative.py
@@ -9,14 +9,14 @@ import numpy as np
 
				 import torch
			
 
				 from pydantic import BaseModel, StrictBool, StrictFloat, confloat, conint
			
 
				 
			
 
				-from hivemind.averaging.training import TrainingAverager
			
 
				 from hivemind.dht import DHT
			
 
				 from hivemind.dht.crypto import RSASignatureValidator
			
 
				 from hivemind.dht.schema import BytesWithPublicKey, SchemaValidator
			
 
				 from hivemind.optim.base import DecentralizedOptimizerBase
			
 
				 from hivemind.optim.grad_scaler import HivemindGradScaler
			
 
				-from hivemind.optim.performance_ema import PerformanceEMA
			
 
				+from hivemind.optim.training_averager import TrainingAverager
			
 
				 from hivemind.utils import get_dht_time, get_logger
			
 
				+from hivemind.utils.performance_ema import PerformanceEMA
			
 
				 
			
 
				 logger = get_logger(__name__)
			
 
				 LRSchedulerBase = getattr(torch.optim.lr_scheduler, "_LRScheduler", None)
			
--- a/hivemind/optim/experimental/__init__.py
+++ b/hivemind/optim/experimental/__init__.py
--- a/hivemind/optim/experimental/grad_averager.py
+++ b/hivemind/optim/experimental/grad_averager.py
@@ -0,0 +1,219 @@
 
				+import contextlib
			
 
				+from typing import Iterable, Iterator, Optional
			
 
				+
			
 
				+import torch
			
 
				+
			
 
				+import hivemind
			
 
				+from hivemind.averaging import DecentralizedAverager
			
 
				+from hivemind.averaging.control import StepControl
			
 
				+from hivemind.utils import DHTExpiration, get_logger
			
 
				+
			
 
				+logger = get_logger(__name__)
			
 
				+
			
 
				+
			
 
				+class GradientAverager(DecentralizedAverager):
			
 
				+    """
			
 
				+    An auxiliary averaging class that is responsible for accumulating gradients and aggregating them with peers.
			
 
				+    GradientAverager is meant to be used within hivemind.Optimizer, but it can be used standalone (see example below).
			
 
				+
			
 
				+    GradientAverager manages three sets of buffers:
			
 
				+    (1) model gradients - the gradients associated with local model parameters by PyTorch (param.grad).
			
 
				+        These tensors are typically stored on device and updated by torch autograd
			
 
				+    (2) gradient accumulators - an [optional] set of buffers where local gradients are accumulated.
			
 
				+      - note: if reuse_grad_buffers is True, the averager will use gradients from parameters as local accumulators,
			
 
				+        which reduces RAM usage but requires the user to avoid calling zero_grad / clip_grad manually
			
 
				+    (3) averaged gradients - gradient buffers that are aggregated in-place with peers, always in host memory
			
 
				+
			
 
				+    :param parameters: pytorch parameters for which to aggregate gradients
			
 
				+    :param dht: a DHT isntance connected to the rest of the swarm. See hivemind.DHT docs
			
 
				+    :param prefix: a unique DHT key used for matchmaking. E.g. this can be your experiment name with optional suffixes
			
 
				+    :param reuse_grad_buffers: if True, use model's .grad buffers for accumulating gradients over multiple steps.
			
 
				+      This is more memory efficient, but it requires that the user does *not* call zero_grad or clip_by_whatever at all
			
 
				+    :param accumulate_grads_on: if specified, accumulate gradients on this device. By default, this will use the same
			
 
				+      device as model parameters. One can specify a different device (e.g. 'cpu' vs 'cuda') to save device memory at
			
 
				+      the cost of extra time per step. If reuse_grad_buffers is True, this parameter has no effect.
			
 
				+    :param client_mode: if False, this averager will accept incoming requests from other peers.
			
 
				+      if True, the averager will only join existing groups where at least one peer has client_mode=False.
			
 
				+      By default, this flag is copied from DHTNode inside the ``dht`` instance.
			
 
				+    :param warn: if True, warn when the averager did not reset accumulators after use or did not use averaging results
			
 
				+    :param kwargs: see DecentralizedAverager keyword arguments for additional parameters
			
 
				+
			
 
				+
			
 
				+    Example:
			
 
				+
			
 
				+    >>> model = SuchModelMuchLayers()
			
 
				+    >>> opt = torch.optim.Adam(model.parameters())
			
 
				+    >>> grad_averager = GradientAverager(model.parameters(), dht=hivemind.DHT(...))
			
 
				+    >>> next_step_time = hivemind.get_dht_time() + 60   # runs global steps every 60 seconds
			
 
				+    >>> next_step_control = None
			
 
				+    >>> while True:
			
 
				+    >>>    # accumulate as many gradients as you can before next_step_time
			
 
				+    >>>    loss = compute_loss(model, batch_size=32)
			
 
				+    >>>    loss.backward()
			
 
				+    >>>    grad_averager.accumulate_grads_(batch_size=32)
			
 
				+    >>>    # [optional] next step in 5 seconds, start looking for peers in advance
			
 
				+    >>>    if next_step_time - hivemind.get_dht_time() <= 5
			
 
				+    >>>        next_step_control = grad_averager.schedule_step(scheduled_time=next_step_time)
			
 
				+    >>>    # aggregate gradients and perform optimizer step
			
 
				+    >>>    if hivemind.get_dht_time() >= next_step_time:
			
 
				+    >>>        grad_averager.step(control=next_step_control)
			
 
				+    >>>        with grad_averager.use_averaged_gradients():  # this will fill param.grads with aggregated gradients
			
 
				+    >>>            opt.step()  # update model parameters using averaged gradients
			
 
				+    >>>        grad_averager.reset_accumulated_grads_()  # prepare for next step
			
 
				+    >>>        next_step_time = hivemind.get_dht_time() + 60
			
 
				+    >>>        next_step_control = None
			
 
				+
			
 
				+    """
			
 
				+
			
 
				+    def __init__(
			
 
				+        self,
			
 
				+        parameters: Iterable[torch.nn.Parameter],
			
 
				+        *,
			
 
				+        dht: hivemind.DHT,
			
 
				+        prefix: str,
			
 
				+        reuse_grad_buffers: bool = False,
			
 
				+        accumulate_grads_on: Optional[torch.device] = None,
			
 
				+        client_mode: bool = None,
			
 
				+        warn: bool = True,
			
 
				+        **kwargs,
			
 
				+    ):
			
 
				+        if reuse_grad_buffers and accumulate_grads_on is not None:
			
 
				+            logger.warning("Setting 'accumulate_grads_on' has no effect if reuse_grad_buffers=True")
			
 
				+        client_mode = client_mode if client_mode is not None else dht.client_mode
			
 
				+        self._parameters = tuple(parameters)
			
 
				+        self.reuse_grad_buffers = reuse_grad_buffers
			
 
				+        self.warn = warn
			
 
				+        self.local_samples_accumulated = 0
			
 
				+        self.local_times_accumulated = 0
			
 
				+        self._anchor_batch_size = None
			
 
				+        self._local_accumulators = None
			
 
				+        if not reuse_grad_buffers:
			
 
				+            self._local_accumulators = tuple(
			
 
				+                torch.zeros_like(grad, device=accumulate_grads_on) for grad in self._grads_from_parameters()
			
 
				+            )
			
 
				+        self._accumulators_used_in_step = False
			
 
				+        self._new_averaged_grads = False
			
 
				+
			
 
				+        with torch.no_grad():
			
 
				+            averaged_grads = tuple(
			
 
				+                grad.detach().cpu().clone().share_memory_() for grad in self._grads_from_parameters()
			
 
				+            )
			
 
				+        super().__init__(averaged_tensors=averaged_grads, dht=dht, prefix=prefix, client_mode=client_mode, **kwargs)
			
 
				+
			
 
				+    def _grads_from_parameters(self) -> Iterator[torch.Tensor]:
			
 
				+        """gradient buffers associated with parameters"""
			
 
				+        for param in self._parameters:
			
 
				+            if param.grad is None:
			
 
				+                param.grad = torch.zeros_like(param)
			
 
				+            yield param.grad
			
 
				+
			
 
				+    @torch.no_grad()
			
 
				+    def _grad_accumulators(self) -> Iterator[torch.Tensor]:
			
 
				+        """averager-based gradient accumulators"""
			
 
				+        assert (self._local_accumulators is None) == self.reuse_grad_buffers
			
 
				+        yield from self._grads_from_parameters() if self.reuse_grad_buffers else self._local_accumulators
			
 
				+
			
 
				+    @torch.no_grad()
			
 
				+    def accumulate_grads_(self, batch_size: int):
			
 
				+        """add current gradients to local grad accumulators (if used)"""
			
 
				+        if self._accumulators_used_in_step and self.warn:
			
 
				+            logger.warning(
			
 
				+                "[warn=True] Gradient accumulators were not reset since the last averaging round. Please "
			
 
				+                "call .reset_accumulated_grads_ after every step or use .step(reset_accumulators=True)."
			
 
				+            )
			
 
				+            self._accumulators_used_in_step = False  # warn once per round
			
 
				+        if self._anchor_batch_size is None:
			
 
				+            # remember the first batch size to correctly re-scale gradients if subsequent batches have a different size
			
 
				+            self._anchor_batch_size = batch_size
			
 
				+        self.local_samples_accumulated += batch_size
			
 
				+        self.local_times_accumulated += 1
			
 
				+        if self.reuse_grad_buffers:
			
 
				+            pass  # user is responsible for accumulating gradients in .grad buffers
			
 
				+        else:
			
 
				+            alpha = float(batch_size) / self._anchor_batch_size
			
 
				+            for grad_buf, grad_acc in zip(self._grads_from_parameters(), self._grad_accumulators()):
			
 
				+                grad_acc.add_(grad_buf.to(grad_acc.device), alpha=alpha)
			
 
				+
			
 
				+    def schedule_step(self, scheduled_time: Optional[DHTExpiration] = None, **kwargs) -> StepControl:
			
 
				+        """
			
 
				+        Begin matchmaking: look for a group of peers and prepare for averaging gradients at a specified time.
			
 
				+
			
 
				+        :param scheduled_time: expected time when to perform all-reduce. Can be changed using control.scheduled_time
			
 
				+        :param kwargs: any additional keyword args from DecentralizedAverager.step, such as gather, allow_retries, etc
			
 
				+        :note: setting weight at this stage is not supported, please leave this parameter as None
			
 
				+        :returns: step_control - a handle that can be passed into GradientAverager.step to use the pre-scheduled group
			
 
				+        :note: in the current implementation, each step_control can only be used in one step.
			
 
				+        """
			
 
				+        assert kwargs.get("weight") is None, "setting weight in schedule_step is not supported"
			
 
				+        return super().step(scheduled_time=scheduled_time, wait=False, require_trigger=True, **kwargs)
			
 
				+
			
 
				+    def step(
			
 
				+        self,
			
 
				+        weight: Optional[float] = None,
			
 
				+        reset_accumulators: bool = True,
			
 
				+        control: Optional[StepControl] = None,
			
 
				+        wait: bool = True,
			
 
				+        **kwargs,
			
 
				+    ):
			
 
				+        """
			
 
				+        Average accumulated gradients with peers, optionally load averaged gradients and reset accumulators
			
 
				+
			
 
				+        :param weight: overrides the averaging weight; by default, weight equals the number of accumulated samples
			
 
				+        :param reset_accumulators: by default, set local gradient accumulators to zeros after averaging succeeds
			
 
				+        :param control: reuse a pre-arranged group of peers (or a matchmaking in progress) from averager.schedule_step
			
 
				+        :param wait: if True, await for the step to finish (or fail), otherwise run all-reduce in background
			
 
				+        """
			
 
				+        if control is None:
			
 
				+            control = self.schedule_step(**kwargs)
			
 
				+        elif len(kwargs) > 0:
			
 
				+            RuntimeError(f"Averaging with a pre-scheduled group, parameters {kwargs} will have no effect.")
			
 
				+        assert not control.triggered, f"This {type(control)} instance was already used."
			
 
				+        self._load_accumulators_into_averager_()
			
 
				+        self._accumulators_used_in_step = True
			
 
				+        self._new_averaged_grads = True
			
 
				+
			
 
				+        control.weight = self.local_samples_accumulated if weight is None else weight
			
 
				+        if reset_accumulators:
			
 
				+            self.reset_accumulated_grads_()
			
 
				+
			
 
				+        control.allow_allreduce()
			
 
				+        return control.result() if wait else control
			
 
				+
			
 
				+    @torch.no_grad()
			
 
				+    def _load_accumulators_into_averager_(self):
			
 
				+        """load locally accumulated gradients into the averager for aggregation"""
			
 
				+        if self._new_averaged_grads and self.warn:
			
 
				+            logger.warning(
			
 
				+                "[warn=True] Starting new averaging round, but previous round results were not used."
			
 
				+                "This may be a sign of incorrect optimizer behavior."
			
 
				+            )
			
 
				+            self._new_averaged_grads = False  # warn once per round
			
 
				+        # divide locally accumulated gradients by the number of times they were accumulated
			
 
				+        grad_scale = (1.0 / self.local_times_accumulated) if self.local_times_accumulated != 0 else 0.0
			
 
				+        with self.get_tensors() as averaged_grads:
			
 
				+            for grad_acc, averaged_grad in zip(self._grad_accumulators(), averaged_grads):
			
 
				+                averaged_grad.copy_(grad_acc, non_blocking=True).mul_(grad_scale)
			
 
				+
			
 
				+    @torch.no_grad()
			
 
				+    def reset_accumulated_grads_(self):
			
 
				+        """reset averager-internal gradient accumulators and the denominator"""
			
 
				+        self._accumulators_used_in_step = False
			
 
				+        self.local_samples_accumulated = self.local_times_accumulated = 0
			
 
				+        self._anchor_batch_size = None
			
 
				+        for grad_buf in self._grad_accumulators():
			
 
				+            grad_buf.zero_()
			
 
				+
			
 
				+    @contextlib.contextmanager
			
 
				+    @torch.no_grad()
			
 
				+    def use_averaged_gradients(self):
			
 
				+        self._new_averaged_grads = False
			
 
				+        with self.get_tensors() as averaged_grads:
			
 
				+            try:
			
 
				+                assert len(averaged_grads) == len(self._parameters)
			
 
				+                old_grads = [param.grad for param in self._parameters]
			
 
				+                for param, new_grad in zip(self._parameters, averaged_grads):
			
 
				+                    param.grad = new_grad
			
 
				+                yield
			
 
				+            finally:
			
 
				+                for param, old_grad in zip(self._parameters, old_grads):
			
 
				+                    param.grad = old_grad
			
--- a/hivemind/optim/experimental/state_averager.py
+++ b/hivemind/optim/experimental/state_averager.py
@@ -0,0 +1,569 @@
 
				+""" An extension of averager that supports common optimization use cases. """
			
 
				+import logging
			
 
				+from asyncio import Future
			
 
				+from concurrent.futures import ThreadPoolExecutor
			
 
				+from itertools import chain
			
 
				+from threading import Event
			
 
				+from typing import Any, Callable, Dict, Iterable, Iterator, Optional, Sequence, Tuple, Union
			
 
				+
			
 
				+import torch
			
 
				+
			
 
				+import hivemind
			
 
				+from hivemind import nested_compare
			
 
				+from hivemind.averaging import DecentralizedAverager
			
 
				+from hivemind.compression import CompressionInfo, TensorRole
			
 
				+from hivemind.utils import get_logger, nested_flatten, nested_map, nested_pack
			
 
				+
			
 
				+logger = get_logger(__name__)
			
 
				+
			
 
				+
			
 
				+Parameters = Iterable[torch.Tensor]
			
 
				+ParamGroups = Iterable[Dict[str, Any]]
			
 
				+TorchOptimizer = torch.optim.Optimizer
			
 
				+LRSchedulerBase = getattr(torch.optim.lr_scheduler, "_LRScheduler", None)
			
 
				+OptimizerFactory = Callable[[Union[Parameters, ParamGroups]], TorchOptimizer]
			
 
				+SchedulerFactory = Callable[[TorchOptimizer], LRSchedulerBase]
			
 
				+
			
 
				+
			
 
				+class TrainingStateAverager(DecentralizedAverager):
			
 
				+    """
			
 
				+    An auxiliary class that holds peer's training state, including model parameters, optimizer statistics, scheduler
			
 
				+    and any other variables that define the local training state (e.g. batchnorm moving averages).
			
 
				+    TrainingStateAveraager is intended to keep these parameters weakly synchronized across the swarm.
			
 
				+
			
 
				+    The intended use is to call .step(optimizer_step=..., averaging_round=...) periodically, e.g. after every batch.
			
 
				+    If peer gets out of sync with the swarm, one should call state_averager.load_state_from_peers() to re-synchronize.
			
 
				+
			
 
				+    Example:
			
 
				+
			
 
				+    >>> avgr = TrainingStateAverager(optimizer=torch.optim.Adam, param_groups=model.parameters(), ...)
			
 
				+    >>> # alternative interface: TrainingStateAverager(optimizer=torch.optim.Adam(model.parameters()), ...)
			
 
				+    >>> avgr.load_state_from_peers()
			
 
				+    >>> for i, batch in enumerate(training_dataloader):
			
 
				+    >>>     loss = compute_loss(model, batch)
			
 
				+    >>>     loss.backward()
			
 
				+    >>>     avgr.step(optimizer_step=i % 10 == 0, averaging_round=is_it_time_for_averaging(), delay_averaging=True)
			
 
				+
			
 
				+    :note: when using delay_averaging or delay_optimizer_step, calling optimizer directly is not recommended because
			
 
				+      it may overlap with delayed updates from a background thread with unpredictable results. Instead, please call
			
 
				+      TrainingStateAverager.step(..., optimizer_step=True)
			
 
				+
			
 
				+    :param optimizer: PyTorch Optimizer or a callable that creates a optimizer from param groups
			
 
				+    :param param_groups: optional, a list/tuple of parameters or structured param groups for the optimizer
			
 
				+    :param scheduler: optional learning rate scheduler or callable that creates one from optimizer instance
			
 
				+    :note: if provided, scheduler will be updated based on averager.local_epoch, not the number of step cycles
			
 
				+    :param initialize_optimizer: if True, run a speculative optimizer step with zero gradients to initialize all
			
 
				+      state tensors. If False, user must make sure that all tensors are pre-initialized at init.
			
 
				+      By default, initialize optimizer unless it already has some state tensors to begin with.
			
 
				+    :param offload_optimizer: if True, create optimizer on top of averaged parameters which may save device memory.
			
 
				+    :param custom_gradients: if True, do *not* automatically load local gradients into the offloaded optimizer.
			
 
				+      This assumes that offloaded gradients will be populated externally, e.g. by the user or by hivemind.Optimizer.
			
 
				+    :param reuse_tensors: if True, reuse parameters and optimizer statistics as averaged_tensors for allreduce.
			
 
				+      For this to work, all parameters must be on CPU and have the appropriate dtype for use in DecentralizedAverager
			
 
				+    :param sync_epoch_when_averaging: if True, update local epoch to the latest epoch among averaging peers
			
 
				+    :param parameter_names: optionally provide parameter names in the same order as param_groups
			
 
				+    :param average_opt_statistics: names of optimizer statistics from state dict that should be averaged with peers
			
 
				+    :param extra_tensors: if specified, these extra tensors will also be averaged and shared in load_state_from_peers.
			
 
				+    :note: you can use extra_tensors to for any tensors not used by the optimizer (e.g. batchnorm statistics)
			
 
				+    :param kwargs: any additional parameters will be forwarded to DecentralizedAverager
			
 
				+    """
			
 
				+
			
 
				+    def __init__(
			
 
				+        self,
			
 
				+        *,
			
 
				+        dht: hivemind.DHT,
			
 
				+        optimizer: Union[TorchOptimizer, OptimizerFactory],
			
 
				+        param_groups: Optional[Union[Parameters, ParamGroups]] = None,
			
 
				+        scheduler: Optional[Union[LRSchedulerBase, SchedulerFactory]] = None,
			
 
				+        initialize_optimizer: Optional[bool] = None,
			
 
				+        offload_optimizer: bool = False,
			
 
				+        custom_gradients: bool = False,
			
 
				+        reuse_tensors: bool = False,
			
 
				+        sync_epoch_when_averaging: bool = False,
			
 
				+        parameter_names: Optional[Sequence[str]] = None,
			
 
				+        average_opt_statistics: Sequence[str] = (),
			
 
				+        extra_tensors: Sequence[torch.Tensor] = (),
			
 
				+        status_loglevel: int = logging.DEBUG,
			
 
				+        **kwargs,
			
 
				+    ):
			
 
				+        average_opt_statistics = tuple(average_opt_statistics)
			
 
				+        assert all(isinstance(key, str) for key in average_opt_statistics)
			
 
				+        if offload_optimizer and reuse_tensors:
			
 
				+            logger.warning("Setting offload_optimizer=True has no effect because reuse_parameters=True")
			
 
				+        if custom_gradients and not offload_optimizer:
			
 
				+            logger.warning("Setting custom_gradients=True has no effect because the optimizer is not offloaded")
			
 
				+
			
 
				+        param_groups, main_parameters, parameter_names = self._check_params(optimizer, param_groups, parameter_names)
			
 
				+
			
 
				+        self.status_loglevel = status_loglevel
			
 
				+        self.reuse_tensors = reuse_tensors
			
 
				+        self.offload_optimizer = offload_optimizer
			
 
				+        self.custom_gradients = custom_gradients
			
 
				+
			
 
				+        self._main_parameters, self._parameter_names = main_parameters, parameter_names
			
 
				+        self._averaged_parameters = tuple(map(self._make_host_tensor, main_parameters))
			
 
				+        self.optimizer, self.scheduler = self._init_components(
			
 
				+            param_groups, optimizer, scheduler, initialize_optimizer
			
 
				+        )
			
 
				+        self.opt_keys_for_averaging, self.extra_tensors = average_opt_statistics, extra_tensors
			
 
				+        self.sync_epoch_when_averaging = sync_epoch_when_averaging
			
 
				+        self.local_epoch = 0
			
 
				+
			
 
				+        self.step_executor = ThreadPoolExecutor(max_workers=1)
			
 
				+        self.finished_optimizer_step = Event()
			
 
				+        self.finished_averaging_round = Event()
			
 
				+        self.pending_update = Future()
			
 
				+        self.pending_update.set_result(None)
			
 
				+
			
 
				+        super().__init__(
			
 
				+            dht=dht, averaged_tensors=self._init_averaged_tensors(), tensor_infos=self._init_tensor_infos(), **kwargs
			
 
				+        )
			
 
				+
			
 
				+    @staticmethod
			
 
				+    def _check_params(
			
 
				+        optimizer: Union[TorchOptimizer, OptimizerFactory],
			
 
				+        param_groups: Optional[Union[Parameters, ParamGroups]],
			
 
				+        parameter_names: Optional[Sequence[str]],
			
 
				+    ) -> Tuple[ParamGroups, Sequence[torch.Tensor], Sequence[str]]:
			
 
				+        """Get and verify parameters, groups and names"""
			
 
				+        if param_groups is None:
			
 
				+            assert hasattr(optimizer, "param_groups"), "Must provide param_groups or an optimizer with .param_groups"
			
 
				+            param_groups = optimizer.param_groups
			
 
				+        param_groups = tuple(param_groups)
			
 
				+        if all(isinstance(p, torch.Tensor) for p in param_groups):
			
 
				+            param_groups = (dict(params=param_groups),)
			
 
				+        for group in param_groups:
			
 
				+            assert isinstance(group, dict) and group.get("params") is not None
			
 
				+            assert all(isinstance(p, torch.Tensor) for p in group["params"])
			
 
				+        parameters = tuple(chain(*(group["params"] for group in param_groups)))
			
 
				+        if parameter_names is None:
			
 
				+            parameter_names = tuple(i for i in range(len(parameters)))
			
 
				+        parameter_names = tuple(nested_flatten(parameter_names))
			
 
				+        assert len(parameters) == len(parameter_names), f"Expected {len(parameters)} names, got {len(parameter_names)}"
			
 
				+        assert len(set(parameters)) == len(parameters), "Found duplicate parameters in param_groups"
			
 
				+        return param_groups, parameters, parameter_names
			
 
				+
			
 
				+    def _make_host_tensor(self, source_tensor: torch.Tensor) -> torch.Tensor:
			
 
				+        """Create a new tensor for averaging or reuse the existing one"""
			
 
				+        if self.reuse_tensors:
			
 
				+            assert source_tensor.device == torch.device("cpu") and source_tensor.dtype == torch.float32
			
 
				+            if not source_tensor.is_shared():
			
 
				+                source_tensor.share_memory_()
			
 
				+            return source_tensor
			
 
				+        else:
			
 
				+            averaged_tensor = source_tensor.detach().to(device="cpu", dtype=torch.float32, copy=True)
			
 
				+            return averaged_tensor.share_memory_().requires_grad_(source_tensor.requires_grad)
			
 
				+
			
 
				+    def _init_components(
			
 
				+        self,
			
 
				+        param_groups: ParamGroups,
			
 
				+        optimizer_or_factory: Union[TorchOptimizer, OptimizerFactory],
			
 
				+        scheduler_or_factory: Optional[Union[LRSchedulerBase, SchedulerFactory]],
			
 
				+        initialize_optimizer: Optional[bool],
			
 
				+    ) -> Tuple[TorchOptimizer, Optional[LRSchedulerBase]]:
			
 
				+        """Get optimizer and scheduler by either instantiating user-provided factory or using pre-instantiated ones"""
			
 
				+        assert hasattr(self, "_averaged_parameters"), "Internal error: must initialize averaged parameters first"
			
 
				+        optimizer_is_factory = callable(optimizer_or_factory) and not isinstance(optimizer_or_factory, TorchOptimizer)
			
 
				+        scheduler_is_factory = callable(scheduler_or_factory) and not isinstance(scheduler_or_factory, LRSchedulerBase)
			
 
				+        if optimizer_is_factory and not scheduler_is_factory and scheduler_or_factory is not None:
			
 
				+            raise ValueError("If optimizer is created internally, scheduler must also be initialized internally")
			
 
				+        if self.offload_optimizer and not optimizer_is_factory:
			
 
				+            raise ValueError("Using offload_optimizer requires creating optimizer inside hivemind")
			
 
				+
			
 
				+        # create optimizer
			
 
				+        if optimizer_is_factory:
			
 
				+            if self.offload_optimizer:
			
 
				+                for param in self._averaged_parameters:
			
 
				+                    if param.grad is None:
			
 
				+                        param.grad = torch.zeros_like(param)
			
 
				+
			
 
				+                next_index = 0
			
 
				+                param_groups_for_optimizer = []
			
 
				+                for param_group in param_groups:
			
 
				+                    num_params = len(param_group["params"])
			
 
				+                    averaged_params_for_group = self._averaged_parameters[next_index : next_index + num_params]
			
 
				+                    param_groups_for_optimizer.append(dict(param_group, params=averaged_params_for_group))
			
 
				+                    next_index += num_params
			
 
				+                assert next_index == len(self._averaged_parameters)
			
 
				+
			
 
				+            else:
			
 
				+                param_groups_for_optimizer = param_groups
			
 
				+            optimizer = optimizer_or_factory(param_groups_for_optimizer)
			
 
				+        else:
			
 
				+            optimizer = optimizer_or_factory
			
 
				+
			
 
				+        # optionally initialize optimizer state dict
			
 
				+        if initialize_optimizer is None:
			
 
				+            initialize_optimizer = not any(isinstance(x, torch.Tensor) for x in nested_flatten(optimizer.state_dict()))
			
 
				+            logger.log(
			
 
				+                self.status_loglevel,
			
 
				+                "Initializing optimizer manually since it has no tensors in state dict"
			
 
				+                "To override this, please provide initialize_optimizer=False",
			
 
				+            )
			
 
				+
			
 
				+        if initialize_optimizer:
			
 
				+            initialize_optimizer_state_(optimizer)  # note: this will run one optimizer step!
			
 
				+
			
 
				+        # create LR scheduler
			
 
				+        if scheduler_is_factory:
			
 
				+            assert callable(scheduler_or_factory)
			
 
				+            scheduler = scheduler_or_factory(optimizer)
			
 
				+        else:
			
 
				+            scheduler = scheduler_or_factory
			
 
				+
			
 
				+        # verify optimizer and scheduler
			
 
				+        assert isinstance(optimizer, TorchOptimizer) and len(optimizer.param_groups) == len(list(param_groups))
			
 
				+        if self.offload_optimizer or self.reuse_tensors:
			
 
				+            for param_group in optimizer.param_groups:
			
 
				+                for param in param_group["params"]:
			
 
				+                    assert param.is_shared()
			
 
				+        assert isinstance(scheduler, (LRSchedulerBase, type(None)))
			
 
				+        if scheduler is not None:
			
 
				+            assert scheduler.optimizer == optimizer
			
 
				+        return optimizer, scheduler
			
 
				+
			
 
				+    def _local_tensors(self) -> Iterator[torch.Tensor]:
			
 
				+        """Iterate local trainer's tensors that should be averaged with peers"""
			
 
				+        for param_group in self.optimizer.param_groups:
			
 
				+            yield from param_group["params"]
			
 
				+        for stats in self.opt_keys_for_averaging:
			
 
				+            for param_group in self.optimizer.param_groups:
			
 
				+                for param in param_group["params"]:
			
 
				+                    yield self.optimizer.state[param][stats]
			
 
				+        yield from self.extra_tensors
			
 
				+
			
 
				+    @torch.no_grad()
			
 
				+    def _init_averaged_tensors(self) -> Sequence[torch.Tensor]:
			
 
				+        """Create or reuse a tuple of all averaged tensors, including parameters, optimizer statistics and extras"""
			
 
				+        assert hasattr(self, "optimizer"), "Optimizer should already be initialized by this point"
			
 
				+        assert hasattr(self, "_averaged_parameters"), "Should initialize _averaged_parameters first"
			
 
				+        assert not hasattr(self, "_averaged_tensors"), "Averager is already initialized"
			
 
				+        assert all(isinstance(key, str) for key in self.opt_keys_for_averaging)
			
 
				+
			
 
				+        local_tensors = tuple(self._local_tensors())
			
 
				+        local_non_parameters = local_tensors[len(self._averaged_parameters) :]
			
 
				+        averaged_tensors = tuple(map(torch.Tensor.detach, self._averaged_parameters))
			
 
				+        averaged_non_parameters = tuple(map(self._make_host_tensor, local_non_parameters))
			
 
				+        averaged_tensors = tuple(chain(averaged_tensors, averaged_non_parameters))
			
 
				+
			
 
				+        assert len(averaged_tensors) == len(local_tensors)
			
 
				+        for local_tensor, averaged_tensor in zip(local_tensors, averaged_tensors):
			
 
				+            assert local_tensor.shape == averaged_tensor.shape
			
 
				+            if averaged_tensor.grad is not None:
			
 
				+                logger.debug(self.status_loglevel, "setting gradients for averaged tensor to None")
			
 
				+
			
 
				+        return averaged_tensors
			
 
				+
			
 
				+    def _init_tensor_infos(self) -> Sequence[CompressionInfo]:
			
 
				+        """Get CompressionInfo for each state tensor, accounting for its role and specification"""
			
 
				+        tensor_infos = []
			
 
				+        for param, param_name in zip(self._main_parameters, self._parameter_names):
			
 
				+            tensor_infos.append(CompressionInfo.from_tensor(param, key=param_name, role=TensorRole.PARAMETER))
			
 
				+        for stats_name in self.opt_keys_for_averaging:
			
 
				+            opt_parameters = [param for group in self.optimizer.param_groups for param in group["params"]]
			
 
				+            assert len(opt_parameters) == len(self._parameter_names)
			
 
				+            for param, param_name in zip(opt_parameters, self._parameter_names):
			
 
				+                tensor_infos.append(
			
 
				+                    CompressionInfo.from_tensor(
			
 
				+                        self.optimizer.state[param][stats_name],
			
 
				+                        key=(param_name, stats_name),
			
 
				+                        role=TensorRole.OPTIMIZER,
			
 
				+                    )
			
 
				+                )
			
 
				+        for i, extra_tensor in enumerate(self.extra_tensors):
			
 
				+            tensor_infos.append(CompressionInfo.from_tensor(extra_tensor, key=i, role=TensorRole.UNSPECIFIED))
			
 
				+        return tuple(tensor_infos)
			
 
				+
			
 
				+    def step(
			
 
				+        self,
			
 
				+        wait_for_delayed_update: bool = None,
			
 
				+        apply_delayed_updates: bool = True,
			
 
				+        increment_epoch: bool = False,
			
 
				+        optimizer_step: bool = False,
			
 
				+        zero_grad: bool = False,
			
 
				+        delay_optimizer_step: bool = False,
			
 
				+        averaging_round: bool = False,
			
 
				+        delay_averaging: Optional[bool] = None,
			
 
				+        averaging_kwargs: Optional[Dict[str, Any]] = None,
			
 
				+    ):
			
 
				+        """
			
 
				+        Perform one or several possible actions, depending on the specified keyword args.
			
 
				+        The actions will be performed in the same order as specified below:
			
 
				+
			
 
				+        :param wait_for_delayed_update: if there are background averaging rounds, wait for them to finish
			
 
				+          by default, await delayed updates when scheduling the next optimizer step, otherwise do not update
			
 
				+        :param apply_delayed_updates: apply any averaging rounds that have finished but were not applied yet
			
 
				+        :param increment_epoch: increment .local_epoch and update the learning rate scheduler (if present)
			
 
				+        :param optimizer_step: perform a single optimizer step and update local parameters (without changing scheduler)
			
 
				+        :param zero_grad: if True, reset local gradients after performing optimizer step
			
 
				+        :param delay_optimizer_step: if True, run optimizer step in background and apply results in a future step
			
 
				+        :param averaging_round: average parameters, chosen optimizer keys and extra tensors with a group of peers
			
 
				+        :param delay_averaging: if True, perform averaging in background and apply results in a future step
			
 
				+          by default, delay averaging if the optimizer step is also delayed. Set to true to delay only this phase.
			
 
				+        :param averaging_kwargs: a dict of keyword arguments forwarded into averaging round
			
 
				+        """
			
 
				+        if delay_averaging is None:
			
 
				+            delay_averaging = delay_optimizer_step
			
 
				+        if wait_for_delayed_update is None:
			
 
				+            wait_for_delayed_update = optimizer_step or zero_grad or averaging_round
			
 
				+        assert not delay_optimizer_step or delay_averaging, "Delayed optimizer step requires delayed averaging"
			
 
				+        if optimizer_step or averaging_round or zero_grad:
			
 
				+            assert wait_for_delayed_update, "Must wait for background updates to finish before scheduling new ones"
			
 
				+        if delay_optimizer_step:
			
 
				+            assert self.offload_optimizer, "Delayed optimizer step is only available with offload_optimizer"
			
 
				+            assert not averaging_round or delay_averaging, "Averaging after delayed optimizer should also be delayed"
			
 
				+        if averaging_kwargs and not averaging_round:
			
 
				+            logger.warning(f"Averaging parameters not used because averaging_round=False: {averaging_kwargs}")
			
 
				+        output = None
			
 
				+
			
 
				+        if wait_for_delayed_update:
			
 
				+            if not self.pending_update.done():
			
 
				+                logger.log(self.status_loglevel, "Waiting for delayed updates to finish...")
			
 
				+                output = self.pending_update.result()
			
 
				+
			
 
				+        if self.pending_update.done() and self.pending_update.exception():
			
 
				+            logger.warning(f"Background update failed with {self.pending_update.exception()} and will be ignored")
			
 
				+
			
 
				+        if apply_delayed_updates:
			
 
				+            if self.finished_averaging_round.is_set():
			
 
				+                if not self.reuse_tensors:
			
 
				+                    self._apply_averaging_results_()
			
 
				+                logger.log(self.status_loglevel, "Received results from background averaging round")
			
 
				+                self.finished_averaging_round.clear()
			
 
				+
			
 
				+            if self.finished_optimizer_step.is_set():
			
 
				+                if self.offload_optimizer:
			
 
				+                    self._apply_optimizer_results_()
			
 
				+                logger.log(self.status_loglevel, "Received results from background optimizer step")
			
 
				+                self.finished_optimizer_step.clear()
			
 
				+
			
 
				+        if increment_epoch:
			
 
				+            self.local_epoch += 1
			
 
				+            logger.log(self.status_loglevel, f"Switching to epoch {self.local_epoch}")
			
 
				+            self._update_scheduler()
			
 
				+
			
 
				+        if optimizer_step or zero_grad or averaging_round:
			
 
				+            assert self.pending_update.done(), "Tried to perform a new update but previous update is still running"
			
 
				+
			
 
				+            if self.offload_optimizer and not self.custom_gradients:
			
 
				+                self._load_local_grads_into_optimizer_()
			
 
				+
			
 
				+            self.pending_update = self.step_executor.submit(
			
 
				+                self._do,
			
 
				+                optimizer_step,
			
 
				+                zero_grad,
			
 
				+                averaging_round,
			
 
				+                **averaging_kwargs or {},
			
 
				+            )
			
 
				+
			
 
				+            if (optimizer_step or zero_grad) and not delay_optimizer_step:
			
 
				+                self.finished_optimizer_step.wait()
			
 
				+                self.finished_optimizer_step.clear()
			
 
				+                if self.offload_optimizer:
			
 
				+                    self._apply_optimizer_results_()
			
 
				+                logger.log(self.status_loglevel, "Finished optimizer step")
			
 
				+
			
 
				+            if averaging_round and not delay_averaging:
			
 
				+                self.finished_averaging_round.wait()
			
 
				+                self.finished_averaging_round.clear()
			
 
				+                if not self.reuse_tensors:
			
 
				+                    self._apply_averaging_results_()
			
 
				+                logger.log(self.status_loglevel, "Finished averaging round")
			
 
				+
			
 
				+            if not delay_averaging:
			
 
				+                try:
			
 
				+                    output = self.pending_update.result()
			
 
				+                finally:
			
 
				+                    self.finished_averaging_round.clear()
			
 
				+                    self.finished_optimizer_step.clear()
			
 
				+        return output
			
 
				+
			
 
				+    def _do(self, optimizer_step: bool, zero_grad: bool, averaging_round: bool, **kwargs):
			
 
				+        """
			
 
				+        Run the optimizer step, followed by a scheduler step and an averaging round, each stage is optional.
			
 
				+        This method is meant to be called in the background executor.
			
 
				+        """
			
 
				+        try:
			
 
				+            if optimizer_step:
			
 
				+                logger.log(self.status_loglevel, f"Running optimizer step")
			
 
				+                self.optimizer.step()
			
 
				+            if zero_grad:
			
 
				+                logger.log(self.status_loglevel, f"Running zero grad")
			
 
				+                self.optimizer.zero_grad()
			
 
				+                if self.offload_optimizer:
			
 
				+                    for parameter in self._main_parameters:
			
 
				+                        if parameter.grad is not None:
			
 
				+                            parameter.grad.zero_()
			
 
				+
			
 
				+            self.finished_optimizer_step.set()
			
 
				+
			
 
				+            if averaging_round:
			
 
				+                if not self.reuse_tensors:
			
 
				+                    self._load_local_tensors_into_averager_()
			
 
				+                try:
			
 
				+                    gathered = super().step(gather=self.local_epoch, **kwargs)
			
 
				+                    logger.log(self.status_loglevel, f"Averaged parameters with {len(gathered)} peers")
			
 
				+                except BaseException as e:
			
 
				+                    logger.log(self.status_loglevel, f"Averaging failed with {type(e)}")
			
 
				+                    self.finished_averaging_round.set()
			
 
				+                    gathered = {}
			
 
				+
			
 
				+                self.finished_averaging_round.set()
			
 
				+
			
 
				+                if self.sync_epoch_when_averaging:
			
 
				+                    old_epoch = self.local_epoch
			
 
				+                    for peer_epoch in gathered.values():
			
 
				+                        self.local_epoch = max(self.local_epoch, peer_epoch)
			
 
				+                    if self.local_epoch != old_epoch:
			
 
				+                        logger.log(self.status_loglevel, f"Found peer with newer epoch ({self.local_epoch})")
			
 
				+                        self._update_scheduler()
			
 
				+
			
 
				+        except Exception as e:
			
 
				+            logger.exception(e)
			
 
				+            self.finished_optimizer_step.set()
			
 
				+            self.finished_averaging_round.set()
			
 
				+
			
 
				+    @torch.no_grad()
			
 
				+    def _load_local_grads_into_optimizer_(self):
			
 
				+        """Copy local gradients into the gradient buffers of the offloaded optimizer"""
			
 
				+        assert self.offload_optimizer, "Loading into offloaded optimizer requires using offloaded optimizer"
			
 
				+        opt_parameters = [param for group in self.optimizer.param_groups for param in group["params"]]
			
 
				+        for main_param, opt_param in zip(self._main_parameters, opt_parameters):
			
 
				+            if main_param.grad is not None:
			
 
				+                opt_param.grad.copy_(main_param.grad, non_blocking=True)
			
 
				+
			
 
				+    @torch.no_grad()
			
 
				+    def _apply_optimizer_results_(self):
			
 
				+        """Copy parameters from offloaded optimizer to the main model"""
			
 
				+        assert self.offload_optimizer, "Applying offloaded optimizer updates requires offloaded optimizer"
			
 
				+        with self.lock_averaged_tensors:
			
 
				+            offloaded_parameters = [param for group in self.optimizer.param_groups for param in group["params"]]
			
 
				+            assert len(offloaded_parameters) == len(self._main_parameters), "opt parameters changed during training"
			
 
				+            for main_param, offloaded_param in zip(self._main_parameters, offloaded_parameters):
			
 
				+                main_param.copy_(offloaded_param, non_blocking=True)
			
 
				+
			
 
				+    @torch.no_grad()
			
 
				+    def _load_local_tensors_into_averager_(self):
			
 
				+        """Copy local tensors into the averaging buffers"""
			
 
				+        assert not self.reuse_tensors, "No need to load tensors into averager: both tensors share the same memory"
			
 
				+        with self.get_tensors() as averaged_tensors:
			
 
				+            for local_tensor, averaged_tensor in zip(self._local_tensors(), averaged_tensors):
			
 
				+                averaged_tensor.copy_(local_tensor, non_blocking=True)
			
 
				+
			
 
				+    @torch.no_grad()
			
 
				+    def _apply_averaging_results_(self):
			
 
				+        """Copy averaged tensors into their respective local tensors"""
			
 
				+        assert not self.reuse_tensors, "No need to update averaged tensors since they reuse the same memory"
			
 
				+        with self.get_tensors() as averaged_tensors:
			
 
				+            local_tensors = list(self._local_tensors())
			
 
				+            assert len(local_tensors) == len(averaged_tensors), "Tensor structure changed during training"
			
 
				+            for local_tensor, averaged_tensor in zip(local_tensors, averaged_tensors):
			
 
				+                local_tensor.copy_(averaged_tensor, non_blocking=True)
			
 
				+
			
 
				+    def get_current_state(self):
			
 
				+        """
			
 
				+        Get current model/optimizer state and when requested by a newbie peer. executed in the host process.
			
 
				+        :returns: a tuple of (serializable_small_metadata, sequence of torch tensors)
			
 
				+        """
			
 
				+        with torch.no_grad():
			
 
				+            optimized_parameters = tuple(
			
 
				+                param.detach().cpu() for param_group in self.optimizer.param_groups for param in param_group["params"]
			
 
				+            )
			
 
				+            parameter_infos = [
			
 
				+                CompressionInfo.from_tensor(param, key=key, role=TensorRole.PARAMETER)
			
 
				+                for param, key in zip(optimized_parameters, self._parameter_names)
			
 
				+            ]
			
 
				+            extra_tensors = tuple(tensor.detach().cpu() for tensor in self.extra_tensors)
			
 
				+            extra_infos = [
			
 
				+                CompressionInfo.from_tensor(extra_tensor, key=i, role=TensorRole.UNSPECIFIED)
			
 
				+                for i, extra_tensor in enumerate(extra_tensors)
			
 
				+            ]
			
 
				+            optimizer_metadata, optimizer_tensors = dump_optimizer_state(self.optimizer)
			
 
				+            optimizer_infos = [
			
 
				+                CompressionInfo.from_tensor(opt_tensor, key=i, role=TensorRole.OPTIMIZER)
			
 
				+                for i, opt_tensor in enumerate(optimizer_tensors)
			
 
				+            ]
			
 
				+
			
 
				+        metadata = dict(
			
 
				+            epoch=self.local_epoch, group_bits=self.get_group_bits(), optimizer_metadata=optimizer_metadata
			
 
				+        )
			
 
				+        all_tensors = list(chain(optimized_parameters, extra_tensors, optimizer_tensors))
			
 
				+        all_tensor_infos = list(chain(parameter_infos, extra_infos, optimizer_infos))
			
 
				+        return metadata, all_tensors, all_tensor_infos
			
 
				+
			
 
				+    def load_state_from_peers(self, **kwargs):
			
 
				+        """
			
 
				+        Attempt to download the latest optimizer state from peers and update trainer parameters/statistics.
			
 
				+        :returns: whether or the averager succeeded in loading parameters
			
 
				+        """
			
 
				+        parameters_and_extras = tuple(chain(self._main_parameters, self.extra_tensors))
			
 
				+        num_parameters_and_extras = len(parameters_and_extras)
			
 
				+
			
 
				+        loaded_state = super().load_state_from_peers(**kwargs)
			
 
				+        if loaded_state is None:
			
 
				+            return
			
 
				+
			
 
				+        metadata, flat_tensors = loaded_state
			
 
				+        if (not isinstance(metadata.get("epoch"), int)) or metadata["epoch"] < self.local_epoch:
			
 
				+            logger.warning("Cowardly refusing to load state from peer: peer's epoch is behind our local epoch")
			
 
				+            return
			
 
				+
			
 
				+        loaded_parameters_and_extras = flat_tensors[:num_parameters_and_extras]
			
 
				+        loaded_opt_tensors = flat_tensors[num_parameters_and_extras:]
			
 
				+        if num_parameters_and_extras != len(loaded_parameters_and_extras):
			
 
				+            logger.error("Failed to load state from peer, received parameters, extras or metadata.")
			
 
				+            return
			
 
				+
			
 
				+        try:
			
 
				+            load_optimizer_state(self.optimizer, metadata["optimizer_metadata"], loaded_opt_tensors)
			
 
				+        except StopIteration:
			
 
				+            logger.warning("Failed to load state from peer, received inconsistent number of optimizer statistics")
			
 
				+            return
			
 
				+
			
 
				+        with torch.no_grad():
			
 
				+            for local_param, loaded_param in zip(parameters_and_extras, loaded_parameters_and_extras):
			
 
				+                local_param.copy_(loaded_param, non_blocking=True)
			
 
				+        self.local_epoch = metadata["epoch"]
			
 
				+        self._update_scheduler()
			
 
				+
			
 
				+    def _update_scheduler(self):
			
 
				+        """Increase the scheduler state until it becomes synchronized with local epoch"""
			
 
				+        if self.scheduler:
			
 
				+            while self.scheduler._step_count <= self.local_epoch:
			
 
				+                self.scheduler.step()
			
 
				+
			
 
				+
			
 
				+def initialize_optimizer_state_(opt: torch.optim.Optimizer):
			
 
				+    """Initialize optimizer statistics by running a virtual optimizer step with zero gradients"""
			
 
				+    flat_params = tuple(param for group in opt.param_groups for param in group["params"])
			
 
				+    old_grads = []
			
 
				+    for param in flat_params:
			
 
				+        old_grads.append(param.grad)
			
 
				+        param.grad = torch.zeros_like(param)
			
 
				+    opt.step()
			
 
				+    for param, old_grad in zip(flat_params, old_grads):
			
 
				+        param.grad = old_grad
			
 
				+
			
 
				+
			
 
				+def dump_optimizer_state(opt: torch.optim.Optimizer):
			
 
				+    """Convert optimizer state into a format of DecentralizedAverager's get_current_state/load_state_from_peers"""
			
 
				+    with torch.no_grad():
			
 
				+        flat_metadata, flat_tensors = [], []
			
 
				+        for elem in nested_flatten(opt.state_dict()):
			
 
				+            if isinstance(elem, torch.Tensor):
			
 
				+                flat_metadata.append(dict(type="tensor", index=len(flat_tensors)))
			
 
				+                flat_tensors.append(elem.cpu())
			
 
				+            else:
			
 
				+                flat_metadata.append(dict(type="value", value=elem))
			
 
				+        return flat_metadata, flat_tensors
			
 
				+
			
 
				+
			
 
				+def load_optimizer_state(optimizer: torch.optim.Optimizer, flat_metadata: Dict, flat_tensors: Sequence[torch.Tensor]):
			
 
				+    """Load a state obtained by dump_optimizer_state back into the optimizer"""
			
 
				+    flat_optimizer_state = []
			
 
				+    for elem in flat_metadata:
			
 
				+        if elem.get("type") == "tensor" and isinstance(elem.get("index"), int):
			
 
				+            flat_optimizer_state.append(flat_tensors[elem["index"]])
			
 
				+        elif elem.get("type") == "value" and "value" in elem:
			
 
				+            flat_optimizer_state.append(elem["value"])
			
 
				+    return optimizer.load_state_dict(nested_pack(flat_optimizer_state, structure=optimizer.state_dict()))
			
--- a/hivemind/optim/simple.py
+++ b/hivemind/optim/simple.py
@@ -4,9 +4,9 @@ from typing import Optional, Sequence, Tuple
 
				 
			
 
				 import torch
			
 
				 
			
 
				-from hivemind.averaging import TrainingAverager
			
 
				 from hivemind.dht import DHT
			
 
				 from hivemind.optim.base import DecentralizedOptimizerBase
			
 
				+from hivemind.optim.training_averager import TrainingAverager
			
 
				 from hivemind.utils import get_dht_time, get_logger
			
 
				 
			
 
				 logger = get_logger(__name__)
			
--- a/hivemind/optim/training_averager.py
+++ b/hivemind/optim/training_averager.py
--- a/hivemind/utils/asyncio.py
+++ b/hivemind/utils/asyncio.py
@@ -1,7 +1,8 @@
 
				 import asyncio
			
 
				 import concurrent.futures
			
 
				 from concurrent.futures import ThreadPoolExecutor
			
 
				-from typing import AsyncIterable, AsyncIterator, Awaitable, Callable, Optional, Tuple, TypeVar, Union
			
 
				+from contextlib import AbstractAsyncContextManager, AbstractContextManager, asynccontextmanager
			
 
				+from typing import AsyncIterable, AsyncIterator, Awaitable, Callable, ContextManager, Optional, Tuple, TypeVar, Union
			
 
				 
			
 
				 import uvloop
			
 
				 
			
@@ -147,3 +148,24 @@ async def attach_event_on_finished(iterable: AsyncIterable[T], event: asyncio.Ev
 
				             yield item
			
 
				     finally:
			
 
				         event.set()
			
 
				+
			
 
				+
			
 
				+class _AsyncContextWrapper(AbstractAsyncContextManager):
			
 
				+    """Wrapper for a non-async context manager that allows entering and exiting it in EventLoop-friendly manner"""
			
 
				+
			
 
				+    def __init__(self, context: AbstractContextManager):
			
 
				+        self._context = context
			
 
				+
			
 
				+    async def __aenter__(self):
			
 
				+        loop = asyncio.get_event_loop()
			
 
				+        return await loop.run_in_executor(None, self._context.__enter__)
			
 
				+
			
 
				+    async def __aexit__(self, exc_type, exc_value, traceback):
			
 
				+        return self._context.__exit__(exc_type, exc_value, traceback)
			
 
				+
			
 
				+
			
 
				+@asynccontextmanager
			
 
				+async def enter_asynchronously(context: AbstractContextManager):
			
 
				+    """Wrap a non-async context so that it can be entered asynchronously"""
			
 
				+    async with _AsyncContextWrapper(context) as ret_value:
			
 
				+        yield ret_value
			
--- a/hivemind/utils/performance_ema.py
+++ b/hivemind/utils/performance_ema.py
@@ -37,6 +37,10 @@ class PerformanceEMA:
 
				         self.samples_per_second = 1 / max(adjusted_seconds_per_sample, self.eps)
			
 
				         return self.samples_per_second
			
 
				 
			
 
				+    def reset_timer(self):
			
 
				+        """Reset the time since the last update so that the next task performance is counted from current time"""
			
 
				+        self.timestamp = time.perf_counter()
			
 
				+
			
 
				     @contextmanager
			
 
				     def pause(self):
			
 
				         """While inside this context, EMA will not count the time passed towards the performance estimate"""
			
@@ -44,8 +48,8 @@ class PerformanceEMA:
 
				         try:
			
 
				             yield
			
 
				         finally:
			
 
				-            self.timestamp = time.perf_counter()
			
 
				             self.paused = was_paused
			
 
				+            self.reset_timer()
			
 
				 
			
 
				     def __repr__(self):
			
 
				         return f"{self.__class__.__name__}(ema={self.samples_per_second:.5f}, num_updates={self.num_updates})"
			
--- a/tests/conftest.py
+++ b/tests/conftest.py
@@ -1,13 +1,13 @@
 
				 import asyncio
			
 
				 import gc
			
 
				-import multiprocessing as mp
			
 
				 from contextlib import suppress
			
 
				 
			
 
				 import psutil
			
 
				 import pytest
			
 
				 
			
 
				+from hivemind.utils.crypto import RSAPrivateKey
			
 
				 from hivemind.utils.logging import get_logger, use_hivemind_log_handler
			
 
				-from hivemind.utils.mpfuture import MPFuture, SharedBytes
			
 
				+from hivemind.utils.mpfuture import MPFuture
			
 
				 
			
 
				 use_hivemind_log_handler("in_root_logger")
			
 
				 logger = get_logger(__name__)
			
@@ -33,6 +33,9 @@ def event_loop():
 
				 def cleanup_children():
			
 
				     yield
			
 
				 
			
 
				+    with RSAPrivateKey._process_wide_key_lock:
			
 
				+        RSAPrivateKey._process_wide_key = None
			
 
				+
			
 
				     gc.collect()  # Call .__del__() for removed objects
			
 
				 
			
 
				     children = psutil.Process().children(recursive=True)
			
--- a/tests/test_averaging.py
+++ b/tests/test_averaging.py
@@ -481,7 +481,7 @@ def test_training_averager(n_steps: int = 10, n_dims: int = 16):
 
				 
			
 
				     x1 = torch.randn(n_dims, requires_grad=True)
			
 
				     opt1 = torch.optim.Adam([x1], lr=0.05)
			
 
				-    averager1 = hivemind.averaging.TrainingAverager(
			
 
				+    averager1 = hivemind.TrainingAverager(
			
 
				         opt1,
			
 
				         average_gradients=True,
			
 
				         average_parameters=True,
			
@@ -492,7 +492,7 @@ def test_training_averager(n_steps: int = 10, n_dims: int = 16):
 
				 
			
 
				     x2 = torch.randn(n_dims, requires_grad=True)
			
 
				     opt2 = torch.optim.Adam([x2], lr=0.05)
			
 
				-    averager2 = hivemind.averaging.TrainingAverager(
			
 
				+    averager2 = hivemind.TrainingAverager(
			
 
				         opt2,
			
 
				         average_gradients=True,
			
 
				         average_parameters=True,
			
--- a/tests/test_optimizer.py
+++ b/tests/test_optimizer.py
@@ -0,0 +1,172 @@
 
				+import time
			
 
				+from functools import partial
			
 
				+
			
 
				+import numpy as np
			
 
				+import pytest
			
 
				+import torch
			
 
				+import torch.nn as nn
			
 
				+import torch.nn.functional as F
			
 
				+
			
 
				+import hivemind
			
 
				+from hivemind.averaging.control import AveragingStage
			
 
				+from hivemind.optim.experimental.grad_averager import GradientAverager
			
 
				+from hivemind.optim.experimental.state_averager import TrainingStateAverager
			
 
				+
			
 
				+
			
 
				+@pytest.mark.forked
			
 
				+def test_grad_averager():
			
 
				+    dht1 = hivemind.DHT(start=True)
			
 
				+    model1 = nn.ParameterDict({"w": nn.Parameter(torch.zeros(3))})
			
 
				+    averager1 = GradientAverager(
			
 
				+        model1.parameters(), dht=dht1, prefix="test", target_group_size=2, reuse_grad_buffers=False, start=True
			
 
				+    )
			
 
				+
			
 
				+    dht2 = hivemind.DHT(start=True, initial_peers=dht1.get_visible_maddrs())
			
 
				+    model2 = nn.ParameterDict({"w": nn.Parameter(torch.zeros(3))})
			
 
				+    averager2 = GradientAverager(
			
 
				+        model2.parameters(), dht=dht2, prefix="test", target_group_size=2, reuse_grad_buffers=True, start=True
			
 
				+    )
			
 
				+
			
 
				+    control1 = averager1.schedule_step(hivemind.get_dht_time() + 5)
			
 
				+    control2 = averager2.schedule_step(hivemind.get_dht_time() + 5)
			
 
				+
			
 
				+    for i in range(10):
			
 
				+        time.sleep(0.1)
			
 
				+        if i % 3 == 0:
			
 
				+            loss1 = F.mse_loss(model1.w, torch.ones(3))
			
 
				+            loss1.backward()
			
 
				+            averager1.accumulate_grads_(batch_size=2)  # total: 4 times * 2 samples = 8
			
 
				+            model1.zero_grad()
			
 
				+        else:
			
 
				+            loss2 = F.mse_loss(model2.w, -torch.ones(3))
			
 
				+            loss2.backward()
			
 
				+            averager2.accumulate_grads_(batch_size=3)  # total: 6 times * 3 samples = 18
			
 
				+            # note: we do not call zero grad here because reuse_grad_buffers=True
			
 
				+
			
 
				+    assert control1.stage == control2.stage == AveragingStage.AWAITING_TRIGGER
			
 
				+    peer1_samples, peer1_times, peer2_samples, peer2_times = 8, 4, 18, 6
			
 
				+    assert averager1.local_samples_accumulated == peer1_samples and averager1.local_times_accumulated == peer1_times
			
 
				+    ref_grads1 = torch.full((3,), -2 * 1 / 3 * averager1.local_times_accumulated)
			
 
				+    assert torch.allclose(next(averager1._grad_accumulators()), ref_grads1)
			
 
				+
			
 
				+    assert averager2.local_samples_accumulated == peer2_samples and averager2.local_times_accumulated == peer2_times
			
 
				+    ref_grads2 = torch.full((3,), 2 * 1 / 3 * averager2.local_times_accumulated)
			
 
				+    assert torch.allclose(next(averager2._grad_accumulators()), ref_grads2)
			
 
				+
			
 
				+    averager1.step(control=control1, wait=False)
			
 
				+    averager2.step(control=control2, wait=False)
			
 
				+    for step in (control1, control2):
			
 
				+        step.result()  # wait for all-reduce to finish
			
 
				+
			
 
				+    peer1_weight = peer1_samples / (peer1_samples + peer2_samples)
			
 
				+    peer2_weight = peer2_samples / (peer1_samples + peer2_samples)
			
 
				+    ref_average = peer1_weight * (ref_grads1 / peer1_times) + peer2_weight * (ref_grads2 / peer2_times)
			
 
				+    with averager1.use_averaged_gradients():
			
 
				+        assert torch.allclose(model1.w.grad, ref_average)
			
 
				+    with averager2.use_averaged_gradients():
			
 
				+        assert torch.allclose(model2.w.grad, ref_average)
			
 
				+
			
 
				+    # after no longer use_averaged_gradients
			
 
				+    assert not torch.allclose(model1.w.grad, ref_average)
			
 
				+    assert not torch.allclose(model2.w.grad, ref_average)
			
 
				+
			
 
				+
			
 
				+@pytest.mark.forked
			
 
				+@pytest.mark.parametrize(
			
 
				+    "offload_optimizer, reuse_tensors, sync_epoch_when_averaging",
			
 
				+    [(False, False, False), (True, False, False), (False, True, True), (True, False, True)],
			
 
				+)
			
 
				+def test_state_averager(offload_optimizer: bool, reuse_tensors: bool, sync_epoch_when_averaging: bool):
			
 
				+    dht1 = hivemind.DHT(start=True)
			
 
				+    dht2 = hivemind.DHT(initial_peers=dht1.get_visible_maddrs(), start=True)
			
 
				+
			
 
				+    torch.manual_seed(1337)
			
 
				+    torch.use_deterministic_algorithms(True)
			
 
				+    # note: use_deterministic_algorithms does not affect further tests because this test is forked
			
 
				+
			
 
				+    model1 = nn.Linear(2, 3)
			
 
				+    model2 = nn.Linear(2, 3)
			
 
				+
			
 
				+    extras1 = (torch.randn(2, 2), -torch.rand(1))
			
 
				+    extras2 = (-torch.randn(2, 2), torch.rand(1))
			
 
				+
			
 
				+    common_kwargs = dict(
			
 
				+        optimizer=partial(torch.optim.Adam, lr=0.1, betas=(0.9, 0.9)),
			
 
				+        scheduler=partial(torch.optim.lr_scheduler.LambdaLR, lr_lambda=lambda t: 1.0 / max(1, t)),
			
 
				+        sync_epoch_when_averaging=sync_epoch_when_averaging,
			
 
				+        average_opt_statistics=("exp_avg_sq",),
			
 
				+        offload_optimizer=offload_optimizer,
			
 
				+        reuse_tensors=reuse_tensors,
			
 
				+        target_group_size=2,
			
 
				+        prefix="my_exp",
			
 
				+    )
			
 
				+
			
 
				+    avgr1 = TrainingStateAverager(
			
 
				+        dht=dht1, param_groups=model1.parameters(), extra_tensors=extras1, start=True, **common_kwargs
			
 
				+    )
			
 
				+    avgr2 = TrainingStateAverager(
			
 
				+        dht=dht2, param_groups=model2.parameters(), extra_tensors=extras2, start=True, **common_kwargs
			
 
				+    )
			
 
				+
			
 
				+    x = torch.ones(2)
			
 
				+
			
 
				+    for step in range(20):
			
 
				+        F.mse_loss(model1(x), torch.ones(3)).mul(2).backward()
			
 
				+        avgr1.step(optimizer_step=True, zero_grad=True, averaging_round=(step == 10), delay_averaging=True)
			
 
				+
			
 
				+        F.mse_loss(model2(x), -torch.ones(3)).backward()
			
 
				+        avgr2.step(optimizer_step=True, zero_grad=True, averaging_round=(step == 10), delay_averaging=False)
			
 
				+
			
 
				+    assert torch.all(model1.weight.grad == 0) and torch.all(model2.weight.grad == 0), "zero grad did not trigger"
			
 
				+    assert model1(x).mean() > 0.5 and model2(x).mean() < -0.5, "models did not train properly"
			
 
				+    assert torch.allclose(extras1[0], extras2[0]), "first extra tensors were not averaged"
			
 
				+    assert torch.allclose(extras1[1], extras2[1]), "second extra tensors were not averaged"
			
 
				+
			
 
				+    stats1 = avgr1.optimizer.state_dict()["state"][0]["exp_avg_sq"].clone()
			
 
				+    stats2 = avgr2.optimizer.state_dict()["state"][0]["exp_avg_sq"].clone()
			
 
				+    assert not torch.allclose(stats1, stats2)
			
 
				+
			
 
				+    avgr1.step(increment_epoch=True)
			
 
				+
			
 
				+    avgr1.step(increment_epoch=True, averaging_round=True, delay_averaging=True)
			
 
				+    avgr2.step(increment_epoch=True, averaging_round=True, delay_averaging=True)
			
 
				+
			
 
				+    avgr1.step(wait_for_delayed_update=True)
			
 
				+    avgr2.step(wait_for_delayed_update=True)
			
 
				+
			
 
				+    assert torch.allclose(model1(x), model2(x)), "model parameters were not averaged correctly"
			
 
				+    assert torch.allclose(avgr1.optimizer.state_dict()["state"][0]["exp_avg_sq"], (stats1 + stats2) / 2)
			
 
				+    assert torch.allclose(avgr2.optimizer.state_dict()["state"][0]["exp_avg_sq"], (stats1 + stats2) / 2)
			
 
				+    assert avgr1.local_epoch == 2
			
 
				+    assert avgr2.local_epoch == (2 if sync_epoch_when_averaging else 1)
			
 
				+
			
 
				+
			
 
				+@pytest.mark.forked
			
 
				+def test_load_state_from_peers():
			
 
				+    dht1 = hivemind.DHT(start=True)
			
 
				+    dht2 = hivemind.DHT(initial_peers=dht1.get_visible_maddrs(), start=True)
			
 
				+
			
 
				+    model1 = nn.Linear(2, 3)
			
 
				+    model2 = nn.Linear(2, 3)
			
 
				+
			
 
				+    common_kwargs = dict(
			
 
				+        optimizer=partial(torch.optim.SGD, lr=0.1),
			
 
				+        scheduler=partial(torch.optim.lr_scheduler.LambdaLR, lr_lambda=lambda t: 1.0 / max(1, t)),
			
 
				+        target_group_size=2,
			
 
				+        prefix="my_exp",
			
 
				+    )
			
 
				+
			
 
				+    avgr1 = TrainingStateAverager(
			
 
				+        dht=dht1, param_groups=model1.parameters(), allow_state_sharing=False, start=True, **common_kwargs
			
 
				+    )
			
 
				+
			
 
				+    avgr2 = TrainingStateAverager(dht=dht2, param_groups=model2.parameters(), start=True, **common_kwargs)
			
 
				+
			
 
				+    avgr2.local_epoch = 1337
			
 
				+    model2.weight.data[...] = 42
			
 
				+    time.sleep(0.1)
			
 
				+
			
 
				+    avgr1.load_state_from_peers()
			
 
				+    assert avgr1.local_epoch == 1337
			
 
				+    assert torch.all(model1.weight == 42).item()
			
 
				+    assert np.allclose(avgr1.optimizer.param_groups[0]["lr"], 0.1 / 1337)
			
--- a/tests/test_util_modules.py
+++ b/tests/test_util_modules.py
@@ -11,7 +11,6 @@ import torch
 
				 
			
 
				 import hivemind
			
 
				 from hivemind.compression import deserialize_torch_tensor, serialize_torch_tensor
			
 
				-from hivemind.optim.performance_ema import PerformanceEMA
			
 
				 from hivemind.proto.dht_pb2_grpc import DHTStub
			
 
				 from hivemind.proto.runtime_pb2 import CompressionType
			
 
				 from hivemind.proto.runtime_pb2_grpc import ConnectionHandlerStub
			
@@ -28,8 +27,10 @@ from hivemind.utils.asyncio import (
 
				     attach_event_on_finished,
			
 
				     azip,
			
 
				     cancel_and_wait,
			
 
				+    enter_asynchronously,
			
 
				 )
			
 
				 from hivemind.utils.mpfuture import InvalidStateError
			
 
				+from hivemind.utils.performance_ema import PerformanceEMA
			
 
				 
			
 
				 
			
 
				 @pytest.mark.forked
			
@@ -538,6 +539,23 @@ async def test_cancel_and_wait():
 
				     assert not await cancel_and_wait(task_with_error)
			
 
				 
			
 
				 
			
 
				+@pytest.mark.asyncio
			
 
				+async def test_async_context():
			
 
				+    lock = mp.Lock()
			
 
				+
			
 
				+    async def coro1():
			
 
				+        async with enter_asynchronously(lock):
			
 
				+            await asyncio.sleep(0.2)
			
 
				+
			
 
				+    async def coro2():
			
 
				+        await asyncio.sleep(0.1)
			
 
				+        async with enter_asynchronously(lock):
			
 
				+            await asyncio.sleep(0.1)
			
 
				+
			
 
				+    await asyncio.wait_for(asyncio.gather(coro1(), coro2()), timeout=0.5)
			
 
				+    # running this without enter_asynchronously would deadlock the event loop
			
 
				+
			
 
				+
			
 
				 def test_batch_tensor_descriptor_msgpack():
			
 
				     tensor_descr = BatchTensorDescriptor.from_tensor(torch.ones(1, 3, 3, 7))
			
 
				     tensor_descr_roundtrip = MSGPackSerializer.loads(MSGPackSerializer.dumps(tensor_descr))