5 years ago · eb93789ac6
--- a/hivemind/__init__.py
+++ b/hivemind/__init__.py
@@ -3,4 +3,4 @@ from hivemind.dht import *
 
															 from hivemind.server import *
														
 
															 from hivemind.utils import *
														
 
															-__version__ = '0.8.19'
														
 
															+__version__ = '0.8.20'
														
--- a/hivemind/client/__init__.py
+++ b/hivemind/client/__init__.py
@@ -1,3 +1,3 @@
 
															 from hivemind.client.expert import RemoteExpert
														
 
															 from hivemind.client.moe import RemoteMixtureOfExperts
														
 
															-from hivemind.client.averager import DecentralizedAverager
														
 
															+from hivemind.client.averaging import DecentralizedAverager
														
--- a/hivemind/client/allreduce.py
+++ b/hivemind/client/allreduce.py
@@ -1,356 +0,0 @@
 
															-""" This file contains a state machine that defines allreduce protocol used in DecentralizedAverager """
														
 
															-from __future__ import annotations
														
 
															-import asyncio
														
 
															-import random
														
 
															-from dataclasses import asdict
														
 
															-from typing import Set, Optional, Sequence, Tuple, Dict, AsyncIterator
														
 
															-from enum import Enum, auto
														
 
															-
														
 
															-import grpc
														
 
															-import torch
														
 
															-
														
 
															-from hivemind.dht import DHTID, DHTExpiration
														
 
															-from hivemind.utils import Endpoint, get_logger, MSGPackSerializer
														
 
															-from hivemind.utils import TensorDescriptor, deserialize_torch_tensor, serialize_torch_tensor, ChannelCache
														
 
															-from hivemind.proto import averaging_pb2, averaging_pb2_grpc, runtime_pb2
														
 
															-
														
 
															-logger = get_logger(__name__)
														
 
															-
														
 
															-# flavour types
														
 
															-GroupID = bytes
														
 
															-
														
 
															-
														
 
															-class ProtocolState(Enum):
														
 
															-    LOOKING_FOR_GROUP = auto()   # i want to run averaging, but haven't found any peers yet
														
 
															-    LEADER_WAITING_FOR_PEERS = auto()     # i am a leader, waiting for more peers to join
														
 
															-    FOLLOWER_WAITING_FOR_LEADER = auto()  # i am a follower, my leader is assembling the group
														
 
															-    RUNNING_ALLREDUCE = auto()   # we are currently exchanging tensors in a group
														
 
															-    FINISHED_NORMALLY = auto()   # we ran allreduce and finished without errors
														
 
															-    GROUP_DISBANDED = auto()     # leader disbanded the group before we began allreduce
														
 
															-    ERROR = auto()               # someone (maybe i) messed up and we can't recover
														
 
															-    CANCELLED = auto()           # i have unilaterally cancelled GroupAllreduce
														
 
															-
														
 
															-
														
 
															-class GroupAllReduce:
														
 
															-    """
														
 
															-    An internal class that keeps track of one group allreduce for DecentralizedAverager.
														
 
															-    GroupAllReduce is meant to be modified with methods, no direct variable assignments is allowed outside of debugging.
														
 
															-
														
 
															-    :param endpoint: my endpoint, as seen by the group leader
														
 
															-    :param expiration: the time after which the group should begin allreduce or be disbanded
														
 
															-    :param tensors: a sequence of torch tensors that i intend to average with peers
														
 
															-    """
														
 
															-    compression_type = runtime_pb2.NONE
														
 
															-
														
 
															-    def __init__(self, endpoint: Endpoint, expiration: DHTExpiration, tensors: Sequence[torch.Tensor]):
														
 
															-        assert all(tensor.dtype == torch.float32 and tensor.device == torch.device('cpu') for tensor in tensors)
														
 
															-        self.local_tensors = tensors
														
 
															-        self.state = ProtocolState.LOOKING_FOR_GROUP
														
 
															-        self.info = averaging_pb2.PeerInfo(endpoint=endpoint, expiration=expiration,
														
 
															-                                           schema_hash=compute_schema_hash(tensors))
														
 
															-
														
 
															-        self.leader_endpoint: Optional[Endpoint] = None
														
 
															-        self.group_id: Optional[GroupID] = None  # a unique identifier of this one group all-reduce
														
 
															-        self.max_size = float('inf')  # maximum group size, only enforced for group leader
														
 
															-
														
 
															-        # populated when assembling a group
														
 
															-        self.group_endpoints_set: Set[Endpoint] = set()
														
 
															-        self.assembled_group: asyncio.Future[Sequence[Endpoint]] = asyncio.Future()  # final ordered endpoints
														
 
															-        self.concurrent_requests_lock = asyncio.Lock()  # lock inbound/outbound requests to join group
														
 
															-
														
 
															-        # populated when running allreduce
														
 
															-        self.accumulator: Optional[torch.Tensor] = None   # the sum of averaged tensors so far, init with zeros
														
 
															-        self.accumulated_from: Set[Endpoint] = set()      # peers that we have accumulated our part from
														
 
															-        self.averaged_part: asyncio.Future[torch.Tensor] = asyncio.Future()
														
 
															-
														
 
															-        self.average_tensor_parts: Dict[Endpoint, torch.Tensor] = {}  # averaged chunks from all peers
														
 
															-        self.averaged_tensors: asyncio.Future[Sequence[torch.Tensor]] = asyncio.Future()
														
 
															-
														
 
															-    def __repr__(self):
														
 
															-        return f"{self.__class__.__name__}({self.info.endpoint}, {self.state})"
														
 
															-
														
 
															-    def __await__(self):
														
 
															-        return self.averaged_tensors.__await__()
														
 
															-
														
 
															-    def start_new_group(self, max_size: Optional[int] = None):
														
 
															-        """ Create new group with a random id, become its leader and the only participant """
														
 
															-        assert self.state == ProtocolState.LOOKING_FOR_GROUP
														
 
															-        self.group_id = DHTID.generate().to_bytes()
														
 
															-        # note: we generate group_id as DHTID for convenience. Do not assume that it has DHTID-like properties
														
 
															-        logger.debug(f"{self} - starting a new group as a leader. Group id: {self.group_id}")
														
 
															-        self.state = ProtocolState.LEADER_WAITING_FOR_PEERS
														
 
															-        self.leader_endpoint = self.info.endpoint
														
 
															-        self.group_endpoints_set = {self.info.endpoint}
														
 
															-        if max_size is not None:
														
 
															-            self.max_size = max_size
														
 
															-
														
 
															-    @property
														
 
															-    def group_size(self):
														
 
															-        assert self.state in (ProtocolState.LEADER_WAITING_FOR_PEERS, ProtocolState.RUNNING_ALLREDUCE)
														
 
															-        return len(self.group_endpoints_set)
														
 
															-
														
 
															-    def join_group(self, leader_endpoint: Endpoint, group_id: GroupID):
														
 
															-        """ After you were accepted by a leader, create your local instance using the metadata he sent """
														
 
															-        self.group_id, self.leader_endpoint = group_id, leader_endpoint
														
 
															-        logger.debug(f"{self} - joining the group of {leader_endpoint}. Group id: {self.group_id}")
														
 
															-        self.state = ProtocolState.FOLLOWER_WAITING_FOR_LEADER
														
 
															-
														
 
															-    def add_peer_to_group(self, follower: Endpoint):
														
 
															-        """ Add peer to a group, assuming that he can be added (self.get_reasons_to_reject(peer) is None) """
														
 
															-        assert self.state == ProtocolState.LEADER_WAITING_FOR_PEERS
														
 
															-        assert follower not in self.group_endpoints_set
														
 
															-        self.group_endpoints_set.add(follower)
														
 
															-        logger.debug(f"{self} - adding {follower} to my group. New size = {self.group_size}")
														
 
															-        if self.group_size > self.max_size:
														
 
															-            logger.warning(f"{self} - group size ({self.group_size}) exceeded max size ({self.max_size})")
														
 
															-
														
 
															-    def remove_peer_from_group(self, follower: Endpoint):
														
 
															-        """ Remove a disconnected peer from current group """
														
 
															-        assert self.state == ProtocolState.LEADER_WAITING_FOR_PEERS
														
 
															-        assert follower in self.group_endpoints_set and follower != self.leader_endpoint
														
 
															-        self.group_endpoints_set.remove(follower)
														
 
															-        logger.info(f"{self} - removed {follower} from the group. New size = {self.group_size}")
														
 
															-
														
 
															-    def disband_group(self):
														
 
															-        assert self.state == ProtocolState.LEADER_WAITING_FOR_PEERS and self.group_size == 1
														
 
															-        logger.info(f"{self} - disbanded group (reason = empty)")
														
 
															-        self.state = ProtocolState.LOOKING_FOR_GROUP
														
 
															-
														
 
															-    def leader_begin_allreduce(self) -> averaging_pb2.MessageFromLeader:
														
 
															-        """ As a leader, distribute allreduce metadata to peers and start allreduce """
														
 
															-        assert self.state == ProtocolState.LEADER_WAITING_FOR_PEERS and self.group_size > 1
														
 
															-        logger.debug(f"{self} - initiating allreduce for {self.group_endpoints_set} peers.")
														
 
															-        ordered_group_endpoints = list(self.group_endpoints_set)
														
 
															-        random.shuffle(ordered_group_endpoints)
														
 
															-        self.assembled_group.set_result(ordered_group_endpoints)
														
 
															-        self.state = ProtocolState.RUNNING_ALLREDUCE
														
 
															-
														
 
															-    def follower_begin_allreduce(self, ordered_group_endpoints: Sequence[Endpoint]):
														
 
															-        """ As a follower, receive the final list of peers from the leader and begin sending data around """
														
 
															-        assert self.state == ProtocolState.FOLLOWER_WAITING_FOR_LEADER and self.info.endpoint in ordered_group_endpoints
														
 
															-        logger.debug(f"{self} - received peer order from the leader, beginning allreduce.")
														
 
															-        self.group_endpoints_set = set(ordered_group_endpoints)
														
 
															-        self.assembled_group.set_result(ordered_group_endpoints)
														
 
															-        self.state = ProtocolState.RUNNING_ALLREDUCE
														
 
															-
														
 
															-    async def accumulate(self, source: Endpoint, part: torch.Tensor) -> torch.Tensor:
														
 
															-        """ Add vector part to accumulator, wait for all other vectors to be added, return the average """
														
 
															-        assert source not in self.accumulated_from, "duplicate endpoint, already received that part"
														
 
															-        assert self.accumulator is None or self.accumulator.shape == part.shape
														
 
															-        logger.debug(f"{self} - accumulated part from {source}")
														
 
															-
														
 
															-        self.accumulator = part if self.accumulator is None else self.accumulator.add_(part)
														
 
															-        self.accumulated_from.add(source)
														
 
															-
														
 
															-        ordered_group_endpoints = await self.assembled_group
														
 
															-        assert len(self.accumulated_from) <= len(ordered_group_endpoints)
														
 
															-        if len(self.accumulated_from) == len(ordered_group_endpoints):
														
 
															-            self.averaged_part.set_result(self.accumulator.div_(len(self.accumulated_from)))
														
 
															-
														
 
															-        return await self.averaged_part
														
 
															-
														
 
															-    def _get_peer_stub(self, peer: Endpoint) -> averaging_pb2_grpc.DecentralizedAveragingStub:
														
 
															-        return ChannelCache.get_stub(peer, averaging_pb2_grpc.DecentralizedAveragingStub, aio=True)
														
 
															-
														
 
															-    async def handle_join_request(self, request: averaging_pb2.PeerInfo
														
 
															-                                  ) -> AsyncIterator[averaging_pb2.MessageFromLeader]:
														
 
															-        """ accept or reject a join request; if accepted, run him through allreduce steps """
														
 
															-        should_remove_peer = False
														
 
															-        try:
														
 
															-            # stage 1: check if there is a reason to reject a peer outright
														
 
															-            if not is_valid_join_request(request):
														
 
															-                yield averaging_pb2.MessageFromLeader(code=averaging_pb2.PROTOCOL_VIOLATION)
														
 
															-                return
														
 
															-            if self.info.expiration > (request.expiration or float('inf')):
														
 
															-                yield averaging_pb2.MessageFromLeader(code=averaging_pb2.BAD_EXPIRATION_TIME)
														
 
															-            elif request.schema_hash != self.info.schema_hash:
														
 
															-                yield averaging_pb2.MessageFromLeader(code=averaging_pb2.BAD_SCHEMA_HASH)
														
 
															-                return
														
 
															-            elif request.endpoint == self.info.endpoint or request.endpoint in (self.group_endpoints_set or ()):
														
 
															-                yield averaging_pb2.MessageFromLeader(code=averaging_pb2.DUPLICATE_ENDPOINT)
														
 
															-                return
														
 
															-            elif self.state == ProtocolState.FOLLOWER_WAITING_FOR_LEADER:
														
 
															-                yield averaging_pb2.MessageFromLeader(code=averaging_pb2.NOT_A_LEADER,
														
 
															-                                                      suggested_leader=self.leader_endpoint)
														
 
															-                return
														
 
															-            elif self.state == ProtocolState.RUNNING_ALLREDUCE or len(self.accumulated_from) > 0:
														
 
															-                yield averaging_pb2.MessageFromLeader(code=averaging_pb2.ALREADY_RUNNING)
														
 
															-                return
														
 
															-            if self.state == ProtocolState.LEADER_WAITING_FOR_PEERS and self.group_size >= self.max_size:
														
 
															-                yield averaging_pb2.MessageFromLeader(code=averaging_pb2.GROUP_IS_FULL)
														
 
															-                return
														
 
															-
														
 
															-            # stage 2: add peer to group, optionally start a new one
														
 
															-            async with self.concurrent_requests_lock:
														
 
															-                if self.state == ProtocolState.LOOKING_FOR_GROUP:
														
 
															-                    self.start_new_group()
														
 
															-
														
 
															-                assert self.state == ProtocolState.LEADER_WAITING_FOR_PEERS
														
 
															-
														
 
															-                self.add_peer_to_group(request.endpoint)
														
 
															-                should_remove_peer = True
														
 
															-                yield averaging_pb2.MessageFromLeader(code=averaging_pb2.ACCEPTED, group_id=self.group_id)
														
 
															-
														
 
															-            if self.group_size >= self.max_size:
														
 
															-                self.leader_begin_allreduce()
														
 
															-
														
 
															-            # stage 3: wait for the group to be assembled and return
														
 
															-            ordered_group_endpoints = await self.assembled_group
														
 
															-            if ordered_group_endpoints is not None:
														
 
															-                yield averaging_pb2.MessageFromLeader(code=averaging_pb2.BEGIN_ALLREDUCE,
														
 
															-                                                      ordered_group_endpoints=ordered_group_endpoints)
														
 
															-            else:
														
 
															-                yield averaging_pb2.MessageFromLeader(code=averaging_pb2.GROUP_DISBANDED)
														
 
															-
														
 
															-        except Exception as e:
														
 
															-            logger.exception(e)
														
 
															-            yield averaging_pb2.MessageFromLeader(code=averaging_pb2.INTERNAL_ERROR)
														
 
															-
														
 
															-        finally:  # this code is guaranteed to run if the iterator is destroyed prematurely
														
 
															-            if should_remove_peer:
														
 
															-                self.remove_peer_from_group(request.endpoint)
														
 
															-                if self.group_size <= 1:
														
 
															-                    self.set_exception(ValueError("All peers have left"))
														
 
															-
														
 
															-    async def request_join_group(self, leader: Endpoint
														
 
															-                                 ) -> Optional[grpc.aio.UnaryStreamCall[averaging_pb2.MessageFromLeader]]:
														
 
															-        """ request a given peer to be your leader for allreduce. if accepted, return a grpc stream """
														
 
															-        assert self.state == ProtocolState.LOOKING_FOR_GROUP
														
 
															-        try:
														
 
															-            async with self.concurrent_requests_lock:
														
 
															-                stream = self._get_peer_stub(leader).rpc_group_allreduce(self.info)
														
 
															-                message = await stream.read()
														
 
															-                logger.debug(f"{self} - requested {leader} to be my leader, received "
														
 
															-                             f"{averaging_pb2.MessageCode.Name(message.code)}")
														
 
															-                if message.code == averaging_pb2.ACCEPTED:
														
 
															-                    self.join_group(leader, message.group_id)
														
 
															-                    return stream
														
 
															-
														
 
															-        except Exception as e:
														
 
															-            self.set_exception(e)
														
 
															-
														
 
															-    async def wait_for_allreduce(self, stream: grpc.aio.UnaryStreamCall[averaging_pb2.MessageFromLeader]) -> bool:
														
 
															-        """ the second part of request_join_group, return True if started allreduce, False if failed or disbanded """
														
 
															-        try:
														
 
															-            message = await stream.read()
														
 
															-            if message.code == averaging_pb2.BEGIN_ALLREDUCE:
														
 
															-                logger.debug(f"{self} - leader triggered allreduce")
														
 
															-                assert all(isinstance(p, Endpoint) for p in message.ordered_group_endpoints)
														
 
															-                self.follower_begin_allreduce(message.ordered_group_endpoints)
														
 
															-                return True
														
 
															-            else:
														
 
															-                logger.debug(f"{self} - leader sent {averaging_pb2.MessageCode.Name(message.code)}, leaving group")
														
 
															-                self.state = ProtocolState.GROUP_DISBANDED
														
 
															-                return False
														
 
															-        except Exception as e:
														
 
															-            self.set_exception(e)
														
 
															-            return False
														
 
															-
														
 
															-    async def run_allreduce(self) -> Sequence[torch.Tensor]:
														
 
															-        """ send allreduce requests to all peers and collect results, return the averaged tensor """
														
 
															-        assert self.state == ProtocolState.RUNNING_ALLREDUCE
														
 
															-        ordered_group_endpoints = await self.assembled_group
														
 
															-        ordered_local_parts = split_into_parts(self.local_tensors, group_size=self.group_size)
														
 
															-
														
 
															-        async def send_part(peer_endpoint: Endpoint, local_part: torch.Tensor):
														
 
															-            if peer_endpoint == self.info.endpoint:
														
 
															-                self.average_tensor_parts[peer_endpoint] = await self.accumulate(peer_endpoint, local_part)
														
 
															-            else:
														
 
															-                serialized_tensor_part = serialize_torch_tensor(local_part, self.compression_type, allow_inplace=False)
														
 
															-                response = await self._get_peer_stub(peer_endpoint).rpc_aggregate_part(averaging_pb2.AveragingData(
														
 
															-                    group_id=self.group_id, endpoint=self.info.endpoint, tensor_part=serialized_tensor_part))
														
 
															-
														
 
															-                if response.code == averaging_pb2.ACCEPTED:
														
 
															-                    self.average_tensor_parts[peer_endpoint] = deserialize_torch_tensor(response.tensor_part)
														
 
															-                else:
														
 
															-                    raise ValueError(f"peer {peer_endpoint} replied {averaging_pb2.MessageCode.Name(response.code)}")
														
 
															-
														
 
															-            if len(self.average_tensor_parts) >= len(self.group_endpoints_set):
														
 
															-                ordered_parts = [self.average_tensor_parts[peer] for peer in ordered_group_endpoints]
														
 
															-                tensor_shapes = [tensor.shape for tensor in self.local_tensors]
														
 
															-                self.averaged_tensors.set_result(restore_from_parts(ordered_parts, tensor_shapes))
														
 
															-
														
 
															-        try:
														
 
															-            await asyncio.gather(*map(send_part, ordered_group_endpoints, ordered_local_parts))
														
 
															-            return await self.averaged_tensors
														
 
															-        except Exception as e:
														
 
															-            code = averaging_pb2.CANCELLED if isinstance(e, asyncio.CancelledError) else averaging_pb2.INTERNAL_ERROR
														
 
															-
														
 
															-            async def send_error_to_peer(peer_endpoint):
														
 
															-                await self._get_peer_stub(peer_endpoint).rpc_aggregate_part(averaging_pb2.AveragingData(
														
 
															-                    group_id=self.group_id, endpoint=self.info.endpoint, code=code))
														
 
															-            for peer_endpoint in ordered_group_endpoints:
														
 
															-                asyncio.create_task(send_error_to_peer(peer_endpoint))
														
 
															-            if code == averaging_pb2.CANCELLED:
														
 
															-                self.cancel()
														
 
															-            else:
														
 
															-                self.set_exception(e)
														
 
															-            raise
														
 
															-
														
 
															-    async def handle_accumulate_request(self, request: averaging_pb2.AveragingData) -> averaging_pb2.AveragingData:
														
 
															-        """ respond to an incoming rpc_accumulate_part """
														
 
															-        if self.state not in (ProtocolState.RUNNING_ALLREDUCE, ProtocolState.FOLLOWER_WAITING_FOR_LEADER):
														
 
															-            return averaging_pb2.AveragingData(code=averaging_pb2.PROTOCOL_VIOLATION)
														
 
															-        elif request.group_id != self.group_id:
														
 
															-            return averaging_pb2.AveragingData(code=averaging_pb2.PROTOCOL_VIOLATION)
														
 
															-        elif request.endpoint in self.accumulated_from:
														
 
															-            return averaging_pb2.AveragingData(code=averaging_pb2.DUPLICATE_ENDPOINT)
														
 
															-
														
 
															-        if request.code in (averaging_pb2.INTERNAL_ERROR, averaging_pb2.CANCELLED):
														
 
															-            self.set_exception(ValueError(f"{request.endpoint} sent {averaging_pb2.MessageCode.Name(request.code)}"))
														
 
															-            return averaging_pb2.AveragingData(code=averaging_pb2.PROTOCOL_VIOLATION)
														
 
															-
														
 
															-        try:
														
 
															-            received_part = deserialize_torch_tensor(request.tensor_part)
														
 
															-            averaged_part = await self.accumulate(request.endpoint, received_part)
														
 
															-            serialized = serialize_torch_tensor(averaged_part, request.tensor_part.compression, allow_inplace=False)
														
 
															-            return averaging_pb2.AveragingData(code=averaging_pb2.ACCEPTED, tensor_part=serialized)
														
 
															-        except asyncio.CancelledError:
														
 
															-            self.cancel()
														
 
															-            return averaging_pb2.AveragingData(code=averaging_pb2.CANCELLED)
														
 
															-        except Exception as e:
														
 
															-            self.set_exception(e)
														
 
															-            return averaging_pb2.AveragingData(code=averaging_pb2.INTERNAL_ERROR)
														
 
															-
														
 
															-    def cancel(self):
														
 
															-        logger.debug(f"{self} - cancelled")
														
 
															-        self.state = ProtocolState.CANCELLED
														
 
															-        for future in self.assembled_group, self.averaged_part, self.averaged_tensors:
														
 
															-            future.cancel()
														
 
															-
														
 
															-    def set_exception(self, exception: Exception):
														
 
															-        logger.debug(f"{self} - {exception}")
														
 
															-        self.state = ProtocolState.ERROR
														
 
															-        for future in self.assembled_group, self.averaged_part, self.averaged_tensors:
														
 
															-            future.set_exception(exception)
														
 
															-
														
 
															-
														
 
															-def split_into_parts(tensors: Sequence[torch.Tensor], group_size: int) -> Tuple[torch.Tensor]:
														
 
															-    """ combines averaged_tensors into one tensor and splits them into equal chunks of size group_size """
														
 
															-    flat_tensor = torch.cat(tuple(map(torch.Tensor.flatten, tensors)))
														
 
															-    chunk_slices = torch.linspace(start=0, end=len(flat_tensor), steps=group_size + 1, dtype=torch.int64)
														
 
															-    chunk_slices[-1] = len(flat_tensor)
														
 
															-    return tuple(torch.as_tensor(flat_tensor[chunk_slices[i]: chunk_slices[i + 1]]) for i in range(group_size))
														
 
															-
														
 
															-
														
 
															-def restore_from_parts(chunks: Sequence[torch.Tensor], shapes: Sequence[torch.Size]) -> Tuple[torch.Tensor, ...]:
														
 
															-    """ restores the original tensor shapes from chunks obtained by split_into_chunks """
														
 
															-    flat_tensor = torch.cat(list(chunks))
														
 
															-    result_sizes = tuple(map(torch.Size.numel, shapes))
														
 
															-    flat_original_tensors = torch.split_with_sizes(flat_tensor, result_sizes)
														
 
															-    return tuple(map(torch.Tensor.reshape, flat_original_tensors, shapes))
														
 
															-
														
 
															-
														
 
															-def compute_schema_hash(tensors: Sequence[torch.Tensor]) -> bytes:
														
 
															-    """ A hash that describes follower's tensor shapes, dtypes, devices, but not the actual values """
														
 
															-    schema_dicts = [{field_name: str(field_value)
														
 
															-                    for field_name, field_value in asdict(TensorDescriptor.from_tensor(tensor)).items()}
														
 
															-                    for tensor in tensors]
														
 
															-    return DHTID.generate(source=MSGPackSerializer.dumps(schema_dicts)).to_bytes()
														
 
															-
														
 
															-
														
 
															-def is_valid_join_request(request: averaging_pb2.PeerInfo) -> bool:
														
 
															-    assert len(request.ListFields()) == 3, "this function assumes JoinRequest has three fields, it should be updated"
														
 
															-    return (isinstance(request.schema_hash, bytes) and
														
 
															-            isinstance(request.expiration, DHTExpiration) and
														
 
															-            isinstance(request.endpoint, Endpoint))
														
--- a/hivemind/client/averager.py
+++ b/hivemind/client/averager.py
@@ -1,185 +0,0 @@
 
															-""" A background process that averages your tensors with peers """
														
 
															-
														
 
															-from __future__ import annotations
														
 
															-
														
 
															-import ctypes
														
 
															-from typing import Sequence, Optional, Tuple, Any, Union, Awaitable, Dict
														
 
															-from concurrent.futures.thread import ThreadPoolExecutor
														
 
															-import multiprocessing as mp
														
 
															-import asyncio
														
 
															-
														
 
															-import torch
														
 
															-import uvloop
														
 
															-import grpc
														
 
															-
														
 
															-import hivemind
														
 
															-from hivemind.dht import get_dht_time, DHTExpiration
														
 
															-from hivemind.utils import get_logger, Endpoint, Port, MPFuture
														
 
															-from hivemind.utils.grpc import GRPC_KEEPALIVE_OPTIONS
														
 
															-from hivemind.client.allreduce import GroupAllReduce, GroupID
														
 
															-from hivemind.proto import averaging_pb2, averaging_pb2_grpc
														
 
															-
														
 
															-logger = get_logger(__file__)
														
 
															-
														
 
															-
														
 
															-class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragingServicer):
														
 
															-    """
														
 
															-    **Warning!** Decentralized averager is in active development, some critical functionality is still underway
														
 
															-
														
 
															-    Gating function averaging service. A trainer can run this service in background to periodically average his gating
														
 
															-    function with other trainers. The averaging pattern is chosen so that (1) you only need to average with a small
														
 
															-    group of peers at a time, but (2) all trainers will converge to global average in a logarithmic number of steps.
														
 
															-    Why averaging is valid: see https://github.com/learning-at-home/hivemind/issues/95#issuecomment-688806705
														
 
															-    On global convergence: see https://github.com/learning-at-home/hivemind/issues/95#issuecomment-717719400
														
 
															-
														
 
															-    :param averaged_tensors: a sequence of pytorch tensors that will be averaged in each all-reduce
														
 
															-    :param dht: a DHT node that will be used to find groups
														
 
															-    :param start: if True, starts the background process immediately
														
 
															-    :param timeout: consider allreduce failed if there was no activity for this many **seconds**
														
 
															-    :param listen: if True (default), this averager will accept incoming requests from other peers and perform allreduce
														
 
															-            if False, the averager will register as a freeloader and attempt to fetch vectors from other averagers
														
 
															-    :param listen_on: network interface, e.g. "0.0.0.0:1337" or "localhost:*" (* means pick any port) or "[::]:7654"
														
 
															-    :param receiver_threads: uses this many threads to await on input pipe. Default = 1 should be enough in most cases
														
 
															-    :param channel_options: options for grpc.aio.insecure_channel, e.g. [('grpc.enable_retries', 0)]
														
 
															-          see https://grpc.github.io/grpc/core/group__grpc__arg__keys.html for a list of all options
														
 
															-    :param kwargs: extra parameters forwarded to in grpc.aio.server
														
 
															-    You can perform averaging using DecentralizedOptimizer (see below) or by manually running each step as such:
														
 
															-
														
 
															-    >> TODO add a working example
														
 
															-    """
														
 
															-
														
 
															-    def __init__(self, averaged_tensors: Sequence[torch.Tensor], dht: hivemind.dht.DHT, *, start: bool,
														
 
															-                 max_size: int = None, timeout: float = 15, listen: bool = True, listen_on: Endpoint = '0.0.0.0:*',
														
 
															-                 receiver_threads: int = 1, channel_options: Optional[Sequence[Tuple[str, Any]]] = None, **kwargs):
														
 
															-        super().__init__()
														
 
															-        self.dht = dht
														
 
															-        self.server_opts = listen, listen_on, receiver_threads, kwargs
														
 
															-        self.max_size = max_size if max_size is not None else float('inf')
														
 
															-        self.timeout = timeout
														
 
															-        self.channel_options = channel_options
														
 
															-        self._pipe, self.pipe = mp.Pipe(duplex=True)  # a control pipe used to communicate with a background process
														
 
															-        self._port = mp.Value(ctypes.c_uint32, 0)  # assigned when averager starts, accessible via self.port
														
 
															-        self._pending_groups: Dict[GroupID, GroupAllReduce] = {}
														
 
															-        self._lock_forming_a_group: Optional[asyncio.Lock] = None
														
 
															-        self.ready = mp.Event()
														
 
															-
														
 
															-        self.averaged_tensors = tuple(averaged_tensors)
														
 
															-        for tensor in self.averaged_tensors:
														
 
															-            assert tensor.grad_fn is None, "averaged_tensors must be either parameters or leaf tensors"
														
 
															-            tensor.share_memory_()
														
 
															-
														
 
															-        if start:
														
 
															-            self.run_in_background(await_ready=True)
														
 
															-
														
 
															-    @property
														
 
															-    def port(self) -> Optional[Port]:
														
 
															-        return self._port.value if self._port.value != 0 else None
														
 
															-
														
 
															-    def run(self):
														
 
															-        """ Serve DecentralizedAverager forever. This function will not return until the averager is shut down """
														
 
															-        if asyncio.get_event_loop().is_running():
														
 
															-            asyncio.get_event_loop().stop()  # if we're in jupyter, get rid of its built-in event loop
														
 
															-
														
 
															-        uvloop.install()
														
 
															-        loop = asyncio.new_event_loop()
														
 
															-        asyncio.set_event_loop(loop)
														
 
															-
														
 
															-        listen, listen_on, receiver_threads, server_kwargs = self.server_opts
														
 
															-        pipe_awaiter = ThreadPoolExecutor(receiver_threads)
														
 
															-        self._lock_forming_a_group = asyncio.Lock()
														
 
															-
														
 
															-        async def _run():
														
 
															-            if listen:
														
 
															-                grpc.aio.init_grpc_aio()
														
 
															-                server = grpc.aio.server(**server_kwargs, options=GRPC_KEEPALIVE_OPTIONS)
														
 
															-                averaging_pb2_grpc.add_DecentralizedAveragingServicer_to_server(self, server)
														
 
															-                found_port = server.add_insecure_port(listen_on)
														
 
															-                assert found_port != 0, f"Failed to listen to {listen_on}"
														
 
															-                self._port.value = found_port
														
 
															-                await server.start()
														
 
															-                self.ready.set()
														
 
															-            else:
														
 
															-                raise NotImplementedError("Client-only averaging is not implemented yet.")
														
 
															-
														
 
															-            while True:
														
 
															-                method, args, kwargs = await loop.run_in_executor(pipe_awaiter, self._pipe.recv)
														
 
															-                asyncio.create_task(getattr(self, method)(*args, **kwargs))
														
 
															-
														
 
															-        loop.run_until_complete(_run())
														
 
															-
														
 
															-    def run_in_background(self, await_ready=True, timeout=None):
														
 
															-        """
														
 
															-        Starts averager in a background process. if await_ready, this method will wait until background dht
														
 
															-        is ready to process incoming requests or for :timeout: seconds max.
														
 
															-        """
														
 
															-        self.start()
														
 
															-        if await_ready and not self.ready.wait(timeout=timeout):
														
 
															-            raise TimeoutError(f"Server didn't notify .ready in {timeout} seconds")
														
 
															-
														
 
															-    def shutdown(self) -> None:
														
 
															-        """ Shut down the averager process """
														
 
															-        # TODO notify peers before terminating
														
 
															-        if self.is_alive():
														
 
															-            self.terminate()
														
 
															-        else:
														
 
															-            logger.warning("DHT shutdown has no effect: the process is not alive")
														
 
															-
														
 
															-    def group_allreduce(self, my_endpoint: Endpoint, leader_endpoint: Optional[Endpoint] = None,
														
 
															-                        return_future=False) -> Union[Sequence[torch.Tensor], Awaitable[Sequence[torch.Tensor]]]:
														
 
															-        """
														
 
															-        Set up the averager to look for a group and run all-reduce once, optionally await and return outcome
														
 
															-
														
 
															-        :note: this function implemented for debugging and will be removed in future versions
														
 
															-        :param my_endpoint: public endpoint of this averager
														
 
															-        :param leader_endpoint: if specified, attempts to join this peer's group
														
 
															-        :param return_future: if False (default), return when finished. Otherwise return MPFuture and run in background.
														
 
															-        """
														
 
															-        expiration = get_dht_time() + self.timeout
														
 
															-        assert isinstance(expiration, DHTExpiration)
														
 
															-
														
 
															-        future, _future = MPFuture.make_pair()
														
 
															-        self.pipe.send(('_group_allreduce', [], dict(my_endpoint=my_endpoint, expiration=expiration,
														
 
															-                                                     leader_endpoint=leader_endpoint, future=_future)))
														
 
															-        return future if return_future else future.result()
														
 
															-
														
 
															-    async def _group_allreduce(self, *, my_endpoint: Endpoint, expiration: DHTExpiration,
														
 
															-                               leader_endpoint: Optional[Endpoint], future: MPFuture):
														
 
															-        group_allreduce = GroupAllReduce(my_endpoint, expiration, self.averaged_tensors)
														
 
															-        try:
														
 
															-            if leader_endpoint is None:
														
 
															-                async with self._lock_forming_a_group:
														
 
															-                    group_allreduce.start_new_group(max_size=self.max_size)
														
 
															-                    self._forming_group = self._pending_groups[group_allreduce.group_id] = group_allreduce
														
 
															-                    await asyncio.wait_for(group_allreduce.assembled_group, expiration - get_dht_time())
														
 
															-
														
 
															-                future.set_result(await group_allreduce.run_allreduce())
														
 
															-            else:
														
 
															-                async with self._lock_forming_a_group:
														
 
															-                    stream = await group_allreduce.request_join_group(leader_endpoint)
														
 
															-                    self._forming_group = self._pending_groups[group_allreduce.group_id] = group_allreduce
														
 
															-
														
 
															-                started_allreduce = await group_allreduce.wait_for_allreduce(stream)
														
 
															-                if started_allreduce:
														
 
															-                    future.set_result(await group_allreduce.run_allreduce())
														
 
															-                else:
														
 
															-                    future.set_exception(ValueError(f"Rejected by {leader_endpoint}"))
														
 
															-
														
 
															-        except Exception as e:
														
 
															-            future.set_exception(e)
														
 
															-        finally:
														
 
															-            _ = self._pending_groups.pop(group_allreduce.group_id, None)
														
 
															-            if group_allreduce is self._forming_group:
														
 
															-                self._forming_group = None
														
 
															-
														
 
															-    async def rpc_group_allreduce(self, request: averaging_pb2.PeerInfo, context: grpc.ServicerContext):
														
 
															-        """ A peer wants me to be his leader. I will coordinate his actions with the rest of my group. Maybe. """
														
 
															-        if self._forming_group is None:
														
 
															-            yield averaging_pb2.MessageFromLeader(code=averaging_pb2.NOT_LOOKING_FOR_GROUP)
														
 
															-            return
														
 
															-        async for message in self._forming_group.handle_join_request(request):
														
 
															-            yield message
														
 
															-
														
 
															-    async def rpc_aggregate_part(self, request: averaging_pb2.AveragingData, context: grpc.ServicerContext):
														
 
															-        if request.group_id not in self._pending_groups:
														
 
															-            return averaging_pb2.AveragingData(code=averaging_pb2.PROTOCOL_VIOLATION)
														
 
															-        return await self._pending_groups[request.group_id].handle_accumulate_request(request)
														
--- a/hivemind/client/averaging/__init__.py
+++ b/hivemind/client/averaging/__init__.py
@@ -0,0 +1,216 @@
 
															+""" A background process that averages your tensors with peers """
														
 
															+
														
 
															+from __future__ import annotations
														
 
															+
														
 
															+import random
														
 
															+import ctypes
														
 
															+from typing import Sequence, Optional, Tuple, Any, Union, Dict, AsyncIterator
														
 
															+from concurrent.futures.thread import ThreadPoolExecutor
														
 
															+import multiprocessing as mp
														
 
															+import asyncio
														
 
															+
														
 
															+import torch
														
 
															+import uvloop
														
 
															+import grpc
														
 
															+
														
 
															+import hivemind
														
 
															+from hivemind.client.averaging.allreduce import AllReduceRunner, AllreduceException, GroupID
														
 
															+from hivemind.client.averaging.matchmaking import Matchmaking
														
 
															+from hivemind.utils import get_logger, Endpoint, Port, MPFuture, replace_port, GRPC_KEEPALIVE_OPTIONS
														
 
															+from hivemind.proto import averaging_pb2, averaging_pb2_grpc, runtime_pb2
														
 
															+
														
 
															+# flavour types
														
 
															+StreamCallToLeader = grpc.aio.UnaryStreamCall[averaging_pb2.JoinRequest, averaging_pb2.MessageFromLeader]
														
 
															+
														
 
															+INITIAL_GROUP_NBITS = 3
														
 
															+logger = get_logger(__file__)
														
 
															+
														
 
															+
														
 
															+class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragingServicer):
														
 
															+    """
														
 
															+    **Warning!** Decentralized averager is in active development, some critical functionality is still underway
														
 
															+
														
 
															+    Parameter averaging service. A trainer can run this service in background to periodically average his parameters
														
 
															+    with other trainers. The averaging pattern is chosen so that (1) you only need to average with a small
														
 
															+    group of peers at a time, but (2) all trainers will converge to global average in a logarithmic number of steps.
														
 
															+
														
 
															+    :param averaged_tensors: a sequence of pytorch tensors that will be averaged in each all-reduce
														
 
															+    :param dht: a DHT node that will be used to find groups
														
 
															+    :param start: if True, starts the background process immediately
														
 
															+
														
 
															+    :param prefix: a shared prefix for all group keys
														
 
															+    :param target_group_size: attempts to form groups with up to this many peers (recommended: a power of 2, e.g. 16)
														
 
															+    :param initial_group_bits: a string of bits ('0' and '1') that define initial group key (bucket index)
														
 
															+      by default, sample a random bit sequence of length {INITIAL_GROUP_NBITS}
														
 
															+    :param averaging_expiration: attempt to find a group for this many seconds, otherwise try again
														
 
															+      note - this expiration time only applies to looking for group, passing tensors in allreduce may take more time
														
 
															+    :param compression_type: optionally compress tensors with this compression algorithm before sending them to peers
														
 
															+    :param allreduce_timeout: spend at most this many seconds for allreduce (after group is formed)
														
 
															+
														
 
															+    :param listen: if True (default), this averager will accept incoming requests from other peers and perform allreduce
														
 
															+            if False, the averager will register as a freeloader and attempt to fetch vectors from other averagers
														
 
															+    :param listen_on: network interface, e.g. "0.0.0.0:1337" or "localhost:*" (* means pick any port) or "[::]:7654"
														
 
															+    :param receiver_threads: uses this many threads to await on input pipe. Default = 1 should be enough in most cases
														
 
															+    :param channel_options: options for grpc.aio.insecure_channel, e.g. [('grpc.enable_retries', 0)]
														
 
															+          see https://grpc.github.io/grpc/core/group__grpc__arg__keys.html for a list of all options
														
 
															+    :param kwargs: extra parameters forwarded to grpc.aio.server
														
 
															+    You can perform averaging using DecentralizedOptimizer (see below) or by manually running each step as such:
														
 
															+
														
 
															+    >> TODO add a working example here
														
 
															+    """
														
 
															+    _matchmaking: Matchmaking
														
 
															+    _pending_group_assembled: asyncio.Event
														
 
															+
														
 
															+    def __init__(self, averaged_tensors: Sequence[torch.Tensor], dht: hivemind.dht.DHT, *, start: bool,
														
 
															+                 prefix: str, target_group_size: int, min_group_size: int = 1, initial_group_bits: Optional[str] = None,
														
 
															+                 averaging_expiration: float = 15, allreduce_timeout: Optional[float] = None,
														
 
															+                 compression_type: runtime_pb2.CompressionType = runtime_pb2.CompressionType.NONE,
														
 
															+                 listen_on: Endpoint = '0.0.0.0:*', receiver_threads: int = 1,
														
 
															+                 channel_options: Optional[Sequence[Tuple[str, Any]]] = None, **kwargs):
														
 
															+        assert '.' not in prefix, "group prefix must be a string without ."
														
 
															+        if is_power_of_two(target_group_size):
														
 
															+            logger.warning("It is recommended to set target_group_size to a power of 2.")
														
 
															+        if initial_group_bits is None:
														
 
															+            initial_group_bits = ''.join(random.choices('01', k=INITIAL_GROUP_NBITS))
														
 
															+            logger.debug(f"Initializing with random {INITIAL_GROUP_NBITS}-bit group index: {initial_group_bits}")
														
 
															+        assert len(initial_group_bits) >= INITIAL_GROUP_NBITS and all(bit in '01' for bit in initial_group_bits)
														
 
															+
														
 
															+        super().__init__()
														
 
															+        self.dht = dht
														
 
															+        self.listen_on, self.receiver_threads, self.kwargs = listen_on, receiver_threads, kwargs
														
 
															+        self.channel_options = channel_options
														
 
															+        self.averaged_tensors = tuple(averaged_tensors)
														
 
															+        # TODO use mp.Lock to prevent someone from modifying tensors before we copy them! maybe.
														
 
															+        for tensor in self.averaged_tensors:
														
 
															+            assert tensor.grad_fn is None, "averaged_tensors must be either parameters or leaf tensors"
														
 
															+            tensor.share_memory_()
														
 
															+
														
 
															+        self.matchmaking_kwargs = dict(prefix=prefix, initial_group_bits=initial_group_bits,
														
 
															+                                       target_group_size=target_group_size, min_group_size=min_group_size,
														
 
															+                                       averaging_expiration=averaging_expiration)
														
 
															+        self.allreduce_timeout, self.compression_type = allreduce_timeout, compression_type
														
 
															+        self._running_groups: Dict[GroupID, AllReduceRunner] = {}  # one or more assembled groups that run all-reduce
														
 
															+
														
 
															+        self._pipe, self.pipe = mp.Pipe(duplex=True)  # a control pipe used to communicate with a background process
														
 
															+        self._port = mp.Value(ctypes.c_uint32, 0)  # assigned when averager starts, accessible via self.port
														
 
															+        self._averager_endpoint: Optional[Endpoint] = None
														
 
															+        self.ready = mp.Event()  # whether the averager process has started (and ready for incoming requests)
														
 
															+
														
 
															+        if start:
														
 
															+            self.run_in_background(await_ready=True)
														
 
															+
														
 
															+    @property
														
 
															+    def port(self) -> Optional[Port]:
														
 
															+        return self._port.value if self._port.value != 0 else None
														
 
															+
														
 
															+    @property
														
 
															+    def endpoint(self) -> Endpoint:
														
 
															+        if self._averager_endpoint is None:
														
 
															+            self._averager_endpoint = replace_port(self.listen_on, self.port if self.port is not None else '*')
														
 
															+            logger.debug(f"Assuming averager endpoint to be {self._averager_endpoint}")
														
 
															+        return self._averager_endpoint
														
 
															+
														
 
															+    def __repr__(self):
														
 
															+        return f"{self.__class__.__name__}({self.endpoint})"
														
 
															+
														
 
															+    def run(self):
														
 
															+        """ Serve DecentralizedAverager forever. This function will not return until the averager is shut down """
														
 
															+        if asyncio.get_event_loop().is_running():
														
 
															+            asyncio.get_event_loop().stop()  # if we're in jupyter, get rid of its built-in event loop
														
 
															+
														
 
															+        uvloop.install()
														
 
															+        loop = asyncio.new_event_loop()
														
 
															+        asyncio.set_event_loop(loop)
														
 
															+
														
 
															+        # initialize asyncio synchronization primitives in this event loop
														
 
															+        pipe_awaiter = ThreadPoolExecutor(self.receiver_threads)
														
 
															+
														
 
															+        async def _run():
														
 
															+            grpc.aio.init_grpc_aio()
														
 
															+            server = grpc.aio.server(**self.kwargs, options=GRPC_KEEPALIVE_OPTIONS)
														
 
															+            averaging_pb2_grpc.add_DecentralizedAveragingServicer_to_server(self, server)
														
 
															+            found_port = server.add_insecure_port(self.listen_on)
														
 
															+            assert found_port != 0, f"Failed to listen to {self.listen_on}"
														
 
															+            self._port.value = found_port
														
 
															+            self._matchmaking = Matchmaking(self.endpoint, self.averaged_tensors, self.dht, **self.matchmaking_kwargs)
														
 
															+            self._pending_group_assembled = asyncio.Event()
														
 
															+            self._pending_group_assembled.set()
														
 
															+            await server.start()
														
 
															+            self.ready.set()
														
 
															+
														
 
															+            while True:
														
 
															+                method, args, kwargs = await loop.run_in_executor(pipe_awaiter, self._pipe.recv)
														
 
															+                asyncio.create_task(getattr(self, method)(*args, **kwargs))
														
 
															+
														
 
															+        loop.run_until_complete(_run())
														
 
															+
														
 
															+    def run_in_background(self, await_ready=True, timeout=None):
														
 
															+        """
														
 
															+        Starts averager in a background process. if await_ready, this method will wait until background dht
														
 
															+        is ready to process incoming requests or for :timeout: seconds max.
														
 
															+        """
														
 
															+        self.start()
														
 
															+        if await_ready and not self.ready.wait(timeout=timeout):
														
 
															+            raise TimeoutError(f"Server didn't notify .ready in {timeout} seconds")
														
 
															+
														
 
															+    def shutdown(self) -> None:
														
 
															+        """ Shut down the averager process """
														
 
															+        # TODO notify peers before terminating
														
 
															+        if self.is_alive():
														
 
															+            self.terminate()
														
 
															+        else:
														
 
															+            logger.warning("DHT shutdown has no effect: the process is not alive")
														
 
															+
														
 
															+    def step(self, timeout: Optional[float] = None, return_future=False) -> Union[Sequence[torch.Tensor], MPFuture]:
														
 
															+        """
														
 
															+        Set up the averager to look for a group and run one round of averaging, then return the averaged tensors
														
 
															+
														
 
															+        :param timeout: if averager was unable to *find* a group in this many seconds, consider allreduce failedK
														
 
															+        :param return_future: if False (default), return when finished. Otherwise return MPFuture and run in background.
														
 
															+        """
														
 
															+        future, _future = MPFuture.make_pair()
														
 
															+        self.pipe.send(('_step', [], dict(future=_future, timeout=timeout)))
														
 
															+        return future if return_future else future.result()
														
 
															+
														
 
															+    async def _step(self, *, future: MPFuture, timeout: Optional[float]):
														
 
															+        group_id = None
														
 
															+        try:
														
 
															+            self._pending_group_assembled.clear()
														
 
															+            allreduce_group = await self._matchmaking.look_for_group(timeout=timeout)
														
 
															+            group_id = allreduce_group.group_id
														
 
															+            if allreduce_group is not None:
														
 
															+                self._running_groups[group_id] = allreduce_group
														
 
															+                self._pending_group_assembled.set()
														
 
															+                future.set_result(await asyncio.wait_for(allreduce_group.run(), self.allreduce_timeout))
														
 
															+            else:
														
 
															+                raise AllreduceException(f"{self} - group_allreduce failed, unable to find a group")
														
 
															+
														
 
															+        except Exception as e:
														
 
															+            future.set_exception(e)
														
 
															+            raise
														
 
															+        finally:
														
 
															+            self._pending_group_assembled.set()
														
 
															+            if group_id is not None:
														
 
															+                _ = self._running_groups.pop(group_id, None)
														
 
															+
														
 
															+    async def rpc_join_group(self, request: averaging_pb2.JoinRequest, context: grpc.ServicerContext
														
 
															+                             ) -> AsyncIterator[averaging_pb2.MessageFromLeader]:
														
 
															+        """ accept or reject a join request from another averager; if accepted, run him through allreduce steps """
														
 
															+        async for response in self._matchmaking.rpc_join_group(request, context):
														
 
															+            yield response
														
 
															+
														
 
															+    async def rpc_aggregate_part(self, request: averaging_pb2.AveragingData, context: grpc.ServicerContext):
														
 
															+        """ a groupmate sends us a part of his tensor; we should average it with other peers and return the result """
														
 
															+        if request.group_id not in self._running_groups and not self._pending_group_assembled.is_set():
														
 
															+            # this handles a special case when leader accepted us to group AND began allreduce right away,
														
 
															+            # but his response with group_id was delayed and other peers got to us first
														
 
															+            await self._pending_group_assembled.wait()
														
 
															+        if request.group_id not in self._running_groups:
														
 
															+            return averaging_pb2.AveragingData(code=averaging_pb2.BAD_GROUP_ID)
														
 
															+        else:
														
 
															+            return await self._running_groups[request.group_id].rpc_aggregate_part(request, context)
														
 
															+
														
 
															+
														
 
															+def is_power_of_two(n):
														
 
															+    """ Check whether n is a power of 2 """
														
 
															+    return (n != 0) and (n & (n - 1) == 0)
														
--- a/hivemind/client/averaging/allreduce.py
+++ b/hivemind/client/averaging/allreduce.py
@@ -0,0 +1,184 @@
 
															+import asyncio
														
 
															+from typing import Sequence, Set, Dict, Tuple
														
 
															+
														
 
															+import grpc
														
 
															+import torch
														
 
															+
														
 
															+from hivemind.utils import Endpoint, get_logger, serialize_torch_tensor, deserialize_torch_tensor, ChannelCache
														
 
															+from hivemind.proto import averaging_pb2_grpc, runtime_pb2, averaging_pb2
														
 
															+
														
 
															+# flavour types
														
 
															+GroupID = bytes
														
 
															+logger = get_logger(__name__)
														
 
															+
														
 
															+
														
 
															+class AllReduceProtocol:
														
 
															+    """
														
 
															+    An internal class that runs butterfly AllReduce in a predefined group of averagers
														
 
															+
														
 
															+    :param tensors: local tensors that should be averaged with groupmates
														
 
															+    :param endpoint: your endpoint, must be included in ordered_group_endpoints
														
 
															+    :param ordered_group_endpoints: group endpoints ordered s.t. i-th endpoint is responsible for averaging i-th part
														
 
															+    """
														
 
															+    def __init__(self, *, group_id: GroupID, tensors: Sequence[torch.Tensor], endpoint: Endpoint,
														
 
															+                 ordered_group_endpoints: Sequence[Endpoint]):
														
 
															+        assert endpoint in ordered_group_endpoints, "endpoint is not a part of the group"
														
 
															+        self.group_id, self.endpoint, self.ordered_group_endpoints = group_id, endpoint, ordered_group_endpoints
														
 
															+        self.local_tensor_parts = dict(zip(ordered_group_endpoints, split_into_parts(tensors, self.group_size)))
														
 
															+        self.tensor_shapes = tuple(tensor.shape for tensor in tensors)
														
 
															+
														
 
															+        self.accumulator = self.local_tensor_parts[self.endpoint].clone()  # sum inputs from peers to this tensor
														
 
															+        self.accumulated_from: Set[Endpoint] = {self.endpoint}  # peers that we have accumulated our part from
														
 
															+        self.averaged_part: asyncio.Future[torch.Tensor] = asyncio.Future()  # will be set to [accumulator / group size]
														
 
															+        self.averaged_tensor_parts: Dict[Endpoint, torch.Tensor] = {}  # averaged chunks from all peers will be put here
														
 
															+        self.averaged_tensors: asyncio.Future[Sequence[torch.Tensor]] = asyncio.Future()  # final result or exception
														
 
															+
														
 
															+    def __repr__(self):
														
 
															+        return f"{self.__class__.__name__}({self.endpoint}, group_size={self.group_size})"
														
 
															+
														
 
															+    def __await__(self):
														
 
															+        return self.averaged_tensors.__await__()
														
 
															+
														
 
															+    @property
														
 
															+    def group_size(self):
														
 
															+        return len(self.ordered_group_endpoints)
														
 
															+
														
 
															+    async def accumulate_part(self, source: Endpoint, remote_part: torch.Tensor) -> torch.Tensor:
														
 
															+        """ Add vector part to accumulator, wait for all other vectors to be added, then return the average part """
														
 
															+        assert not self.averaged_part.done(), f"already finished averaging part: {self.averaged_part}"
														
 
															+        assert not self.averaged_tensors.done(), f"already finished allreduce: {self.averaged_tensors}"
														
 
															+        assert source in self.local_tensor_parts, "unexpected source, not a part of current group"
														
 
															+        assert source not in self.accumulated_from, "duplicate source, already received that part"
														
 
															+        logger.debug(f"{self} - accumulating tensor part from {source}")
														
 
															+
														
 
															+        self.accumulator.add_(remote_part)
														
 
															+        self.accumulated_from.add(source)
														
 
															+
														
 
															+        assert len(self.accumulated_from) <= self.group_size
														
 
															+        if len(self.accumulated_from) == len(self.local_tensor_parts):
														
 
															+            average_result = self.accumulator.div_(len(self.accumulated_from))
														
 
															+            self.register_averaged_part(self.endpoint, average_result)
														
 
															+            self.averaged_part.set_result(average_result)
														
 
															+
														
 
															+        return await self.averaged_part
														
 
															+
														
 
															+    def register_averaged_part(self, source: Endpoint, averaged_part: torch.Tensor):
														
 
															+        assert not self.averaged_tensors.done(), f"already finished allreduce: {self.averaged_tensors}"
														
 
															+        assert source in self.local_tensor_parts, "the provider of averaged part is not from my group"
														
 
															+        assert source not in self.averaged_tensor_parts, "already registered the average from this peer"
														
 
															+        assert averaged_part.shape == self.local_tensor_parts[source].shape, "averaged part shape mismatch"
														
 
															+        assert averaged_part.dtype == self.local_tensor_parts[source].dtype, "averaged part dtype mismatch"
														
 
															+        logger.debug(f"{self} - receiving averaged tensor part from {source}")
														
 
															+        self.averaged_tensor_parts[source] = averaged_part
														
 
															+        if len(self.averaged_tensor_parts) == len(self.local_tensor_parts):
														
 
															+            ordered_averaged_parts = [self.averaged_tensor_parts[endpoint] for endpoint in self.ordered_group_endpoints]
														
 
															+            self.averaged_tensors.set_result(restore_from_parts(ordered_averaged_parts, self.tensor_shapes))
														
 
															+
														
 
															+    def cancel(self) -> bool:
														
 
															+        if not self.averaged_tensors.done():
														
 
															+            logger.debug(f"{self} - cancelled")
														
 
															+            self.averaged_tensors.cancel()
														
 
															+            if not self.averaged_part.done():
														
 
															+                self.averaged_part.cancel()
														
 
															+            return True
														
 
															+        else:
														
 
															+            logger.debug(f"{self} - failed to cancel, allreduce is already finished: {self.averaged_tensors}")
														
 
															+            return False
														
 
															+
														
 
															+    def set_exception(self, exception: Exception) -> bool:
														
 
															+        if not self.averaged_tensors.done():
														
 
															+            logger.debug(f"{self} - {exception}")
														
 
															+            self.averaged_tensors.set_exception(exception)
														
 
															+            if not self.averaged_part.done():
														
 
															+                self.averaged_part.cancel()
														
 
															+            return True
														
 
															+        else:
														
 
															+            logger.debug(f"{self} - failed to set {exception}, allreduce already finished: {self.averaged_tensors}")
														
 
															+            return False
														
 
															+
														
 
															+
														
 
															+class AllReduceRunner(AllReduceProtocol, averaging_pb2_grpc.DecentralizedAveragingServicer):
														
 
															+    """
														
 
															+    A class that implements ButterflyAllReduceProtocol on top of a gRPC servicer
														
 
															+    """
														
 
															+    def __init__(self, *, group_id: GroupID, tensors: Sequence[torch.Tensor], endpoint: Endpoint,
														
 
															+                 ordered_group_endpoints: Sequence[Endpoint], compression_type: runtime_pb2.CompressionType):
														
 
															+        super().__init__(group_id=group_id, tensors=tensors, endpoint=endpoint,
														
 
															+                         ordered_group_endpoints=ordered_group_endpoints)
														
 
															+        self.compression_type = compression_type
														
 
															+
														
 
															+    def _get_peer_stub(self, peer: Endpoint) -> averaging_pb2_grpc.DecentralizedAveragingStub:
														
 
															+        return ChannelCache.get_stub(peer, averaging_pb2_grpc.DecentralizedAveragingStub, aio=True)
														
 
															+
														
 
															+    async def _average_one_part(self, peer_endpoint: Endpoint, local_part: torch.Tensor) -> torch.Tensor:
														
 
															+        """ Send one part of local tensors to one groupmate and collect the average for this part """
														
 
															+        serialized_tensor_part = serialize_torch_tensor(local_part, self.compression_type, allow_inplace=False)
														
 
															+        response = await self._get_peer_stub(peer_endpoint).rpc_aggregate_part(
														
 
															+            averaging_pb2.AveragingData(code=averaging_pb2.PART_FOR_AVERAGING, group_id=self.group_id,
														
 
															+                                        endpoint=self.endpoint, tensor_part=serialized_tensor_part))
														
 
															+        if response.code == averaging_pb2.AVERAGED_PART:
														
 
															+            averaged_part = deserialize_torch_tensor(response.tensor_part)
														
 
															+            self.register_averaged_part(peer_endpoint, averaged_part)
														
 
															+            return averaged_part
														
 
															+        else:
														
 
															+            raise AllreduceException(f"peer {peer_endpoint} returned {averaging_pb2.MessageCode.Name(response.code)}"
														
 
															+                                     f" instead of {averaging_pb2.MessageCode.Name(averaging_pb2.AVERAGED_PART)},"
														
 
															+                                     f" allreduce failed")
														
 
															+
														
 
															+    async def _send_error_to_peer(self, peer_endpoint: Endpoint, code: averaging_pb2.MessageCode):
														
 
															+        await self._get_peer_stub(peer_endpoint).rpc_aggregate_part(averaging_pb2.AveragingData(
														
 
															+            group_id=self.group_id, endpoint=self.endpoint, code=code))
														
 
															+
														
 
															+    async def run(self) -> Sequence[torch.Tensor]:
														
 
															+        """ send allreduce requests to all peers and collect results, return the averaged tensor """
														
 
															+        try:
														
 
															+            await asyncio.gather(self, *(self._average_one_part(peer, part)
														
 
															+                                         for peer, part in self.local_tensor_parts.items() if peer != self.endpoint))
														
 
															+            return await self
														
 
															+        except Exception as e:
														
 
															+            code = averaging_pb2.CANCELLED if isinstance(e, asyncio.CancelledError) else averaging_pb2.INTERNAL_ERROR
														
 
															+            logger.debug(f"{self} - notifying peers about {averaging_pb2.MessageCode.Name(code)}")
														
 
															+            self.set_exception(e)
														
 
															+            for peer_endpoint in self.ordered_group_endpoints:
														
 
															+                asyncio.create_task(self._send_error_to_peer(peer_endpoint, code))
														
 
															+            raise
														
 
															+
														
 
															+    async def rpc_aggregate_part(self, request: averaging_pb2.AveragingData, context: grpc.ServicerContext):
														
 
															+        """ a groupmate sends us a part of his tensor; we should average it with other peers and return the result """
														
 
															+        if request.group_id != self.group_id:
														
 
															+            return averaging_pb2.AveragingData(code=averaging_pb2.BAD_GROUP_ID)
														
 
															+
														
 
															+        if request.code == averaging_pb2.PART_FOR_AVERAGING:
														
 
															+            try:
														
 
															+                tensor_part = deserialize_torch_tensor(request.tensor_part)
														
 
															+                averaged_part = await self.accumulate_part(request.endpoint, tensor_part)
														
 
															+                serialized = serialize_torch_tensor(averaged_part, request.tensor_part.compression, allow_inplace=False)
														
 
															+                return averaging_pb2.AveragingData(code=averaging_pb2.AVERAGED_PART, tensor_part=serialized)
														
 
															+            except Exception as e:
														
 
															+                self.set_exception(e)
														
 
															+                return averaging_pb2.AveragingData(code=averaging_pb2.INTERNAL_ERROR)
														
 
															+        else:
														
 
															+            error_code = averaging_pb2.MessageCode.Name(request.code)
														
 
															+            logger.debug(f"{self} - peer {request.endpoint} sent {error_code}, allreduce cannot continue")
														
 
															+            self.set_exception(AllreduceException(f"peer {request.endpoint} sent {error_code}."))
														
 
															+            return averaging_pb2.AveragingData(code=averaging_pb2.INTERNAL_ERROR)
														
 
															+
														
 
															+
														
 
															+def split_into_parts(tensors: Sequence[torch.Tensor], group_size: int) -> Tuple[torch.Tensor, ...]:
														
 
															+    """ combines averaged_tensors into one tensor and splits them into equal chunks of size group_size """
														
 
															+    flat_tensor = torch.cat(tuple(map(torch.Tensor.flatten, tensors)))
														
 
															+    chunk_slices = torch.linspace(start=0, end=len(flat_tensor), steps=group_size + 1, dtype=torch.int64)
														
 
															+    chunk_slices[-1] = len(flat_tensor)
														
 
															+    return tuple(flat_tensor[chunk_slices[i]: chunk_slices[i + 1]] for i in range(group_size))
														
 
															+
														
 
															+
														
 
															+def restore_from_parts(chunks: Sequence[torch.Tensor], shapes: Sequence[torch.Size]) -> Tuple[torch.Tensor, ...]:
														
 
															+    """ restores the original tensor shapes from chunks obtained by split_into_chunks """
														
 
															+    flat_tensor = torch.cat(tuple(chunks))
														
 
															+    result_sizes = tuple(map(torch.Size.numel, shapes))
														
 
															+    flat_original_tensors = torch.split_with_sizes(flat_tensor, result_sizes)
														
 
															+    return tuple(map(torch.Tensor.reshape, flat_original_tensors, shapes))
														
 
															+
														
 
															+
														
 
															+class AllreduceException(Exception):
														
 
															+    """ A special exception that is raised when allreduce can't continue normally (e.g. disbanded/bad request/etc) """
														
--- a/hivemind/client/averaging/matchmaking.py
+++ b/hivemind/client/averaging/matchmaking.py
@@ -0,0 +1,394 @@
 
															+""" A background process that averages your tensors with peers """
														
 
															+
														
 
															+from __future__ import annotations
														
 
															+
														
 
															+import contextlib
														
 
															+import random
														
 
															+from dataclasses import asdict
														
 
															+from math import isfinite
														
 
															+from typing import Sequence, Optional, AsyncIterator, Set
														
 
															+import asyncio
														
 
															+
														
 
															+import torch
														
 
															+import grpc
														
 
															+
														
 
															+import hivemind
														
 
															+from hivemind.client.averaging.allreduce import AllReduceRunner, GroupID
														
 
															+from hivemind.dht import DHTID, DHTExpiration, get_dht_time, GroupKey
														
 
															+from hivemind.utils import get_logger, Endpoint, TensorDescriptor, MSGPackSerializer, TimedStorage
														
 
															+from hivemind.proto import averaging_pb2, averaging_pb2_grpc, runtime_pb2
														
 
															+from hivemind.utils.grpc import ChannelCache
														
 
															+
														
 
															+
														
 
															+logger = get_logger(__file__)
														
 
															+
														
 
															+
														
 
															+class Matchmaking(averaging_pb2_grpc.DecentralizedAveragingServicer):
														
 
															+    f"""
														
 
															+    An internal class that is used to form groups of averages for running allreduce
														
 
															+    See DecentralizedAverager docstring for the detailed description of all parameters
														
 
															+    """
														
 
															+
														
 
															+    def __init__(self, endpoint: Endpoint, averaged_tensors: Sequence[torch.Tensor], dht: hivemind.dht.DHT, *,
														
 
															+                 prefix: str, target_group_size: int, min_group_size: int, initial_group_bits: Optional[str] = None,
														
 
															+                 averaging_expiration: float = 15, compression_type: runtime_pb2.CompressionType = runtime_pb2.NONE):
														
 
															+        assert '.' not in prefix, "group prefix must be a string without ."
														
 
															+
														
 
															+        super().__init__()
														
 
															+        self.dht, self.endpoint, self.averaged_tensors = dht, endpoint, tuple(averaged_tensors)
														
 
															+        self.prefix, self.group_bits = prefix, initial_group_bits
														
 
															+        self.target_group_size, self.min_group_size = target_group_size, min_group_size
														
 
															+        self.averaging_expiration, self.compression_type = averaging_expiration, compression_type
														
 
															+
														
 
															+        self.schema_hash = compute_schema_hash(self.averaged_tensors)
														
 
															+
														
 
															+        self.lock_looking_for_group = asyncio.Lock()
														
 
															+        self.lock_request_join_group = asyncio.Lock()
														
 
															+        self.cond_notify_followers = asyncio.Condition()
														
 
															+        self.assembled_group = asyncio.Future()
														
 
															+
														
 
															+        self.current_leader: Optional[Endpoint] = None  # iff i am a follower, this is a link to my current leader
														
 
															+        self.current_followers: Set[Endpoint] = set()  # iff i am a leader, this contains my followers excluding myself
														
 
															+        self.potential_leaders = PotentialLeaders(self.endpoint, self.dht, self.averaging_expiration)
														
 
															+
														
 
															+    @property
														
 
															+    def is_looking_for_group(self):
														
 
															+        return self.lock_looking_for_group.locked()
														
 
															+
														
 
															+    @property
														
 
															+    def current_group_key(self) -> GroupKey:
														
 
															+        return f"{self.prefix}.0b{self.group_bits}"
														
 
															+
														
 
															+    def __repr__(self):
														
 
															+        lfg_status = "looking for group," if self.is_looking_for_group else "not looking for group,"
														
 
															+        if self.is_looking_for_group:
														
 
															+            if self.current_leader:
														
 
															+                lfg_status += f" following {self.current_leader},"
														
 
															+            if len(self.current_followers):
														
 
															+                lfg_status += f" leading {len(self.current_followers)} followers,"
														
 
															+        schema_hash_repr = f"{self.schema_hash[0]}...{self.schema_hash[-8:]}"
														
 
															+        return f"{self.__class__.__name__}(endpoint={self.endpoint}, schema={schema_hash_repr}, {lfg_status}" \
														
 
															+               f" current key = {self.current_group_key})"
														
 
															+
														
 
															+    async def look_for_group(self, *, timeout: Optional[float] = None) -> AllReduceRunner:
														
 
															+        """
														
 
															+        :returns: an assembled group if successful, None if failed; does NOT perform the actual averaging
														
 
															+        Iterate over the averagers from a given group_identifier that have higher leadership priority than yourself.
														
 
															+        """
														
 
															+        if self.is_looking_for_group:
														
 
															+            logger.info("Another look_for_group is already in progress. The current run will be scheduled after"
														
 
															+                        " the existing group is either assembled or disbanded.")
														
 
															+        async with self.lock_looking_for_group:
														
 
															+            request_leaders_task = asyncio.create_task(self._request_join_potential_leaders(timeout))
														
 
															+            try:
														
 
															+                return await asyncio.wait_for(self.assembled_group, timeout=timeout)
														
 
															+            except Exception as e:
														
 
															+                if len(self.current_followers) > 0:
														
 
															+                    async with self.lock_request_join_group:
														
 
															+                        await self.leader_disband_group()
														
 
															+                self.assembled_group.set_exception(e)
														
 
															+                raise
														
 
															+
														
 
															+            finally:
														
 
															+                if not request_leaders_task.done():
														
 
															+                    request_leaders_task.cancel()
														
 
															+                if self.assembled_group.done():
														
 
															+                    self.assembled_group = asyncio.Future()
														
 
															+
														
 
															+    async def _request_join_potential_leaders(self, timeout: Optional[float]) -> AllReduceRunner:
														
 
															+        """ Request leaders from queue until we find the first runner. This coroutine is meant to run in background. """
														
 
															+        end_time = get_dht_time() + timeout if timeout is not None else float('inf')
														
 
															+        async with self.potential_leaders.begin_search(self.current_group_key, timeout):
														
 
															+            # TODO update group_bits on success! reduce number of bits on not enough peers.
														
 
															+            # TODO after allreduce finishes, we may need to ask leader to notify lower keys about this
														
 
															+            # (so as to fix possible network partitioning if some peers operate on a much smaller nbits)
														
 
															+            while True:
														
 
															+                try:
														
 
															+                    time_to_expiration = self.potential_leaders.declared_expiration_time - get_dht_time()
														
 
															+                    next_best_leader = await asyncio.wait_for(
														
 
															+                        self.potential_leaders.pop_next_leader(),
														
 
															+                        timeout=time_to_expiration if isfinite(time_to_expiration) else None)
														
 
															+
														
 
															+                    request_expiration_time = min(self.potential_leaders.declared_expiration_time,
														
 
															+                                                  end_time, get_dht_time() + self.averaging_expiration)
														
 
															+                    group = await self.request_join_group(next_best_leader, request_expiration_time)
														
 
															+                    if group is not None:
														
 
															+                        return group
														
 
															+
														
 
															+                except asyncio.TimeoutError:
														
 
															+                    async with self.lock_request_join_group:
														
 
															+                        if len(self.current_followers) >= self.min_group_size:
														
 
															+                            # the time is up, we have a *good enough* group. run allreduce as is.
														
 
															+                            return await self.leader_assemble_group()
														
 
															+                        else:
														
 
															+                            await self.leader_disband_group()
														
 
															+                            # TODO maybe adjust grid size
														
 
															+                            continue
														
 
															+
														
 
															+    async def request_join_group(self, leader: Endpoint, expiration_time: DHTExpiration) -> Optional[AllReduceRunner]:
														
 
															+        """
														
 
															+        :param leader: request this peer to be your leader for allreduce
														
 
															+        :param expiration_time: inform leader that we intend to begin averaging before this expiration_time
														
 
															+        :returns: if leader leader accepted us and started AllReduce, return that AllReduce. Otherwise, return None
														
 
															+        :note: this function does not guarantee that your group leader is the same as :leader: parameter
														
 
															+          The originally specified leader can disband group and redirect us to a different leader
														
 
															+        """
														
 
															+        assert self.is_looking_for_group and self.current_leader is None
														
 
															+        call: Optional[grpc.aio.UnaryStreamCall[averaging_pb2.JoinRequest, averaging_pb2.MessageFromLeader]] = None
														
 
															+        try:
														
 
															+            async with self.lock_request_join_group:
														
 
															+                leader_stub = ChannelCache.get_stub(leader, averaging_pb2_grpc.DecentralizedAveragingStub, aio=True)
														
 
															+                call = leader_stub.rpc_join_group(averaging_pb2.JoinRequest(
														
 
															+                    endpoint=self.endpoint, schema_hash=self.schema_hash, expiration=expiration_time))
														
 
															+
														
 
															+                message = await call.read()
														
 
															+                if message.code != averaging_pb2.ACCEPTED:
														
 
															+                    code = averaging_pb2.MessageCode.Name(message.code)
														
 
															+                    logger.debug(f"{self.endpoint} - requested {leader} to be my leader, but got rejected with {code}")
														
 
															+                    return None
														
 
															+
														
 
															+                # else: we were accepted
														
 
															+                logger.debug(f"{self.endpoint} - joining the group of {leader}; waiting for peers")
														
 
															+                self.current_leader = leader
														
 
															+                if len(self.current_followers) > 0:
														
 
															+                    await self.leader_disband_group()
														
 
															+
														
 
															+            async with self.potential_leaders.pause_search():
														
 
															+                message = await call.read()
														
 
															+
														
 
															+            if message.code == averaging_pb2.BEGIN_ALLREDUCE:
														
 
															+                async with self.lock_request_join_group:
														
 
															+                    return await self.follower_assemble_group(leader, message.group_id, message.ordered_group_endpoints)
														
 
															+            elif message.code == averaging_pb2.GROUP_DISBANDED and bool(message.suggested_leader):
														
 
															+                logger.debug(f"{self} - leader disbanded group and redirected us to {message.suggested_leader}")
														
 
															+                return await self.request_join_group(message.suggested_leader, expiration_time)
														
 
															+
														
 
															+            else:
														
 
															+                logger.debug(f"{self} - leader sent {averaging_pb2.MessageCode.Name(message.code)}, leaving group")
														
 
															+                return None
														
 
															+        finally:
														
 
															+            self.current_leader = None
														
 
															+            if call is not None:
														
 
															+                call.cancel()
														
 
															+
														
 
															+    async def rpc_join_group(self, request: averaging_pb2.JoinRequest, context: grpc.ServicerContext
														
 
															+                             ) -> AsyncIterator[averaging_pb2.MessageFromLeader]:
														
 
															+        """ accept or reject a join request from another averager; if accepted, run him through allreduce steps """
														
 
															+        try:
														
 
															+            reason_to_reject = self._check_reasons_to_reject(request)
														
 
															+            if reason_to_reject is not None:
														
 
															+                yield reason_to_reject
														
 
															+                return
														
 
															+
														
 
															+            current_group = self.assembled_group  # copy current assembled_group to avoid overwriting
														
 
															+            async with self.lock_request_join_group:
														
 
															+                self.current_followers.add(request.endpoint)
														
 
															+                yield averaging_pb2.MessageFromLeader(code=averaging_pb2.ACCEPTED)
														
 
															+
														
 
															+                if len(self.current_followers) + 1 >= self.target_group_size:
														
 
															+                    # outcome 1: we have assembled a full group and are ready for allreduce
														
 
															+                    await self.leader_assemble_group()
														
 
															+
														
 
															+            if not current_group.done():
														
 
															+                try:
														
 
															+                    async with self.cond_notify_followers:
														
 
															+                        # wait for the group to be assembled or disbanded
														
 
															+                        timeout = max(0.0, self.potential_leaders.declared_expiration_time - get_dht_time())
														
 
															+                        await asyncio.wait_for(self.cond_notify_followers.wait(), timeout=timeout)
														
 
															+                except asyncio.TimeoutError:
														
 
															+                    async with self.lock_request_join_group:
														
 
															+                        # outcome 2: the time is up, run allreduce with what we have or disband
														
 
															+                        if len(self.current_followers) + 1 >= self.min_group_size and self.is_looking_for_group:
														
 
															+                            await self.leader_assemble_group()
														
 
															+                        else:
														
 
															+                            await self.leader_disband_group()
														
 
															+
														
 
															+            if self.current_leader is not None:
														
 
															+                # outcome 3: found by a leader with higher priority, send our followers to him
														
 
															+                yield averaging_pb2.MessageFromLeader(code=averaging_pb2.GROUP_DISBANDED,
														
 
															+                                                      suggested_leader=self.current_leader)
														
 
															+                return
														
 
															+
														
 
															+            if request.endpoint not in self.current_followers:
														
 
															+                yield averaging_pb2.MessageFromLeader(code=averaging_pb2.GROUP_DISBANDED)
														
 
															+                return
														
 
															+
														
 
															+            # finally, run allreduce
														
 
															+            allreduce_group = current_group.result()
														
 
															+            yield averaging_pb2.MessageFromLeader(
														
 
															+                code=averaging_pb2.BEGIN_ALLREDUCE, group_id=allreduce_group.group_id,
														
 
															+                ordered_group_endpoints=allreduce_group.ordered_group_endpoints)
														
 
															+
														
 
															+        except Exception as e:
														
 
															+            logger.exception(e)
														
 
															+            yield averaging_pb2.MessageFromLeader(code=averaging_pb2.INTERNAL_ERROR)
														
 
															+
														
 
															+        finally:  # note: this code is guaranteed to run even if the coroutine is destroyed prematurely
														
 
															+            self.current_followers.discard(request.endpoint)
														
 
															+
														
 
															+    def _check_reasons_to_reject(self, request: averaging_pb2.JoinRequest) -> averaging_pb2.MessageFromLeader:
														
 
															+        """ :returns: if accepted, return None, otherwise return a reason for rejection """
														
 
															+        if not self.is_looking_for_group:
														
 
															+            return averaging_pb2.MessageFromLeader(code=averaging_pb2.NOT_LOOKING_FOR_GROUP)
														
 
															+
														
 
															+        if request.ListFields() == 3 and not isinstance(request.schema_hash, bytes) or len(request.schema_hash) == 0 \
														
 
															+                or not isinstance(request.expiration, DHTExpiration) or not isfinite(request.expiration) \
														
 
															+                or not isinstance(request.endpoint, Endpoint) or len(request.endpoint) == 0:
														
 
															+            return averaging_pb2.MessageFromLeader(code=averaging_pb2.PROTOCOL_VIOLATION)
														
 
															+
														
 
															+        elif request.schema_hash != self.schema_hash:
														
 
															+            return averaging_pb2.MessageFromLeader(code=averaging_pb2.BAD_SCHEMA_HASH)
														
 
															+        elif self.potential_leaders.declared_group_key is None:
														
 
															+            return averaging_pb2.MessageFromLeader(code=averaging_pb2.NOT_DECLARED)
														
 
															+        elif self.potential_leaders.declared_expiration_time > (request.expiration or float('inf')):
														
 
															+            return averaging_pb2.MessageFromLeader(code=averaging_pb2.BAD_EXPIRATION_TIME)
														
 
															+        elif self.current_leader is not None:
														
 
															+            return averaging_pb2.MessageFromLeader(code=averaging_pb2.NOT_A_LEADER,
														
 
															+                                                   suggested_leader=self.current_leader)
														
 
															+        elif request.endpoint == self.endpoint or request.endpoint in self.current_followers:
														
 
															+            return averaging_pb2.MessageFromLeader(code=averaging_pb2.DUPLICATE_ENDPOINT)
														
 
															+        elif len(self.current_followers) + 1 >= self.target_group_size:
														
 
															+            return averaging_pb2.MessageFromLeader(code=averaging_pb2.GROUP_IS_FULL)
														
 
															+        else:
														
 
															+            return None
														
 
															+
														
 
															+    async def leader_assemble_group(self) -> AllReduceRunner:
														
 
															+        """ Form up all current followers into a group and prepare to _run_allreduce """
														
 
															+        assert self.lock_looking_for_group.locked() and self.lock_request_join_group.locked()
														
 
															+        group_id = DHTID.generate().to_bytes()
														
 
															+        ordered_group_endpoints = list(self.current_followers)
														
 
															+        ordered_group_endpoints.append(self.endpoint)
														
 
															+        random.shuffle(ordered_group_endpoints)
														
 
															+        logger.debug(f"{self.endpoint} - leader started allreduce with {len(ordered_group_endpoints)} followers.")
														
 
															+        allreduce_group = AllReduceRunner(
														
 
															+            group_id=group_id, tensors=self.averaged_tensors, endpoint=self.endpoint,
														
 
															+            ordered_group_endpoints=ordered_group_endpoints, compression_type=self.compression_type)
														
 
															+        self.assembled_group.set_result(allreduce_group)
														
 
															+        async with self.cond_notify_followers:
														
 
															+            self.cond_notify_followers.notify_all()
														
 
															+        return allreduce_group
														
 
															+
														
 
															+    async def follower_assemble_group(self, leader: Endpoint, group_id: GroupID,
														
 
															+                                      ordered_group_endpoints: Sequence[Endpoint]) -> AllReduceRunner:
														
 
															+        """ Prepare to run allreduce using a list of peers provided by our leader """
														
 
															+        assert self.lock_looking_for_group.locked() and self.lock_request_join_group.locked()
														
 
															+        logger.debug(f"{self.endpoint} - follower started allreduce after being prompted by leader {leader}.")
														
 
															+        assert self.current_leader == leader, f"averager does not follow {leader} (actual: {self.current_leader})"
														
 
															+        assert self.endpoint in ordered_group_endpoints, "Leader sent us group_endpoints that does not contain us!"
														
 
															+        allreduce_group = AllReduceRunner(
														
 
															+            group_id=group_id, tensors=self.averaged_tensors, endpoint=self.endpoint,
														
 
															+            ordered_group_endpoints=ordered_group_endpoints, compression_type=self.compression_type)
														
 
															+        self.assembled_group.set_result(allreduce_group)
														
 
															+        async with self.cond_notify_followers:
														
 
															+            self.cond_notify_followers.notify_all()
														
 
															+        return allreduce_group
														
 
															+
														
 
															+    async def leader_disband_group(self):
														
 
															+        """ Kick out all followers immediately, optionally direct them to our new leader (if we found one) """
														
 
															+        assert self.lock_request_join_group.locked()
														
 
															+        self.current_followers.clear()  # this will cause rpc_join_group to kick all followers out
														
 
															+        async with self.cond_notify_followers:
														
 
															+            self.cond_notify_followers.notify_all()
														
 
															+
														
 
															+
														
 
															+class PotentialLeaders:
														
 
															+    """ An utility class that searches for averagers that could become our leaders """
														
 
															+    def __init__(self, endpoint: Endpoint, dht: hivemind.DHT, averaging_expiration: DHTExpiration):
														
 
															+        self.endpoint, self.dht, self.averaging_expiration = endpoint, dht, averaging_expiration
														
 
															+        self.running, self.update_triggered, self.update_finished = asyncio.Event(), asyncio.Event(), asyncio.Event()
														
 
															+        self.leader_queue = TimedStorage[Endpoint, DHTExpiration]()
														
 
															+        self.max_assured_time = float('-inf')
														
 
															+        self.declared_expiration_time = float('inf')
														
 
															+        self.declared_group_key: Optional[GroupKey] = None
														
 
															+        self.search_end_time = float('inf')
														
 
															+
														
 
															+    @contextlib.asynccontextmanager
														
 
															+    async def begin_search(self, group_key: GroupKey, timeout: Optional[float]):
														
 
															+        assert not self.running.is_set(), "already running"
														
 
															+        self.running.set()
														
 
															+        self.search_end_time = get_dht_time() + timeout if timeout is not None else float('inf')
														
 
															+        update_queue_task = asyncio.create_task(self._update_queue_periodically(group_key))
														
 
															+        declare_averager_task = asyncio.create_task(self._declare_averager_periodically(group_key))
														
 
															+        try:
														
 
															+            yield self
														
 
															+        finally:
														
 
															+            update_queue_task.cancel()
														
 
															+            declare_averager_task.cancel()
														
 
															+            self.running.clear()
														
 
															+            self.update_triggered.clear()
														
 
															+            self.update_finished.clear()
														
 
															+
														
 
															+    @contextlib.asynccontextmanager
														
 
															+    async def pause_search(self):
														
 
															+        was_running = self.running.is_set()
														
 
															+        try:
														
 
															+            self.running.clear()
														
 
															+            yield
														
 
															+        finally:
														
 
															+            if was_running:
														
 
															+                self.running.set()
														
 
															+            else:
														
 
															+                self.running.clear()
														
 
															+
														
 
															+    async def pop_next_leader(self) -> Endpoint:
														
 
															+        """ Remove and return the next most suitable leader or throw an exception if reached timeout """
														
 
															+        assert self.running, "Not running search at the moment"
														
 
															+        maybe_next_leader, entry = self.leader_queue.top()
														
 
															+
														
 
															+        next_entry_time = entry.expiration_time if maybe_next_leader is not None else get_dht_time()
														
 
															+        if self.max_assured_time < next_entry_time < self.search_end_time:
														
 
															+            self.update_triggered.set()
														
 
															+
														
 
															+        if maybe_next_leader is None:
														
 
															+            await self.update_finished.wait()
														
 
															+            return await self.pop_next_leader()
														
 
															+
														
 
															+        del self.leader_queue[maybe_next_leader]
														
 
															+        return maybe_next_leader
														
 
															+
														
 
															+    async def _update_queue_periodically(self, group_key: GroupKey):
														
 
															+        DISCREPANCY = hivemind.utils.timed_storage.MAX_DHT_TIME_DISCREPANCY_SECONDS
														
 
															+        while get_dht_time() < self.search_end_time:
														
 
															+            new_peers = await self.dht.get_averagers(group_key, only_active=True, return_future=True)
														
 
															+            self.max_assured_time = max(self.max_assured_time, get_dht_time() + self.averaging_expiration - DISCREPANCY)
														
 
															+
														
 
															+            for peer, peer_expiration_time in new_peers:
														
 
															+                if peer == self.endpoint:
														
 
															+                    continue
														
 
															+                self.leader_queue.store(peer, peer_expiration_time, peer_expiration_time)
														
 
															+                self.max_assured_time = max(self.max_assured_time, peer_expiration_time - DISCREPANCY)
														
 
															+
														
 
															+            if len(self.leader_queue) > 0:
														
 
															+                self.update_finished.set()
														
 
															+
														
 
															+            await asyncio.wait(
														
 
															+                {self.running.wait(), self.update_triggered.wait()}, return_when=asyncio.ALL_COMPLETED,
														
 
															+                timeout=self.search_end_time - get_dht_time() if isfinite(self.search_end_time) else None)
														
 
															+            self.update_triggered.clear()
														
 
															+
														
 
															+    async def _declare_averager_periodically(self, group_key: GroupKey):
														
 
															+        try:
														
 
															+            while True:
														
 
															+                new_expiration_time = min(get_dht_time() + self.averaging_expiration, self.search_end_time)
														
 
															+                self.declared_group_key, self.declared_expiration_time = group_key, new_expiration_time
														
 
															+                stored_ok = await self.dht.declare_averager(group_key, self.endpoint, new_expiration_time,
														
 
															+                                                            looking_for_group=True, return_future=True)
														
 
															+                if stored_ok:
														
 
															+                    await asyncio.sleep(self.declared_expiration_time - get_dht_time())
														
 
															+                else:
														
 
															+                    logger.warning(f"Failed to subscribe to group {group_key} : store rejected by DHT peers")
														
 
															+        finally:
														
 
															+            if self.declared_group_key is not None:
														
 
															+                previous_declared_key, previous_expiration_time = self.declared_group_key, self.declared_expiration_time
														
 
															+                self.declared_group_key, self.declared_expiration_time = None, float('inf')
														
 
															+                self.leader_queue, self.max_assured_time = TimedStorage[Endpoint, DHTExpiration](), float('-inf')
														
 
															+                await self.dht.declare_averager(previous_declared_key, self.endpoint, previous_expiration_time,
														
 
															+                                                looking_for_group=False, return_future=True)
														
 
															+
														
 
															+
														
 
															+def compute_schema_hash(tensors: Sequence[torch.Tensor]) -> bytes:
														
 
															+    """ A hash that describes follower's tensor shapes, dtypes, devices, but not the actual values """
														
 
															+    schema_dicts = [{field_name: str(field_value)
														
 
															+                    for field_name, field_value in asdict(TensorDescriptor.from_tensor(tensor)).items()}
														
 
															+                    for tensor in tensors]
														
 
															+    return DHTID.generate(source=MSGPackSerializer.dumps(schema_dicts)).to_bytes()
														
--- a/hivemind/dht/__init__.py
+++ b/hivemind/dht/__init__.py
@@ -22,6 +22,7 @@ from concurrent.futures import ThreadPoolExecutor
 
															 from typing import List, Tuple, Optional, Sequence, Union, Dict, Deque, NamedTuple, Iterator, Set
														
 
															 import uvloop
														
 
															+from numpy import nextafter
														
 
															 from hivemind.client import RemoteExpert
														
 
															 from hivemind.dht.node import DHTNode, DHTID, DHTExpiration
														
@@ -37,16 +38,25 @@ FLAT_EXPERT = -1     # grid prefix reserved for storing 1d expert uids. Used to
 
															 UID_PATTERN = re.compile('^(([^.])+)([.](?:[0]|([1-9]([0-9]*))))+$')  # e.g. ffn_expert.98.76.54 - prefix + some dims
														
 
															 PREFIX_PATTERN = re.compile('^(([^.])+)([.](?:[0]|([1-9]([0-9]*))))*[.]$')  # e.g. expert. or ffn.45. (ends with ".")
														
 
															 #  formally, prefixes = {uid.split(UID_DELIMITER)[:length] for length in range(1, uid.count(UID_DELIMITER) + 2)}
														
 
															+GroupKey = str
														
 
															+GROUP_PATTERN = re.compile('^(([^.])+)[.]0b[01]+$')  # e.g. bert_exp4_averaging.0b01001101
														
 
															 def is_valid_uid(maybe_uid: str) -> bool:
														
 
															+    """ An uid must contain a string expert type, followed by one or more .-separated numeric indices """
														
 
															     return bool(UID_PATTERN.fullmatch(maybe_uid))
														
 
															 def is_valid_prefix(maybe_prefix: str) -> bool:
														
 
															+    """ An uid prefix must contain a string expert type, followed by optional numeric indices and a trailing period """
														
 
															     return bool(PREFIX_PATTERN.fullmatch(maybe_prefix))
														
 
															+def is_valid_group(maybe_group: str) -> bool:
														
 
															+    """ A group identifier must contain group type, followed by one or more .-separated indices, and any ?metadata"""
														
 
															+    return bool(GROUP_PATTERN.fullmatch(maybe_group))
														
 
															+
														
 
															+
														
 
															 def split_uid(uid_or_prefix: Union[ExpertUID, ExpertPrefix]) -> Tuple[ExpertPrefix, Coordinate]:
														
 
															     """ Separate an expert UID or prefix into a new ExpertPrefix and integer for the last coordinate """
														
 
															     uid_or_prefix = uid_or_prefix.rstrip(UID_DELIMITER)
														
@@ -118,6 +128,7 @@ class DHT(mp.Process):
 
															                  daemon: bool = True, max_workers: Optional[int] = None, parallel_rpc: Optional[int] = None,
														
 
															                  receiver_threads: int = 1, negative_caching: bool = True, expiration: float = 300, **kwargs):
														
 
															         super().__init__()
														
 
															+        assert not isinstance(initial_peers, str), "please specify a list/tuple of initial peers (even if there's one)"
														
 
															         self.listen_on, self.initial_peers, self.kwargs = listen_on, initial_peers, kwargs
														
 
															         self.receiver_threads, self.max_workers, self.parallel_rpc = receiver_threads, max_workers, parallel_rpc
														
 
															         self.expiration, self.negative_caching = expiration, negative_caching
														
@@ -457,3 +468,67 @@ class DHT(mp.Process):
 
															         if future is not None:
														
 
															             future.set_result(best_experts_batch)
														
 
															         return best_experts_batch
														
 
															+
														
 
															+    def declare_averager(self, group_key: GroupKey, endpoint: Endpoint, expiration_time: float, *,
														
 
															+                         looking_for_group: bool = True, return_future: bool = False) -> Union[bool, MPFuture]:
														
 
															+        """
														
 
															+        Add (or remove) the averager to a given allreduce bucket
														
 
															+
														
 
															+        :param group_key: allreduce group key, e.g. my_averager.0b011011101
														
 
															+        :param endpoint: averager public endpoint for incoming requests
														
 
															+        :param expiration_time: intent to run allreduce before this timestamp
														
 
															+        :param looking_for_group: by default (True), declare the averager as "looking for group" in a given group;
														
 
															+          If False, this will instead mark that the averager as no longer looking for group, (e.g. it already finished)
														
 
															+        :param return_future: if set to True, returns MPFuture that can be awaited to get the actual result
														
 
															+        :return: True if declared, False if declaration was rejected by DHT peers
														
 
															+        :note: when leaving (i.e. is_active=False), please specify the same expiration_time as when entering the group
														
 
															+        :note: setting is_active=False does *not* guarantee that others will immediately stop to query you.
														
 
															+        """
														
 
															+        assert is_valid_group(group_key), f"Group key {group_key} is invalid, must follow {GROUP_PATTERN}"
														
 
															+        future, _future = MPFuture.make_pair()
														
 
															+        self.pipe.send(('_declare_averager', [],
														
 
															+                        dict(group_key=group_key, endpoint=endpoint, expiration_time=expiration_time,
														
 
															+                             looking_for_group=looking_for_group, future=_future)))
														
 
															+        return future if return_future else future.result()
														
 
															+
														
 
															+    async def _declare_averager(self, node: DHTNode, *, group_key: str, endpoint: Endpoint,
														
 
															+                                expiration_time: DHTExpiration, looking_for_group: bool, future: MPFuture):
														
 
															+        try:
														
 
															+            expiration_time = expiration_time if looking_for_group else nextafter(expiration_time, float('inf'))
														
 
															+            # ^-- when declaring averager inactive, we increment expiration time to overwrite the pre-existing entry
														
 
															+            store_ok = await node.store(
														
 
															+                key=group_key, subkey=endpoint, value=looking_for_group, expiration_time=expiration_time)
														
 
															+            future.set_result(store_ok)
														
 
															+        except Exception as e:
														
 
															+            future.set_exception(e)
														
 
															+
														
 
															+    def get_averagers(self, group_key: GroupKey, *, only_active: bool = True, return_future: bool = False
														
 
															+                      ) -> Union[List[Tuple[Endpoint, DHTExpiration]], MPFuture]:
														
 
															+        """
														
 
															+        Find and return averagers in a specified all-reduce bucket
														
 
															+
														
 
															+        :param group_key: finds averagers that have the this group key, e.g. my_averager.0b011011101
														
 
															+        :param only_active: if True, return only active averagers that are looking for group (i.e. with value = True)
														
 
															+            if False, return all averagers under a given group_key regardless of value
														
 
															+        :param return_future: if set to True, returns MPFuture that can be awaited to get the actual result
														
 
															+        :return: endpoints and expirations of every matching averager
														
 
															+        """
														
 
															+        assert is_valid_group(group_key), f"Group key {group_key} is invalid, must follow {GROUP_PATTERN}"
														
 
															+        future, _future = MPFuture.make_pair()
														
 
															+        self.pipe.send(('_get_averagers', [], dict(group_key=group_key, only_active=only_active, future=_future)))
														
 
															+        return future if return_future else future.result()
														
 
															+
														
 
															+    async def _get_averagers(self, node: DHTNode, *, group_key: str, only_active: bool, future: MPFuture):
														
 
															+        try:
														
 
															+            result = await node.get(group_key, latest=True)
														
 
															+            if result is None:
														
 
															+                logger.debug(f"Allreduce group not found: {group_key}, creating new group.")
														
 
															+                future.set_result([])
														
 
															+                return
														
 
															+            assert isinstance(result.value, dict), f"expected {group_key} to be a Dict[Endpoint, is_active], " \
														
 
															+                                                   f"but got {result.value} of type {type(result.value)}."
														
 
															+            averagers = [(endpoint, entry.expiration_time) for endpoint, entry in result.value.items()
														
 
															+                         if not only_active or entry.value is True]
														
 
															+            future.set_result(averagers)
														
 
															+        except Exception as e:
														
 
															+            future.set_exception(e)
														
--- a/hivemind/proto/averaging.proto
+++ b/hivemind/proto/averaging.proto
@@ -4,34 +4,37 @@ import "runtime.proto";
 
															 // Runs alongside each trainer to perform gating function averaging every now and then. Read more: client/averaging.py
														
 
															 service DecentralizedAveraging {
														
 
															-  rpc rpc_group_allreduce(PeerInfo) returns (stream MessageFromLeader);  // assemble a group and run all-reduce
														
 
															+  rpc rpc_join_group(JoinRequest) returns (stream MessageFromLeader);  // assemble a group for allreduce
														
 
															   rpc rpc_aggregate_part(AveragingData) returns (AveragingData);  // send my local shard => get aggregated shard
														
 
															 }
														
 
															-message PeerInfo {
														
 
															+enum MessageCode {
														
 
															+  NO_CODE = 0;               // Default value that should not be used explicitly
														
 
															+  REQUEST_JOIN = 1;          // "Dear maybe leader, will you have me in your group as a follower?"
														
 
															+  ACCEPTED = 2;              // "I accept you in my group, you now commit to responding to me"
														
 
															+  BEGIN_ALLREDUCE = 3;       // "We can begin allreduce now. These are your peers."
														
 
															+  PART_FOR_AVERAGING = 4;    // "I am running allreduce with you, here's a part of my tensor that you should aggregate"
														
 
															+  AVERAGED_PART = 5;         // "I aggregated your part with others and here's the average for that part"
														
 
															+  NOT_DECLARED = 6;          // "I have not declared my group id yet, how the heck did you even find me? Go away."
														
 
															+  NOT_A_LEADER = 7;          // "I am not a group a leader. Go ask my leader instead."
														
 
															+  BAD_EXPIRATION_TIME = 8;   // "I will not accept you. I cannot guarantee that we begin before you expire."
														
 
															+  BAD_SCHEMA_HASH = 9;       // "I will not accept you. I am not averaging the samy type of tensors as you."
														
 
															+  BAD_GROUP_ID = 10;         // "I will not accept your request, your group id does not match with any groups i'm in."
														
 
															+  DUPLICATE_ENDPOINT = 11;   // "I will not accept you, i already have exactly the same endpoint in my current group."
														
 
															+  GROUP_IS_FULL = 12;        // "I will not accept you, my group already contains too many peers."
														
 
															+  NOT_LOOKING_FOR_GROUP = 13;// "I'm not available at the moment. Please, get lost."
														
 
															+  PROTOCOL_VIOLATION = 14;   // "You did something so unspeakable that i don't have a special code for that."
														
 
															+  INTERNAL_ERROR = 15;       // "I messed up, we will have to stop allreduce because of that."
														
 
															+  CANCELLED = 16;            // "[from peer during allreduce] I no longer want to participate in AllReduce."
														
 
															+  GROUP_DISBANDED = 17;      // "[from leader] The group is closed. Go find another group."
														
 
															+}
														
 
															+
														
 
															+message JoinRequest {
														
 
															   string endpoint = 1;          // A follower accepts incoming allreduce requests at this address
														
 
															   bytes schema_hash = 2;        // A hash that describes follower's tensors (shapes, num tensors, etc)
														
 
															   double expiration = 3;        // Follower would like to **begin** all_reduce by this point in time
														
 
															 }
														
 
															-enum MessageCode {
														
 
															-  // response to join request
														
 
															-  ACCEPTED = 0;              // "I accept you in my group, you will not commit to responding to me."
														
 
															-  NOT_A_LEADER = 1;          // "I am not a group a leader. Go ask my leader instead."
														
 
															-  ALREADY_RUNNING = 2;       // "My group has already began merging. Here's the group leader."
														
 
															-  NOT_LOOKING_FOR_GROUP = 3; // "I'm not available at the moment. Please, get lost."
														
 
															-  BAD_EXPIRATION_TIME = 4;   // "I will not accept you. I cannot guarantee that we begin before you expire."
														
 
															-  BAD_SCHEMA_HASH = 5;       // "I will not accept you. I am not averaging the samy type of tensors as you."
														
 
															-  DUPLICATE_ENDPOINT = 6;    // "I will not accept you, i already have exactly the same endpoint in my current group"
														
 
															-  GROUP_IS_FULL = 7;         // "I will not accept you, my group already contains too many peers"
														
 
															-  BEGIN_ALLREDUCE = 8;       // "We can begin allreduce now. These are your peers."
														
 
															-  GROUP_DISBANDED = 9;       // "The group is closed. Go find another group."
														
 
															-  UNKNOWN_GROUP_ID = 10;     // "Your request uses a group id that doesn't match with any group i know"
														
 
															-  PROTOCOL_VIOLATION = 11;   // "One of peers did something in violation of the allreduce protocol"
														
 
															-  INTERNAL_ERROR = 12;       // "We encountered an unexpected error on our side"
														
 
															-  CANCELLED = 13;            // "A peer cancelled allreduce while averaging"
														
 
															-}
														
 
															-
														
 
															 message MessageFromLeader {
														
 
															   MessageCode code = 1;
														
 
															   bytes group_id = 2;        // a unique identifier of this group, only valid until allreduce is finished/failed
														
--- a/hivemind/utils/timed_storage.py
+++ b/hivemind/utils/timed_storage.py
@@ -8,6 +8,7 @@ from typing import TypeVar, NamedTuple, Generic, Optional, Dict, List, Iterator,
 
															 KeyType = TypeVar('KeyType')
														
 
															 ValueType = TypeVar('ValueType')
														
 
															 get_dht_time = time.time  # a global (weakly synchronized) time
														
 
															+MAX_DHT_TIME_DISCREPANCY_SECONDS = 3  # max allowed difference between get_dht_time for two DHT nodes. Enforced when joining DHT.(TODO)
														
 
															 DHTExpiration = float
														
 
															 ROOT = 0
														
--- a/tests/test_averaging.py
+++ b/tests/test_averaging.py
@@ -1,46 +1,62 @@
 
															 import asyncio
														
 
															 import random
														
 
															 import time
														
 
															-from itertools import product
														
 
															 import torch
														
 
															 import pytest
														
 
															 import hivemind
														
 
															-from hivemind.client.allreduce import GroupAllReduce, split_into_parts, restore_from_parts
														
 
															-from hivemind.utils import LOCALHOST
														
 
															+from hivemind.client.averaging.allreduce import AllReduceProtocol, split_into_parts, restore_from_parts
														
 
															+from hivemind.utils import Endpoint
														
 
															 @pytest.mark.forked
														
 
															-@pytest.mark.asyncio
														
 
															-async def test_allreduce_direct():
														
 
															-    # WARNING! this test uses an early interface that will change by the time DecentralizedAverager is finished
														
 
															+def test_getset_averagers():
														
 
															+    dht = hivemind.DHT(start=True)
														
 
															+
														
 
															+    t = hivemind.get_dht_time()
														
 
															+    dht.declare_averager(group_key='bucket.0b10110', endpoint='localhvost', expiration_time=t + 60)
														
 
															+    dht.declare_averager(group_key='bucket.0b10110', endpoint='localhvost2', expiration_time=t + 61)
														
 
															+
														
 
															+    q1 = dht.get_averagers('bucket.0b10110', only_active=True)
														
 
															+
														
 
															+    dht.declare_averager(group_key='bucket.0b10110', endpoint='localhvost', expiration_time=t + 66)
														
 
															+    q2 = dht.get_averagers('bucket.0b10110', only_active=True)
														
 
															+
														
 
															+    dht.declare_averager(group_key='bucket.0b10110', endpoint='localhvost2', looking_for_group=False,
														
 
															+                         expiration_time=t + 61)
														
 
															+    q3 = dht.get_averagers('bucket.0b10110', only_active=True)
														
 
															+    q4 = dht.get_averagers('bucket.0b10110', only_active=False)
														
 
															+
														
 
															+    assert len(q1) == 2 and ('localhvost', t + 60) in q1 and ('localhvost2', t + 61) in q1
														
 
															+    assert len(q2) == 2 and ('localhvost', t + 66) in q2 and ('localhvost2', t + 61) in q2
														
 
															+    assert len(q3) == 1 and ('localhvost', t + 66) in q3
														
 
															+    assert len(q4) == 2 and ('localhvost', t + 66) in q4 and ('localhvost2', t + 61) in q2
														
 
															+
														
 
															+@pytest.mark.forked
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_allreduce_once():
														
 
															     dht = hivemind.DHT(start=True)
														
 
															     tensors1 = [torch.randn(123), torch.zeros(3)]
														
 
															     tensors2 = [torch.rand(123), torch.ones(3)]
														
 
															     tensors3 = [-torch.rand(123), torch.arange(3).to(torch.float32)]
														
 
															+    tensors4 = [torch.randn(123) ** 3, torch.arange(3).to(torch.float32) / 2]
														
 
															-    reference = [(tensors1[i] + tensors2[i] + tensors3[i]) / 3 for i in range(len(tensors1))]
														
 
															-
														
 
															-    averager1 = hivemind.DecentralizedAverager(tensors1, dht=dht, start=True, max_size=3, timeout=5)
														
 
															-    averager2 = hivemind.DecentralizedAverager(tensors2, dht=dht, start=True, max_size=3, timeout=5)
														
 
															-    averager3 = hivemind.DecentralizedAverager(tensors3, dht=dht, start=True, max_size=3, timeout=5)
														
 
															-
														
 
															-    future1 = averager1.group_allreduce(my_endpoint=f"{LOCALHOST}:{averager1.port}",
														
 
															-                                        leader_endpoint=None, return_future=True)
														
 
															-    time.sleep(0.1)
														
 
															+    reference = [(tensors1[i] + tensors2[i] + tensors3[i] + tensors4[i]) / 4 for i in range(len(tensors1))]
														
 
															-    future2 = averager2.group_allreduce(my_endpoint=f"{LOCALHOST}:{averager2.port}",
														
 
															-                                        leader_endpoint=f"{LOCALHOST}:{averager1.port}",
														
 
															-                                        return_future=True)
														
 
															+    averagers = [hivemind.DecentralizedAverager(tensors, dht=dht, target_group_size=4, averaging_expiration=15,
														
 
															+                                                prefix='mygroup', initial_group_bits='0110', listen_on='127.0.0.1:*',
														
 
															+                                                start=True)
														
 
															+                 for tensors in [tensors1, tensors2, tensors3, tensors4]]
														
 
															-    future3 = averager3.group_allreduce(my_endpoint=f"{LOCALHOST}:{averager3.port}",
														
 
															-                                        leader_endpoint=f"{LOCALHOST}:{averager1.port}",
														
 
															-                                        return_future=True)
														
 
															+    futures = []
														
 
															+    for averager in averagers:
														
 
															+        futures.append(averager.step(return_future=True))  # TODO revert to hard version
														
 
															+        time.sleep(0.5)
														
 
															-    for future in future1, future2, future3:
														
 
															-        for ref, our in zip(reference, await future):
														
 
															+    for future in futures:
														
 
															+        for ref, our in zip(reference, future.result()):
														
 
															             assert torch.allclose(ref, our)
														
@@ -49,50 +65,36 @@ async def test_allreduce_direct():
 
															 async def test_allreduce_protocol():
														
 
															     """ Run group allreduce protocol manually without grpc, see if the internal logic is working as intended """
														
 
															     peers = "alice", "bob", "carol"
														
 
															-    expiration_offsets = 4, 0, 1
														
 
															     tensors_by_peer = {peer: [torch.randn(3, 128), torch.rand(32), torch.tensor(i, dtype=torch.float32)]
														
 
															                        for i, peer in enumerate(peers)}
														
 
															-    alice, bob, carol = allreduce_protocols = [
														
 
															-        GroupAllReduce(endpoint=peer, expiration=hivemind.get_dht_time() + offset, tensors=tensors_by_peer[peer])
														
 
															-        for peer, offset in zip(peers, expiration_offsets)]
														
 
															-
														
 
															-    bob.start_new_group()
														
 
															-    bob.add_peer_to_group(alice.info.endpoint)
														
 
															-    alice.join_group(bob, bob.group_id)
														
 
															-    bob.add_peer_to_group(carol.info.endpoint)
														
 
															-    carol.join_group(carol, bob.group_id)
														
 
															-
														
 
															-    bob.leader_begin_allreduce()
														
 
															-    ordered_group_endpoints = await bob.assembled_group
														
 
															-    assert len(ordered_group_endpoints) == len(peers)
														
 
															-
														
 
															-    carol.follower_begin_allreduce(ordered_group_endpoints)
														
 
															-    alice.follower_begin_allreduce(ordered_group_endpoints)
														
 
															-
														
 
															-    chunks_by_peer = {protocol.info.endpoint: {
														
 
															-        peer: part for peer, part in zip(peers, split_into_parts(protocol.local_tensors, len(ordered_group_endpoints)))
														
 
															-    } for protocol in allreduce_protocols}
														
 
															+    group_id = random.getrandbits(160).to_bytes(length=20, byteorder='big')
														
 
															+    allreduce_protocols = [AllReduceProtocol(
														
 
															+        group_id=group_id, endpoint=peer, tensors=tensors_by_peer[peer], ordered_group_endpoints=peers)
														
 
															+        for peer in peers]
														
 
															-    all_pairs = list(product(allreduce_protocols, peers))
														
 
															-    random.shuffle(all_pairs)
														
 
															-    await asyncio.gather(*(
														
 
															-        peer_allreduce.accumulate(source_peer, chunks_by_peer[source_peer][peer_allreduce.info.endpoint])
														
 
															-        for peer_allreduce, source_peer in all_pairs))
														
 
															+    async def _accumulate(sender: Endpoint, recipient: Endpoint):
														
 
															+        sender_allreduce = allreduce_protocols[peers.index(sender)]
														
 
															+        recipient_allreduce = allreduce_protocols[peers.index(recipient)]
														
 
															+        averaged_part = await recipient_allreduce.accumulate_part(
														
 
															+            source=sender, remote_part=sender_allreduce.local_tensor_parts[recipient])
														
 
															+        sender_allreduce.register_averaged_part(source=recipient, averaged_part=averaged_part)
														
 
															-    averaged_parts = await asyncio.gather(*(protocol.averaged_part for protocol in allreduce_protocols))
														
 
															-    tensor_shapes = [tensor.shape for tensor in alice.local_tensors]
														
 
															-    averaged_tensors = restore_from_parts(averaged_parts, tensor_shapes)
														
 
															+    await asyncio.wait({_accumulate(sender, recipient) for sender in peers for recipient in peers
														
 
															+                        if sender != recipient})
														
 
															     reference_tensors = [
														
 
															         sum(tensors_by_peer[peer][i] for peer in peers) / len(peers)
														
 
															         for i in range(len(tensors_by_peer[peers[0]]))
														
 
															     ]
														
 
															-    assert len(averaged_tensors) == len(reference_tensors)
														
 
															-    assert all(torch.allclose(our, ref, atol=1e-6, rtol=0)
														
 
															-               for our, ref in zip(averaged_tensors, reference_tensors))
														
 
															+    for peer, allreduce in zip(peers, allreduce_protocols):
														
 
															+        assert allreduce.averaged_tensors.done()
														
 
															+        averaged_tensors = await allreduce
														
 
															+        assert len(averaged_tensors) == len(reference_tensors)
														
 
															+        assert all(torch.allclose(our, ref, atol=1e-6, rtol=0)
														
 
															+                   for our, ref in zip(averaged_tensors, reference_tensors))
														
 
															 @pytest.mark.forked