4 년 전 · 20f19b122f
--- a/hivemind/averaging/allreduce.py
+++ b/hivemind/averaging/allreduce.py
@@ -30,6 +30,10 @@ class AllReduceRunner(ServicerBase):
 
															     creating a full DecentralizedAverager.
														
 
															     :note: this class returns **differences** between averaged and local tensors in order to improve numerical stability
														
 
															+    :param p2p: a hivemind.p2p.P2P instance used for communication with other peers
														
 
															+    :param servicer: a hivemind.p2p.ServicerBase instance whose RPC signatures are used when requesting other peers.
														
 
															+      Typically, it is a DecentralizedAverager instance or its derivative.
														
 
															+      If None, uses ``self`` for this purpose (since this class may be a servicer itself for testing purposes).
														
 
															     :param group_id: unique identifier of this specific all-reduce run
														
 
															     :param tensors: local tensors that should be averaged with groupmates
														
 
															     :param tensors: local tensors that should be averaged with groupmates
														
@@ -47,6 +51,7 @@ class AllReduceRunner(ServicerBase):
 
															         self,
														
 
															         *,
														
 
															         p2p: P2P,
														
 
															+        servicer: Optional[ServicerBase],
														
 
															         group_id: GroupID,
														
 
															         tensors: Sequence[torch.Tensor],
														
 
															         ordered_group_endpoints: Sequence[Endpoint],
														
@@ -60,6 +65,10 @@ class AllReduceRunner(ServicerBase):
 
															         self.endpoint = p2p.id
														
 
															         assert self.endpoint in ordered_group_endpoints, "endpoint is not a part of the group"
														
 
															+        if servicer is None:
														
 
															+            servicer = self
														
 
															+        self._servicer = servicer
														
 
															+
														
 
															         modes = modes or tuple(AveragingMode.CLIENT if frac == 0 else AveragingMode.NODE for frac in peer_fractions)
														
 
															         weights = weights or tuple(int(mode != AveragingMode.AUX) for mode in modes)
														
 
															         assert len(weights) == len(modes) == len(ordered_group_endpoints), "lists have inconsistent length"
														
@@ -102,9 +111,7 @@ class AllReduceRunner(ServicerBase):
 
															         return len(self.ordered_group_endpoints)
														
 
															     def _get_stub(self, peer: Endpoint) -> StubBase:
														
 
															-        from hivemind.averaging.averager import DecentralizedAverager
														
 
															-
														
 
															-        return DecentralizedAverager.get_stub(self._p2p, peer)
														
 
															+        return self._servicer.get_stub(self._p2p, peer)
														
 
															     async def run(self) -> AsyncIterator[torch.Tensor]:
														
 
															         """Run all-reduce, return differences between averaged and original tensors as they are computed"""
														
--- a/hivemind/averaging/averager.py
+++ b/hivemind/averaging/averager.py
@@ -214,7 +214,12 @@ class DecentralizedAverager(mp.Process, ServicerBase):
 
															                     logger.debug(f"The averager is running in client mode.")
														
 
															                 self._matchmaking = Matchmaking(
														
 
															-                    self._p2p, self.schema_hash, self.dht, **self.matchmaking_kwargs, client_mode=self.client_mode
														
 
															+                    self._p2p,
														
 
															+                    self,
														
 
															+                    self.schema_hash,
														
 
															+                    self.dht,
														
 
															+                    client_mode=self.client_mode,
														
 
															+                    **self.matchmaking_kwargs,
														
 
															                 )
														
 
															                 if not self.client_mode:
														
 
															                     asyncio.create_task(self._declare_for_download_periodically())
														
@@ -378,6 +383,7 @@ class DecentralizedAverager(mp.Process, ServicerBase):
 
															             async with self.get_tensors_async() as local_tensors:
														
 
															                 allreduce = AllReduceRunner(
														
 
															                     p2p=self._p2p,
														
 
															+                    servicer=self,
														
 
															                     group_id=group_info.group_id,
														
 
															                     tensors=local_tensors,
														
 
															                     ordered_group_endpoints=group_info.endpoints,
														
--- a/hivemind/averaging/matchmaking.py
+++ b/hivemind/averaging/matchmaking.py
@@ -13,7 +13,7 @@ import asyncio
 
															 from hivemind.averaging.group_info import GroupInfo
														
 
															 from hivemind.averaging.key_manager import GroupKeyManager, GroupKey
														
 
															 from hivemind.dht import DHT, DHTID, DHTExpiration
														
 
															-from hivemind.p2p import P2P, P2PContext, P2PHandlerError, PeerID as Endpoint
														
 
															+from hivemind.p2p import P2P, P2PContext, P2PHandlerError, PeerID as Endpoint, ServicerBase
														
 
															 from hivemind.utils import get_logger, timed_storage, TimedStorage, get_dht_time
														
 
															 from hivemind.utils.asyncio import anext
														
 
															 from hivemind.proto import averaging_pb2
														
@@ -37,6 +37,7 @@ class Matchmaking:
 
															     def __init__(
														
 
															         self,
														
 
															         p2p: P2P,
														
 
															+        servicer: ServicerBase,
														
 
															         schema_hash: bytes,
														
 
															         dht: DHT,
														
 
															         *,
														
@@ -57,6 +58,7 @@ class Matchmaking:
 
															         super().__init__()
														
 
															         self._p2p = p2p
														
 
															+        self._servicer = servicer
														
 
															         self.endpoint = p2p.id
														
 
															         self.schema_hash = schema_hash
														
 
															         self.group_key_manager = GroupKeyManager(dht, prefix, initial_group_bits, target_group_size)
														
@@ -173,9 +175,7 @@ class Matchmaking:
 
															         stream: AsyncIterator[averaging_pb2.MessageFromLeader] = None
														
 
															         try:
														
 
															             async with self.lock_request_join_group:
														
 
															-                from hivemind.averaging.averager import DecentralizedAverager
														
 
															-
														
 
															-                leader_stub = DecentralizedAverager.get_stub(self._p2p, leader)
														
 
															+                leader_stub = self._servicer.get_stub(self._p2p, leader)
														
 
															                 stream = leader_stub.rpc_join_group(
														
 
															                     averaging_pb2.JoinRequest(
														
--- a/hivemind/dht/__init__.py
+++ b/hivemind/dht/__init__.py
@@ -24,9 +24,9 @@ from typing import Awaitable, Callable, Iterable, List, Optional, Sequence, Type
 
															 from multiaddr import Multiaddr
														
 
															 from hivemind.dht.node import DHTNode
														
 
															-from hivemind.p2p import P2P, PeerID
														
 
															 from hivemind.dht.routing import DHTID, DHTKey, DHTValue, Subkey
														
 
															 from hivemind.dht.validation import CompositeValidator, RecordValidatorBase
														
 
															+from hivemind.p2p import P2P, PeerID
														
 
															 from hivemind.utils import DHTExpiration, MPFuture, ValueWithExpiration, await_cancelled, get_logger, switch_to_uvloop
														
 
															 logger = get_logger(__name__)
														
--- a/tests/test_allreduce.py
+++ b/tests/test_allreduce.py
@@ -176,10 +176,6 @@ NODE, CLIENT, AUX = AveragingMode.NODE, AveragingMode.CLIENT, AveragingMode.AUX
 
															 async def test_allreduce_protocol(peer_modes, averaging_weights, peer_fractions, part_size_bytes):
														
 
															     """Run group allreduce protocol manually without grpc, see if the internal logic is working as intended"""
														
 
															-    class AllreduceRunnerForTesting(AllReduceRunner):
														
 
															-        def _get_stub(self, peer: str) -> StubBase:
														
 
															-            return AllreduceRunnerForTesting.get_stub(self._p2p, peer)
														
 
															-
														
 
															     p2ps = [await P2P.create()]
														
 
															     visible_maddrs = await p2ps[0].get_visible_maddrs()
														
 
															     p2ps += await asyncio.gather(*[P2P.create(initial_peers=visible_maddrs) for _ in range(3)])
														
@@ -194,8 +190,9 @@ async def test_allreduce_protocol(peer_modes, averaging_weights, peer_fractions,
 
															     allreduce_protocols = []
														
 
															     for p2p in p2ps:
														
 
															-        allreduce_protocol = AllreduceRunnerForTesting(
														
 
															+        allreduce_protocol = AllReduceRunner(
														
 
															             p2p=p2p,
														
 
															+            servicer=AllReduceRunner,
														
 
															             group_id=group_id,
														
 
															             tensors=[x.clone() for x in tensors_by_peer[p2p.id]],
														
 
															             ordered_group_endpoints=peers,