3 жил өмнө · 2e763be1de
--- a/docs/user/quickstart.md
+++ b/docs/user/quickstart.md
@@ -58,7 +58,6 @@ opt = hivemind.Optimizer(
 
															     batch_size_per_step=32,   # each call to opt.step adds this many samples towards the next epoch
														
 
															     target_batch_size=10000,  # after peers collectively process this many samples, average weights and begin the next epoch 
														
 
															     optimizer=opt,            # wrap the SGD optimizer defined above
														
 
															-    use_local_updates=True,   # perform optimizer steps with local gradients, average parameters in background
														
 
															     matchmaking_time=3.0,     # when averaging parameters, gather peers in background for up to this many seconds
														
 
															     averaging_timeout=10.0,   # give up on averaging if not successful in this many seconds
														
 
															     verbose=True              # print logs incessently
														
@@ -111,6 +110,7 @@ from tqdm.auto import tqdm
 
															 import hivemind
														
 
															+
														
 
															 # Create dataset and model, same as in the basic tutorial
														
 
															 # For this basic tutorial, we download only the training set
														
 
															 transform = transforms.Compose(
														
@@ -134,7 +134,6 @@ opt = hivemind.Optimizer(
 
															     batch_size_per_step=32,   # each call to opt.step adds this many samples towards the next epoch
														
 
															     target_batch_size=10000,  # after peers collectively process this many samples, average weights and begin the next epoch
														
 
															     optimizer=opt,            # wrap the SGD optimizer defined above
														
 
															-    use_local_updates=True,   # perform optimizer steps with local gradients, average parameters in background
														
 
															     matchmaking_time=3.0,     # when averaging parameters, gather peers in background for up to this many seconds
														
 
															     averaging_timeout=10.0,   # give up on averaging if not successful in this many seconds
														
 
															     verbose=True              # print logs incessently
														
--- a/hivemind/optim/grad_averager.py
+++ b/hivemind/optim/grad_averager.py
@@ -1,5 +1,5 @@
 
															 import contextlib
														
 
															-from typing import Iterable, Iterator, Optional, Sequence
														
 
															+from typing import Any, Callable, Union, Iterable, Iterator, Optional, Sequence, Type, TypeVar
														
 
															 import torch
														
@@ -11,6 +11,10 @@ from hivemind.utils import DHTExpiration, get_dht_time, get_logger
 
															 logger = get_logger(__name__)
														
 
															+TGradientAverager = TypeVar('TGradientAverager', bound='GradientAverager')
														
 
															+GradientAveragerFactory = Callable[[Type[TGradientAverager], Any], TGradientAverager]
														
 
															+
														
 
															+
														
 
															 class GradientAverager(DecentralizedAverager):
														
 
															     """
														
 
															     An auxiliary averaging class that is responsible for accumulating gradients and aggregating them with peers.
														
@@ -75,7 +79,7 @@ class GradientAverager(DecentralizedAverager):
 
															         accumulate_grads_on: Optional[torch.device] = None,
														
 
															         client_mode: bool = None,
														
 
															         warn: bool = True,
														
 
															-        grad_extra_tensors: Sequence[torch.Tensor] = (),
														
 
															+        averaged_grads: Sequence[torch.Tensor] = (),
														
 
															         **kwargs,
														
 
															     ):
														
 
															         if reuse_grad_buffers and accumulate_grads_on is not None:
														
@@ -96,9 +100,7 @@ class GradientAverager(DecentralizedAverager):
 
															         self._new_averaged_grads = False
														
 
															         with torch.no_grad():
														
 
															-            if grad_extra_tensors:
														
 
															-                averaged_grads = grad_extra_tensors
														
 
															-            else:
														
 
															+            if not averaged_grads:
														
 
															                 averaged_grads = tuple(
														
 
															                     grad.detach().cpu().clone().share_memory_() for grad in self._grads_from_parameters()
														
 
															                 )
														
@@ -228,3 +230,9 @@ class GradientAverager(DecentralizedAverager):
 
															     def notify_used_averaged_gradients(self):
														
 
															         """Notify averager that the results of a previous averaging round are accounted for"""
														
 
															         self._new_averaged_grads = False
														
 
															+
														
 
															+    @classmethod
														
 
															+    def get_factory(cls, **kwargs1) -> GradientAveragerFactory:
														
 
															+        def _factory(**kwargs2):
														
 
															+            return cls(**kwargs1, **kwargs2)
														
 
															+        return _factory
														
--- a/hivemind/optim/optimizer.py
+++ b/hivemind/optim/optimizer.py
@@ -11,7 +11,7 @@ import torch
 
															 from hivemind.averaging.control import AveragingStage, StepControl
														
 
															 from hivemind.compression import CompressionBase, NoCompression
														
 
															 from hivemind.dht import DHT
														
 
															-from hivemind.optim.grad_averager import GradientAverager
														
 
															+from hivemind.optim.grad_averager import GradientAverager, GradientAveragerFactory
														
 
															 from hivemind.optim.grad_scaler import GradScaler
														
 
															 from hivemind.optim.power_ef_averager import PowerEFGradientAverager
														
 
															 from hivemind.optim.progress_tracker import LocalTrainingProgress, ProgressTracker
														
@@ -35,7 +35,7 @@ class Optimizer(torch.optim.Optimizer):
 
															     By default, Optimizer is configured to be exactly **equivalent to synchronous training** with target_batch_size.
														
 
															     There are advanced options make training semi-asynchronous (delay_optimizer_step and delay_gradient_averaging)
														
 
															-    or even fully asynchronous (use_local_updates=True).
														
 
															+    or even fully asynchronous (grad_averager=None).
														
 
															     :example: The Optimizer can be used as a drop-in replacement for a regular PyTorch Optimizer:
														
@@ -140,10 +140,6 @@ class Optimizer(torch.optim.Optimizer):
 
															       hardly ever skip averaging rounds, they can average state less frequently. In turn, network failures, lossy
														
 
															       gradient compression and local_updates cause parameters to diverge faster and requires more frequent averaging.
														
 
															-    :param use_local_updates: if enabled, peers will update parameters on each .step using local gradients;
														
 
															-      if not enabled (default), accumulate gradients to target_batch_size, and then call .step with averaged gradients.
														
 
															-      Even if use_local_updates=True, learning rate scheduler will still be called once per target_batch_size.
														
 
															-
														
 
															     :param client_mode: if True, this peer will not accept incoming connections (firewall-compatible mode)
														
 
															     :param auxiliary: if True, optimizer.step will only assist other peers in averaging (for cpu-only workers)
														
@@ -184,17 +180,16 @@ class Optimizer(torch.optim.Optimizer):
 
															         delay_grad_averaging: bool = False,
														
 
															         delay_state_averaging: bool = True,
														
 
															         average_state_every: int = 1,
														
 
															-        use_local_updates: bool = False,
														
 
															         client_mode: bool = None,
														
 
															         auxiliary: bool = False,
														
 
															         grad_compression: CompressionBase = NoCompression(),
														
 
															-        grad_rank_averager: Optional[str] = None,
														
 
															+        grad_averager: Optional[GradientAveragerFactory] = GradientAverager.get_factory(),
														
 
															+        use_ext_grad_buffer: bool = False,
														
 
															         state_averaging_compression: CompressionBase = NoCompression(),
														
 
															         load_state_compression: CompressionBase = NoCompression(),
														
 
															         average_opt_statistics: Sequence[str] = (),
														
 
															         extra_tensors: Sequence[torch.Tensor] = (),
														
 
															         averager_opts: Optional[dict] = None,
														
 
															-        grad_averager_opts: Optional[dict] = dict(),
														
 
															         tracker_opts: Optional[dict] = None,
														
 
															         performance_ema_alpha: float = 0.1,
														
 
															         shutdown_timeout: float = 5,
														
@@ -223,10 +218,14 @@ class Optimizer(torch.optim.Optimizer):
 
															                 "(A) hivemind.Optimizer(..., params=params, optimizer=lambda params: create_opt(params)\n"
														
 
															                 "(B) hivemind.Optimizer(..., optimizer=pre_initialize_optimizer)"
														
 
															             )
														
 
															-        if use_local_updates:
														
 
															+        if grad_averager is None:
														
 
															             assert not reuse_grad_buffers, "if local_updates is True, gradients will not be accumulated"
														
 
															             assert not delay_grad_averaging, "if local_updates is True, gradients will not be averaged"
														
 
															+        params = list(params) if params is not None else optimizer.param_groups
														
 
															+        if all(isinstance(p, torch.Tensor) for p in params):
														
 
															+            params = (dict(params=params),)
														
 
															+
														
 
															         self.dht, self.run_id, self.client_mode, self.auxiliary = dht, run_id, client_mode, auxiliary
														
 
															         self.batch_size_per_step, self.target_batch_size = batch_size_per_step, target_batch_size
														
 
															         self.delay_state_averaging, self.average_state_every = delay_state_averaging, average_state_every
														
@@ -244,23 +243,19 @@ class Optimizer(torch.optim.Optimizer):
 
															         self.tracker = self._make_progress_tracker(
														
 
															             target_batch_size, performance_ema_alpha=performance_ema_alpha, **tracker_opts or {}
														
 
															         )
														
 
															-        if grad_rank_averager == "power_ef" and not use_local_updates:
														
 
															-            assert len(extra_tensors) == 0
														
 
															-            grad_extra_tensors = [
														
 
															-                torch.zeros_like(param, device="cpu")
														
 
															-                for param_group in optimizer.param_groups
														
 
															-                for param in param_group["params"]
														
 
															+        averaged_grads = None
														
 
															+        if use_ext_grad_buffer:
														
 
															+            assert grad_averager is not None, "Use external gradient buffers only with working gradient averager."
														
 
															+            averaged_grads = [
														
 
															+                torch.zeros_like(param, device="cpu").share_memory_()
														
 
															+                for param_group in params for param in param_group["params"]
														
 
															             ]
														
 
															-            for tensor in grad_extra_tensors:
														
 
															-                if tensor is not None:
														
 
															-                    tensor.share_memory_()
														
 
															-            grad_averager_opts["grad_extra_tensors"] = grad_extra_tensors
														
 
															-            extra_tensors = [e for e in extra_tensors] + [eg for eg in grad_extra_tensors]
														
 
															+            extra_tensors = [e for e in extra_tensors] + [ag for ag in averaged_grads]
														
 
															         self.state_averager = self._make_state_averager(
														
 
															             optimizer=optimizer,
														
 
															             params=params,
														
 
															             scheduler=scheduler,
														
 
															-            delta_rule_averaging=use_local_updates and self.delay_state_averaging,
														
 
															+            delta_rule_averaging=grad_averager is None and self.delay_state_averaging,
														
 
															             compression=state_averaging_compression,
														
 
															             state_compression=load_state_compression,
														
 
															             average_opt_statistics=average_opt_statistics,
														
@@ -268,12 +263,11 @@ class Optimizer(torch.optim.Optimizer):
 
															             extra_tensors=extra_tensors,
														
 
															             **averager_opts or {},
														
 
															         )
														
 
															-        if not use_local_updates:
														
 
															+        if grad_averager:
														
 
															             self.grad_averager = self._make_gradient_averager(
														
 
															                 reuse_grad_buffers=reuse_grad_buffers,
														
 
															-                grad_rank_averager=grad_rank_averager,
														
 
															-                compression=grad_compression,
														
 
															-                **grad_averager_opts or {},
														
 
															+                grad_averager=grad_averager,
														
 
															+                averaged_grads=averaged_grads
														
 
															             )
														
 
															         else:
														
 
															             self.grad_averager = None
														
@@ -307,13 +301,9 @@ class Optimizer(torch.optim.Optimizer):
 
															             **kwargs,
														
 
															         )
														
 
															-    def _make_gradient_averager(self, grad_rank_averager, **kwargs) -> GradientAverager:
														
 
															+    def _make_gradient_averager(self, grad_averager, **kwargs) -> GradientAverager:
														
 
															         assert hasattr(self, "state_averager"), "must initialize state averager first"
														
 
															-        if grad_rank_averager == "power_ef":
														
 
															-            grad_averager_type = PowerEFGradientAverager
														
 
															-        else:
														
 
															-            grad_averager_type = GradientAverager
														
 
															-        grad_averager = grad_averager_type(
														
 
															+        grad_averager = grad_averager(
														
 
															             dht=self.dht,
														
 
															             prefix=f"{self.run_id}_grad_averager",
														
 
															             parameters=self.state_averager.main_parameters,
														
@@ -426,7 +416,7 @@ class Optimizer(torch.optim.Optimizer):
 
															             self._maybe_schedule_state_averaging()
														
 
															         else:
														
 
															-            # use_local_updates=True: update parameters on every step independently of other peers
														
 
															+            # grad_averager=None: update parameters on every step independently of other peers
														
 
															             if not self.auxiliary:
														
 
															                 if grad_scaler is not None:
														
 
															                     with grad_scaler.running_global_step():
														
--- a/hivemind/optim/power_ef_averager.py
+++ b/hivemind/optim/power_ef_averager.py
@@ -58,7 +58,7 @@ class PowerEFGradientAverager(GradientAverager):
 
															         client_mode: bool = None,
														
 
															         warn: bool = True,
														
 
															         min_comprasion_ratio: float = 0.5,
														
 
															-        grad_extra_tensors: Sequence[torch.Tensor] = (),
														
 
															+        averaged_grads: Optional[Sequence[torch.Tensor]] = None,
														
 
															         **kwargs,
														
 
															     ):
														
 
															         self.rank = averager_rank
														
@@ -71,17 +71,19 @@ class PowerEFGradientAverager(GradientAverager):
 
															                 self.rank * (grad.size(0) + np.prod(grad.size()[1:])) / np.prod(grad.size()) > 1 - min_comprasion_ratio
														
 
															             )
														
 
															         )
														
 
															-        self._gradient_rests = list(torch.zeros_like(grad, device="cpu") for grad in self._grads_from_parameters())
														
 
															+        self._gradient_residual = list(torch.zeros_like(grad, device="cpu") for grad in self._grads_from_parameters())
														
 
															         self._qs = list(
														
 
															             torch.rand((grad.reshape((grad.size(0), -1)).size(1), self.rank), device="cpu")
														
 
															             for idx, grad in enumerate(self._grads_from_parameters())
														
 
															             if idx not in self._uncompressed_gradients
														
 
															         )
														
 
															-        for tensor in self._qs + self._gradient_rests:
														
 
															+        for tensor in self._qs + self._gradient_residual:
														
 
															             if tensor is not None:
														
 
															                 assert tensor.grad_fn is None, "averaged_tensors must be either parameters or leaf tensors"
														
 
															                 tensor.share_memory_()
														
 
															+        self.all_reduce_phases = (b".phase1", b".phase2")
														
 
															+
														
 
															         super().__init__(
														
 
															             self.parameters,
														
 
															             dht=dht,
														
@@ -90,7 +92,7 @@ class PowerEFGradientAverager(GradientAverager):
 
															             accumulate_grads_on=accumulate_grads_on,
														
 
															             client_mode=client_mode,
														
 
															             warn=warn,
														
 
															-            grad_extra_tensors=grad_extra_tensors,
														
 
															+            averaged_grads=averaged_grads,
														
 
															             **kwargs,
														
 
															         )
														
@@ -98,17 +100,15 @@ class PowerEFGradientAverager(GradientAverager):
 
															     def _register_allreduce_group(self, group_info: GroupInfo):
														
 
															         """registers a given all-reduce runner to listen for incoming connections"""
														
 
															         try:
														
 
															-            self._running_groups[group_info.group_id + b".phase1"] = asyncio.Future()
														
 
															-            self._running_groups[group_info.group_id + b".phase2"] = asyncio.Future()
														
 
															+            for phase in self.all_reduce_phases:
														
 
															+                self._running_groups[group_info.group_id + phase] = asyncio.Future()
														
 
															             self._pending_groups_registered.set()
														
 
															             yield
														
 
															         finally:
														
 
															-            maybe_future = self._running_groups.pop(group_info.group_id + b".phase1", None)
														
 
															-            if maybe_future and not maybe_future.done():
														
 
															-                logger.warning(f"All-reduce group {group_info.group_id + b'.phase1'} did not finish.")
														
 
															-            maybe_future = self._running_groups.pop(group_info.group_id + b".phase2", None)
														
 
															-            if maybe_future and not maybe_future.done():
														
 
															-                logger.warning(f"All-reduce group {group_info.group_id + b'.phase2'} did not finish.")
														
 
															+            for phase in self.all_reduce_phases:
														
 
															+                maybe_future = self._running_groups.pop(group_info.group_id + phase, None)
														
 
															+                if maybe_future and not maybe_future.done():
														
 
															+                    logger.warning(f"All-reduce group {group_info.group_id + phase} did not finish.")
														
 
															             self._pending_groups_registered.set()
														
 
															     async def _run_allreduce(self, group_info: GroupInfo, min_vector_size: int, **kwargs) -> GatheredData:
														
@@ -126,7 +126,7 @@ class PowerEFGradientAverager(GradientAverager):
 
															             )
														
 
															             async with enter_asynchronously(self.get_tensors()) as averaged_grads:
														
 
															-                cs = [rest for idx, rest in enumerate(self._gradient_rests) if idx not in self._uncompressed_gradients]
														
 
															+                cs = [rest for idx, rest in enumerate(self._gradient_residual) if idx not in self._uncompressed_gradients]
														
 
															                 ps = [
														
 
															                     torch.zeros((grad.size(0), self.rank), device="cpu")
														
 
															                     for idx, grad in enumerate(averaged_grads)
														
@@ -135,13 +135,13 @@ class PowerEFGradientAverager(GradientAverager):
 
															                 for p, q, rest in zip(ps, self._qs, cs):
														
 
															                     torch.matmul(rest.reshape(-1, q.size(0)), q, out=p)
														
 
															                 first_all_reduced = ps + [
														
 
															-                    rest for idx, rest in enumerate(self._gradient_rests) if idx in self._uncompressed_gradients
														
 
															+                    rest for idx, rest in enumerate(self._gradient_residual) if idx in self._uncompressed_gradients
														
 
															                 ]
														
 
															                 allreduce1 = AllReduceRunner(
														
 
															                     p2p=self._p2p,
														
 
															                     servicer_type=type(self),
														
 
															                     prefix=self.prefix,
														
 
															-                    group_id=group_info.group_id + b".phase1",
														
 
															+                    group_id=group_info.group_id + self.all_reduce_phases[0],
														
 
															                     tensors=first_all_reduced,
														
 
															                     ordered_peer_ids=group_info.peer_ids,
														
 
															                     peer_fractions=peer_fractions,
														
@@ -149,7 +149,7 @@ class PowerEFGradientAverager(GradientAverager):
 
															                     modes=modes,
														
 
															                     **kwargs,
														
 
															                 )
														
 
															-                self._running_groups[group_info.group_id + b".phase1"].set_result(allreduce1)
														
 
															+                self._running_groups[group_info.group_id + self.all_reduce_phases[0]].set_result(allreduce1)
														
 
															                 if modes[group_info.peer_ids.index(self.peer_id)] != AveragingMode.AUX:
														
 
															                     async for tensor, update in azip(as_aiter(*first_all_reduced), allreduce1):
														
@@ -171,7 +171,7 @@ class PowerEFGradientAverager(GradientAverager):
 
															                     p2p=self._p2p,
														
 
															                     servicer_type=type(self),
														
 
															                     prefix=self.prefix,
														
 
															-                    group_id=group_info.group_id + b".phase2",
														
 
															+                    group_id=group_info.group_id + self.all_reduce_phases[1],
														
 
															                     tensors=self._qs,
														
 
															                     ordered_peer_ids=group_info.peer_ids,
														
 
															                     peer_fractions=peer_fractions,
														
@@ -179,7 +179,7 @@ class PowerEFGradientAverager(GradientAverager):
 
															                     modes=modes,
														
 
															                     **kwargs,
														
 
															                 )
														
 
															-                self._running_groups[group_info.group_id + b".phase2"].set_result(allreduce2)
														
 
															+                self._running_groups[group_info.group_id + self.all_reduce_phases[1]].set_result(allreduce2)
														
 
															                 if modes[group_info.peer_ids.index(self.peer_id)] != AveragingMode.AUX:
														
 
															                     async for tensor, update in azip(as_aiter(*self._qs), allreduce2):
														
@@ -196,7 +196,7 @@ class PowerEFGradientAverager(GradientAverager):
 
															                     new_c = torch.matmul(p, q.t())
														
 
															                     c.copy_(new_c.reshape(c.size()))
														
 
															-                for rest, grad in zip(self._gradient_rests, averaged_grads):
														
 
															+                for rest, grad in zip(self._gradient_residual, averaged_grads):
														
 
															                     torch.add(grad, rest, out=grad)
														
 
															                 return allreduce1.gathered
														
@@ -212,8 +212,8 @@ class PowerEFGradientAverager(GradientAverager):
 
															         # divide locally accumulated gradients by the number of times they were accumulated
														
 
															         grad_scale = (1.0 / self.local_times_accumulated) if self.local_times_accumulated != 0 else 0.0
														
 
															         with self.get_tensors() as averaged_grads:
														
 
															-            for grad_acc, averaged_grad, rest in zip(self._grad_accumulators(), averaged_grads, self._gradient_rests):
														
 
															-                torch.sub(grad_acc * grad_scale, averaged_grad, out=rest)
														
 
															+            for grad_acc, averaged_grad, rest in zip(self._grad_accumulators(), averaged_grads, self._gradient_residual):
														
 
															+                rest.copy_(grad_acc, non_blocking=False).mul_(grad_scale).sub_(averaged_grad)
														
 
															 @torch.jit.script
														
--- a/tests/test_optimizer.py
+++ b/tests/test_optimizer.py
@@ -2,6 +2,7 @@ import ctypes
 
															 import multiprocessing as mp
														
 
															 import time
														
 
															 from functools import partial
														
 
															+from typing import Optional
														
 
															 import numpy as np
														
 
															 import pytest
														
@@ -11,7 +12,8 @@ import torch.nn.functional as F
 
															 import hivemind
														
 
															 from hivemind.averaging.control import AveragingStage
														
 
															-from hivemind.optim.grad_averager import GradientAverager
														
 
															+from hivemind.optim.grad_averager import GradientAverager, GradientAveragerFactory
														
 
															+from hivemind.optim.power_ef_averager import PowerEFGradientAverager
														
 
															 from hivemind.optim.optimizer import Optimizer
														
 
															 from hivemind.optim.progress_tracker import ProgressTracker
														
 
															 from hivemind.optim.state_averager import TrainingStateAverager
														
@@ -286,7 +288,15 @@ def test_progress_tracker():
 
															 @pytest.mark.forked
														
 
															+@pytest.mark.parametrize(
														
 
															+    "grad_averager",
														
 
															+    [
														
 
															+        (GradientAverager.get_factory(),),
														
 
															+        (PowerEFGradientAverager.get_factory(averager_rank=1),)
														
 
															+    ],
														
 
															+)
														
 
															 def test_optimizer(
														
 
															+    grad_averager: GradientAveragerFactory,
														
 
															     num_peers: int = 1,
														
 
															     num_clients: int = 0,
														
 
															     target_batch_size: int = 32,
														
@@ -305,7 +315,11 @@ def test_optimizer(
 
															     def run_trainer(batch_size: int, batch_time: float, client_mode: bool):
														
 
															         nonlocal optimizer
														
 
															-        model = nn.Linear(5, 1)
														
 
															+        model = nn.Sequential(
														
 
															+            nn.Linear(5, 5),
														
 
															+            nn.ReLU(),
														
 
															+            nn.Linear(5, 1),
														
 
															+        )
														
 
															         assert isinstance(model, torch.nn.Module), "model_arch must evaluate to a pytorch module"
														
@@ -326,6 +340,7 @@ def test_optimizer(
 
															             delay_optimizer_step=delay_optimizer_step,
														
 
															             average_state_every=average_state_every,
														
 
															             client_mode=client_mode,
														
 
															+            grad_averager=GradientAverager,
														
 
															             verbose=False,
														
 
															         )
														
 
															         optimizer.load_state_from_peers()