4 years ago · e833a7efb9
--- a/hivemind/client/averaging/training.py
+++ b/hivemind/client/averaging/training.py
@@ -1,7 +1,8 @@
 
															 """ An extension of averager that supports common optimization use cases. """
														
 
															 from itertools import chain
														
 
															 from threading import Lock
														
 
															-from typing import Sequence, Dict, Iterator
														
 
															+from typing import Sequence, Dict, Iterator, Optional
														
 
															+from contextlib import nullcontext
														
 
															 import torch
														
@@ -30,6 +31,7 @@ class TrainingAverager(DecentralizedAverager):
 
															     :note: you can use extra_tensors for averaging tensors that are updated outside of opt.step (e.g. batchnorm stats)
														
 
															     :param kwargs: any additional parameters will be forwarded to DecentralizedAverager
														
 
															     """
														
 
															+
														
 
															     def __init__(self, opt: torch.optim.Optimizer, *, average_parameters: bool, average_gradients: bool,
														
 
															                  average_opt_statistics: Sequence[str] = (), extra_tensors: Sequence[torch.Tensor] = (),
														
 
															                  initialize_optimizer: bool = True, **kwargs):
														
@@ -46,27 +48,51 @@ class TrainingAverager(DecentralizedAverager):
 
															         super().__init__(averaged_tensors=averaged_tensors, **kwargs)
														
 
															     @torch.no_grad()
														
 
															-    def step(self, wait: bool = True, **kwargs):
														
 
															-        """ Average optimizer weights and gradients with peers. """
														
 
															+    def step(self, data_lock: Optional[Lock] = None, wait: bool = True, **kwargs):
														
 
															+        """ Average optimizer weights and gradients with peers.
														
 
															+        :param data_lock: averager locks it when model parameters are modified. Otherwise it's assumed that no model
														
 
															+        modifications occur during averaging step
														
 
															+        :param wait: if True waits, otherwise returns Future
														
 
															+        """
														
 
															         if not wait:
														
 
															-            return run_in_background(self.step, wait=True, **kwargs)
														
 
															+            return run_in_background(self.step, data_lock, wait=True, **kwargs)
														
 
															+
														
 
															+        # if data_lock is supplied, tensors might change during averaging, so we need to copy them
														
 
															+        use_old_local_tensors = data_lock is not None
														
 
															+        if data_lock is None:
														
 
															+            data_lock = nullcontext()
														
 
															         local_tensors = list(self.local_tensors())
														
 
															         with self.lock_averager_step:
														
 
															-            # fill averager's tensors with current local tensors, scaled by peer's weight
														
 
															-            with self.get_tensors() as averaged_tensors:
														
 
															-                assert len(local_tensors) == len(averaged_tensors)
														
 
															+            # fill averager's tensors with current local tensors
														
 
															+            with data_lock, self.get_tensors() as averaged_tensors:
														
 
															+                if use_old_local_tensors:
														
 
															+                    old_local_tensors = tuple(x.cpu().float().clone() for x in local_tensors)
														
 
															+                assert len(local_tensors) == len(
														
 
															+                    averaged_tensors), "The number of optimized parameters should not change."
														
 
															                 for averaged_tensor, local_tensor in zip(averaged_tensors, local_tensors):
														
 
															-                    averaged_tensor[...] = local_tensor.detach().cpu().float()
														
 
															+                    averaged_tensor[...] = local_tensor.cpu().float()
														
 
															-            # find a group and hopefully average tensors with peers
														
 
															+            # find a group and hopefully average tensors with peers, scaled by peer's weight
														
 
															             gathered = super().step(**kwargs)
														
 
															-
														
 
															-            # load averaged tensors back into model
														
 
															-            with self.get_tensors() as averaged_tensors:
														
 
															-                assert len(averaged_tensors) == len(local_tensors)
														
 
															-                for averaged_tensor, local_tensor in zip(averaged_tensors, local_tensors):
														
 
															-                    local_tensor[...] = averaged_tensor.to(dtype=local_tensor.dtype, device=local_tensor.device)
														
 
															+            if gathered is not None:
														
 
															+                # load averaged tensors back into model
														
 
															+                with data_lock, self.get_tensors() as averaged_tensors:
														
 
															+                    if len(averaged_tensors) != len(local_tensors):
														
 
															+                        raise RuntimeError("The number of optimized parameters should not change.")
														
 
															+
														
 
															+                    if use_old_local_tensors:
														
 
															+                        # since tensors might have changed, we subtract old_local_tensor and add averaged. This prevents
														
 
															+                        # losing local updates that might have occurred during averaging
														
 
															+                        for averaged_tensor, local_tensor, old_local_tensor in zip(averaged_tensors, local_tensors,
														
 
															+                                                                                   old_local_tensors):
														
 
															+                            local_tensor[...] += averaged_tensor.to(dtype=local_tensor.dtype,
														
 
															+                                                                    device=local_tensor.device) - \
														
 
															+                                                 old_local_tensor.to(dtype=local_tensor.dtype,
														
 
															+                                                                     device=local_tensor.device)
														
 
															+                    else:
														
 
															+                        for averaged_tensor, local_tensor in zip(averaged_tensors, local_tensors):
														
 
															+                            local_tensor[...] = averaged_tensor.to(dtype=local_tensor.dtype, device=local_tensor.device)
														
 
															             self.local_step += 1
														
 
															             return gathered
														
--- a/hivemind/optim/__init__.py
+++ b/hivemind/optim/__init__.py
@@ -1,4 +1,5 @@
 
															 from hivemind.optim.base import DecentralizedOptimizerBase
														
 
															 from hivemind.optim.collaborative import CollaborativeOptimizer
														
 
															 from hivemind.optim.performance_ema import PerformanceEMA
														
 
															-from hivemind.optim.simple import DecentralizedSGD, ParameterAveragingOptimizer
														
 
															+from hivemind.optim.simple import DecentralizedOptimizer, DecentralizedSGD, DecentralizedAdam
														
 
															+from hivemind.optim.adaptive import CollaborativeAdaptiveOptimizer
														
--- a/hivemind/optim/adaptive.py
+++ b/hivemind/optim/adaptive.py
@@ -0,0 +1,25 @@
 
															+from typing import Sequence
														
 
															+
														
 
															+import torch.optim
														
 
															+
														
 
															+from hivemind.optim.collaborative import CollaborativeOptimizer
														
 
															+from hivemind import TrainingAverager
														
 
															+
														
 
															+
														
 
															+class CollaborativeAdaptiveOptimizer(CollaborativeOptimizer):
														
 
															+    """
														
 
															+    Behaves exactly as CollaborativeOptimizer except:
														
 
															+     - averages adaptive learning rates of an optimizer
														
 
															+     - doesn't average gradients
														
 
															+    :param average_opt_statistics: average optimizer statistics with corresponding names in statedict
														
 
															+    :param kwargs: options for CollaborativeOptimizer
														
 
															+    """
														
 
															+
														
 
															+    def __init__(self, opt: torch.optim.Optimizer, average_opt_statistics: Sequence[str], **kwargs):
														
 
															+        super().__init__(opt, average_opt_statistics=average_opt_statistics, **kwargs)
														
 
															+
														
 
															+    def _make_averager(self, average_opt_statistics, **kwargs):
														
 
															+        return TrainingAverager(self.opt, dht=self.dht, average_parameters=True, average_gradients=False,
														
 
															+                                average_opt_statistics=average_opt_statistics,
														
 
															+                                prefix=f"{self.prefix}_averaging", allreduce_timeout=self.averaging_timeout,
														
 
															+                                listen=not self.client_mode, **kwargs)
														
--- a/hivemind/optim/simple.py
+++ b/hivemind/optim/simple.py
@@ -1,55 +1,67 @@
 
															 import time
														
 
															 from threading import Thread, Lock, Event
														
 
															-from typing import Optional
														
 
															+from typing import Optional, Sequence, Tuple
														
 
															 import torch
														
 
															 from hivemind.dht import DHT
														
 
															-from hivemind.client.averaging import DecentralizedAverager
														
 
															+from hivemind.client import TrainingAverager
														
 
															 from hivemind.optim.base import DecentralizedOptimizerBase
														
 
															 from hivemind.utils import get_logger, get_dht_time
														
 
															 logger = get_logger(__name__)
														
 
															-class ParameterAveragingOptimizer(DecentralizedOptimizerBase):
														
 
															+class DecentralizedOptimizer(DecentralizedOptimizerBase):
														
 
															     """
														
 
															-    A simple optimizer that trains a shared model by averaging model parameters with peers in the background.
														
 
															+    A simple optimizer that trains a shared model by averaging with peers in variety of ways. Supports
														
 
															+    parameter/gradient averaging and syncing adaptive learning rates or any other internal statistics of optimizer.
														
 
															     :param opt: a pytorch optimizer configured to update model parameters.
														
 
															     :param dht: a running hivemind DHT daemon connected to other peers
														
 
															-    :param averaging_period: if specified, optimizer will attempt to average weights at regular intervals of this many
														
 
															-      seconds. (averaging step will only occur if the optimizer ran at least one step in that interval)
														
 
															+    :param average_parameters: whether to average model parameters
														
 
															+    :param average_gradients: whether to average gradients
														
 
															+    :param average_opt_statistics: if specified, average optimizer states with corresponding names in state_dict
														
 
															+    :param averaging_steps_period: performs averaging after this many optimizer steps
														
 
															+    :param averaging_time_period: if specified, optimizer will attempt to average weights at regular intervals of this
														
 
															+      many seconds. (averaging step will only occur if the optimizer ran `averaging_steps_period` steps in that interval)
														
 
															     :param prefix: all DHT keys that point to optimization metadata will have this prefix
														
 
															     :param target_group_size: maximum group size for averaging (see DecentralizedAverager)
														
 
															     :param timeout: if DecentralizedAverager step is unable to form group in this many seconds, cancel step
														
 
															-    :param kwargs: additional parameters passed to DecentralizedAverager
														
 
															-
														
 
															-    :note: using DecentralizedOptimizer with adaptive learning rates may result in poor convergence due to
														
 
															-      out-of-sync adaptive learning rates (such as adam second momentum or schedule step). Please ensure that these
														
 
															-      statistics are synchronized or use a more advanced DecentralizedOptimizer version, if applicable.
														
 
															+    :param kwargs: additional parameters passed to TrainingAverager
														
 
															+    :note: if you're using an optimizer with adaptive learning rates (such as Adam), make sure to specify
														
 
															+      necessary fields' names in `average_opt_statistics`. Otherwise you may encounter poor convergence.
														
 
															     :note: the base optimizer cannot add param groups after the DecentralizedOptimizer is created
														
 
															     """
														
 
															-    def __init__(self, opt: torch.optim.Optimizer, dht: DHT, prefix: str, target_group_size: int,
														
 
															-                 averaging_period: float = 0, timeout: Optional[float] = None, verbose: bool = False, **kwargs):
														
 
															+    def __init__(self, opt: torch.optim.Optimizer, dht: DHT, *, prefix: str, target_group_size: int,
														
 
															+                 average_parameters: bool, average_gradients: bool, average_opt_statistics: Sequence[str] = (),
														
 
															+                 averaging_steps_period: int = 1, averaging_time_period: float = 0,
														
 
															+                 timeout: Optional[float] = None, verbose: bool = False, **kwargs):
														
 
															         super().__init__(opt, dht)
														
 
															-        with torch.no_grad():
														
 
															-            averaged_tensors = tuple(p.cpu().float().clone().requires_grad_(False)
														
 
															-                                     for group in self.param_groups for p in group['params'])
														
 
															-        self.averager = DecentralizedAverager(averaged_tensors, dht, start=True, prefix=prefix,
														
 
															-                                              target_group_size=target_group_size, **kwargs)
														
 
															+        assert averaging_steps_period > 0 and averaging_time_period >= 0, "Averaging period must be positive."
														
 
															+        self.local_step, self.averaging_step_period = 0, averaging_steps_period
														
 
															+
														
 
															+        self.averager = TrainingAverager(opt, average_parameters=average_parameters,
														
 
															+                                         average_gradients=average_gradients,
														
 
															+                                         average_opt_statistics=average_opt_statistics,
														
 
															+                                         dht=dht, start=True, prefix=prefix,
														
 
															+                                         target_group_size=target_group_size, **kwargs)
														
 
															         self.lock_parameters, self.update_event, self.stop_event = Lock(), Event(), Event()
														
 
															+
														
 
															         self.background_averaging_thread = Thread(
														
 
															             name=f'{self.__class__.__name__}', daemon=True, target=self._average_parameters_in_background,
														
 
															-            args=[self.lock_parameters, self.update_event, self.stop_event, self.averager, self.opt],
														
 
															-            kwargs=dict(averaging_period=averaging_period, timeout=timeout, verbose=verbose))
														
 
															+            args=[self.lock_parameters, self.update_event, self.stop_event, self.averager],
														
 
															+            kwargs=dict(averaging_period=averaging_time_period, timeout=timeout, verbose=verbose))
														
 
															         self.background_averaging_thread.start()
														
 
															     def step(self, *args, **kwargs):
														
 
															-        self.update_event.set()
														
 
															         with self.lock_parameters:
														
 
															-            return self.opt.step(*args, **kwargs)
														
 
															+            loss = self.opt.step(*args, **kwargs)
														
 
															+        self.local_step += 1
														
 
															+        if self.local_step % self.averaging_step_period == 0:
														
 
															+            self.update_event.set()
														
 
															+        return loss
														
 
															     def zero_grad(self, *args, **kwargs):
														
 
															         return self.opt.zero_grad(*args, **kwargs)
														
@@ -59,13 +71,15 @@ class ParameterAveragingOptimizer(DecentralizedOptimizerBase):
 
															         self.update_event.set()
														
 
															     def shutdown(self):
														
 
															+        self.stop_event.set()
														
 
															+        self.update_event.set()
														
 
															         self.averager.shutdown()
														
 
															     @staticmethod
														
 
															     @torch.no_grad()
														
 
															     def _average_parameters_in_background(
														
 
															-            lock_parameters: Lock, update_event: Event, stop_event: Event, averager: DecentralizedAverager,
														
 
															-            opt: torch.optim.Optimizer, averaging_period: float, verbose: bool, **kwargs):
														
 
															+            lock_parameters: Lock, update_event: Event, stop_event: Event, averager: TrainingAverager,
														
 
															+            averaging_period: float, verbose: bool, **kwargs):
														
 
															         """ Iteratively find groups of peers, average parameters with these peers and update local model parameters. """
														
 
															         while not stop_event.is_set():
														
 
															             update_event.wait()
														
@@ -79,46 +93,27 @@ class ParameterAveragingOptimizer(DecentralizedOptimizerBase):
 
															                 time_to_nearest_interval = max(0.0, averaging_period - current_time % averaging_period)
														
 
															                 time.sleep(time_to_nearest_interval)
														
 
															-            with lock_parameters, averager.get_tensors() as averaged_tensors:
														
 
															-                local_tensors = tuple(p for group in opt.param_groups for p in group['params'])
														
 
															-                assert len(local_tensors) == len(averaged_tensors), "The number of optimized parameters should not change."
														
 
															-
														
 
															-                for local_tensor, averaged_tensor in zip(local_tensors, averaged_tensors):
														
 
															-                    averaged_tensor[...] = local_tensor.cpu().float()
														
 
															-
														
 
															-                old_local_tensors = tuple(local_tensor.cpu().detach().clone() for local_tensor in local_tensors)
														
 
															-
														
 
															+            if verbose:
														
 
															+                logger.info(f"Starting a new averaging round with current parameters.")
														
 
															             try:
														
 
															+                group_info = averager.step(lock_parameters, **kwargs)
														
 
															                 if verbose:
														
 
															-                    logger.info(f"Starting a new averaging round with current parameters.")
														
 
															-                group_info = averager.step(**kwargs)
														
 
															-
														
 
															-                if group_info is not None:
														
 
															-                    with lock_parameters, averager.get_tensors() as averaged_tensors:
														
 
															-                        for local_tensor, old_local_tensor, averaged_tensor in zip(
														
 
															-                            local_tensors, old_local_tensors, averaged_tensors
														
 
															-                        ):
														
 
															-                            local_tensor[...] += averaged_tensor.to(dtype=local_tensor.dtype) - old_local_tensor
														
 
															-                    if verbose:
														
 
															+                    if group_info is not None:
														
 
															                         logger.info(f"Finished averaging round in with {len(group_info)} peers.")
														
 
															-                else:
														
 
															-                    if verbose:
														
 
															+                    else:
														
 
															                         logger.warning(f"Averaging round failed: could not find group.")
														
 
															             except Exception as e:
														
 
															                 logger.error(f"Averaging round failed: caught {e}.")
														
 
															-class DecentralizedSGD(ParameterAveragingOptimizer):
														
 
															+class DecentralizedSGD(DecentralizedOptimizer):
														
 
															     """
														
 
															     Decentralized Stochastic Gradient Descent algorithm like in Lian et al (2017) [1] based on Moshpit All-Reduce [2].
														
 
															-    :param opt: a pytorch optimizer configured to update model parameters.
														
 
															     :param dht: a running hivemind DHT daemon connected to other peers
														
 
															-    :param averaging_period: if specified, optimizer will attempt to average weights at regular intervals of this many
														
 
															-      seconds. (averaging step will only occur if the optimizer ran at least one step in that interval)
														
 
															     :param prefix: all DHT keys that point to optimization metadata will have this prefix
														
 
															     :param target_group_size: maximum group size for averaging (see DecentralizedAverager)
														
 
															-    :param kwargs: additional parameters passed to DecentralizedAverager
														
 
															+    :param kwargs: additional parameters passed to DecentralizedOptimizer
														
 
															     - [1] Can Decentralized Algorithms Outperform Centralized Algorithms? A Case Study for Parallel Stochastic Gradient
														
 
															      Descent - https://proceedings.neurips.cc/paper/2017/hash/f75526659f31040afeb61cb7133e4e6d-Abstract.html
														
@@ -126,7 +121,33 @@ class DecentralizedSGD(ParameterAveragingOptimizer):
 
															      https://arxiv.org/abs/2103.03239
														
 
															     """
														
 
															-    def __init__(self, params, lr: float, *, dht: DHT, prefix: str, target_group_size: int, averaging_period: float = 0,
														
 
															+    def __init__(self, params, lr: float, *, dht: DHT, prefix: str, target_group_size: int,
														
 
															                  momentum: float = 0, dampening: float = 0, weight_decay: float = 0, nesterov: bool = False, **kwargs):
														
 
															         opt = torch.optim.SGD(params, lr, momentum, dampening, weight_decay, nesterov)
														
 
															-        super().__init__(opt, dht, prefix, target_group_size, averaging_period, **kwargs)
														
 
															+        super().__init__(opt, dht, prefix=prefix, target_group_size=target_group_size, average_parameters=True,
														
 
															+                         average_gradients=False, **kwargs)
														
 
															+
														
 
															+
														
 
															+class DecentralizedAdam(DecentralizedOptimizer):
														
 
															+    """
														
 
															+    Decentralized Adam/AmsGrad as proposed in [1], [2]
														
 
															+
														
 
															+    :param dht: a running hivemind DHT daemon connected to other peers
														
 
															+    :param prefix: all DHT keys that point to optimization metadata will have this prefix
														
 
															+    :param target_group_size: maximum group size for averaging (see DecentralizedAverager)
														
 
															+    :param averaging_steps_period: performs averaging after this many optimizer steps
														
 
															+    :param kwargs: additional parameters passed to DecentralizedOptimizer
														
 
															+
														
 
															+    - [1] On the Convergence of Decentralized Adaptive Gradient Methods
														
 
															+    - [2] Toward Communication Efficient Adaptive Gradient Method - https://dl.acm.org/doi/abs/10.1145/3412815.3416891
														
 
															+    """
														
 
															+
														
 
															+    def __init__(self, params, lr: float, *, dht: DHT, prefix: str, target_group_size: int, averaging_steps_period: int,
														
 
															+                 betas: Tuple[float, float] = (0.9, 0.999), eps: float = 1e-8, weight_decay: float = 0,
														
 
															+                 amsgrad: bool = False, **kwargs):
														
 
															+        opt = torch.optim.Adam(params, lr, betas=betas, eps=eps, weight_decay=weight_decay, amsgrad=amsgrad)
														
 
															+        opt_statistics = ("max_exp_avg_sq",) if amsgrad else ("exp_avg_sq",)
														
 
															+
														
 
															+        super().__init__(opt, dht, prefix=prefix, target_group_size=target_group_size, average_parameters=True,
														
 
															+                         average_gradients=False, average_opt_statistics=opt_statistics,
														
 
															+                         averaging_steps_period=averaging_steps_period, **kwargs)
														
--- a/tests/test_training.py
+++ b/tests/test_training.py
@@ -8,7 +8,7 @@ import torch.nn.functional as F
 
															 from sklearn.datasets import load_digits
														
 
															 from hivemind import RemoteExpert, RemoteMixtureOfExperts, RemoteSwitchMixtureOfExperts, background_server, DHT, \
														
 
															-    DecentralizedSGD
														
 
															+    DecentralizedSGD, DecentralizedAdam
														
 
															 @pytest.mark.forked
														
@@ -135,3 +135,28 @@ def test_decentralized_optimizer_step():
 
															     assert torch.allclose(param1, param2)
														
 
															     reference = 0.5 * (0.0 - 0.1 * 1.0) + 0.5 * (1.0 - 0.05 * 300)
														
 
															     assert torch.allclose(param1, torch.full_like(param1, reference))
														
 
															+
														
 
															+
														
 
															+@pytest.mark.forked
														
 
															+def test_decentralized_optimizer_averaging():
														
 
															+    dht_root = DHT(start=True)
														
 
															+    initial_peers = [f"127.0.0.1:{dht_root.port}"]
														
 
															+
														
 
															+    param1 = torch.nn.Parameter(torch.zeros(32, 32), requires_grad=True)
														
 
															+    opt1 = DecentralizedAdam([param1], lr=0.1, averaging_steps_period=1, dht=DHT(initial_peers=initial_peers, start=True),
														
 
															+                            prefix='foo', target_group_size=2, verbose=True)
														
 
															+
														
 
															+    param2 = torch.nn.Parameter(torch.ones(32, 32), requires_grad=True)
														
 
															+    opt2 = DecentralizedAdam([param2], lr=0.05, averaging_steps_period=1, dht=DHT(initial_peers=initial_peers, start=True),
														
 
															+                            prefix='foo', target_group_size=2, verbose=True)
														
 
															+
														
 
															+    assert not torch.allclose(param1, param2)
														
 
															+
														
 
															+    (param1.sum() + param2.sum()).backward()
														
 
															+
														
 
															+    opt1.step()
														
 
															+    opt2.step()
														
 
															+
														
 
															+    time.sleep(0.5)
														
 
															+    assert torch.allclose(param1, param2)
														
 
															+    assert torch.allclose(opt1.state[param1]["exp_avg_sq"], opt2.state[param2]["exp_avg_sq"])