3 years ago · d0077dc165
--- a/hivemind/optim/ddp.py
+++ b/hivemind/optim/ddp.py
@@ -0,0 +1,190 @@
 
				+import time
			
 
				+from typing import Callable, Optional, Union
			
 
				+
			
 
				+import torch
			
 
				+from torch.distributed.distributed_c10d import _get_default_group, _get_default_store
			
 
				+
			
 
				+from hivemind.dht import DHT
			
 
				+from hivemind.optim.grad_scaler import GradScaler
			
 
				+from hivemind.optim.optimizer import Optimizer
			
 
				+from hivemind.optim.state_averager import OptimizerFactory, Parameters, ParamGroups, TorchOptimizer, TrainingStateAverager
			
 
				+from hivemind.utils import get_logger
			
 
				+
			
 
				+logger = get_logger(__name__)
			
 
				+
			
 
				+
			
 
				+class DDPOptimizer(Optimizer):
			
 
				+    _DDP_LEADER_RANK = 0
			
 
				+    _BROADCAST_BUFFER_SIZE = 250 * 1024 ** 2
			
 
				+
			
 
				+    @staticmethod
			
 
				+    def is_ddp_enabled():
			
 
				+        return torch.distributed.is_initialized()
			
 
				+
			
 
				+    @staticmethod
			
 
				+    def is_ddp_leader():
			
 
				+        return not torch.distributed.is_initialized() or torch.distributed.get_rank() == DDPOptimizer._DDP_LEADER_RANK
			
 
				+
			
 
				+    def __init__(
			
 
				+        self,
			
 
				+        *,
			
 
				+        dht: Optional[DHT] = None,
			
 
				+        optimizer: Union[TorchOptimizer, OptimizerFactory],
			
 
				+        params: Optional[Union[Parameters, ParamGroups]] = None,
			
 
				+        reuse_grad_buffers: bool = False,
			
 
				+        use_local_updates: bool = False,
			
 
				+        **kwargs
			
 
				+    ):
			
 
				+        if self.is_ddp_leader() != (dht is not None):
			
 
				+            class_name = self.__class__.__name__
			
 
				+            raise ValueError(
			
 
				+                f"{class_name}(dht=...) is expected to be a hivemind.DHT instance "
			
 
				+                f"if {class_name}.is_ddp_leader(), None otherwise. "
			
 
				+                f"Please write code as follows:\n\n"
			
 
				+                f"if {class_name}.is_ddp_leader():\n"
			
 
				+                f"    dht = hivemind.DHT(...)\n"
			
 
				+                f"else:\n"
			
 
				+                f"    dht = None\n"
			
 
				+                f"optimizer = {class_name}(dht=dht, ...)"
			
 
				+            )
			
 
				+
			
 
				+        if self.is_ddp_leader():
			
 
				+            super().__init__(
			
 
				+                dht,
			
 
				+                optimizer,
			
 
				+                params,
			
 
				+                reuse_grad_buffers,
			
 
				+                use_local_updates,
			
 
				+                **kwargs
			
 
				+            )
			
 
				+            self._main_parameters = self.state_averager.main_parameters
			
 
				+        else:
			
 
				+            self._param_groups, self._main_parameters, _ = TrainingStateAverager.check_params(optimizer, params)
			
 
				+            self.reuse_grad_buffers, self.use_local_updates = reuse_grad_buffers, use_local_updates
			
 
				+
			
 
				+        self._checksum_counter = 0
			
 
				+        self._prev_version = self._prev_epoch = -1
			
 
				+        self._sync_among_ddp_ranks()
			
 
				+
			
 
				+        # Collect fields of DDPOptimizer and its descendants
			
 
				+        self._ddp_aware_fields = set(self.__dict__.keys())
			
 
				+        for klass in self.__mro__:
			
 
				+            self._ddp_aware_fields.update(klass.__dict__.keys())
			
 
				+            if klass is DDPOptimizer:
			
 
				+                break
			
 
				+
			
 
				+    def __getattribute__(self, name: str):
			
 
				+        """
			
 
				+        This works as usual on leaders, but denies access to non DDP-aware fields
			
 
				+        (i.e., fields defined in DDPOptimizer ancestors) on followers.
			
 
				+        """
			
 
				+
			
 
				+        if (
			
 
				+            not name.startswith("_") and
			
 
				+            name not in self._ddp_aware_fields and
			
 
				+            not DDPOptimizer.is_ddp_leader()
			
 
				+        ):
			
 
				+            raise RuntimeError(
			
 
				+                f"{self.__class__.__name__}.{name} is only available on the DDP leader. "
			
 
				+                f"Please access it only if DDPOptimizer.is_ddp_leader() == True"
			
 
				+            )
			
 
				+
			
 
				+        return super().__getattribute__(name)
			
 
				+
			
 
				+    def is_alive(self) -> bool:
			
 
				+        # On followers, this always returns False since there's nothing to shut down in __del__()
			
 
				+        return self.is_ddp_leader() and super().is_alive()
			
 
				+
			
 
				+    def _compute_state_version(self) -> int:
			
 
				+        """Return a non-decreasing integer that goes up whenever model params and/or buffers were updated"""
			
 
				+
			
 
				+        assert self.is_ddp_leader()
			
 
				+        return sum(state["step"] for state in self.opt.state.values())
			
 
				+
			
 
				+    def _has_updated_params_after_sync(self) -> bool:
			
 
				+        if not self.is_ddp_enabled():
			
 
				+            return False
			
 
				+
			
 
				+        store = _get_default_store()
			
 
				+        if self.is_ddp_leader():
			
 
				+            current_version = self._compute_state_version()
			
 
				+            if current_version == self._prev_version and self.local_epoch > self._prev_epoch + 1:
			
 
				+                logger.warning("Model state version has not changed during a full epoch; "
			
 
				+                               "broadcasting parameters between torch.distributed synchronization may be broken")
			
 
				+
			
 
				+            should_broadcast = (current_version != self._prev_version or self.local_epoch > self._prev_epoch + 1)
			
 
				+
			
 
				+            store.set(f"_hivemind_should_broadcast_state", str(int(should_broadcast)))
			
 
				+            torch.distributed.barrier()
			
 
				+            return should_broadcast
			
 
				+        else:
			
 
				+            torch.distributed.barrier()
			
 
				+            raw_should_broadcast = store.get(f"_hivemind_should_broadcast_state")
			
 
				+            return bool(int(raw_should_broadcast))
			
 
				+
			
 
				+    def _sync_among_ddp_ranks(self) -> None:
			
 
				+        """Synchronize model params and buffers from the DDP leader"""
			
 
				+
			
 
				+        if not self.is_ddp_enabled():
			
 
				+            return
			
 
				+
			
 
				+        t_start = time.perf_counter()
			
 
				+        with torch.no_grad():
			
 
				+            torch.distributed._broadcast_coalesced(
			
 
				+                _get_default_group(), self._main_parameters, self._BROADCAST_BUFFER_SIZE, self._DDP_LEADER_RANK
			
 
				+            )
			
 
				+        if self.is_ddp_leader():
			
 
				+            self._prev_version = self._compute_state_version()
			
 
				+            self._prev_epoch = self.local_epoch
			
 
				+            elapsed = time.perf_counter() - t_start
			
 
				+            logger.debug(f"Broadcasting leader params among DDP ranks took {elapsed:.2f} sec")
			
 
				+
			
 
				+    def step(
			
 
				+        self,
			
 
				+        closure: Optional[Callable[[], torch.Tensor]] = None,
			
 
				+        batch_size: Optional[int] = None,
			
 
				+        grad_scaler: Optional[GradScaler] = None,
			
 
				+    ):
			
 
				+        if self.is_ddp_leader():
			
 
				+            loss = super().step(closure, batch_size, grad_scaler)
			
 
				+
			
 
				+        if self._has_updated_params_after_sync():
			
 
				+            self._sync_among_ddp_ranks()
			
 
				+        else:
			
 
				+            logger.debug("No need to broadcast leader params among DDP ranks")
			
 
				+
			
 
				+        if self.is_ddp_enabled():
			
 
				+            self._checksum_counter += 1
			
 
				+            if self._checksum_counter % 100 == 0:
			
 
				+                rank = torch.distributed.get_rank()
			
 
				+                checksum = sum(p.sum().item() for p in self._main_parameters)
			
 
				+                logger.debug(f"Parameter checksum (ddp_rank={rank}): {float(checksum)}")
			
 
				+
			
 
				+        return loss if self.is_ddp_leader() else None
			
 
				+
			
 
				+    def load_state_from_peers(self, **kwargs) -> None:
			
 
				+        if self.is_ddp_leader():
			
 
				+            super().load_state_from_peers(**kwargs)
			
 
				+
			
 
				+        self._sync_among_ddp_ranks()
			
 
				+
			
 
				+    def load_state_dict(self, state_dict: dict) -> None:
			
 
				+        if self.is_ddp_leader():
			
 
				+            super().load_state_dict(state_dict)
			
 
				+
			
 
				+        self._sync_among_ddp_ranks()
			
 
				+
			
 
				+    @property
			
 
				+    def param_groups(self) -> ParamGroups:
			
 
				+        if self.is_ddp_leader():
			
 
				+            return super().param_groups
			
 
				+        else:
			
 
				+            return self._param_groups
			
 
				+
			
 
				+    def zero_grad(self, set_to_none: bool = False):
			
 
				+        # We explicitly define this method to mark that it should be available on the DDP followers
			
 
				+        super().zero_grad(set_to_none)
			
 
				+
			
 
				+    def shutdown(self):
			
 
				+        if self.is_ddp_leader():
			
 
				+            super().shutdown()
			
--- a/hivemind/optim/optimizer.py
+++ b/hivemind/optim/optimizer.py
@@ -13,7 +13,6 @@ from hivemind.compression import CompressionBase, NoCompression
 
				 from hivemind.dht import DHT
			
 
				 from hivemind.optim.grad_averager import GradientAverager, GradientAveragerFactory
			
 
				 from hivemind.optim.grad_scaler import GradScaler
			
 
				-from hivemind.optim.power_sgd_averager import PowerSGDGradientAverager
			
 
				 from hivemind.optim.progress_tracker import LocalTrainingProgress, ProgressTracker
			
 
				 from hivemind.optim.state_averager import (
			
 
				     LRSchedulerBase,
			
@@ -238,6 +237,7 @@ class Optimizer(torch.optim.Optimizer):
 
				         self.delay_state_averaging, self.average_state_every = delay_state_averaging, average_state_every
			
 
				         self.matchmaking_time, self.offload_optimizer = matchmaking_time, offload_optimizer
			
 
				         self.delay_grad_averaging, self.delay_optimizer_step = delay_grad_averaging, delay_optimizer_step
			
 
				+        self.reuse_grad_buffers, self.use_local_updates = reuse_grad_buffers, use_local_updates
			
 
				 
			
 
				         self.averaging_timeout, self.allreduce_timeout = averaging_timeout, allreduce_timeout
			
 
				         self.load_state_timeout, self.shutdown_timeout = load_state_timeout, shutdown_timeout
			
@@ -358,13 +358,9 @@ class Optimizer(torch.optim.Optimizer):
 
				     def local_progress(self) -> LocalTrainingProgress:
			
 
				         return self.tracker.local_progress
			
 
				 
			
 
				-    @property
			
 
				-    def use_local_updates(self) -> bool:
			
 
				-        return self.grad_averager is None
			
 
				-
			
 
				     @property
			
 
				     def use_gradient_averaging(self) -> bool:
			
 
				-        return self.grad_averager is not None
			
 
				+        return not self.use_local_updates
			
 
				 
			
 
				     def step(
			
 
				         self,
			
@@ -637,7 +633,7 @@ class Optimizer(torch.optim.Optimizer):
 
				 
			
 
				     def zero_grad(self, set_to_none: bool = False):
			
 
				         """Reset gradients from model. If reuse_grad_buffers=True, this will raise an error."""
			
 
				-        if self.use_gradient_averaging and self.grad_averager.reuse_grad_buffers:
			
 
				+        if self.use_gradient_averaging and self.reuse_grad_buffers:
			
 
				             raise ValueError(
			
 
				                 f"When running {self.__class__.__name__} with reuse_grad_buffers=True, user should never "
			
 
				                 f"call zero_grad manually. Gradients will be refreshed internally"
			
--- a/hivemind/optim/state_averager.py
+++ b/hivemind/optim/state_averager.py
@@ -102,7 +102,7 @@ class TrainingStateAverager(DecentralizedAverager):
 
				         if reuse_tensors and delta_rule_averaging:
			
 
				             raise ValueError("reuse_tensors and delta_rule_averaging are mutually exclusive")
			
 
				 
			
 
				-        param_groups, main_parameters, parameter_names = self._check_params(optimizer, params, parameter_names)
			
 
				+        param_groups, main_parameters, parameter_names = self.check_params(optimizer, params, parameter_names)
			
 
				 
			
 
				         self.status_loglevel = status_loglevel
			
 
				         self.offload_optimizer, self.custom_gradients = offload_optimizer, custom_gradients
			
@@ -131,10 +131,10 @@ class TrainingStateAverager(DecentralizedAverager):
 
				         )
			
 
				 
			
 
				     @staticmethod
			
 
				-    def _check_params(
			
 
				+    def check_params(
			
 
				         optimizer: Union[TorchOptimizer, OptimizerFactory],
			
 
				-        param_groups: Optional[Union[Parameters, ParamGroups]],
			
 
				-        parameter_names: Optional[Sequence[str]],
			
 
				+        param_groups: Optional[Union[Parameters, ParamGroups]] = None,
			
 
				+        parameter_names: Optional[Sequence[str]] = None,
			
 
				     ) -> Tuple[ParamGroups, Sequence[torch.Tensor], Sequence[str]]:
			
 
				         """Get and verify parameters, groups and names"""
			
 
				         if param_groups is None: