4 tahun lalu · 42423cfe6b
--- a/hivemind/client/averaging/training.py
+++ b/hivemind/client/averaging/training.py
@@ -10,7 +10,6 @@ from hivemind.client.averaging import DecentralizedAverager
 
				 from hivemind.utils import nested_flatten, nested_pack, get_logger, run_in_background
			
 
				 
			
 
				 logger = get_logger(__name__)
			
 
				-LRSchedulerBase = getattr(torch.optim.lr_scheduler, '_LRScheduler', None)
			
 
				 
			
 
				 
			
 
				 class TrainingAverager(DecentralizedAverager):
			
@@ -26,7 +25,7 @@ class TrainingAverager(DecentralizedAverager):
 
				     :param average_parameters: whether or not to average model parameters in self.step(...)
			
 
				     :param average_gradients: whether or not to average model gradients in self.step(...)
			
 
				     :param average_opt_statistics: if specified, average optimizer statistics with corresponding names in statedict
			
 
				-    :param scheduler: if specified, averager puts scheduler state to current state
			
 
				+    :param scheduler: if specified, averager keeps scheduler state
			
 
				     :param initialize_optimizer: if True, this will run a speculative optimizer step with
			
 
				       zero gradients to initialize all tensors. If False, please initialize the optimizer state manually.
			
 
				     :param extra_tensors: if specified, these extra tensors will also be averaged and shared in load_state_from_peers.
			
@@ -35,7 +34,7 @@ class TrainingAverager(DecentralizedAverager):
 
				     """
			
 
				 
			
 
				     def __init__(self, opt: torch.optim.Optimizer, *, average_parameters: bool, average_gradients: bool,
			
 
				-                 average_opt_statistics: Sequence[str] = (), scheduler: Optional[LRSchedulerBase] = None,
			
 
				+                 average_opt_statistics: Sequence[str] = (), scheduler: Optional[torch.optim.lr_scheduler._LRScheduler] = None,
			
 
				                  extra_tensors: Sequence[torch.Tensor] = (), initialize_optimizer: bool = True, **kwargs):
			
 
				 
			
 
				         self.opt, self.extra_tensors, self.local_step = opt, tuple(extra_tensors), 0
			
@@ -161,9 +160,9 @@ class TrainingAverager(DecentralizedAverager):
 
				             load_optimizer_state(self.opt, metadata['optimizer_metadata'], loaded_opt_tensors)
			
 
				 
			
 
				         self.local_step = max(self.local_step, metadata['step'])
			
 
				-        if self.scheduler:
			
 
				+        if self.scheduler is not None:
			
 
				             if 'scheduler_state' not in metadata:
			
 
				-                logger.warning("Scheduler is initialized, but there is no key 'scheduler_state' found in state")
			
 
				+                logger.warning("Scheduler was passed, but there is no key 'scheduler_state' found in state")
			
 
				             else:
			
 
				                 self.scheduler.load_state_dict(metadata['scheduler_state'])
			
 
				 
			
--- a/hivemind/optim/averaged.py
+++ b/hivemind/optim/averaged.py
@@ -30,7 +30,7 @@ class DecentralizedOptimizer(DecentralizedOptimizerBase):
 
				     :param target_group_size: maximum group size for averaging (see DecentralizedAverager)
			
 
				     :param average_parameters: whether to average model parameters
			
 
				     :param average_gradients: whether to average gradients
			
 
				-    :param max_allowed_epoch_difference: if max_epoch has difference with local_epoch mote than that, we download state
			
 
				+    :param max_allowed_epoch_difference: if max_epoch has difference with local_epoch more than that, we download state
			
 
				       from other peer.
			
 
				     :param total_steps_in_epoch: how many total steps must be to increase local_epoch by one
			
 
				     :param average_opt_statistics: if specified, average optimizer states with corresponding names in state_dict
			
@@ -38,7 +38,7 @@ class DecentralizedOptimizer(DecentralizedOptimizerBase):
 
				     :param averaging_steps_period: performs averaging after this many optimizer steps
			
 
				     :param averaging_time_period: if specified, optimizer will attempt to average weights at regular intervals of this
			
 
				       many seconds. (averaging step will only occur if the optimizer ran `averaging_steps_period` steps in that interval)
			
 
				-    report_progress_expiration
			
 
				+    :param  report_progress_expiration: decentralized state time to live in dht
			
 
				     :param timeout: if DecentralizedAverager step is unable to form group in this many seconds, cancel step
			
 
				     :param verbose: verbose info
			
 
				     :param kwargs: additional parameters passed to TrainingAverager
			
@@ -48,8 +48,8 @@ class DecentralizedOptimizer(DecentralizedOptimizerBase):
 
				     """
			
 
				 
			
 
				     def __init__(self, opt: torch.optim.Optimizer, dht: DHT, *, prefix: str, target_group_size: int,
			
 
				-                 average_parameters: bool, average_gradients: bool, max_allowed_epoch_difference: int = 1,
			
 
				-                 total_steps_in_epoch: int = 1000, average_opt_statistics: Sequence[str] = (),
			
 
				+                 average_parameters: bool, average_gradients: bool, average_opt_statistics: Sequence[str] = (),
			
 
				+                 max_allowed_epoch_difference: int = 1, total_steps_in_epoch: int = 1000,
			
 
				                  scheduler_cls = None, averaging_steps_period: int = 1, averaging_time_period: float = 0,
			
 
				                  report_progress_expiration: int = 30, timeout: Optional[float] = None,
			
 
				                  verbose: bool = False, **kwargs):
			
@@ -131,7 +131,7 @@ class DecentralizedOptimizer(DecentralizedOptimizerBase):
 
				         self.averager.shutdown()
			
 
				 
			
 
				     def load_states_from_peers(self, **kwargs):
			
 
				-        logger.info("Trying to restore state from peers.")
			
 
				+        logger.debug("Trying to restore state from peers.")
			
 
				         with self.lock_parameters, self.lock_scheduler_params:
			
 
				             self.zero_grad()
			
 
				             self.averager.load_state_from_peers(**kwargs)
			
@@ -168,7 +168,6 @@ class DecentralizedOptimizer(DecentralizedOptimizerBase):
 
				             except Exception as e:
			
 
				                 logger.error(f"Averaging round failed: caught {e}.")
			
 
				 
			
 
				-    @property
			
 
				     def is_synchronized(self) -> bool:
			
 
				         return self.local_epoch + self.max_allowed_epoch_difference >= self.decentralized_state.max_epoch