4 년 전 · 517018b136
--- a/hivemind/client/averaging/training.py
+++ b/hivemind/client/averaging/training.py
@@ -10,6 +10,7 @@ from hivemind.client.averaging import DecentralizedAverager
 
				 from hivemind.utils import nested_flatten, nested_pack, get_logger, run_in_background
			
 
				 
			
 
				 logger = get_logger(__name__)
			
 
				+LRSchedulerBase = getattr(torch.optim.lr_scheduler, '_LRScheduler', None)
			
 
				 
			
 
				 
			
 
				 class TrainingAverager(DecentralizedAverager):
			
@@ -25,6 +26,7 @@ class TrainingAverager(DecentralizedAverager):
 
				     :param average_parameters: whether or not to average model parameters in self.step(...)
			
 
				     :param average_gradients: whether or not to average model gradients in self.step(...)
			
 
				     :param average_opt_statistics: if specified, average optimizer statistics with corresponding names in statedict
			
 
				+    :param scheduler: if specified, averager puts scheduler state to current state
			
 
				     :param initialize_optimizer: if True, this will run a speculative optimizer step with
			
 
				       zero gradients to initialize all tensors. If False, please initialize the optimizer state manually.
			
 
				     :param extra_tensors: if specified, these extra tensors will also be averaged and shared in load_state_from_peers.
			
@@ -33,13 +35,14 @@ class TrainingAverager(DecentralizedAverager):
 
				     """
			
 
				 
			
 
				     def __init__(self, opt: torch.optim.Optimizer, *, average_parameters: bool, average_gradients: bool,
			
 
				-                 average_opt_statistics: Sequence[str] = (), extra_tensors: Sequence[torch.Tensor] = (),
			
 
				-                 initialize_optimizer: bool = True, **kwargs):
			
 
				+                 average_opt_statistics: Sequence[str] = (), scheduler: Optional[LRSchedulerBase] = None,
			
 
				+                 extra_tensors: Sequence[torch.Tensor] = (), initialize_optimizer: bool = True, **kwargs):
			
 
				 
			
 
				         self.opt, self.extra_tensors, self.local_step = opt, tuple(extra_tensors), 0
			
 
				         self.opt_statistics = tuple(average_opt_statistics)
			
 
				         self.average_parameters, self.average_gradients = average_parameters, average_gradients
			
 
				         self.lock_averager_step = Lock()
			
 
				+        self.scheduler = scheduler
			
 
				         if initialize_optimizer:
			
 
				             initialize_optimizer_state(opt)  # note: this will run one optimizer step!
			
 
				 
			
@@ -130,8 +133,10 @@ class TrainingAverager(DecentralizedAverager):
 
				                                          for param in param_group['params'])
			
 
				             extra_tensors = tuple(tensor.detach().cpu() for tensor in self.extra_tensors)
			
 
				             optimizer_metadata, optimizer_tensors = dump_optimizer_state(self.opt)
			
 
				+            scheduler_state = self.scheduler.state_dict() if self.scheduler else None
			
 
				 
			
 
				-        metadata = dict(step=self.local_step, group_bits=self.get_group_bits(), optimizer_metadata=optimizer_metadata)
			
 
				+        metadata = dict(step=self.local_step, group_bits=self.get_group_bits(),
			
 
				+                        optimizer_metadata=optimizer_metadata, scheduler_state=scheduler_state)
			
 
				         return metadata, list(chain(optimized_parameters, extra_tensors, optimizer_tensors))
			
 
				 
			
 
				     def load_state_from_peers(self, **kwargs):
			
@@ -156,6 +161,11 @@ class TrainingAverager(DecentralizedAverager):
 
				             load_optimizer_state(self.opt, metadata['optimizer_metadata'], loaded_opt_tensors)
			
 
				 
			
 
				         self.local_step = max(self.local_step, metadata['step'])
			
 
				+        if self.scheduler:
			
 
				+            if 'scheduler_state' not in metadata:
			
 
				+                logger.warning("Scheduler is initialized, but there is no key 'scheduler_state' found in state")
			
 
				+            else:
			
 
				+                self.scheduler.load_state_dict(metadata['scheduler_state'])
			
 
				 
			
 
				 
			
 
				 def initialize_optimizer_state(opt: torch.optim.Optimizer):
			
--- a/hivemind/optim/averaged.py
+++ b/hivemind/optim/averaged.py
@@ -58,14 +58,15 @@ class DecentralizedOptimizer(DecentralizedOptimizerBase):
 
				         self.local_step, self.averaging_step_period = 0, averaging_steps_period
			
 
				         self.dht = dht
			
 
				 
			
 
				+        self.scheduler = None if scheduler_cls is None else scheduler_cls(opt)
			
 
				         self.averager = TrainingAverager(opt, average_parameters=average_parameters,
			
 
				                                          average_gradients=average_gradients,
			
 
				                                          average_opt_statistics=average_opt_statistics,
			
 
				+                                         scheduler=self.scheduler,
			
 
				                                          dht=dht, start=True, prefix=prefix,
			
 
				                                          target_group_size=target_group_size, **kwargs)
			
 
				 
			
 
				         self.lock_parameters, self.update_event, self.stop_event = Lock(), Event(), Event()
			
 
				-        self.scheduler = None if scheduler_cls is None else scheduler_cls(opt)
			
 
				         self.local_epoch = 0
			
 
				         self.report_progress_expiration = report_progress_expiration
			
 
				         self.max_allowed_epoch_difference = max_allowed_epoch_difference