vor 3 Jahren · 413fde64c3
--- a/hivemind/optim/experimental/optimizer.py
+++ b/hivemind/optim/experimental/optimizer.py
@@ -273,7 +273,6 @@ class Optimizer(torch.optim.Optimizer):
 
															         return TrainingStateAverager(
														
 
															             dht=self.dht,
														
 
															             prefix=f"{self.run_id}_state_averager",
														
 
															-            min_matchmaking_time=self.matchmaking_time,
														
 
															             allreduce_timeout=self.allreduce_timeout,
														
 
															             shutdown_timeout=self.shutdown_timeout,
														
 
															             offload_optimizer=self.offload_optimizer,
														
@@ -291,7 +290,6 @@ class Optimizer(torch.optim.Optimizer):
 
															             dht=self.dht,
														
 
															             prefix=f"{self.run_id}_grad_averager",
														
 
															             parameters=self.state_averager.main_parameters,
														
 
															-            min_matchmaking_time=self.matchmaking_time,
														
 
															             allreduce_timeout=self.allreduce_timeout,
														
 
															             shutdown_timeout=self.shutdown_timeout,
														
 
															             client_mode=self.client_mode,
														
@@ -465,7 +463,11 @@ class Optimizer(torch.optim.Optimizer):
 
															                 averaging_round=should_average_state,
														
 
															                 delay_averaging=self.delay_state_averaging and not self.auxiliary,
														
 
															                 averaging_control=self.scheduled_state if should_average_state else None,
														
 
															-                averaging_opts=dict(timeout=self.averaging_timeout) if should_average_state else None,
														
 
															+                averaging_opts=dict(
														
 
															+                    scheduled_time=get_dht_time() + self.matchmaking_time, timeout=self.averaging_timeout
														
 
															+                )
														
 
															+                if should_average_state
														
 
															+                else None,
														
 
															             )
														
 
															             if not should_average_state and self.scheduled_state is not None and not self.scheduled_state.done():
														
@@ -539,9 +541,11 @@ class Optimizer(torch.optim.Optimizer):
 
															                     self.state_averager.step(wait_for_delayed_updates=True)
														
 
															                 eta_seconds = self.tracker.estimated_next_update_time - get_dht_time()
														
 
															-                eta_seconds = max(eta_seconds, self.grad_averager.matchmaking_kwargs["min_matchmaking_time"])
														
 
															+                eta_seconds = max(eta_seconds, self.matchmaking_time)
														
 
															                 logger.log(self.status_loglevel, f"Pre-scheduling gradient averaging round in {eta_seconds:.2f}s.")
														
 
															-                self.scheduled_grads = self.grad_averager.schedule_step(timeout=self.averaging_timeout)
														
 
															+                self.scheduled_grads = self.grad_averager.schedule_step(
														
 
															+                    scheduled_time=get_dht_time() + eta_seconds, timeout=self.averaging_timeout
														
 
															+                )
														
 
															     def _maybe_schedule_state_averaging(self) -> None:
														
 
															         """If next epoch is coming soon, schedule the next state averaging at estimated parameter averaging start"""
														
@@ -558,12 +562,10 @@ class Optimizer(torch.optim.Optimizer):
 
															         if eta_seconds_to_averaging <= self.matchmaking_time:
														
 
															             if self.scheduled_state is None or self.scheduled_state.triggered or self.scheduled_state.done():
														
 
															-
														
 
															-                min_matchmaking_time = self.state_averager.matchmaking_kwargs["min_matchmaking_time"]
														
 
															-                actual_seconds = max(eta_seconds_to_averaging, min_matchmaking_time)
														
 
															-                logger.log(self.status_loglevel, f"Pre-scheduling state averaging round in {actual_seconds:.2f}s.")
														
 
															+                eta_seconds = max(eta_seconds_to_averaging, self.matchmaking_time)
														
 
															+                logger.log(self.status_loglevel, f"Pre-scheduling state averaging round in {eta_seconds:.2f}s.")
														
 
															                 self.scheduled_state = self.state_averager.schedule_step(
														
 
															-                    gather=next_epoch, timeout=self.averaging_timeout
														
 
															+                    scheduled_time=get_dht_time() + eta_seconds, gather=next_epoch, timeout=self.averaging_timeout
														
 
															                 )
														
 
															     def _average_gradients_and_load_into_optimizer(self, maybe_step_control: Optional[StepControl]):