3 anos atrás · d655b746dc
--- a/hivemind/averaging/averager.py
+++ b/hivemind/averaging/averager.py
@@ -35,6 +35,7 @@ from hivemind.proto import averaging_pb2
 
															 from hivemind.utils import MPFuture, TensorDescriptor, get_logger
														
 
															 from hivemind.utils.asyncio import (
														
 
															     achain,
														
 
															+    afirst,
														
 
															     aiter_with_timeout,
														
 
															     anext,
														
 
															     as_aiter,
														
@@ -413,11 +414,24 @@ class DecentralizedAverager(mp.Process, ServicerBase):
 
															             step.attach(trigger, cancel)
														
 
															             future_for_init.set_result((trigger, cancel))
														
 
															+            async def find_peers_or_notify_cancel():
														
 
															+                group_info = await self._matchmaking.look_for_group(step)
														
 
															+                try:
														
 
															+                    if not step.triggered:
														
 
															+                        step.stage = AveragingStage.AWAITING_TRIGGER
														
 
															+                        await step.wait_for_trigger()
														
 
															+                    return group_info
														
 
															+                except asyncio.CancelledError:
														
 
															+                    return asyncio.wait(
														
 
															+                        self._send_error_to_peer(peer_id, group_info.group_id, averaging_pb2.CANCELLED)
														
 
															+                        for peer_id in group_info.peer_ids
														
 
															+                    )
														
 
															+
														
 
															             while not step.done():
														
 
															                 try:
														
 
															                     self._pending_group_assembled.clear()
														
 
															                     step.stage = AveragingStage.LOOKING_FOR_GROUP
														
 
															-                    matchmaking_task = asyncio.create_task(self._matchmaking.look_for_group(step))
														
 
															+                    matchmaking_task = asyncio.create_task(find_peers_or_notify_cancel())
														
 
															                     check_cancel_task = asyncio.create_task(step.wait_for_cancel())
														
 
															                     await asyncio.wait({matchmaking_task, check_cancel_task}, return_when=asyncio.FIRST_COMPLETED)
														
@@ -428,13 +442,10 @@ class DecentralizedAverager(mp.Process, ServicerBase):
 
															                         check_cancel_task.cancel()
														
 
															                     group_info = await matchmaking_task
														
 
															+
														
 
															                     if group_info is None:
														
 
															                         raise AllreduceException("Averaging step failed: could not find a group.")
														
 
															-                    if not step.triggered:
														
 
															-                        step.stage = AveragingStage.AWAITING_TRIGGER
														
 
															-                        await step.wait_for_trigger()
														
 
															-
														
 
															                     step.stage = AveragingStage.RUNNING_ALLREDUCE
														
 
															                     step.set_result(
														
@@ -478,6 +489,10 @@ class DecentralizedAverager(mp.Process, ServicerBase):
 
															                     )
														
 
															                 )
														
 
															+    async def _send_error_to_peer(self, peer_id: PeerID, group_id: GroupID, code: averaging_pb2.MessageCode):
														
 
															+        error = averaging_pb2.AveragingData(group_id=group_id, code=code)
														
 
															+        await afirst(await self._get_peer_stub(peer_id).rpc_aggregate_part(as_aiter(error)))
														
 
															+
														
 
															     async def _run_allreduce(self, group_info: GroupInfo, min_vector_size: int, **kwargs) -> GatheredData:
														
 
															         """Run All-Reduce in a given group and update tensors in place, return gathered metadata"""
														
 
															         try:
														
--- a/hivemind/optim/experimental/optimizer.py
+++ b/hivemind/optim/experimental/optimizer.py
@@ -155,6 +155,7 @@ class Optimizer(torch.optim.Optimizer):
 
															         extra_tensors: Sequence[torch.Tensor] = (),
														
 
															         averager_opts: Optional[dict] = None,
														
 
															         tracker_opts: Optional[dict] = None,
														
 
															+        preschedule_state_averaging: bool = False,
														
 
															         performance_ema_alpha: float = 0.1,
														
 
															         shutdown_timeout: float = 5,
														
 
															         verbose: bool = False,
														
@@ -189,6 +190,8 @@ class Optimizer(torch.optim.Optimizer):
 
															         self.delay_state_averaging, self.average_state_every = delay_state_averaging, average_state_every
														
 
															         self.matchmaking_time, self.offload_optimizer = matchmaking_time, offload_optimizer
														
 
															         self.delay_grad_averaging, self.delay_optimizer_step = delay_grad_averaging, delay_optimizer_step
														
 
															+        self.preschedule_state_averaging = preschedule_state_averaging
														
 
															+
														
 
															         self.averaging_timeout, self.load_state_timeout = averaging_timeout, load_state_timeout
														
 
															         self.shutdown_timeout = shutdown_timeout
														
@@ -347,7 +350,8 @@ class Optimizer(torch.optim.Optimizer):
 
															                     return loss  # local gradients were reset due to overflow, must start over
														
 
															             self._maybe_schedule_gradient_averaging()
														
 
															-            self._maybe_schedule_state_averaging()
														
 
															+            if self.preschedule_state_averaging:
														
 
															+                self._maybe_schedule_state_averaging()
														
 
															         else:
														
 
															             # use_local_updates=True: update parameters on every step independently of other peers
														
@@ -358,7 +362,8 @@ class Optimizer(torch.optim.Optimizer):
 
															                 new_samples_accumulated = self.tracker.local_progress.samples_accumulated + batch_size
														
 
															                 self.tracker.report_local_progress(self.local_epoch, new_samples_accumulated)
														
 
															-                self._maybe_schedule_state_averaging()
														
 
															+                if self.preschedule_state_averaging:
														
 
															+                    self._maybe_schedule_state_averaging()
														
 
															                 self.state_averager.step(
														
 
															                     increment_epoch=False,
														
@@ -399,8 +404,11 @@ class Optimizer(torch.optim.Optimizer):
 
															             if should_average_state and self.scheduled_state is not None:
														
 
															                 if self.scheduled_state.triggered or self.scheduled_state.done():
														
 
															-                    logger.log(self.status_loglevel, f"Not using pre-scheduled group for state averaging because it"
														
 
															-                                                     f"was already used elsewhere: {self.scheduled_state}")
														
 
															+                    logger.log(
														
 
															+                        self.status_loglevel,
														
 
															+                        f"Not using pre-scheduled group for state averaging because it"
														
 
															+                        f"was already used elsewhere: {self.scheduled_state}",
														
 
															+                    )
														
 
															                     self.scheduled_state = None
														
 
															                 self.delay_before_state_averaging.update(task_size=1, interval=time.perf_counter() - _epoch_start_time)
														
@@ -417,6 +425,10 @@ class Optimizer(torch.optim.Optimizer):
 
															                 averaging_opts=dict(timeout=self.averaging_timeout) if should_average_state else None,
														
 
															             )
														
 
															+            if not should_average_state and self.scheduled_state is not None and not self.scheduled_state.done():
														
 
															+                self.scheduled_state.cancel()
														
 
															+            self.scheduled_state = None
														
 
															+
														
 
															             self.tracker.update_epoch(new_epoch=self.state_averager.local_epoch)
														
 
															             self._should_check_synchronization_on_update = True
														
 
															             # the above line ensures that peers check for *strict* synchronization once per epoch
														
@@ -439,8 +451,11 @@ class Optimizer(torch.optim.Optimizer):
 
															         began_averaging_gradients = False
														
 
															         if self.scheduled_grads is not None and (self.scheduled_grads.triggered or self.scheduled_grads.done()):
														
 
															-            logger.log(self.status_loglevel, f"Not using pre-scheduled group for state averaging because it"
														
 
															-                                             f"was already used elsewhere: {self.scheduled_state}")
														
 
															+            logger.log(
														
 
															+                self.status_loglevel,
														
 
															+                f"Not using pre-scheduled group for state averaging because it"
														
 
															+                f"was already used elsewhere: {self.scheduled_state}",
														
 
															+            )
														
 
															             self.scheduled_grads = None
														
 
															         elif self.tracker.global_progress.num_peers > 1:
														
@@ -487,6 +502,7 @@ class Optimizer(torch.optim.Optimizer):
 
															     def _maybe_schedule_state_averaging(self) -> None:
														
 
															         """If next epoch is coming soon, schedule the next state averaging at estimated parameter averaging start"""
														
 
															+        assert self.preschedule_state_averaging
														
 
															         next_epoch = max(self.local_epoch + 1, self.tracker.global_epoch)
														
 
															         if next_epoch % self.average_state_every != 0:
														
 
															             return  # averaging is not performed at this epoch
														
@@ -582,6 +598,7 @@ class Optimizer(torch.optim.Optimizer):
 
															     def load_state_from_peers(self, **kwargs):
														
 
															         """Attempt to fetch the newest collaboration state from other peers"""
														
 
															+        self._finish_background_averaging()
														
 
															         with self.tracker.pause_updates():
														
 
															             while True:
														
@@ -611,6 +628,8 @@ class Optimizer(torch.optim.Optimizer):
 
															     def _finish_background_averaging(self):
														
 
															         for scheduled_round in self.scheduled_grads, self.scheduled_state:
														
 
															             if scheduled_round is not None:
														
 
															+                if scheduled_round.stage == AveragingStage.LOOKING_FOR_GROUP:
														
 
															+                    scheduled_round.cancel()
														
 
															                 if not scheduled_round.triggered:
														
 
															                     scheduled_round.weight = 0
														
 
															                     scheduled_round.allow_allreduce()
														
--- a/hivemind/optim/experimental/progress_tracker.py
+++ b/hivemind/optim/experimental/progress_tracker.py
@@ -83,7 +83,7 @@ class ProgressTracker(threading.Thread):
 
															         *,
														
 
															         client_mode: Optional[bool] = None,
														
 
															         min_refresh_period: float = 0.5,
														
 
															-        max_refresh_period: float = 30,
														
 
															+        max_refresh_period: float = 10,
														
 
															         default_refresh_period: float = 3,
														
 
															         expected_drift_peers: float = 3,
														
 
															         expected_drift_rate: float = 0.2,
														
--- a/hivemind/optim/experimental/state_averager.py
+++ b/hivemind/optim/experimental/state_averager.py
@@ -559,9 +559,7 @@ class TrainingStateAverager(DecentralizedAverager):
 
															         """Copy parameters from offloaded optimizer to the main model"""
														
 
															         assert self.offload_optimizer, "Applying offloaded optimizer updates requires offloaded optimizer"
														
 
															         offloaded_parameters = [param for group in self.optimizer.param_groups for param in group["params"]]
														
 
															-        assert len(offloaded_parameters) == len(
														
 
															-            self.main_parameters
														
 
															-        ), "Optimizer parameters changed during training"
														
 
															+        assert len(offloaded_parameters) == len(self.main_parameters), "Optimizer parameters changed during training"
														
 
															         for main_param, offloaded_param in zip(self.main_parameters, offloaded_parameters):
														
 
															             main_param.copy_(offloaded_param, non_blocking=True)