3 anni fa · 1dd5cd0a60
--- a/hivemind/optim/experimental/state_averager.py
+++ b/hivemind/optim/experimental/state_averager.py
@@ -5,6 +5,7 @@ from concurrent.futures import ThreadPoolExecutor
 
				 from contextlib import nullcontext
			
 
				 from itertools import chain
			
 
				 from threading import Event
			
 
				+from types import NoneType
			
 
				 from typing import Any, Callable, Dict, Iterable, Iterator, Optional, Sequence, Tuple, Union
			
 
				 
			
 
				 import torch
			
@@ -285,6 +286,7 @@ class TrainingStateAverager(DecentralizedAverager):
 
				         delay_optimizer_step: bool = False,
			
 
				         averaging_round: bool = False,
			
 
				         delay_averaging: Optional[bool] = None,
			
 
				+        wait_for_trigger: Optional[Callable[[], NoneType]] = None,
			
 
				         grad_scaler: Optional[GradScaler] = None,
			
 
				         averaging_opts: Optional[Dict[str, Any]] = None,
			
 
				     ):
			
@@ -296,13 +298,15 @@ class TrainingStateAverager(DecentralizedAverager):
 
				           by default, await delayed updates when scheduling the next optimizer step, otherwise do not update
			
 
				         :param apply_delayed_updates: apply any averaging rounds that have finished but were not applied yet
			
 
				         :param increment_epoch: increment .local_epoch and update the learning rate scheduler (if present)
			
 
				+        :note: if specified, it is guaranteed that epoch is incremented immediately regardless of other options
			
 
				         :param optimizer_step: perform a single optimizer step and update local parameters (without changing scheduler)
			
 
				         :param zero_grad: if True, reset local gradients after performing optimizer step
			
 
				         :param delay_optimizer_step: if True, run optimizer step in background and apply results in a future step
			
 
				         :param averaging_round: average parameters, chosen optimizer keys and extra tensors with a group of peers
			
 
				-        :param grad_scaler: when using hivemind.GradScaler, one must forward it to step after calling .unscale_
			
 
				         :param delay_averaging: if True, perform averaging in background and apply results in a future step
			
 
				           by default, delay averaging if the optimizer step is also delayed. Set to true to delay only this phase.
			
 
				+        :param wait_for_trigger: wait for this (non-asyncio) function to finish before running optimizer step
			
 
				+        :param grad_scaler: when using hivemind.GradScaler, one must forward it to step after calling .unscale_
			
 
				         :param averaging_opts: a dict of keyword arguments forwarded into averaging round
			
 
				         """
			
 
				         if delay_averaging is None:
			
@@ -317,6 +321,15 @@ class TrainingStateAverager(DecentralizedAverager):
 
				             assert not averaging_round or delay_averaging, "Averaging after delayed optimizer should also be delayed"
			
 
				         if averaging_opts and not averaging_round:
			
 
				             logger.warning(f"Averaging parameters not used because averaging_round=False: {averaging_opts}")
			
 
				+        if wait_for_trigger is not None:
			
 
				+            if not self.reuse_tensors or self.custom_gradients:
			
 
				+                # averager was asked to wait_for_trigger in background, but it is not clear which version of gradients
			
 
				+                # should be used for optimizer step (e.g. the gradients that were present during the call to .step or
			
 
				+                # the possibly different gradients when wait_for_trigger has finished).
			
 
				+                raise ValueError(
			
 
				+                    "wait_for_trigger is an advanced option that requires manual gradient manipulation. "
			
 
				+                    "If you know what you're doing, please refer to the comments in the source code for details."
			
 
				+                )
			
 
				         output = None
			
 
				 
			
 
				         if wait_for_delayed_update: