3 лет назад · 581155ad63
--- a/hivemind/optim/experimental/state_averager.py
+++ b/hivemind/optim/experimental/state_averager.py
@@ -5,7 +5,6 @@ from concurrent.futures import ThreadPoolExecutor
 
				 from contextlib import nullcontext
			
 
				 from itertools import chain
			
 
				 from threading import Event
			
 
				-from types import NoneType
			
 
				 from typing import Any, Callable, Dict, Iterable, Iterator, Optional, Sequence, Tuple, Union
			
 
				 
			
 
				 import torch
			
@@ -286,7 +285,7 @@ class TrainingStateAverager(DecentralizedAverager):
 
				         delay_optimizer_step: bool = False,
			
 
				         averaging_round: bool = False,
			
 
				         delay_averaging: Optional[bool] = None,
			
 
				-        wait_for_trigger: Optional[Callable[[], NoneType]] = None,
			
 
				+        wait_for_trigger: Optional[Callable[[], Any]] = None,
			
 
				         grad_scaler: Optional[GradScaler] = None,
			
 
				         averaging_opts: Optional[Dict[str, Any]] = None,
			
 
				     ):
			
@@ -306,6 +305,7 @@ class TrainingStateAverager(DecentralizedAverager):
 
				         :param delay_averaging: if True, perform averaging in background and apply results in a future step
			
 
				           by default, delay averaging if the optimizer step is also delayed. Set to true to delay only this phase.
			
 
				         :param wait_for_trigger: wait for this (non-asyncio) function to finish before running optimizer step
			
 
				+        :note: if wait_for_trigger fails with any exception, it will abort optimizer step, zero grad and averaging
			
 
				         :param grad_scaler: when using hivemind.GradScaler, one must forward it to step after calling .unscale_
			
 
				         :param averaging_opts: a dict of keyword arguments forwarded into averaging round
			
 
				         """
			
@@ -398,7 +398,7 @@ class TrainingStateAverager(DecentralizedAverager):
 
				 
			
 
				     def _do(
			
 
				         self,
			
 
				-        wait_for_trigger: Optional[Callable[[], NoneType]],
			
 
				+        wait_for_trigger: Optional[Callable[[], Any]],
			
 
				         optimizer_step: bool,
			
 
				         zero_grad: bool,
			
 
				         averaging_round: bool,