3 年之前 · dac8940c32
--- a/hivemind/optim/grad_averager.py
+++ b/hivemind/optim/grad_averager.py
@@ -106,11 +106,11 @@ class GradientAverager(DecentralizedAverager):
 
				                     grad.detach().cpu().clone().share_memory_() for grad in self._grads_from_parameters()
			
 
				                 )
			
 
				             else:
			
 
				-                if all(
			
 
				-                    params_grad.size() == grad.size()
			
 
				-                    for param_grad, grad in zip(self._grads_from_parameters(), averaged_grad)
			
 
				+                if any(
			
 
				+                    param_grad.size() != grad.size()
			
 
				+                    for param_grad, grad in zip(self._grads_from_parameters(), averaged_grads)
			
 
				                 ):
			
 
				-                    raise ValueError("Averaged gradients doesn't have same shape as gradients from parameters")
			
 
				+                    raise ValueError("Averaged gradients don't have same shape as gradients from parameters")
			
 
				         super().__init__(averaged_tensors=averaged_grads, dht=dht, prefix=prefix, client_mode=client_mode, **kwargs)
			
 
				 
			
 
				     def _grads_from_parameters(self) -> Iterator[torch.Tensor]:
			
--- a/hivemind/optim/optimizer.py
+++ b/hivemind/optim/optimizer.py
@@ -13,7 +13,6 @@ from hivemind.compression import CompressionBase, NoCompression
 
				 from hivemind.dht import DHT
			
 
				 from hivemind.optim.grad_averager import GradientAverager, GradientAveragerFactory
			
 
				 from hivemind.optim.grad_scaler import GradScaler
			
 
				-from hivemind.optim.power_sgd_averager import PowerSGDGradientAverager
			
 
				 from hivemind.optim.progress_tracker import LocalTrainingProgress, ProgressTracker
			
 
				 from hivemind.optim.state_averager import (
			
 
				     LRSchedulerBase,
			
--- a/hivemind/optim/power_sgd_averager.py
+++ b/hivemind/optim/power_sgd_averager.py
@@ -1,6 +1,5 @@
 
				 import asyncio
			
 
				 import contextlib
			
 
				-import multiprocessing as mp
			
 
				 from enum import Enum
			
 
				 from typing import Any, Iterable, Optional, Sequence
			
 
				 
			
@@ -9,7 +8,7 @@ import torch
 
				 from hivemind.averaging.allreduce import AveragingMode
			
 
				 from hivemind.averaging.group_info import GroupInfo
			
 
				 from hivemind.averaging.load_balancing import load_balance_peers
			
 
				-from hivemind.averaging.matchmaking import Matchmaking, MatchmakingException
			
 
				+from hivemind.averaging.matchmaking import MatchmakingException
			
 
				 from hivemind.compression import CompressionInfo, TensorRole
			
 
				 from hivemind.dht import DHT
			
 
				 from hivemind.optim.grad_averager import GradientAverager
			
--- a/hivemind/optim/state_averager.py
+++ b/hivemind/optim/state_averager.py
@@ -14,7 +14,7 @@ from hivemind.averaging import DecentralizedAverager
 
				 from hivemind.averaging.control import StepControl
			
 
				 from hivemind.compression import CompressionInfo, TensorRole
			
 
				 from hivemind.optim.grad_scaler import GradScaler
			
 
				-from hivemind.utils import DHTExpiration, PerformanceEMA, get_dht_time, get_logger, nested_flatten, nested_pack
			
 
				+from hivemind.utils import DHTExpiration, PerformanceEMA, get_logger, nested_flatten, nested_pack
			
 
				 
			
 
				 logger = get_logger(__name__)
			
 
				 
			
--- a/tests/test_optimizer.py
+++ b/tests/test_optimizer.py
@@ -83,6 +83,28 @@ def test_grad_averager(grad_averager_factory: GradientAveragerFactory):
 
				     assert not torch.allclose(model2.w.grad, ref_average)
			
 
				 
			
 
				 
			
 
				+@pytest.mark.forked
			
 
				+@pytest.mark.parametrize(
			
 
				+    "grad_averager_factory",
			
 
				+    [GradientAverager, partial(PowerSGDGradientAverager, averager_rank=1)],
			
 
				+)
			
 
				+def test_grad_averager_wrong_shape(grad_averager_factory: GradientAveragerFactory):
			
 
				+    parameter_shape = (5, 5)
			
 
				+    model = nn.ParameterDict({"w": nn.Parameter(torch.zeros(parameter_shape))})
			
 
				+    dht = hivemind.DHT(start=True)
			
 
				+
			
 
				+    with pytest.raises(ValueError):
			
 
				+        grad_averager_factory(
			
 
				+            model.parameters(),
			
 
				+            dht=dht,
			
 
				+            prefix="test_fail",
			
 
				+            target_group_size=2,
			
 
				+            reuse_grad_buffers=False,
			
 
				+            start=True,
			
 
				+            averaged_grads=[torch.zeros(parameter_shape + (1,))],
			
 
				+        )
			
 
				+
			
 
				+
			
 
				 @pytest.mark.forked
			
 
				 @pytest.mark.parametrize(
			
 
				     "offload_optimizer, reuse_tensors, sync_epoch_when_averaging",