3 years ago · 33c2afa1c2
--- a/docs/user/quickstart.md
+++ b/docs/user/quickstart.md
@@ -58,6 +58,7 @@ opt = hivemind.Optimizer(
 
															     batch_size_per_step=32,   # each call to opt.step adds this many samples towards the next epoch
														
 
															     target_batch_size=10000,  # after peers collectively process this many samples, average weights and begin the next epoch 
														
 
															     optimizer=opt,            # wrap the SGD optimizer defined above
														
 
															+    use_local_updates=True,   # perform optimizer steps with local gradients, average parameters in background
														
 
															     matchmaking_time=3.0,     # when averaging parameters, gather peers in background for up to this many seconds
														
 
															     averaging_timeout=10.0,   # give up on averaging if not successful in this many seconds
														
 
															     verbose=True              # print logs incessently
														
--- a/hivemind/averaging/averager.py
+++ b/hivemind/averaging/averager.py
@@ -509,14 +509,14 @@ class DecentralizedAverager(mp.Process, ServicerBase):
 
															     @contextlib.contextmanager
														
 
															     def _register_allreduce_group(self, group_info: GroupInfo):
														
 
															-        """registers a given all-reduce runner to listen for incoming connections"""
														
 
															+        """Register a given group all-reduce for one or more all-reduce rounds"""
														
 
															         try:
														
 
															             self._running_groups[group_info.group_id] = asyncio.Future()
														
 
															             self._pending_groups_registered.set()
														
 
															             yield
														
 
															         finally:
														
 
															             maybe_future = self._running_groups.pop(group_info.group_id, None)
														
 
															-            if maybe_future and not maybe_future.done():
														
 
															+            if maybe_future is not None and not maybe_future.done():
														
 
															                 logger.warning(f"All-reduce group {group_info.group_id} did not finish.")
														
 
															             self._pending_groups_registered.set()
														
--- a/hivemind/optim/grad_averager.py
+++ b/hivemind/optim/grad_averager.py
@@ -11,10 +11,6 @@ from hivemind.utils import DHTExpiration, get_dht_time, get_logger
 
															 logger = get_logger(__name__)
														
 
															-TGradientAverager = TypeVar("TGradientAverager", bound="GradientAverager")
														
 
															-GradientAveragerFactory = Callable[[Type[TGradientAverager], Any], TGradientAverager]
														
 
															-
														
 
															-
														
 
															 class GradientAverager(DecentralizedAverager):
														
 
															     """
														
 
															     An auxiliary averaging class that is responsible for accumulating gradients and aggregating them with peers.
														
@@ -40,6 +36,7 @@ class GradientAverager(DecentralizedAverager):
 
															       if True, the averager will only join existing groups where at least one peer has client_mode=False.
														
 
															       By default, this flag is copied from DHTNode inside the ``dht`` instance.
														
 
															     :param warn: if True, warn when the averager did not reset accumulators after use or did not use averaging results
														
 
															+    :param average_grads: if provided, it will be used as a set of averagable gradients
														
 
															     :param kwargs: see DecentralizedAverager keyword arguments for additional parameters
														
@@ -230,10 +227,3 @@ class GradientAverager(DecentralizedAverager):
 
															     def notify_used_averaged_gradients(self):
														
 
															         """Notify averager that the results of a previous averaging round are accounted for"""
														
 
															         self._new_averaged_grads = False
														
 
															-
														
 
															-    @classmethod
														
 
															-    def get_factory(cls, **kwargs1) -> GradientAveragerFactory:
														
 
															-        def _factory(**kwargs2):
														
 
															-            return cls(**kwargs1, **kwargs2)
														
 
															-
														
 
															-        return _factory
														
--- a/hivemind/optim/optimizer.py
+++ b/hivemind/optim/optimizer.py
@@ -11,7 +11,7 @@ import torch
 
															 from hivemind.averaging.control import AveragingStage, StepControl
														
 
															 from hivemind.compression import CompressionBase, NoCompression
														
 
															 from hivemind.dht import DHT
														
 
															-from hivemind.optim.grad_averager import GradientAverager, GradientAveragerFactory
														
 
															+from hivemind.optim.grad_averager import GradientAverager
														
 
															 from hivemind.optim.grad_scaler import GradScaler
														
 
															 from hivemind.optim.power_sgd_averager import PowerSGDGradientAverager
														
 
															 from hivemind.optim.progress_tracker import LocalTrainingProgress, ProgressTracker
														
@@ -35,7 +35,7 @@ class Optimizer(torch.optim.Optimizer):
 
															     By default, Optimizer is configured to be exactly **equivalent to synchronous training** with target_batch_size.
														
 
															     There are advanced options make training semi-asynchronous (delay_optimizer_step and delay_gradient_averaging)
														
 
															-    or even fully asynchronous (grad_averager=None).
														
 
															+    or even fully asynchronous (use_local_updates=True).
														
 
															     :example: The Optimizer can be used as a drop-in replacement for a regular PyTorch Optimizer:
														
@@ -140,10 +140,15 @@ class Optimizer(torch.optim.Optimizer):
 
															       hardly ever skip averaging rounds, they can average state less frequently. In turn, network failures, lossy
														
 
															       gradient compression and local_updates cause parameters to diverge faster and requires more frequent averaging.
														
 
															+    :param use_local_updates: if enabled, peers will update parameters on each .step using local gradients;
														
 
															+      if not enabled (default), accumulate gradients to target_batch_size, and then call .step with averaged gradients.
														
 
															+      Even if use_local_updates=True, learning rate scheduler will still be called once per target_batch_size.
														
 
															+
														
 
															     :param client_mode: if True, this peer will not accept incoming connections (firewall-compatible mode)
														
 
															     :param auxiliary: if True, optimizer.step will only assist other peers in averaging (for cpu-only workers)
														
 
															     :param grad_compression: compression strategy used for averaging gradients, default = no compression
														
 
															+    :param grad_averager: if provided, creates gradient averager with required averaging strategy
														
 
															     :param state_averaging_compression: compression for averaging params and state tensors, default = no compression
														
 
															     :param load_state_compression: compression strategy for loading state from peers, default = no compression
														
 
															     :param average_opt_statistics: names of optimizer statistics from state dict that should be averaged with peers
														
@@ -180,10 +185,11 @@ class Optimizer(torch.optim.Optimizer):
 
															         delay_grad_averaging: bool = False,
														
 
															         delay_state_averaging: bool = True,
														
 
															         average_state_every: int = 1,
														
 
															+        use_local_updates: bool = False,
														
 
															         client_mode: bool = None,
														
 
															         auxiliary: bool = False,
														
 
															         grad_compression: CompressionBase = NoCompression(),
														
 
															-        grad_averager: Optional[GradientAveragerFactory] = PowerSGDGradientAverager.get_factory(averager_rank=32),
														
 
															+        grad_averager: Optional[Callable[..., GradientAverager]] = GradientAverager,
														
 
															         state_averaging_compression: CompressionBase = NoCompression(),
														
 
															         load_state_compression: CompressionBase = NoCompression(),
														
 
															         average_opt_statistics: Sequence[str] = (),
														
@@ -219,13 +225,10 @@ class Optimizer(torch.optim.Optimizer):
 
															                 "(A) hivemind.Optimizer(..., params=params, optimizer=lambda params: create_opt(params)\n"
														
 
															                 "(B) hivemind.Optimizer(..., optimizer=pre_initialize_optimizer)"
														
 
															             )
														
 
															-        if grad_averager is None:
														
 
															+        if use_local_updates:
														
 
															             assert not reuse_grad_buffers, "if local_updates is True, gradients will not be accumulated"
														
 
															             assert not delay_grad_averaging, "if local_updates is True, gradients will not be averaged"
														
 
															-
														
 
															-        params = list(params) if params is not None else optimizer.param_groups
														
 
															-        if all(isinstance(p, torch.Tensor) for p in params):
														
 
															-            params = (dict(params=params),)
														
 
															+            assert grad_averager is None, "if local_updates is True, provided gradient_averager will not be used"
														
 
															         self.dht, self.run_id, self.client_mode, self.auxiliary = dht, run_id, client_mode, auxiliary
														
 
															         self.batch_size_per_step, self.target_batch_size = batch_size_per_step, target_batch_size
														
@@ -244,7 +247,6 @@ class Optimizer(torch.optim.Optimizer):
 
															         self.tracker = self._make_progress_tracker(
														
 
															             target_batch_size, performance_ema_alpha=performance_ema_alpha, **tracker_opts or {}
														
 
															         )
														
 
															-        averaged_grads = None
														
 
															         self.state_averager = self._make_state_averager(
														
 
															             optimizer=optimizer,
														
 
															             params=params,
														
@@ -257,9 +259,9 @@ class Optimizer(torch.optim.Optimizer):
 
															             extra_tensors=extra_tensors,
														
 
															             **averager_opts or {},
														
 
															         )
														
 
															-        if grad_averager:
														
 
															+        if grad_averager is not None and not use_local_updates:
														
 
															             self.grad_averager = self._make_gradient_averager(
														
 
															-                reuse_grad_buffers=reuse_grad_buffers, grad_averager=grad_averager, averaged_grads=averaged_grads
														
 
															+                reuse_grad_buffers=reuse_grad_buffers, grad_averager=grad_averager
														
 
															             )
														
 
															         else:
														
 
															             self.grad_averager = None
														
--- a/hivemind/optim/power_sgd_averager.py
+++ b/hivemind/optim/power_sgd_averager.py
@@ -8,7 +8,6 @@ from typing import Any, Iterable, Optional, Sequence
 
															 import numpy as np
														
 
															 import torch
														
 
															-import hivemind
														
 
															 from hivemind.averaging.allreduce import AllreduceException, AllReduceRunner, AveragingMode, GroupID
														
 
															 from hivemind.averaging.control import AveragingStage, StepControl
														
 
															 from hivemind.averaging.group_info import GroupInfo
														
@@ -37,6 +36,7 @@ from hivemind.utils.asyncio import (
 
															     switch_to_uvloop,
														
 
															 )
														
 
															 from hivemind.utils.grpc import combine_from_streaming, split_for_streaming
														
 
															+from hivemind.utils.math import orthogonalize_
														
 
															 from hivemind.utils.serializer import MSGPackSerializer, SerializerBase
														
 
															 from hivemind.utils.timed_storage import DHTExpiration, ValueWithExpiration, get_dht_time
														
@@ -47,39 +47,80 @@ logger = get_logger(__name__)
 
															 class PowerSGDGradientAverager(GradientAverager):
														
 
															+    """
														
 
															+    A gradient averager that implements PowerSGD compression: https://arxiv.org/abs/1905.13727
														
 
															+    For basic properties and guaranties of gradient averagers, please refer to the base class docstring.
														
 
															+    Put simply, this method approximates large gradient tensors (m,n) with a product of two  
														
 
															+    smaller matrices (m,r) by (r,n), where r is a parameter chosen by the user (see averager_rank).
														
 
															+    
														
 
															+    As a result, PowerSGD only needs to aggregate O((m + n) * r) tensors instead of O(m * n).
														
 
															+    High r, e.g. sqrt(max(m, n)) typically reduce communication by 2-8x without affecting convergence.
														
 
															+    Low r, e.g. 1-8, further accelerate communication, but may converge worse depending on the task.
														
 
															+    
														
 
															+    To maintain convergence with low r, this averager uses the error feedback strategy. Put simply,
														
 
															+    if some part of the gradient is "lost in compression", it will be added to the next iteration.
														
 
															+    This has two implications: (a) it needs more RAM in order to store the "feedback buffers"
														
 
															+    and (b) if devices stay alive only for one step, training with small rank may converge slower.
														
 
															+    This is because error feedback takes multiple step to kick in.
														
 
															+    
														
 
															+    Since not all gradients are matrices, PowerSGD views 3d+ tensors via tensor.flatten(1, -1).
														
 
															+    If a tensor has less than 2 dimensions or does not compress efficiently, it will be aggregated
														
 
															+    normally, i.e. without powerSGD. See min_compression_ratio for details.
														
 
															+    
														
 
															+    :note: due to the above rule, PowerSGD is *not* shape-invariant. For instance, a
														
 
															+     matrix of shape (256, 256) be compressed differently if you .reshape it to (32, 32, 32).
														
 
															+    
														
 
															+    :param parameters: pytorch parameters for which to aggregate gradients
														
 
															+    :param averager_rank: compress gradient tensors
														
 
															+    :param min_comprasion_ratio: apply PowerSGD to a tensor only if it reduces communication by at least this factor, otherwise aggregate tensors as is
														
 
															+    :param dht: a DHT isntance connected to the rest of the swarm. See hivemind.DHT docs
														
 
															+    :param prefix: a unique DHT key used for matchmaking. E.g. this can be your experiment name with optional suffixes
														
 
															+    :param reuse_grad_buffers: if True, use model's .grad buffers for accumulating gradients over multiple steps.
														
 
															+      This is more memory efficient, but it requires that the user does *not* call zero_grad or clip_by_whatever at all
														
 
															+    :param accumulate_grads_on: if specified, accumulate gradients on this device. By default, this will use the same
														
 
															+      device as model parameters. One can specify a different device (e.g. 'cpu' vs 'cuda') to save device memory at
														
 
															+      the cost of extra time per step. If reuse_grad_buffers is True, this parameter has no effect.
														
 
															+    :param client_mode: if False, this averager will accept incoming requests from other peers.
														
 
															+      if True, the averager will only join existing groups where at least one peer has client_mode=False.
														
 
															+      By default, this flag is copied from DHTNode inside the ``dht`` instance.
														
 
															+    """
														
 
															     def __init__(
														
 
															         self,
														
 
															         parameters: Iterable[torch.nn.Parameter],
														
 
															         averager_rank: int,
														
 
															         *,
														
 
															-        dht: hivemind.DHT,
														
 
															+        dht: DHT,
														
 
															         prefix: str,
														
 
															         reuse_grad_buffers: bool = False,
														
 
															         accumulate_grads_on: Optional[torch.device] = None,
														
 
															         client_mode: bool = None,
														
 
															         warn: bool = True,
														
 
															-        min_comprasion_ratio: float = 0.5,
														
 
															+        min_compression_ratio: float = 0.5,
														
 
															         averaged_grads: Optional[Sequence[torch.Tensor]] = None,
														
 
															         **kwargs,
														
 
															     ):
														
 
															         self.rank = averager_rank
														
 
															         self.parameters = tuple(parameters)
														
 
															-        self._uncompressed_gradients = set(
														
 
															+        self._uncompressed_gradients_indexes = set(
														
 
															             i
														
 
															             for i, grad in enumerate(self._grads_from_parameters())
														
 
															             if len(tuple(grad.size())) == 1
														
 
															             or (
														
 
															-                self.rank * (grad.size(0) + np.prod(grad.size()[1:])) / np.prod(grad.size()) > 1 - min_comprasion_ratio
														
 
															-            )
														
 
															+                1 - self.rank * (grad.size(0) + np.prod(grad.size()[1:])) / np.prod(grad.size()) < min_compression_ratio
														
 
															+            ) # compute how much parameters can we left via factorization
														
 
															         )
														
 
															-        self._ms = list(torch.zeros_like(grad, device="cpu").share_memory_() for grad in self._grads_from_parameters())
														
 
															-        self._qs = list(
														
 
															-            torch.rand((grad.reshape((grad.size(0), -1)).size(1), self.rank), device="cpu").share_memory_()
														
 
															+        self._ms = [
														
 
															+            torch.zeros_like(grad, device="cpu").share_memory_() 
														
 
															             for idx, grad in enumerate(self._grads_from_parameters())
														
 
															-            if idx not in self._uncompressed_gradients
														
 
															-        )
														
 
															+            if idx not in self._uncompressed_gradients_indexes
														
 
															+        ]
														
 
															+        self._qs = [
														
 
															+            torch.rand((np.prod(grad.size()[1:]), self.rank), device="cpu").share_memory_()
														
 
															+            for idx, grad in enumerate(self._grads_from_parameters())
														
 
															+            if idx not in self._uncompressed_gradients_indexes
														
 
															+        ]
														
 
															-        self.all_reduce_phases = (b".phase1", b".phase2")
														
 
															+        self.all_reduce_phases = (b".phase_p", b".phase_q")
														
 
															         super().__init__(
														
 
															             self.parameters,
														
@@ -123,99 +164,93 @@ class PowerSGDGradientAverager(GradientAverager):
 
															             )
														
 
															             async with enter_asynchronously(self.get_tensors()) as averaged_grads:
														
 
															-                for grad, m in zip(averaged_grads, self._ms):
														
 
															+                # make this two pairs list for better mapping between m buffers and gradients
														
 
															+                averaged_grads_via_sgd = [
														
 
															+                    grad for idx, grad in enumerate(averaged_grads) if idx not in self._uncompressed_gradients_indexes
														
 
															+                ]
														
 
															+                for grad, m in zip(averaged_grads_via_sgd, self._ms):
														
 
															                     m.add_(grad.to(m.device))
														
 
															-                averaged_sgd_ms = [m for idx, m in enumerate(self._ms) if idx not in self._uncompressed_gradients]
														
 
															-                averaged_sgd_grad = [
														
 
															-                    grad for idx, grad in enumerate(averaged_grads) if idx not in self._uncompressed_gradients
														
 
															-                ]
														
 
															                 ps = [
														
 
															                     torch.zeros((grad.size(0), self.rank), device="cpu")
														
 
															-                    for idx, grad in enumerate(averaged_grads)
														
 
															-                    if idx not in self._uncompressed_gradients
														
 
															+                    for idx, grad in enumerate(averaged_grad_via_sgd)
														
 
															                 ]
														
 
															-                for p, q, m in zip(ps, self._qs, averaged_sgd_ms):
														
 
															+                for p, q, m in zip(ps, self._qs, self._ms):
														
 
															+                    # we use reshape for all matrixes because sgd works only with 2d tensors
														
 
															                     torch.matmul(m.reshape(-1, q.size(0)), q, out=p)
														
 
															-                first_all_reduced = ps + [m for idx, m in enumerate(self._ms) if idx in self._uncompressed_gradients]
														
 
															-                allreduce1 = AllReduceRunner(
														
 
															+
														
 
															+                allreduce_p_phase = AllReduceRunner(
														
 
															                     p2p=self._p2p,
														
 
															                     servicer_type=type(self),
														
 
															                     prefix=self.prefix,
														
 
															                     group_id=group_info.group_id + self.all_reduce_phases[0],
														
 
															-                    tensors=first_all_reduced,
														
 
															+                    tensors=ps,
														
 
															                     ordered_peer_ids=group_info.peer_ids,
														
 
															                     peer_fractions=peer_fractions,
														
 
															                     gathered=user_gathered,
														
 
															                     modes=modes,
														
 
															                     **kwargs,
														
 
															                 )
														
 
															-                self._running_groups[group_info.group_id + self.all_reduce_phases[0]].set_result(allreduce1)
														
 
															+                self._running_groups[group_info.group_id + self.all_reduce_phases[0]].set_result(allreduce_p_phase)
														
 
															                 if modes[group_info.peer_ids.index(self.peer_id)] != AveragingMode.AUX:
														
 
															-                    async for tensor, update in azip(as_aiter(*first_all_reduced), allreduce1):
														
 
															+                    async for tensor, update in azip(as_aiter(*first_all_reduced), allreduce_p_phase):
														
 
															                         # all-reduce is performed asynchronously while iterating
														
 
															                         tensor.add_(update, alpha=self._averaging_alpha)
														
 
															                 else:
														
 
															-                    async for _ in allreduce1:  # trigger all-reduce by iterating
														
 
															+                    async for _ in allreduce_p_phase:  # trigger all-reduce by iterating
														
 
															                         raise ValueError("aux peers should not receive averaged tensors")
														
 
															-                # orth ps
														
 
															                 for p in ps:
														
 
															-                    orthogonalize(p)
														
 
															+                    orthogonalize_(p)
														
 
															-                # compute qs
														
 
															-                for p, q, m in zip(ps, self._qs, averaged_sgd_ms):
														
 
															+                for p, q, m in zip(ps, self._qs, self._ms):
														
 
															                     torch.matmul(m.reshape(-1, q.size(0)).t(), p, out=q)
														
 
															-                allreduce2 = AllReduceRunner(
														
 
															+                averaged_grad_wo_sgd = [
														
 
															+                    grad for idx, grad in enumerate(averaged_grads) if idx in self._uncompressed_gradients_indexes
														
 
															+                ]
														
 
															+
														
 
															+                allreduce_q_phase = AllReduceRunner(
														
 
															                     p2p=self._p2p,
														
 
															                     servicer_type=type(self),
														
 
															                     prefix=self.prefix,
														
 
															                     group_id=group_info.group_id + self.all_reduce_phases[1],
														
 
															-                    tensors=self._qs,
														
 
															+                    tensors=self._qs + averaged_grad_wo_sgd,
														
 
															                     ordered_peer_ids=group_info.peer_ids,
														
 
															                     peer_fractions=peer_fractions,
														
 
															                     gathered=user_gathered,
														
 
															                     modes=modes,
														
 
															                     **kwargs,
														
 
															                 )
														
 
															-                self._running_groups[group_info.group_id + self.all_reduce_phases[1]].set_result(allreduce2)
														
 
															+                self._running_groups[group_info.group_id + self.all_reduce_phases[1]].set_result(allreduce_q_phase)
														
 
															                 if modes[group_info.peer_ids.index(self.peer_id)] != AveragingMode.AUX:
														
 
															-                    async for tensor, update in azip(as_aiter(*self._qs), allreduce2):
														
 
															+                    async for tensor, update in azip(as_aiter(*self._qs), allreduce_q_phase):
														
 
															                         # all-reduce is performed asynchronously while iterating
														
 
															                         tensor.add_(update, alpha=self._averaging_alpha)
														
 
															                         self.last_updated = get_dht_time()
														
 
															                         self._state_updated.set()
														
 
															                 else:
														
 
															-                    async for _ in allreduce2:  # trigger all-reduce by iterating
														
 
															+                    async for _ in allreduce_q_phase:  # trigger all-reduce by iterating
														
 
															                         raise ValueError("aux peers should not receive averaged tensors")
														
 
															-                # recompute grads
														
 
															-                for p, q, m, grad in zip(ps, self._qs, averaged_sgd_ms, averaged_sgd_grad):
														
 
															-                    new_m = torch.matmul(p, q.t())
														
 
															-                    m.sub_(new_m.reshape(m.size()))
														
 
															-                    grad.copy_(new_m.reshape(grad.size()))
														
 
															-
														
 
															-                for idx, (m, grad) in enumerate(zip(self._ms, averaged_grads)):
														
 
															-                    if idx in self._uncompressed_gradients:
														
 
															-                        grad.copy_(m)
														
 
															-                        m.data[...] = 0
														
 
															+                for p, q, m, grad in zip(ps, self._qs, self._ms, averaged_grad_via_sgd):
														
 
															+                    new_m = torch.matmul(p, q.t()).reshape(m.size())
														
 
															+                    m.sub_(new_m)
														
 
															+                    grad.copy_(new_m)
														
 
															                 return allreduce1.gathered
														
 
															         except BaseException as e:
														
 
															             logger.exception(e)
														
 
															             raise MatchmakingException(f"Unable to run All-Reduce: {e}")
														
 
															-        finally:
														
 
															-            pass
														
 
															     def get_current_state(self):
														
 
															         with torch.no_grad(), self.lock_averaged_tensors:
														
 
															-            grad_averager_buffers = list(q for q in self._qs)
														
 
															+            grad_averager_buffers = [q for q in self._qs]
														
 
															             grad_averager_buffers_infos = [
														
 
															                 CompressionInfo.from_tensor(buffer, key=f"buffer_q_{key}", role=TensorRole.GRADIENT)
														
 
															-                for buffer, key in zip(grad_averager_buffers, range(len(grad_averager_buffers)))
														
 
															+                for buffer, key in zip(grad_averager_buffers, enumerate(grad_averager_buffers))
														
 
															             ]
														
 
															         metadata = dict(group_bits=self.get_group_bits())
														
@@ -236,14 +271,3 @@ class PowerSGDGradientAverager(GradientAverager):
 
															         with torch.no_grad(), self.lock_averaged_tensors:
														
 
															             for local_q, loaded_q in zip(self._qs, flat_tensors):
														
 
															                 local_q.copy_(loaded_q, non_blocking=True)
														
 
															-
														
 
															-
														
 
															-@torch.jit.script
														
 
															-def orthogonalize(matrix, eps=torch.tensor(1e-8)):
														
 
															-    n, m = matrix.shape
														
 
															-    for i in range(m):
														
 
															-        col = matrix[:, i : i + 1]
														
 
															-        col /= torch.sqrt(torch.sum(col**2)) + eps
														
 
															-        if i + 1 < m:
														
 
															-            rest = matrix[:, i + 1 :]
														
 
															-            rest -= torch.sum(col * rest, dim=0) * col
														
--- a/hivemind/utils/__init__.py
+++ b/hivemind/utils/__init__.py
@@ -2,6 +2,7 @@ from hivemind.utils.asyncio import *
 
															 from hivemind.utils.grpc import *
														
 
															 from hivemind.utils.limits import increase_file_limit
														
 
															 from hivemind.utils.logging import get_logger, use_hivemind_log_handler
														
 
															+from hivemind.utils.math import *
														
 
															 from hivemind.utils.mpfuture import *
														
 
															 from hivemind.utils.nested import *
														
 
															 from hivemind.utils.networking import *
														
--- a/hivemind/utils/math.py
+++ b/hivemind/utils/math.py
@@ -0,0 +1,14 @@
 
															+import torch
														
 
															+import torch.nn.functional as F
														
 
															+
														
 
															+
														
 
															+@torch.jit.script      
														
 
															+def orthogonalize_(matrix, eps: float = 1e-8):
														
 
															+    """Orthogonalize a 2d tensor in-place over the last dimension"""
														
 
															+    n, m = matrix.shape
														
 
															+    for i in range(m):
														
 
															+        col = matrix[:, i]
														
 
															+        F.normalize(col, dim=0, eps=eps, out=col)
														
 
															+        if i + 1 < m:
														
 
															+            rest = matrix[:, i + 1 :]
														
 
															+            rest.addmm_(col[:, None], (col @ rest)[None, :], alpha=-1)
														
--- a/tests/test_optimizer.py
+++ b/tests/test_optimizer.py
@@ -2,7 +2,7 @@ import ctypes
 
															 import multiprocessing as mp
														
 
															 import time
														
 
															 from functools import partial
														
 
															-from typing import Optional
														
 
															+from typing import Callable, Optional
														
 
															 import numpy as np
														
 
															 import pytest
														
@@ -12,7 +12,7 @@ import torch.nn.functional as F
 
															 import hivemind
														
 
															 from hivemind.averaging.control import AveragingStage
														
 
															-from hivemind.optim.grad_averager import GradientAverager, GradientAveragerFactory
														
 
															+from hivemind.optim.grad_averager import GradientAverager
														
 
															 from hivemind.optim.optimizer import Optimizer
														
 
															 from hivemind.optim.power_sgd_averager import PowerSGDGradientAverager
														
 
															 from hivemind.optim.progress_tracker import ProgressTracker
														
@@ -294,10 +294,10 @@ def test_progress_tracker():
 
															 @pytest.mark.forked
														
 
															 @pytest.mark.parametrize(
														
 
															     "grad_averager",
														
 
															-    [GradientAverager.get_factory(), PowerSGDGradientAverager.get_factory(averager_rank=1)],
														
 
															+    [GradientAverager, partial(PowerSGDGradientAverager, averager_rank=1)],
														
 
															 )
														
 
															 def test_optimizer(
														
 
															-    grad_averager: GradientAveragerFactory,
														
 
															+    grad_averager: Optional[Callable[..., GradientAverager]],
														
 
															     num_peers: int = 1,
														
 
															     num_clients: int = 0,
														
 
															     target_batch_size: int = 32,